登录免费注册

首页  流程图  详情

基于Hadoop发展史的大数据技术栈（发展史）

2024-02-23 10:56:35   0  举报





大数据技术栈发展史

大数据

作者其他创作

大纲/内容

查询DB 离线查询同步

2013-Spark Streaming（微批拟流）

数据采集

2014-AlibabaCanal

1.2 流处理/实时计算

2.SQL on Hadoop

2010-HbaseNoSql数据库

2.分布式存储

2007-FacebookHive HQL语言

2007-Hive SQL离线查询

2015-Flink （真流）

2015Debezium 全量+增量

2013-Presto

pig还是麻烦

埋点行为日志

2019DataX插件式同步

1.1 批处理/离线计算

通用

分离资源调度

MPP架构引擎

2016-HAWQ

基于DB log实时变更同步

2004分布式计算框架MapReduce

性能优化，基于内存

3.2 多维型：MOLAP（预计算）

2016-ClickHouse

...

HDFS 分布式文件系统

3.OLAP在线分析

优化随机读写效率

2009-Sqoop采集到Hadoop

业务数据库

2003分布式文件系统GFS

1.分布式计算引擎（ETL）

MR开发麻烦

2012-Yarn 任务调度、集群管理

基于HDFS

主流架构

2006NoSQL数据库系统BigTable

2012-Impala

2013-Druid轻量级的提前聚合(roll-up)

2007-YahooPig脚本语言

2006 Hadoop

2011-TwitterStrom(真流)

2014-Kylin维度预计算，基于Hbase

2019-Flink SQL （流批一体）

3.1 关系型：ROLAP

2018 Baidu Doris

2020Flink-CDC

MapReduce分布式计算引擎

Google三驾马车（论文）

2011-Kafka消息队列

2010-Spark SQL离线查询

支持流处理

数据源

2010-Spark

基于Hadoop发展史的大数据技术栈

基于Hbase

1.MPP数据库

2009-Flume日志采集

国际化项目商务-产品-研发-思维导图

 收藏

立即使用

国际化项目商务-产品-研发-思维导图

 收藏

立即使用

大数据架构发展史

基于Hadoop发展史的大数据技术栈（发展史）

 收藏

立即使用

基于Hadoop发展史的大数据技术栈（发展史）

 收藏

立即使用

大数据名词风暴

职业：硕士













评论

0 条评论

下一页

为你推荐

查看更多



Hadoop发展史

前端发展史

大数据架构发展史

数据模型发展史

计算机视觉发展史

时间轴、发展史

Goblin发展史