基于Hadoop发展史的大数据技术栈(发展史)
2024-02-23 10:56:35 0 举报
大数据技术栈发展史
作者其他创作
大纲/内容
查询DB 离线查询同步
2013-Spark Streaming(微批拟流)
数据采集
2014-AlibabaCanal
1.2 流处理/实时计算
2.SQL on Hadoop
2010-HbaseNoSql数据库
2.分布式存储
2007-FacebookHive HQL语言
2007-Hive SQL离线查询
2015-Flink (真流)
2015Debezium 全量+增量
2013-Presto
pig还是麻烦
埋点行为日志
2019DataX插件式同步
1.1 批处理/离线计算
通用
分离资源调度
MPP架构引擎
2016-HAWQ
基于DB log实时变更同步
2004分布式计算框架MapReduce
性能优化,基于内存
3.2 多维型:MOLAP(预计算)
2016-ClickHouse
...
HDFS 分布式文件系统
3.OLAP在线分析
优化随机读写效率
2009-Sqoop采集到Hadoop
业务数据库
2003分布式文件系统GFS
1.分布式计算引擎(ETL)
MR开发麻烦
2012-Yarn 任务调度、集群管理
基于HDFS
主流架构
2006NoSQL数据库系统BigTable
2012-Impala
2013-Druid轻量级的提前聚合(roll-up)
2007-YahooPig脚本语言
2006 Hadoop
2011-TwitterStrom(真流)
2014-Kylin维度预计算,基于Hbase
2019-Flink SQL (流批一体)
3.1 关系型:ROLAP
2018 Baidu Doris
2020Flink-CDC
MapReduce分布式计算引擎
Google三驾马车(论文)
2011-Kafka消息队列
2010-Spark SQL离线查询
支持流处理
数据源
2010-Spark
基于Hadoop发展史的大数据技术栈
基于Hbase
1.MPP数据库
2009-Flume日志采集
0 条评论
下一页