大数据架构发展史
2024-02-23 10:58:38 1 举报
大数据架构的发展史可以追溯到20世纪90年代,当时人们开始意识到数据的价值,并尝试使用各种方法来处理和分析数据。随着时间的推移,大数据架构逐渐演变为一种更加复杂和高级的技术体系,包括了分布式计算、云计算、机器学习等多个领域。在21世纪初,随着互联网的普及和技术的进步,大数据架构得到了广泛的应用和发展,成为了现代企业信息化建设的重要组成部分。未来,随着技术的不断创新和发展,大数据架构将会继续发挥重要作用,为人类带来更多的便利和价值。
作者其他创作
大纲/内容
2006 离线大数据架构(离线数仓)
海豚调度FlinkSQL
数据应用
kafka
Stream Load数据流导入
告警工具
数据接口
其它...
服务端日志
离线、实时结果合并
RDMS业务数据库
ODS
ODS DWD DWS ADS
ADS
离线数仓ETL-离线计算
Spark
即席分析(Ad Hoc)
基于kafka的实时数仓
湖仓加速
数存储据从kafka挪到实时数仓中
联邦查询
数仓分层ods->dwd->dws->ads
第一代:离线统计分析技术架构
DWD
1.传统数仓
APP/web端用户行为日志
Canal
FlinkCDC
Flume
1970~2003 传统数仓架构
DWD明细层
数据湖
HDFS 分布式文件系统
数据源
实时报表
Storm (真流)
Maxwell
DWS汇总层
数据湖-2019
DataX
Sqoop
实时
数据服务
Doris Load
分析工具
MapReduce
流式计算引擎
离线
ADS应用层
数据仓库ETL
出现实时计算
Iceberg
实时计算
Hudi
...
离线同步
2.大数据-数据仓库
Spark Streaming (微批拟流)
实时同步
数据报表
Hive
2011 Lambda架构(离线+实时数仓)
基于数据湖的实时数仓
DWS
贴源层 明细层 汇总层 应用层
实时数仓
Delta Lake
数仓分层架构
第五代:基于数据湖的实时数仓架构-数据湖增强(湖仓一体)-2019
2014 Kappa架构(实时数仓)
报表
2019 基于数据湖的湖仓一体架构
第四代:基于MPP数据库的实时统一数仓架构---数仓增强-2017
查询服务
数据分析
离线计算
批/流计算:FlinkSQL、SparkSQL
第二代:Lambda架构(离线+实时结合)--2011
第三代:Kappa架构(批流一体)--2014
数仓增强
ODS贴源层
Flink (真流)
Doris实时数仓
离线计算引擎
离线数仓
数据集成
Routine Loadkafka导入
3.大数据-新一代实时数仓
部分场景,批处理可统一用流计算实现
2017 基于MPP数据库的实时统一数仓架构
数据湖增强
0 条评论
下一页