大数据架构演化 | 离线数据仓库系统架构 | 实时数据仓库系统架构 | 大数据平台整体架构 | 开源数据湖架构
2023-10-31 10:48:13 5 举报
大数据架构演化 | 离线数据仓库系统架构 | 实时数据仓库系统架构 | 大数据平台整体架构 | 开源数据湖架构 1、离线数据仓库系统架构 2、实时数据仓库系统架构 3、大数据平台整体架构 4、开源数据湖架构
作者其他创作
大纲/内容
DIM
Hadoop HDFS
开源数据湖架构
Kettle
机器学习
Clickhouse
优点:简单,容易开发缺点:没有模型,数据不能复用,浪费资源
dim
mysql实时维表
实时bl看板
数据清洗
log
Redis
数据集市
离线分析
用户画像
JindoFS(阿里筋斗云)
Sqoop
ES
离线
文本
DWD
实时olap
Flume/LogStash
AWS S3 简单存储服务
DWS/DM
Greenplum
实时数据接口
binlog
TiDB
数据源
流表定义
采集 --> 清洗 --> 存储 --> 计算 --> 分析 --> 应用
实时数据
推荐系统
数据处理
业务查询
数据层
Yarn
APP/ADS
SparkSQL
flinkcdc
db
Impala
数据总线
平台层(执行引擎)
底层存储层
kafka
flume
大数据平台整体架构
实时数据仓库系统技术架构(多分层,中间结果基于MQ,深度加工入库)
Flink DataSet
计算引擎层
https://docs.delta.io/latest/delta-intro.htmlDelta Lake是一个开源项目,可以在数据湖之上构建Lakehouse 架构。Delta Lake 提供 ACID 事务、可扩展的元数据处理,并在现有数据湖(如 S3、ADLS、GCS 和 HDFS)之上统一流和批处理数据处理。https://iceberg.apache.org/docs/latest/Apache Iceberg 是一种用于大型分析数据集的开放表格式。Iceberg 使用类似于 SQL 表的高性能表格式向包括 Spark、Trino、PrestoDB、Flink 和 Hive 在内的计算引擎添加表。 https://hudi.apache.org/Apache Hudi | Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。什么是LakeHouse架构?https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.htmlhttps://docs.alluxio.io/os/user/stable/en/Overview.htmlfont color=\"#ff0000\
实时数据仓库系统技术架构(无分层,没有中间加工逻辑,直接入库)
自定义UDF处理
优点:数据模型可以复用,整体数仓延迟低缺点:1、kafka无法支持海量数据存储2、kafka无法进行中间模型层的OLAP分析
应用层
数据通道
分布式离线计算
数据采集层
数据采集/数据通道
指标加工
什么是LakeHouse架构?https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
表格式层(把数据文件封装成有业务含义的Table,提供ACID,snapshot、schema、partition等表级别语义)
数据应用
MapReduce
ODS
系统日志
商品分析
实时
实时数仓
实时bI看板
离线数据仓库系统架构
实时预警
MR
数据加速层(数据湖架构是一个尺寸出计算彻底分离的架构,增加加速层,自然实现冷热分离,提高读取性能,节省远程访问带宽)
业务DB数据
爬虫
数据模型
数据大屏
命名规范
Storm
dwd
数据仓库层
HDFS、HBase
阿里云OSS对象存储服务
finksql
Sqoop/Datax
用户行为数据
ods
聚合计算
爬虫数据
TMP
SparkCore
FlinkDataStream
业务报表
SQL
Flume
离线数据
Kafka
MySQL
dws
SQL(Hive、Spark SQL、Flink SQL)
多流join
SparkStreaming
基于HIve的离线数仓 ETL
收藏
0 条评论
下一页