大数据架构演化 (离线数据仓库系统架构 大数据平台整体架构
2022-03-22 11:32:30 82 举报
AI智能生成
1、离线数据仓库系统架构 2、实时数据仓库系统架构 3、大数据平台整体架构 4、开源数据湖架构
作者其他创作
大纲/内容
子主题
大数据平台整体架构
https://iceberg.apache.org/docs/latest/Apache Iceberg 是一种用于大型分析数据集的开放表格式。Iceberg 使用类似于 SQL 表的高性能表格式向包括 Spark、Trino、PrestoDB、Flink 和 Hive 在内的计算引擎添加表。
Apache Iceberg(大型分析数据集的开放表格式)
https://docs.delta.io/latest/delta-intro.htmlDelta Lake是一个开源项目,可以在数据湖之上构建Lakehouse 架构。Delta Lake 提供 ACID 事务、可扩展的元数据处理,并在现有数据湖(如 S3、ADLS、GCS 和 HDFS)之上统一流和批处理数据处理。
Delta Lake
https://hudi.apache.org/Apache Hudi | Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。
什么是LakeHouse架构?https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
什么是LakeHouse架构?
Apache Hudi(开源的Data Lakes解决方案)
表格式层
https://docs.alluxio.io/os/user/stable/en/Overview.htmlfont color=\"#ff0000\
span style=\
https://www.alibabacloud.com/help/zh/doc-detail/199488.htmJindoFS | JindoFS是基于阿里云对象存储OSS,为开源大数据生态构建的Hadoop兼容文件系统(Hadoop Compatible File System,HCFS)。JindoFS概述:云原生的大数据计算存储分离方案-阿里云开发
JindoFS ( JindoFS是基于阿里云对象存储OSS)
数据加速层
https://aws.amazon.com/cn/s3/?nc=sn&loc=1Amazon S3:专为从任意位置检索任意数量的数据而构建的对象存储
Amazon S3 (亚马逊对象存储)
阿里云 对象存储OSS 阿里云对象存储OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务,提供99.9999999999%(12个9)的数据持久性,99.995%的数据可用性。多种存储类型供选择,全面优化存储成本。
阿里云 对象存储OSS
Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。
Hadoop分布式文件系统(HDFS)
底层存储层
spark
flink
presto
hive
计算引擎层
技术栈
开源数据湖架构
数据湖
离线数据仓库系统架构
离线数仓
简单,容易开发
优点
没有模型,数据不能复用,浪费资源
缺点
总结
无分层,没有中间加工逻辑,直接入库
实时数据仓库系统技术架构V1.0
数据模型可以复用,整体数仓延迟低
1、kafka无法支持海量数据存储
2、kafka无法进行中间模型层的OLAP分析
多分层,中间结果基于MQ,深度加工入库
实时数据仓库系统技术架构V2.0
实时数仓
大数据架构演化
收藏
0 条评论
下一页