大数据架构演化 (离线数据仓库系统架构 大数据平台整体架构
2022-03-22 11:32:30 83 举报
AI智能生成
1、离线数据仓库系统架构 2、实时数据仓库系统架构 3、大数据平台整体架构 4、开源数据湖架构
作者其他创作
大纲/内容
大数据平台整体架构
子主题
数据湖
开源数据湖架构
子主题
技术栈
表格式层
Apache Iceberg(大型分析数据集的开放表格式)
https://iceberg.apache.org/docs/latest/
Apache Iceberg 是一种用于大型分析数据集的开放表格式。Iceberg 使用类似于 SQL 表的高性能表格式向包括 Spark、Trino、PrestoDB、Flink 和 Hive 在内的计算引擎添加表。
Delta Lake
https://docs.delta.io/latest/delta-intro.html
Delta Lake是一个开源项目,可以在数据湖之上构建Lakehouse 架构。Delta Lake 提供 ACID 事务、可扩展的元数据处理,并在现有数据湖(如 S3、ADLS、GCS 和 HDFS)之上统一流和批处理数据处理。
Apache Hudi(开源的Data Lakes解决方案)
https://hudi.apache.org/
Apache Hudi | Apache Hudi是一个Data Lakes的开源方案,Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。
什么是LakeHouse架构?
什么是LakeHouse架构?
https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
数据加速层
Alluxio (基于内存的分布式存储系统)
https://docs.alluxio.io/os/user/stable/en/Overview.html
Alluxio(之前名为Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。
应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外,Alluxio的以内存为中心的架构使得数据的访问速度能比现有方案快几个数量级。
在大数据生态系统中,Alluxio介于计算框架(如Apache Spark,Apache MapReduce,Apache HBase,Apache Hive,Apache Flink)和现有的存储系统(如Amazon S3,Google Cloud Storage, OpenStack Swift,GlusterFS,HDFS,MaprFS,Ceph,NFS,OSS)之间。
在大数据生态系统中,Alluxio介于计算框架(如Apache Spark,Apache MapReduce,Apache HBase,Apache Hive,Apache Flink)和现有的存储系统(如Amazon S3,Google Cloud Storage, OpenStack Swift,GlusterFS,HDFS,MaprFS,Ceph,NFS,OSS)之间。
JindoFS ( JindoFS是基于阿里云对象存储OSS)
https://www.alibabacloud.com/help/zh/doc-detail/199488.htm
JindoFS | JindoFS是基于阿里云对象存储OSS,为开源大数据生态构建的Hadoop兼容文件系统(Hadoop Compatible File System,HCFS)。
JindoFS概述:云原生的大数据计算存储分离方案-阿里云开发
底层存储层
Amazon S3 (亚马逊对象存储)
https://aws.amazon.com/cn/s3/?nc=sn&loc=1
Amazon S3:专为从任意位置检索任意数量的数据而构建的对象存储
阿里云 对象存储OSS
阿里云 对象存储OSS 阿里云对象存储OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务,提供99.9999999999%(12个9)的数据持久性,99.995%的数据可用性。多种存储类型供选择,全面优化存储成本。
Hadoop分布式文件系统(HDFS)
Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。
计算引擎层
spark
flink
presto
hive
离线数仓
离线数据仓库系统架构
子主题
实时数仓
实时数据仓库系统技术架构V1.0
无分层,没有中间加工逻辑,直接入库
子主题
总结
优点
简单,容易开发
缺点
没有模型,数据不能复用,浪费资源
实时数据仓库系统技术架构V2.0
多分层,中间结果基于MQ,深度加工入库
子主题
总结
优点
数据模型可以复用,整体数仓延迟低
缺点
1、kafka无法支持海量数据存储
2、kafka无法进行中间模型层的OLAP分析

收藏
0 条评论
下一页