首页  思维导图  详情

大数据架构演化 (离线数据仓库系统架构大数据平台整体架构

2022-03-22 11:32:30   83  举报





AI智能生成

1、离线数据仓库系统架构 2、实时数据仓库系统架构 3、大数据平台整体架构 4、开源数据湖架构

离线数仓

数据仓库架构

实时数仓

实时数据仓库架构

数据湖/部门数仓产品规划

作者其他创作

大纲/内容

大数据平台整体架构

子主题

数据湖

开源数据湖架构

子主题

技术栈

表格式层

Apache Iceberg（大型分析数据集的开放表格式）

https://iceberg.apache.org/docs/latest/

Apache Iceberg 是一种用于大型分析数据集的开放表格式。Iceberg 使用类似于 SQL 表的高性能表格式向包括 Spark、Trino、PrestoDB、Flink 和 Hive 在内的计算引擎添加表。

Delta Lake

https://docs.delta.io/latest/delta-intro.html

Delta Lake是一个开源项目，可以在数据湖之上构建Lakehouse 架构。Delta Lake 提供 ACID 事务、可扩展的元数据处理，并在现有数据湖（如 S3、ADLS、GCS 和 HDFS）之上统一流和批处理数据处理。

Apache Hudi（开源的Data Lakes解决方案）

https://hudi.apache.org/

Apache Hudi | Apache Hudi是一个Data Lakes的开源方案，Hudi是Hadoop Updates and Incrementals的简写，它是由Uber开发并开源的Data Lakes解决方案。

什么是LakeHouse架构？

https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html

数据加速层

Alluxio （基于内存的分布式存储系统）

https://docs.alluxio.io/os/user/stable/en/Overview.html

Alluxio（之前名为Tachyon）是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式，为上层计算框架和底层存储系统构建了桥梁。

应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外，Alluxio的以内存为中心的架构使得数据的访问速度能比现有方案快几个数量级。

在大数据生态系统中，Alluxio介于计算框架(如Apache Spark，Apache MapReduce，Apache HBase，Apache Hive，Apache Flink)和现有的存储系统（如Amazon S3，Google Cloud Storage, OpenStack Swift，GlusterFS，HDFS，MaprFS，Ceph，NFS，OSS）之间。

JindoFS （ JindoFS是基于阿里云对象存储OSS）

https://www.alibabacloud.com/help/zh/doc-detail/199488.htm

JindoFS | JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。

JindoFS概述：云原生的大数据计算存储分离方案-阿里云开发

底层存储层

Amazon S3 （亚马逊对象存储）

https://aws.amazon.com/cn/s3/?nc=sn&loc=1

Amazon S3：专为从任意位置检索任意数量的数据而构建的对象存储

阿里云对象存储OSS

阿里云对象存储OSS（Object Storage Service）是一款海量、安全、低成本、高可靠的云存储服务，提供99.9999999999%(12个9)的数据持久性，99.995%的数据可用性。多种存储类型供选择，全面优化存储成本。

Hadoop分布式文件系统(HDFS)

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。