数据湖技术架构
2022-10-20 11:33:35 8 举报
数据湖是一种集中式存储大量结构化和非结构化数据的平台,它允许用户以灵活的方式处理和分析这些数据。数据湖技术架构通常包括三个主要组件:数据采集、数据存储和数据处理。数据采集负责从各种来源收集数据,并将其导入到数据湖中。数据存储则负责将数据存储在廉价的硬件上,以便快速访问和查询。数据处理则负责对数据进行清洗、转换和分析,以便为用户提供有价值的信息。总之,数据湖技术架构提供了一个高度可扩展、灵活且易于使用的平台,帮助企业更好地利用其数据资产。
作者其他创作
大纲/内容
JDBC
实时计算
数据提炼
资产管理
数据资产管理
数据治理
HBase
服务管理
批计算
Rest
部署实施
MR
TensorFlow
离线计算
元数据管理
连接池
数据湖技术架构图
flink
DM数据集市层
在线查询
流计算
YARN
DWS数据汇总层
数据仓库
组件管理
作业调度Airflow
ClickHouse
数据源
消息中间件
直接数据库
资产盘点
数据采集
模型评估
数据计算
SparkStreaming
Apache Kylin
数据服务体系
Canal
Socket
数据监控体系
ODS贴源数据层
数据质量
即席分析
调用管理
DWD数据明细层
Flume
结构化/非结构化
Kafka
数据共享
Spark
模型建立
本地文件/云端
DataX
深度学习
Pig
用户安全管理
数据仓库(数据资产)
Hive/impala
数据准备
HTTP/HTTPS
DIM维度层
API中间层网关
数据挖掘
HTTP/FTP/SFTP
HDFS/Hadoop
0 条评论
下一页