大数据数仓架构图
2024-01-18 16:56:21 2 举报
大数据数仓架构图是一种用于描述大数据存储和处理的系统结构的工具。它通常包括以下几个主要组件:数据采集层、数据存储层、数据处理层和数据展示层。数据采集层负责从各种来源收集原始数据,并将其传输到数据存储层。数据存储层通常使用分布式数据库或文件系统来存储大量的结构化和非结构化数据。数据处理层负责对存储在数据存储层中的数据进行清洗、转换和整合,以便后续的分析和使用。最后,数据展示层将处理后的数据以可视化的方式呈现给用户,帮助他们更好地理解和利用数据。总之,大数据数仓架构图是一个复杂而强大的工具,可以帮助组织更好地管理和利用其海量数据资源。
作者其他创作
大纲/内容
FlinkCDCJob
组合
beforeOperation
组件
ProgramService
聚合计算
CQRS + 事件驱动模型
TiDB
分布式数据库
ODS
实时数据仓库1.0技术架构(无分层,没有中间加工逻辑,直接入库)优点:简单容易开发缺点:没有模型,数据不能复用,资源浪费
微服务
数据应用层
mysql.......
数据上传
flinksql
MQ消费者服务
人员监管
网关
项管平台用户集成打通
订阅
最新状态
思考:1、xxl-job 分片规则按照租户隔离(公有云)2、数据库支持国产达梦,信创等,搭建主从集群,读写分离3、mysql 做冷热分离,冷数据归档(3-6个月)4、分布式存储数据库,例如TiDB,到时候看平台能力支持哪个用哪个5、
slave
组件B
6个月清理或者备份数据
mysql1001-2000
数据处理
组件A
ADS
融合器和决策BI可以2个微服务共用一个数据库,操作和迁移数据简单,
mysql1-1000
模板
安全监管
增量同步中间层
DWS/DM
监管决策BI系统
模板获取
afterOperation
数据服务
数据服务层
指标加工
模板1
命名规范
组件C
实时数据仓库2.0技术架构(多分层,中间结果基于mq,深度加工入库)优点:数据模型可复用,数仓延迟低缺点:Kafka 无法进行中间,模型层的olap 分析
实时数仓2.0 架构
单号分表规则
数据API查询
CSS,js 渲染
登录
数据清洗
数据仓库层
宽表
.......
数据源层
XXL-JOB
ClickHouse
binlog
kafka
主库
OLTP 架构
驾驶舱
同步数据
决策BI
项管平台菜单获取
流表定义
datax
业务请求
写库
ProgramQueryService
同步
OLAP 分析Impala/spark/mr
从库
数据渲染
updateStatus
command模型
Event
分布式存储层
OLAP 架构
质量监管
idcssjs
query模型
思考
实时数仓1.0 架构
维表
T1表
DWD
源数据层
模板2
hbase,hdfs
事件
多流join
数据聚合计算层
用户登录无需逻辑,预制一个操作账号即可
数据库
数据
多源异构数据处理,可以做部分的数据的加载、清洗、转换
用户
Mysql 集群,支持达梦等国产数据库,主从模式
数据接入层
templateId
读库
离线数仓架构
融合器
0 条评论
回复 删除
下一页