数仓框架
2022-02-11 21:18:51 1 举报
数仓框架
作者其他创作
大纲/内容
AirFlow:跨集群、跨依赖
Flink消费
Azkaban:介于Crontab与Oizie之间
CDC
日志数据
全
CDH Oozie:需要部署到java servlet上,功能强大,部署复杂,主要用于定时调度。
业务数据
flume
Kafka
文件形式
HDFS
实时
Hive
数据仓库
DIM维表码表
全量
DM提供给web
2021-1-12021-1-2(增量)
ODS原生数据
dolphinscheduler
DataX/sqoop
DataX
任务调度
Yarn
过滤(time)
DWS预聚合
离线
sink{time}动态存储
资源调度
2021-1-12021-1-2
DWD大宽表(事实表)
增量
Mesos
Crontab:linux分时日月周
Flume
Kafka全量增量,binlog日志有事件时间分库分表 A_topic,B_topic...
增量(event time)
0 条评论
下一页