电商离线数仓
2022-02-11 21:18:03 0 举报
数仓框架
作者其他创作
大纲/内容
数据同步策略
DataXmaxwell
Flume使用:Taildir Source 实时监控,断点续传kafka Channel 三种情景: 1、source---channel---sink 2、无sink,写入kafka 3、无source,从kafka中消费Flume拦截器链: 1、前拦截器:检查JSON格式 2、后拦截器:时间戳拦截器,配合文件中修改事件时间转为年月日
HDFS
数据同步
全量表同步
报表显示
基于Select查询的离线、批量同步工具
基于数据库数据变更日志实时流式同步工具binlog日志
maxwellCanal
DataX从Mysql同步到HDFS上
事务性事实表
主要包括一个主键和多个维度字段
维度表设计步骤1.确定维度2.确定主维表和相关维表3.确定维度属性 3.1尽可能生成丰富的维度属性 3.2尽量不使用编码,而使用明确的文字说明 3.3尽量沉淀出通用的维度属性
DataX
维度表设计要点:规范化与反规范化
全量
Hive
日志数据
全量表名为full,目标路径中还包含时间日期用于分区path未写死,动态传参
事实表
Flume
DataXSqoop
业务数据
累计型快照事实表
mysql
增量
维度表
什么时候拉取数据?凌晨,按时间定时拉取Linux---Crontab,无任务之间依赖调度工具---Dolphin scheduler 国产好用AirFlow---跨集群依赖
建模
数据同步工具
要求数据库有时间字段要求数据库开启binlog
周期型快照事实表
0 条评论
下一页