数仓项目数据流程
2022-04-24 12:20:23 0 举报
标准的企业级数仓流程图
作者其他创作
大纲/内容
数仓中的每层内和层间的转换都是通过SparkSql实现的
Mysql
磁盘文件
Kylin速度快,可直接对接可视化系统
ads层:指标层
Kylin1.预计算,多维度统计分析2.只要指定了角度不管后续角度如何变化Kylin都能快速返回。3.Kylin比Spark Sql快
日志数据
Flume
将从Mysql采集的数据直接输出的HIve
数据的导出工具可以使用:sqoop,kettle,Datax
Spark RDD编程进行数据清洗和ETL,最终导入Hive的ODS层
可视化系统
kettle
Mysql业务数据
ods层:数据贴源层
业务系统产生的数据
HDFS
dw层数据仓库层,进一步ETL方便最后指标统计
0 条评论
下一页