个人总结的数据架构图,望斧正
2024-08-28 14:20:34 2 举报
数据抽取方式,数仓分层实现,数据应用
作者其他创作
大纲/内容
等等
搜索引擎
基础数据,数据来源(业务数据,服务器日志,外部数据)
爬虫等网络数据
推数
拉取
数据表现层
ES
机器学习
DWS(服务层/集市层)
目标:1.在DWD基础上进行轻度聚合,生成一系列中间表,提升公共指复用性。也就是对核心维度进行聚合,算出相应的指标。如果直接从DWD或者ODS算出宽表统计指标,会出现计算量过大问题,所以使用DWM中间层,进行轻力度汇总
目标:1.主要存储维度表数据2.数据分类:高基数维度表,比如说商品资料表等数据量特别大的,低基数维度表:一般为配置表或叫码表,为描述性数据,数据量较小。
HANA
根据实际场景,提供数据基础
5.下层统一使用ODS层入湖数据,避免数据冗余和下层重复开发等问题。
CRM客户关系管理
目标:1.存储结果数据。2.为外部系统提供查询接口。3.为下层分析,报表等提供数据。4.用于OLAP查询,快速提供数据。5.用于数据挖掘等。
埋点数据
线下文件
3.数据统一出口,易于管理(控权限)保证数据安全性。4.该层数据,可向下进入数仓做数据分析,指标建设等,也可作为基础数据,用于机器学习等数字科学。
外部数据
服务器日志文件
数仓(DW层)
数据湖(ODS)
数据预热,缓冲,减轻数据库压力
为数据分析,报表开发提供数据。
REDIS
集团SAP
目标:1.DWD一般保持和ODS层同粒度,并对数据进行清洗,整合,脱敏,规范化等。2.为提高明细层易用性,还会采取一些维度退化手段,将维度退化至事实表中,3.也可做部分数据聚合,将相同主题数据汇总到一张表中,提高可用性。
DWM(中间层)
内部数据进入数据湖的方式:1.中台工具2.其他ETL工具(Kettle等)3.Java或者Python程序外部数据进入数据湖方式:1.Java或者Python程序2.文件使用中台提供的统一导入入口
API服务
目标:1.数据入湖,抽取源数据,避免,直接操作源数据,导致源数据数据混乱等。2.可存储结构化,半结构化,非结构化数据。
数据流向:ODS->DWD->DWM->DWS->ADS每一层的处理任务需要调度平台通过血缘关系依次调度。
ADS(数据应用层)
为搜索引擎提供数据
相同粒度平迁
数据应用层
目标:1.在DWM和DWD的基础上,汇总出某一主题域的数据即宽表
SRM供应商关系
DWD(明细层)
ERP企业资源
其他应用
DIM(维度层)
收藏
0 条评论
回复 删除
下一页