数据中台架构图
2022-06-01 15:21:48 7 举报
AI智能生成
数字化改革所需要的数据中台建设架构图,包含离线数仓开发、实时数仓开发、数据质量管理、数据资产、数据产品等模块
作者其他创作
大纲/内容
离线数仓
数据建模方法
数据建模的目的
数据模型的衡量标准
性能
成本
效率
质量
3NF=E-R
衍生
Data Vault
Anchor
范式建模的优点
范式建模的缺点
Kimball
星形
星座
维度建模
雪花
阿里巴巴数据模型noedata
ODS
CDM
DWD
DWS
ADS
维度建模的缺点
自下而上导致新加一个字段,需要更改多张表,经常刷数据,维护成本较高
维度建模的优点
面向业务、逻辑分明、层次简单
数据ETL加工处理
数据同步
sqoop
dataX
数据清洗
数据加载
数据源
结构化数据
非结构化数据
数据仓库模型设计
ods
DIM
DW
传统的数据仓库
中国电信
中国电网
中国移动
传统银行
证券公司
mysql
oracle
sqlsever
pgsever
业务
业务简单
层次分明
业务变化缓慢
业务周期性强
一个业务生命周期几年
范式
ER建模
主题域
分层
ods
dw
dmd
大数据组件
互联网数据仓库
业务变化快
开发周期短平快-敏捷开发
业务复杂度高
数据量大
建模方式多样化
维度
data valuat
星座
雪花
E-R
面向业务
产品
分析
运营
数据开发人员
基础数据
业务逻辑
数据口径
基础维度
专业知识
何为电商
人
货
物
数据资产
数据资产的目的
监管自己有哪些资产
通过监管来发现有哪些问题
数据治理-通过梳理和解决问题来达到降本增效
元数据管理
元数据采集
表建设
表 + 字段注释
表 + 字段级别
表的使用方
表大小 + 表增量 + 表字段权重
表字段权重
一张表:缺失字段对表业务影响的权重
表上下游关系
调度
资源
血缘
表热度
下游使用频次
当bu查询=上游使用次数
表粒度
表权限
元数据展示
元数据应用
数据指标体系
指标体系建设的目的
避免重复建设和数据不一致性
监控业务场景下全链路的变化
监控相应运营策略
指标体系建设前的难题
取数难:重复建设、口径没有统一定义
没有业务地图:没有串联进行全局分析、数据存在业务域孤岛
没有业务量化标准:存在业务为业绩“造数据”改口径
标准
OMTM
模型
AARRR模型
OSM模型
协作流程
需求收集
方案规划
数据采集
采集方案评估
数据采集与数据验证上线
效果评估
用户反馈
使用的pv+uv
用户画像体系
数据打点规范
数据模型管理工具
工程能力
调度系统
数据同步
函数使用和UDF
常用编程语言
数据安全
数据安全常见问题
没有数据安全体系
使用共同账户
高等级和低层级不区分
取数据流程
需要取数的业务方发起OA审批
流转到部门相关负责人
加签信息安全部门
工程师提取数据
提供的数据到信息安全部门加密脱敏
流转到需求方
VPN + 堡垒机
VPN:身份认证
堡垒机:记录行为日志
数据安全体系
数据安全
元数据安全
数据质量管理
数据要求
完整性
一致性
准确性
及时性
有效性
数据探查
表的具体含义
表字段的具体含义
数据是否重复
数据是否缺失
数据分布比例
数据更新策略
数据SLA
数据入库
分层的数据对比
数据链路监控
数据任务是否正常运行-异常监控
数据是否延迟-卡点监控
数据生命周期管理
数据入仓
业务数据离线快照抽取同步
实时数据入库
日志数据
爬虫数据
第三方服务私有部署
手工数据
数据解析清洗
命名规范
表生命周期
数据建模
数据应用
BI展示或供数据产品使用
数据指标
指标定义
指标业务逻辑SQL
数据字典
数据产品体系
用户行为分析
神策系统
bi报表
自助分析取数
可视化的拖拉拽自动取数系统
销售平台
用户行为记录
用户分层
用户社群信息
用户画像
数据分析框架
用户画像体系
数据仓库工作流
需求调研
数据探查
高层模型
详细维度模型
维度模型审查与验证
最终设计文档
协作维度建模研讨
维度建模设计
选择业务流程
明确粒度
原子粒度
同一事实不混用力度
维度退化
星型模型
雪花模型
确认维度
确认事实
事务事实表
周期快照事实表
累计快照事实表
数据域划分
构建总矩阵
明确统计指标
原子指标
派生指标
建立物理模型
构建一致性的维度和维度属性
构建一致性度量和指标
模型开发实施
数据入仓
构建原始数据层ods
分区
压缩方式
存储格式
表生命周期
明细模型设计
构建一致性维度表dim
构建一致性事实表dwd
汇总模型设计
构建公共汇总模型dws
构建应用汇总模型ads
发布上线
配置调度
任务监控
数据质量DQC
实时数仓搭建
cdc组件
Maxwell
Debezium
Cannal
FlinkCDC
OLAP系统
Clickhouse
Doris
Kudu
Kylin
Druid
实时计算引擎Flink
常用算子
window
FlinkSQL
0 条评论
下一页