数据中台技术体系(下):实现篇
2021-08-20 10:57:16 2 举报
AI智能生成
数据中台
作者其他创作
大纲/内容
元数据中心的关键目标和技术实现方案
背景
数据中台的构建,需要确保全局指标的业务口径一致,要把原先口径不一致的、重复的指标进行梳理,整合成一个统一的指标字典。
这项工作的前提,是要搞清楚这些指标的业务口径、数据来源和计算逻辑。而这些数据呢都是元数据。
前提
必须掌握元数据的管理,才能构建一个数据中台
元数据包括哪些?
数据字典
表名
注释信息
表的产出任务
每个表的字段
字段分别代表什么含义
字段类型
数据血缘
一个表直接通过哪些表加工而来
数据特征
存储空间大小
访问热度
主题域
分层
表关联的指标
业界元数据中心产品
开源的有 Netflix 的 Metacat、Apache Atlas
一个擅长于管理数据字典,一个擅长于管理数据血缘
商业化的产品有 Cloudera Navigator
Metacat 多数据源集成型架构设计
Metacat 的设计非常巧妙,它并没有单独再保存一份元数据,而是采取直连数据源拉的方式。
一方面它不存在保存两份元数据一致性的问题,另一方面,这种架构设计很轻量化,每个数据源只要实现一个连接实现类即可,扩展成本很低,我把这种设计叫做集成型设计。
Apache Atlas 实时数据血缘采集
强调 Atlas 实时数据血缘采集的架构设计,因为它为解决血缘采集的准确性和时效性难题提供了很多的解决思路。
血缘采集的三种方式
通过静态解析 SQL,获得输入表和输出表;
通过实时抓取正在执行的 SQL,解析执行计划,获取输入表和输出表;
通过任务日志解析的方式,获取执行后的 SQL 输入表和输出表。
比较
方式一:准确性待考证
方式三:血缘虽然是执行后产生的,可以确保是准确的,但是时效性比较差,通常要分析大量的任务日志数据
方式二:较为理想的方式
网易元数据中心设计
关键特征
多业务线,多租户支持
多数据源支持
数据血缘
实时数据血缘采集
字段血缘
血缘生命周期管理
数据标签
字段标签
多标签类型
大数据平台集成
与Ranger结合,实现基于Tag的权限控制
与数据传输、数据治理系统集成
技术实现
数据血缘
通过Hive、Spark Llistener、Flink Hook 获取运行时的血缘
血缘按照7天过期,下线任务立即清理血缘
数据字典
元数据管理模块,定义Redis、Kafka、HBase数据格式
Hub设计
数据特征
标签
API接口
数据地图
元数据中心界面
多维检索,按照表、列、指标、主题域、分层
按照主题域、分层导览
表详情:基础信息、字段信息、分区信息、产出信息和数据血缘
关键点
元数据中心设计上必须注意扩展性,能够支持多个数据源,所以宜采用集成型的设计方式。
数据血缘需要支持字段级别的血缘,否则会影响溯源的范围和准确性。
数据地图提供了一站式的数据发现服务,解决了检索数据,理解数据的“找数据的需求”。
如何统一管理纷繁杂乱的数据指标
引子
元数据在指标管理、模型设计、数据质量和成本治理四个领域都发挥着作用
这些领域构成了数据中台的OneData数据体系
常见指标问题
相同指标名称,口径不一致
相同口径,指标名称不一样
不同限定词,描述相同事实过程的两个指标,相同事实部分口径不一致
指标口径描述不清晰
指标命难于理解
指标数据来源和计算逻辑不清晰
指标规范化定义
指标归属于业务线、主题域、业务过程
指标归属于业务线和派生指标:派生指标组成规则
指标命名规范
原则:易懂、统一
指标命名
原子指标
派生指标
关联应用和可分析维度
分等级管理
核心指标
数据中台直接产出的指标和原子指标为核心
业务方根据数据中台产出指标派生的指标为非核心指标
管控
核心指标实施强制管控原则
指标系统
基于元数据中心构建,指标以标签形式,下沉到元数据中心对应的表和字段
自动同步元数据中心的主题域和业务过程划分
基于指标规范化定义创建指标
照指标名称、标识、业务口径的检索
基于指标系统的指标字典构建
新的指标开发需求
参与方:数据产品经理、分析师、数据开发、应用开发
指标开发流程规范
对已经存在的混乱指标现状的梳理
1、指标治理小组
2、指标梳理时间计划
3、盘点还在使用的指标报表和数据应用
4、收集使用中的报表和应用的指标
5、评审指标的业务口径、对相同的进行去重合并
6、根据业务口径明确主题域、业务过程
7、拆分指标类型、录入指标系统
收藏
收藏
0 条评论
下一页