数据治理之数据资产梳理
2022-11-19 05:28:28 5 举报
AI智能生成
数据资产梳理,包含当前现状,目标,建设步骤以及评估体系
作者其他创作
大纲/内容
定义
数据资产定义
数据资产(Data Asset)是指由组织(政府机构、企事业单位等)合法拥有或控制的数据资源,以电子或其他方式记录,例如文本、图像、语音、视频、网页、数据库、传感信号等结构化或非结构化数据,可进行计量或交易,能直接或间接带来经济效益和社会效益。
在组织中,并非所有的数据都构成数据资产,数据资产是能够为组织产生价值的数据资源,数据资产的形成需要对数据资源进行主动管理并形成有效控制。
数据资产管理定义
数据资产管理(Data Asset Management)是指对数据资产进行规划、控制和提供的一组活动职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。数据资产管理须充分融合政策、管理、业务、技术和服务,确保数据资产保值增值。
一.目前痛点
1、元数据层面
负责人不清晰
创建属主
开发属主
业务属主
无业务描述
基础信息不足且获取繁琐
表概要不全
中文表名
描述
任务ID
任务状态
计算周期
任务标签
表字段信息不足
字段中文名称
字段描述
是否码值
是否主键
是否允许空值
统计口径
存储信息不足
物理地址
文件格式
占用空间
总表信息
表总文件数量
表总分区数
分区信息
分区文件大小
分区文件数量
分区行数
压缩方式
生命周期管理
权限信息不准确
元数据变更未记录
字段增减
类型改变
注释修改
ETL信息记录不全且部分不准确
任务ID
任务状态
计算周期
表质量监控信息缺失
配置异常规则项(表级、字段级)
告警级别(阻断与否)
规则配置属主
缺乏资产分级依据
库/表访问热度
表影响热度
血缘依赖信息不全,缺乏应用层血缘依赖
业务线
2、血缘关系层面
血缘关系不全
缺乏应用层血缘依赖
血缘关系不准确
无法对数据销毁提供参考
当数据异常时,不能准确确定影响面
易用性不足
不能导出
没有属主信息,无法确定上下游owner
3、指标层面
指标名称不规范
限定词/维度
业务主题
指标名称
量化词
数据来源不清晰
来源表
来源字段
指标定义不明确
业务表述
口径
计算逻辑
限定标准
指标变化
指标异常的判定条件
缺失指标访问热度
无字段级血缘
4、成本层面
成本分摊未到个人和开发组
计算资源
cpu使用资源
内存使用资源
内存使用资源
存储资源
二.建设目标
1、通过构建数据管理平台,对目前涉及的库表、指标进行管理, 通过平台代替人工管理,减少重复劳动,提高管理效率。
2、通过构建数据血缘关系,追溯数据使用情况及影响分析。
3、通过构建数据字典与指标体系,打通企业内部数据分享壁垒,提高数据利用效率。
4、通过对数据进行数据生命周期管理,降低数据成本
三、建设步骤
1、元数据建设
基础信息
表概要
所属库名
中文表名
描述
作业ID
作业状态
计算周期
业务属主
开发属主
敏感等级
主题标签
数据库类型
表字段信息
字段名称
字段类型
字段中文名称
字段描述
是否码值
是否敏感(脱敏、加密)
是否主键
是否允许空值
是否分区字段
统计口径
标签
存储信息
物理地址
文件格式
占用空间
总表信息
表总大小
表总文件数量
表总分区数
表总行数
分区信息
分区文件大小
分区文件数量
分区行数
压缩方式
生命周期管理
权限信息
变更记录
记录表及字段的变更
字段增减
类型改变
注释修改
数据使用情况
报表使用
血缘依赖
应用开发
数据质量信息
表级异常规则
字段级异常规则
告警方式
2、数据血缘
血缘信息获取
sql解析
手动指定
构建血缘关系表
当前表ID
前置节点
后置节点
头部节点
尾部节点
构建血缘统计表
直接前置节点数量
前置节点总数
直接后置节点数量
后置节点总数
数据血缘应用
血缘可视化
节点定位
影响分析
数据销毁参考
数据质量评估
3、指标体系
1、构建指标字典
指标名称
限定词/维度
业务主题
指标名称
量化词
指标层级
一级指标
二级指标
三级指标
层级关联
数据来源
来源表
来源字段
指标定义
业务表述
口径
计算逻辑
限定标准
指标变化
指标异常的判定条件
目标人/需求方
2、报表页面埋点
pv
uv
指标销毁参考
3、重要程度划分
根据浏览人划分
根据埋点数据划分
自定义划分
4、成本大盘
四、评估体系
资产规模
表数量
分层
库
开发组
开发属主
存储大小
分层
库
开发组
开发属主
表
冷数据占比
平台访问率
下游率
hive任务查询率
资产完整性
表属性完整度
表中文完整度
表开发属主完整度
表业务属主完整度
表描述完整度
表开发属主完整度
表业务属主完整度
表描述完整度
字段完整度
字段中文完整度
字段描述完整度
字段描述完整度
主题/标签完整度
资产价值
热度分析
库访问热度
表访问热度
表影响热度
数据外发分布
starrocks
tidb
mysql
es
api
数据内部分布
高价值任务数
优先级
业务线
下游数
是否外发
是否有SLA
访问量
已监控高价值任务数
0 条评论
下一页