数据治理之数据资产梳理
2022-11-19 05:28:28 5 举报
AI智能生成
数据资产梳理,包含当前现状,目标,建设步骤以及评估体系
作者其他创作
大纲/内容
数据资产(Data Asset)是指由组织(政府机构、企事业单位等)合法拥有或控制的数据资源,以电子或其他方式记录,例如文本、图像、语音、视频、网页、数据库、传感信号等结构化或非结构化数据,可进行计量或交易,能直接或间接带来经济效益和社会效益。
在组织中,并非所有的数据都构成数据资产,数据资产是能够为组织产生价值的数据资源,数据资产的形成需要对数据资源进行主动管理并形成有效控制。
数据资产定义
数据资产管理(Data Asset Management)是指对数据资产进行规划、控制和提供的一组活动职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。数据资产管理须充分融合政策、管理、业务、技术和服务,确保数据资产保值增值。
数据资产管理定义
定义
创建属主
开发属主
业务属主
负责人不清晰
无业务描述
中文表名
描述
任务ID
任务状态
计算周期
任务标签
表概要不全
表与任务关系不明确
字段中文名称
字段描述
是否码值
是否主键
是否允许空值
统计口径
表字段信息不足
物理地址
文件格式
表总文件数量
表总分区数
总表信息
分区文件大小
分区文件数量
分区行数
分区信息
占用空间
压缩方式
生命周期管理
存储信息不足
权限信息不准确
基础信息不足且获取繁琐
授权记录不准确
字段增减
类型改变
注释修改
元数据变更未记录
ETL信息记录不全且部分不准确
配置异常规则项(表级、字段级)
告警级别(阻断与否)
规则配置属主
表质量监控信息缺失
库/表访问热度
血缘依赖信息不全,缺乏应用层血缘依赖
表影响热度
业务线
缺乏资产分级依据
1、元数据层面
缺乏应用层血缘依赖
血缘关系不全
无法对数据销毁提供参考
当数据异常时,不能准确确定影响面
血缘关系不准确
不能导出
没有属主信息,无法确定上下游owner
易用性不足
2、血缘关系层面
限定词/维度
业务主题
指标名称
量化词
指标名称不规范
来源表
来源字段
数据来源不清晰
业务表述
口径
计算逻辑
限定标准
指标变化
指标异常的判定条件
指标定义不明确
缺失指标访问热度
无字段级血缘
3、指标层面
此处依赖建表规范
cpu使用资源内存使用资源
计算资源
存储资源
成本分摊未到个人和开发组
4、成本层面
一.目前痛点
1、通过构建数据管理平台,对目前涉及的库表、指标进行管理, 通过平台代替人工管理,减少重复劳动,提高管理效率。
2、通过构建数据血缘关系,追溯数据使用情况及影响分析。
3、通过构建数据字典与指标体系,打通企业内部数据分享壁垒,提高数据利用效率。
4、通过对数据进行数据生命周期管理,降低数据成本
二.建设目标
降本增效提高资产准确性提升资产易用性
所属库名
作业ID
作业状态
敏感等级
主题标签
数据库类型
表概要
与任务标签mapping?
字段名称
字段类型
是否敏感(脱敏、加密)
是否分区字段
标签
表字段信息
表总大小
表总行数
存储信息
权限信息
记录表及字段的变更
变更记录
基础信息
报表使用
血缘依赖
应用开发
数据使用情况
表级异常规则
字段级异常规则
告警方式
数据质量信息
1、元数据建设
sql解析
手动指定
血缘信息获取
当前表ID
前置节点
后置节点
头部节点
尾部节点
构建血缘关系表
直接前置节点数量
前置节点总数
直接后置节点数量
后置节点总数
构建血缘统计表
血缘可视化
节点定位
影响分析
数据销毁参考
数据质量评估
数据血缘应用
2、数据血缘
一级指标
二级指标
三级指标
层级关联
指标层级
数据来源
指标定义
目标人/需求方
1、构建指标字典
pv
uv
指标销毁参考
2、报表页面埋点
根据浏览人划分
根据埋点数据划分
自定义划分
3、重要程度划分
3、指标体系
4、成本大盘
三、建设步骤
分层
库
开发组
表数量
表
存储大小
平台访问率
下游率
hive任务查询率
冷数据占比
资产规模
表中文完整度表开发属主完整度表业务属主完整度表描述完整度
表属性完整度
字段中文完整度字段描述完整度
字段完整度
主题/标签完整度
资产完整性
库访问热度
表访问热度
热度分析
为数据分级依据为数据生命管理提供依据为质量监控提供依据
starrocks
tidb
mysql
es
api
数据外发分布
优先级
下游数
是否外发
是否有SLA
访问量
高价值任务数
初定评价维度价值区间分布
已监控高价值任务数
数据内部分布
资产价值
四、评估体系
数据资产
0 条评论
回复 删除
下一页