数据地图:数据资产管理
2021-10-29 22:00:27 80 举报
AI智能生成
数据地图是一种数据资产管理工具,它通过可视化的方式展示组织内部的数据资产、数据流和数据血缘关系。数据地图可以帮助企业更好地理解和管理其数据资产,提高数据的可用性和价值。它通常包括以下几个部分:数据资产清单、数据流程图、数据血缘关系图和数据质量评估。通过使用数据地图,企业可以更好地控制其数据资产,减少重复劳动和浪费,提高决策效率。总之,数据地图是一种强大的数据资产管理工具,对于任何希望有效管理和利用其数据资产的企业来说都是必不可少的。
作者其他创作
大纲/内容
数据资产是数据中台的重要根基,没有资产的数据中台是无源之水,就只能叫做数据工具
1. 企业数据资产管理面临的问题
找数据的痛点
1. 数据找不到
数据生产者和消费者会存在业务上的天然屏障。对于很多一线的业务同学并不能第一时间数据的输出
2. 数据不敢用
数据处理逻辑不清楚,业务找到了订单数据在XX表中,但是对订单状态的枚举值含义不清楚,或者不知道营收的数据计算口径,不敢用,只能咨询表的负责人
数据质量问题,搞数据的人都知道数据质量是数据团队的生命线,但是却又是无法避免的老大难问题,故障出的多了,用户拿到数据的第一反应是先和数据人员确认下,今天数据没问题吧
管数据的痛点
管数据,主要是数据开发者,他们的目标是让自己生产的数据可以更安全地被更多人复用
1.用户咨询多
2.数据复用低
数据中台建设要解决的也是数据复用问题,对于数据工作者经常遇到做好了数据模型使用者寥寥无几的问题,有酒香但巷子深无人知晓的因素,也有部门墙、数据安全限制因素
3.价值感知弱
数据开发者做了很多的数据模型,但不知道有多少人在使用,用到了哪里,产生了多少业务价值。数仓开发不生产数据,只是数据的搬运工,“工具人”的感受强烈
4.问题排查路径长
用户反馈数据异常时,需要翻代码,对数据加工链路进行追根溯源,排查路径长,消耗时间久
5.工作评估难
作为数据管理者,对于资产最关心的莫过于建设的怎么样,如何评估数据工作的成果。做了很多的数据模型,绩效就应该好吗?
2. 数据消费者与生产者的诉求
1. 找数据(数据消费端,通过数据地图寻找目标数据,进行分析或者数据应用)
业务场景
不知道所需要的数据在哪里,“逛数据”,发现目标
知道表名或字段信息,确认数据逻辑或元数据信息
用户
核心用户:数据分析、数据挖掘、数据开发
重要用户:产品、运营
覆盖用户:业务开发、商务等
产品诉求
资产分级分类,提供简单易用的资产“地图”导航,快速找到目标表
强大的搜索功能,可以基于关键词、字段、指标搜索目标表
元数据信息完善,辅助决策,确定表是不是所需要用的,能不能用,以及逻辑说明
2. 管数据(数据生产者,负责数据加工处理,对数据质量、资产元数据、资产管理负责)
业务场景
维护表元数据信息
数据资产审计,管理用户权限、使用日志
数据治理,针对数据表的使用情况,定期下线不用表或者冷数据归档
追根溯源:数据质量异常通知下游,数据问题快速排查定位问题
用户
核心用户:数据开发
覆盖用户:数据表创建者
产品诉求
元数据维护操作简单、快捷,支持批量操作
可以清楚的知道自己负责的资产元数据覆盖、用户使用情况
平台提供方便的数据追踪、溯源的功能,可以快速定位数据血缘
3. 数据团队管理者(评价数据资产业务价值、数据对业务支撑或赋能效率,对数据开发人员进行量化考核。并对数据资产的健康度、数据成本进行管控)
业务场景
评价数据资产建设的到底怎么样
数据人员工作量化考核
平台健康度管控,降本增效
用户
数据开发管理者
数据部门负责人
产品诉求
能够提供资产健康度评价的全面的指标,如模型覆盖度、复用度、元数据完善度、数据质量等
资产责任人到人,可以量化考核每个数据开发者的工作数量和质量
3. 数据地图需要具备的数据资产管理能力
1. 资产大盘
资产大盘按照不同角色的用户,提供从总体到部门(租户)以及个人的资产视图,主要作用是客观描述资产现状,并且以健康度评价体系,提供资产建设优化指引。主要服务于数据工作者及管理团队
资产数量
资产总数
新增数量
治理数量
资源消耗
存储资源
计算资源
健康度
元数据覆盖度100%表占比
数据质量异常数
高耗时任务及列表
跨层引用
近90天无访问数
治理维度
治理资产数
治理效果
待治理数量
2. 数据探索
数据检索方式包括基于业务域、主题、标签等层级筛选,表中英文、字段信息搜索,以及热门推荐、个人收藏、数据专题等快捷方式。在实际应用时,搜索功能是第一优先级的,至少要先让用户能够精准触达目标。因为业务域划分、主题标签维护很难做到没有二义性,让用户可以顺利筛选出目标数据。表的元数据信息是指可以给找数据的用户提高更加全面、准确的业务元数据、技术元数据等一系列的信息
基本信息
表中英文名称
负责人
业务描述
字段中英文
分区字段
字段处理逻辑
业务域
主题
标签层级
数据预览
提供示例数据预览功能,可以快速查看字段内容或结构
产出信息
产出时间
任务耗时及趋势
最后更新时间
数据血缘
数据表上下游,一键通知能力
数据质量
数据质量监控规则覆盖
最新监控结果是否正常
数据审计
表使用信息
变更记录
3. 资产管理
资产管理主要是面向资产创建者,对所负责的资产进行业务元数据、技术元数据的维护及配置,对资产健康度负责
元数据信息维护
业务描述
字段描述
业务逻辑
审批流程配置
元数据更新
表结构变更,如字段删减、新增
批量配置
批量授权
批量修改主题
层级、权限的移交、复制
数据治理流程
主要建立和数据质量监控、数据质量等平台的联动,做到跟进用户使用情况,快速跳转至治理平台,一键治理(归档、下线、删除)
4. 配置管理
提供业务域、数据层级、主题、标签配置,以及部门(租户)公共参数配置能力,主要服务于数据仓库或数据资产管理员,负责资产层级、架构以及创建流程规范的规划
5. 个人工作台
个人资产盘点
例如有权限的资产,是否有权限即将到期,需要进行批量续期。自己负责的资产,用户权限列表、资产使用分析
待办事项
数据资产管理要建立从上到下的管理和考核机制,否则资产创建时,为了图快不进行元数据信息维护,就必然会导致资产复用度低
资产大盘服务于资产管理者,提供不同维度的资产健康度评价指标。而个人代办则提供每个资产创建者,需要关注的优化任务,例如元数据覆盖不足100%,近XX天无访问,任务耗时长,跨层引用等等
总结
数据资产管理是提升企业数据复用度的重要数据产品之一,在产品规划和设计时,需要从用户需求场景以及产品目标出发,提供更快速找到数据,以及更方便维护资产信息的能力,同时,为数据工作的量化考核以及开发人员的工作改进提供指引方向
成熟案例
阿里DataWorks
阿里Dataphin
网易猛犸
火山引擎
0 条评论
下一页