DMBOK-13.数据质量
2021-12-09 16:31:38 0 举报
AI智能生成
DAMA数据管理知识体系指南(原书第2版),第13章 数据质量,思维导图
作者其他创作
大纲/内容
1. 引言P346
低质量数据因素
组织缺乏对低质量数据影响的理解
缺乏规划
孤岛式系统设计
不一致的开发过程
不完整的文档
缺乏标准或缺乏治理
1.1 业务驱动因素P348
提高组织数据价值和数据利用的机会
降低低质量数据导致的风险和成本
提高组织效率和生产力
保护和提高组织声誉
与低质量数据相关的直接成本
无法正确开具发票
增加客服电话量
错失商业机会造成收入损失
影响并购后的整合进展
增加受欺诈的风险
错误的业务决策造成损失
1.2 目标和原则
目标P348
根据消费者的需求,开发一种满足数据质量要求的管理方法,使数据适合要求
定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分
定义和实施测量、监控和报告数据质量水平的过程
根据数据消费者要求,通过改变流程和系统,以及参与可显著改善数据质量的活动,识别和倡导提高数据质量的机会
原则
重要性
数据质量管理应关注对企业及其客户最重要的数据。改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判定
全生命周期管理
数据质量管理应覆盖从创建或采购直至处置的整个数据全生命周期,包括其在系统内部和系统之间流转时的数据管理
(即数据链中的每个环节都应确保数据具有高质量的输出)
(即数据链中的每个环节都应确保数据具有高质量的输出)
预防
数据质量方案的重点应放在预防数据错误和降低数据可用性等情形上,不应放在简单的纠正记录上
根因修正
提高数据质量不仅是纠正错误,因为数据质量问题通常与流程或系统设计有关,所以提高数据质量通常需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决
治理
数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境
标准驱动
数据生命周期中的所有利益相关方都会有数据质量要求。在可能的情况下,对于可量化的数据质量需求应该以可测量的标准和期望的形式来定义
客观测量和透明度
数据质量水平需要得到客观、一致的测量。测量过程和测量方法应该与利益相关方一同讨论与分享,因为他们是质量的裁决者
嵌入业务流程
业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准
系统强制执行
系统所有者必须让系统强制执行数据质量要求
与服务水平关联
数据质量报告和问题管理应纳入服务水平协议(SLA)
1.3 基本概念
1.数据质量P349
高质量数据的相关特征
衡量或改进数据质量的过程
是与质量相关的期望并不总是已知的(利益相关者自己表达不清楚要求)
随着业务需求和外力的发展,需求会随着时间的推移而变化
2.关键数据
将改进的重点集中对组织及客户最重要的数据上
明确项目范围
评估关键数据:监管报告;财务报告;商业政策;持续经营;商业战略,尤其是差异化竞争战略
3.数据质量维度
数据质量维度是数据的某个可测量的特性
Strong-wang框架
内在数据质量
准确性
客观性
可信度
信誉度
场景数据质量
增值性
关联性
及时性
完整性
适量性
表达数据质量
可解释性
易理解性
表达一致性
简洁性
访问数据质量
可访问性
访问安全性
Thomas Redman《信息时代的数据质量》
数据模型
内容
数据关联性
获取价值能力
定义清晰性
详细程度
特征描述颗粒度
属性域的精准度
构成
自然性
可识别性
同一性
最小必要冗余性
一致性
模型各组成部分的语义一致性
跨实体类型属性的结构一致性
应变性
健壮性
灵活性
数据值
准确性
完整性
时效性
数据表达
适当性
可解释性
可移植性
格式精确性
格式灵活性
表达空值的能力
有效利用存储
数据的物理实例与其格式一致
Larry English《改善数据仓库和业务信息质量》
固有质量特征
定义的一致性
值域的完备性
有效性或业务规则一致性
数据源的准确性
反映现实的准确性
精确性
非冗余性
冗余或分布数据的等效性
冗余或分布数据的并发性
实用质量特征
可访问性
及时性
语境清晰性
可用性
多源数据的可整合性
适当性或事实完整性
DAMA UK白皮书
6个核心 维度
完备性
唯一性
及时性
有效性
准确性
一致性
其他特性
可用性
时间问题
灵活性
置信度
价值
4.数据质量和元数据
元数据对于管理数据质量至关重要。数据的质量取决于它如何满足数据消费者的需求。元数据定义数据所代表的内容。
5.数据质量ISO标准
ISO 8000
第110部分
语法、语义编码和主数据规范的一致性
引言、出处、准确性、完备性
为了能够以及时和经济高效的方式创建、收集、储存、维护、转移、处理和呈现数据以支持业务流程,既需要了解决定其数据质量的特征,也需要具有能够对数据质量进行测量、管理和报告的能力
6. 数据质量改进生命周期P357
计划(Plan)阶段
数据质量团队评估已知问题的范围、影响和优先级,并评估解决这些问题的备选方案
执行(Do)阶段
数据质量团队负责努力解决引起问题的根本原因,并做出对持续监控数据的计划(技术问题,流程问题)
检查(Check)阶段
这一阶段包括积极监控按要求测量的数据质量
处理(Act)阶段
这一阶段是指处理和解决新出现的数据质量问题的活动
7.数据质量业务规则类型
定义一致性
确保整个组织对数据定义的理解相同
数值存在和记录完备性
定义数值缺失的情况是否可接受的规则
格式符合性
按指定模式分配给数据元素的值,如设置电话号码格式的标准
值域匹配性
指定数据元素的赋值须包含在某数据值域的枚举值中
范围一致性
数据元素赋值必须在定义的数字、词典或时间范围内
映射一致性
表示分配给数据元素的值,必须采用一致的映射规则
一致性规则
属性的实际值通过两个(或多个)属性之间关系的条件判定
准确性验证
将数据值与记录系统或其他验证来源值进行比较,以验证值是否匹配
唯一性验证
实体必须具有唯一性,每个真实世界对象有且仅有一个记录
及时性验证
表明与数据可访问性和可用性预期相关特征的规则
8.数据质量问题的常见原因
缺乏领导力导致的问题P360
领导和员工缺乏意识
缺乏治理
缺乏领导力和管理能力
难以证明改进的合理性
测量价值的工具不合适或不起作用
数据输入过程引起的问题P361
数据输入接口问题
列表条目放置
字段重载
培训问题
业务流程的变更
业务流程执行混乱
数据处理功能引发的问题
有关数据源的错误假设
错误或变更
系统文档不完整或过时
知识转移不充分(当领域专家离开时没有记录他们的知识)
过时的业务规则
变更的数据结构
系统设计引起的问题
未能执行参照完整性
产生破坏唯一性约束的重复数据
既可以包含,又可以排除在某些报表中的孤独数据,导致同样的计算生成多个值
无法升级
因为分配为默认值导致的数据不准确
未执行唯一性约束
编码不准确和分歧
数据模型不准确
字段重载
时间数据不匹配
主数据管理薄弱
数据复制
解决问题引起的问题
手动数据修复
受控的变更管理过程
9.数据剖析P362
空值数
最大/最小值
最大/最小长度
单个列值的频率分布
数据类型和格式
10. 数据质量和数据处理
数据清理
数据清理需求解决方式
实施控制以防止数据输入错误
纠正源系统中的数据
改进数据录入的业务流程
数据清理或数据清洗,可以通过数据转换使其符合数据标准和域规则
数据增强
数据增强或丰富是给数据集添加属性以提高其质量和可用性的过程
示例
时间戳
审计数据
参考词汇表
语境信息
地理信息
人口统计信息
心理信息
评估信息
数据解析和格式化
数据解析是使用预先确定的规则来解释其内容或值的分析过程
数据转换与标准化
在正常处理过程中,可以通过触发规则将数据转换为目标体系可接受的格式
2. 活动P365
2.1 定义高质量数据
有益做法
了解业务需求、定义术语、识别组织的痛点,并开始就数据质量改进的驱动因素和优先事项达到共识
评估组织对数据质量改进的准备情况
高质量数据是什么意思?
低质量数据对业务运营和战略的影响是什么?
更高质量的数据如何赋能业务战略?
数据质量改进的需要哪些优先事项的推动?
对低质量数据的容忍度是多少?
为支持数据质量改进而实施的治理是什么?
配套实施的治理结构是什么?
全面了解组织中数据质量的当前状态
了解业务战略和目标
与利益相关方面谈,以识别痛点、风险和业务驱动因素
通过资料收集和其他剖析形式直接评估数据
记录业务流程中的数据依赖关系
记录业务流程的技术架构和系统支持
2.2 定义数据质量战略
框架
了解并优先考虑业务需求
确定满足业务需求的关键数据
根据业务需求定义业务规则和数据质量标准
根据预期评估数据
分享调查结果,并从利益相关方那里获得反馈
优先处理和管理问题
确定并优先考虑改进机会
测量、监控和报告数据质量
管理通过数据质量流程生成的元数据
将数据质量控制集成到业务和技术流程中
2.3 识别关键数据和业务规则
根据监管要求、财务价值和对客户的直接影响排序
识别能描述或暗示有关数据质量特征要求的业务规则
2.4 执行初始数据质量评估
定义评估的目标
确定要评估的数据
识别数据的用途和数据的使用者
利用待评估的数据识别已知风险,包括数据问题对组织过程的潜在影响
根据已知和建议的规则检查数据
记录不一致的级别和问题类型
根据初步发现进行额外的深入分析
量化结果
根据业务影响优化问题
提出关于数据问题根本原因的假设
与数据管理专员、领域专家和数据消费者会面,确认问题和优先级
使用调查结果作为规划的基础
2.5 识别改进方向并确定优先排序
剖析数据只是第一步
2.6 定义数据质量改进目标
解决问题的根本原因
建立问题预防机制
确定改进目标时考虑的因素,投资回报率
受影响数据的关键性(重要性排序)
受影响的数据量
数据的龄期
受问题影响的业务流程数量和类型
受问题影响的消费者、客户、供应商或员工数量
与问题相关的风险
纠正根本原因的成本
潜在的工作成本
2.7 开发和部署数据质量操作P369
管理数据质量规则
记录的一致性
根据数据质量维度定义
与业务影响挂钩
数据分析支持
由领域专家确认
所有数据消费者都可以访问
测量和监控数据质量
向数据消费者通报质量水平
管理业务或技术流程,改变引入的变更风险
制定管理数据问题的操作流程
诊断问题
制订补救方案
解决问题
制定数据质量服务水平协议
协议涵盖的数据元素
与数据缺陷相关的业务影响
与每个数据元素相关的数据质量指标
从每个已确定指标的数据元素出发,识别数据价值链上每个应用程序系统中的质量期望
测量这些期望的方法
每次测量的可接受性阈值
如果不满足可授受性阈值,应通知数据管理专员
预期解决或补救问题的时间和截止日期
升级策略,以及可能的惩罚和奖励
编写数据质量报告
数据质量评分卡
数据质量趋势
服务水平协议SLA指标
数据质量问题管理
数据质量团队与治理政策的一致性
IT和业务团队对数据质量政策的一致性
改善项目带来的积极影响
3.工具P375
3.1 数据剖析工具
高级别统计信息
3.2 数据查询工具
3.3 建模和ETL工具
数据建模和创建ETL和工具对数据质量有直接影响
3.4 数据质量规则模板
弥合业务团队和技术团队之间的交流鸿沟
3.5 元数据存储库
4. 方法
4.1 预防措施
建立数据输入控制
培训数据生产者
定义和执行规则
要求数据供应商提供高质量的数据
实施数据治理和管理制度
制定正式的变更控制
4.2 纠正措施
自动修正
人工检查修正
人工修正
4.3 质量检查和审核代码模块
4.4 有效的数据质量指标
可度量性
业务相关性
可接受性
问责/管理制度
可控制性
趋势分析
4.5 统计过程控制
六西格玛改进方法、数据质量管理
SPC主要工具是控制图
4.6 根本原因分析
帕累托分析
鱼骨图分析
跟踪和追踪
过程分析
五个为什么5W1H
5. 实施指南
计划
有关数据价值和低质量数据成本的指标
IT/业务交互的操作模型
项目执行方式的变化
对业务流程的更改
为补救和改进项目提供资金
为数据质量运营提供资金
5.1 就绪评估/风险评估
管理层承诺将数据作为战略资产进行管理
组织对数据质量的当前理解
数据的实际情况:客观的方式来描述导致痛点的数据情况是改进数据的第一步
与数据创建、处理或使用相关的风险
可扩展数据质量监控的文化和技术就绪
5.2 组织与文化变革
培训
工具不是全部
人人有责
质量有成本
6. 数据质量和数据治理
治理组织加快数据治理方案的方式
设定优先级
确定和协调有权参与各种数据质量相关决定和相关活动的人
制定和维护数据质量标准
报告企业范围内数据质量的相关测量
提供有助于员工参与的指导
建立知识共享的沟通机制
制定和应用数据质量合规政策
监控和报告绩效
共享数据质量检查结果,以提高认识,确定改进机会,并就改进达成共识
解决变化和冲突,提供方向性指导
6.1 数据质量制度
制度的目的、范围和适用性
术语定义
数据质量团队的职责
其他利益相关方的责任
报告
策略的实施,包括与之相关的风险、预防措施、全无性、数据保护和数据安全性等
6.2 度量指标
投资回报
关于改进工作的成本与改进数据质量的好处的声明
质量水平
测量数据集内或多个数据集之间的错误或违反需求情况的数量和比率
数据质量趋势
随时间的推移,针对阈值和目标的质量改进,或各阶段的质量事件
数据问题管理指标
按数据质量指标对问题分类与计数
各业务职能部门及其问题状态
按优先级和严重程度对问题排序
解决问题的时间
服务水平一致性
数据质量计划示意图
现状和扩展路线图
收藏
0 条评论
下一页