数据质量管理框架-六西格玛DMAIC
2020-09-23 11:12:57 0 举报
AI智能生成
数据质量管理定义、概述以及解决方案,主要结合百度百科、石秀峰数据质量管理、六西格玛管理模型
作者其他创作
大纲/内容
根本原因分析
1.技术上
数据模型设计的质量问题,例如:数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,造成数据录入无法校验或校验不当,引起数据重复、不完整、不准确。
数据源存在数据质量问题,例如:有些数据是从生产系统采集过来的,在生产系统中这些数据就存在重复、不完整、不准确等问题,而采集过程有没有对这些问题做清洗处理,这种情况也比较常见。
数据采集过程质量问题, 例如:采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。
数据传输过程的问题,例如:数据接口本身存在问题、数据接口参数配置错误、网络不可靠等都会造成数据传输过程中的发生数据质量问题。
数据装载过程的问题,例如:数据清洗规则、数据转换规则、数据装载规则配置有问题。
数据存储的质量问题,例如:数据存储设计不合理,数据的存储能力有限,人为后台调整数据,引起的数据丢失、数据无效、数据失真、记录重复。
业务系统各自为政,烟囱式建设,系统之间的数据不一致问题严重
数据源存在数据质量问题,例如:有些数据是从生产系统采集过来的,在生产系统中这些数据就存在重复、不完整、不准确等问题,而采集过程有没有对这些问题做清洗处理,这种情况也比较常见。
数据采集过程质量问题, 例如:采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。
数据传输过程的问题,例如:数据接口本身存在问题、数据接口参数配置错误、网络不可靠等都会造成数据传输过程中的发生数据质量问题。
数据装载过程的问题,例如:数据清洗规则、数据转换规则、数据装载规则配置有问题。
数据存储的质量问题,例如:数据存储设计不合理,数据的存储能力有限,人为后台调整数据,引起的数据丢失、数据无效、数据失真、记录重复。
业务系统各自为政,烟囱式建设,系统之间的数据不一致问题严重
2.业务上
业务需求不清晰,例如:数据的业务描述、业务规则不清晰,导致技术无法构建出合理、正确的数据模型。
业务需求的变更,这个问题其实是对数据质量影响非常大的,需求一变,数据模型设计、数据录入、数据采集、数据传输、数据装载、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。
业务端数据输入不规范,常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。
数据作假,对,你没看错,就是数据作假!操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证
业务需求的变更,这个问题其实是对数据质量影响非常大的,需求一变,数据模型设计、数据录入、数据采集、数据传输、数据装载、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。
业务端数据输入不规范,常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。
数据作假,对,你没看错,就是数据作假!操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证
3.管理上
认知问题。企业管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。
没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到负责人。
缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。
数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。
缺乏有效的数据质量问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。
缺乏有效的数据管控机制,对历史数据质量检查、新增数据质量校验没有明确和有效的控制措施,出现数据质量问题无法考核。
没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到负责人。
缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。
数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。
缺乏有效的数据质量问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。
缺乏有效的数据管控机制,对历史数据质量检查、新增数据质量校验没有明确和有效的控制措施,出现数据质量问题无法考核。
小结:影响数据质量的因素,可以总结为两类,客观因素和主观因素
https://blog.csdn.net/kuangfeng88588/article/details/99085074
https://blog.csdn.net/kuangfeng88588/article/details/99085074
客观因素:在数据各环节流转中,由于系统异常和流程设置不当等因素,从而引起的数据质量问题
主观因素:在数据各环节处理中,由于人员素质低和管理缺陷等因素,从而操作不当而引起的数据质量问题。
子主题
定义:数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高
数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案(石秀峰)
数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案(石秀峰)
数据质量管理是循环管理过程,其终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益
数据质量管理
由于数据清洗(DataCleaning)工具通常简单地被称为数据质量(Data Quality)工具
数据清洗只是数据质量管理中的一步
数据清洗只是数据质量管理中的一步
1.修改数据中的错误 2.是对错误数据 3.垃圾数据进行清理
数据质量管理包扣
1.对数据质量的改善
2.对组织的改善
针对数据的改善和管理,主要包括数据分析、数据评估、数据清洗、数据监控、错误预警等内容
具体环节:1.确立组织数据质量改进目标、2.评估组织流程、3.制定组织流程改善计划、4.制定组织监督审核机制、5.实施改进、6.评估改善效果等
数据质量评估和管理评估需要以下几个维度
1.完整性 Completeness:完整性用于度量哪些数据丢失了或者哪些数据不可用,不完整的数据所能借鉴的价值就会大大降低,
也是数据质量问题最为基础和常见的一类问题。例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值
也是数据质量问题最为基础和常见的一类问题。例如:唯一性约束不完整、参照不完整;数据条目不完整,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性空值
2.规范性 Conformity:规范性用于度量哪些数据未按统一格式存储
3.一致性 Consistency:一致性用于度量哪些数据的值在信息含义上是冲突的,多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致
4.准确性 Accuracy:准确性也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,
会造成有缺陷的方法和糟糕的决策
会造成有缺陷的方法和糟糕的决策
5.唯一性 Uniqueness:唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的
重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。
重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。
6.关联性 Integration:关联性用于度量哪些关联的数据缺失或者未建立索引,例如:函数关系、相关系数、主外键关系、索引关系等
7.数据真实性 数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,
是经营者进行正确经营决策必不可少的第一手资料
是经营者进行正确经营决策必不可少的第一手资料
数据及时性:数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。
影响数据质量的因素
信息因素:产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质(如:数据源规格不统一)得不到保证和变化频度不恰当等
*** mapping文件定义错误、维表转换定义错误等文档错误
*** mapping文件定义错误、维表转换定义错误等文档错误
技术因素:主要是指由于具体数据处理的各技术环节的异常造成的数据质量问题。数据质量问题的产生环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面的内容 *** 数据采集环节、数据转换环节、SQL写错
流程因素:是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节 *** 业务流程节点没有设置必填、没有进行输入内容逻辑校验
管理因素:是指由于人员素质及管理机制方面的原因造成的数据质量问题。如人员培训、人员管理、培训或者奖惩措施不当导致的管理缺失或者管理缺陷
方法与步骤(六西格玛管理方法)
1. 定义和商定问题、时机和目标,以指导整个数据质量管理的工作
2.收集、汇总、分析有关形式和信息环境。设计捕获和评估的方案
3. 按照数据质量维度对数据质量进行评估
4. 使用各种技术评估劣质数据对业务产生的影响
5. 确定影响数据质量的真实原因,并区分这些原因的影响的数据质量的级别
6. 最终确定行动的建议,为数据质量改善制定方案,包括数据级和组织级的
7. 建立数据错误预防方案,并改正当前数据问题
8. 通过改进组织管理流程,最大限度控制由管理上的缺陷造成的数据质量问题
9. 对数据和管理实施监控,维护已改善的效果
10.沟通贯穿管理始终,循环的评估组织管理流程,以确保数据质量改善的成果得到有效保持
0 条评论
下一页