如何提升大数据数据质量 - 数字化转型必知必会系列
2022-03-10 11:08:47 36 举报
AI智能生成
大数据建设的目标是为了融合组织数据,增加组织的洞察力和竞争力,实现业务创新和产业升级。而提高数据质量是为了巩固大数据建设成果,解决大数据建设成果不能满足业务要求的问题。 目录如下: 1、大数据行业背景和现状 2、大数据行业发展过程中出现的问题 3、国家标准中的数据质量评价指标 4、数据质量出现的原因 5、解决数据质量问题的思路
作者其他创作
大纲/内容
大数据建设的目标
融合组织数据
增加组织的洞察力和竞争力
实现业务创新和产业升级
如何提高数据质量?
必须懂行业、懂组织、懂业务
可以简单地通过引入一些工具和规则就可以解决 80% 的问题,
也可以引入一个复杂的系统工程来解决 100% 的质量问题,取决于我们希望达到什么样的质量标准
也可以引入一个复杂的系统工程来解决 100% 的质量问题,取决于我们希望达到什么样的质量标准
为什么要提高数据质量?
巩固大数据建设成果,解决大数据建设成果不能满足业务要求的问题
数据质量问题的来龙去脉和解决方法
大数据行业发展过程中出现的问题
国家标准中的数据质量评价指标
准确性
一致性
时效性
可访问性
唯一性
稳定性
可信性
数据质量出现的原因
解决数据质量问题的思路
大数据行业背景和现状
2014 年大数据被写入政府工作报告,成为大数据政策元年,大数据开始成为热点;
2015 年国务院印发《促进大数据发展的行动纲要》,国家层面开始“大数据”顶层设计;
2016 年工信部发布《大数据产业发展规划(2016 年 -2020 年)》,大数据上升为国家战略;
2019 年政府工作报告提出加强新一代信息基础设施建设(新基建),我们也逐步从“数据大国”迈向“数据强国”。
市场数字化转型的情况调研
第一阶段是大数据归集、治理和价值探索
第二阶段是大数据价值体现。当下,部分政府和企业已经在第一阶段中完成了数据的归集和治理,
大步迈入数据价值体现的第二阶段,努力实现组织的业务创新和产业升级。
大步迈入数据价值体现的第二阶段,努力实现组织的业务创新和产业升级。
大数据行业现状
缺少整体规划和实施路径
缺少高层支持,部门壁垒难以打破
业务价值体现不足,技术能力不足
大数据行业发展过程中出现的问题
为什么数据治理建设很重要?
要体现数据价值,前提就是数据质量的保障,质量没有得到 100% 保证的数据是很难体现出业务价值的,
如果基于这些有问题的数据做决策支持,或做业务办理,
将会得到灾难性的结果,让领导层和数据使用方对大数据失去信心。
如果基于这些有问题的数据做决策支持,或做业务办理,
将会得到灾难性的结果,让领导层和数据使用方对大数据失去信心。
如果没有良好的数据质量,大数据将会对决策产生误导,甚至产生有害的结果
在医疗事故上,根据美国医疗委员会的统计,由于数据错误引起的医疗事故仅在美国每年就导致高达 98000 名患者丧生。
在金融企业中:因数据质量问题导致的信用卡欺诈失察在 2008 年即造成 48 亿美元的损失。
在数仓建设上,50% 的数据仓库因数据质量而被取消或延迟。
在经济损失上,数据错误每年对美国工业界造成的经济损失约占 GDP 的 6%。
在医疗事故上,根据美国医疗委员会的统计,由于数据错误引起的医疗事故仅在美国每年就导致高达 98000 名患者丧生。
在电信产业上,数据错误经常导致故障排除的延误、多余设备租用和服务费收取错误,损害了企业信誉甚至会因此失去很多用户。
在商业上,美国零售业每年仅因标价错误就损失 25 亿美元。
在金融企业中:因数据质量问题导致的信用卡欺诈失察在 2008 年即造成 48 亿美元的损失。
数据质量问题的分类?
数据质量问题是比较简单而明显的问题
如何应对?
仅仅通过“know what”就可以检测数据的完整性、一致性、唯一性和有效性
完整性
一致性
唯一性
有效性
数据质量问题是非常隐秘的问题,大家都知道它是存在的,但它看不见摸不着,更处理不了,因为它需要放在特殊情境才能被检测到
如何应对
需要“know why”来检测时效性、一致性和准确性属性
国家标准中的数据质量评价指标
完整性
指的是按照数据规则要求,数据元素被赋予数值的程度。例如互联网 + 监管主题库中,监管对象为特种设备时,监管对象标识必须包含企业统一社会信用代码 + 产品品牌 + 设备编码,监管对象为药品时,监管对象标识必须包含药品名称 + 批准文号 + 生产批号。
准确性
指的是数据准确表示其所描述的真实实体(实际对象)真实值的程度。例如互联网 + 监管行政检查行为中的行政相对人为公民时,证件类型和证件号码只能是身份证号码。
一致性
指的是数据与其它特定上下文中使用的数据无矛盾的程度。例如许可证信息与法人基础信息是否一致,检查计划与检查记录是否匹配。
时效性
指的是数据在时间变化中的正确程度。例如企业住址搬迁后,企业法人库中的住址是否及时更新了。营业执照已经办理,许可照办理时是否可以及时获取到营业执照信息。
可访问性
指的是数据能被访问的程度。
唯一性
描述数据是否存在重复记录(国标归在准确性中)。
稳定性
描述数据的波动是否是稳定的,是否在其有效范围内。
可信性
描述数据来源的权威性、数据的真实性、数据产生的时间近、鲜活度高。
数据质量出现的原因
技术原因
数据模型设计的质量问题
数据源本身存在质量问题
数据梳理过程的质量问题
数据标准制定的质量问题
数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。
如果在数据的生成过程中包含主观判断的结果,必然会导致数据中含有主观的偏见因素。
并且,不是所有行业都有公认可信的数据标准,而组织标准制定过程中容易出现数据元描述及理解错误,代码码集定义不正确、不完整等情况。
如果在数据的生成过程中包含主观判断的结果,必然会导致数据中含有主观的偏见因素。
并且,不是所有行业都有公认可信的数据标准,而组织标准制定过程中容易出现数据元描述及理解错误,代码码集定义不正确、不完整等情况。
数据模型设计的质量问题
由于对业务理解的不到位或技术实践水平不到位,数据库表结构、数据库约束条件、数据校验规则的设计不合理,造成数据存储混乱、重复、不完整、不准确。
数据源本身存在质量问题
在生产系统中有些数据就存在不规范、不完整、不准确、不一致等问题,而采集过程没有对这些问题做清洗加工处理,或清洗加工的程序代码不正确。
数据梳理过程的质量问题
在数据采集之前,需要梳理组织机构、业务事项、信息系统、数据资源清单等信息,那么对业务的理解不到位,将造成梳理报告的不完整或不正确。
数据采集过程的质量问题
采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。
数据清洗加工的质量问题
数据清洗规则、数据转换规则、数据装载规则配置有问题,甚至未按照数据标准开展相应的清洗加工工作,自由发挥的空间过大。并且在数据汇聚的过程中,没有及时建立数据的相关性,导致后期很难补充完善。
业务原因
业务理解不到位
数据的业务描述、业务规则、相关性分析不到位,导致技术无法构建出合理、正确的数据模型。
业务流程的变更
业务流程一变,数据模型设计、数据录入、数据采集、数据传输、数据清洗、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。
数据输入不规范
常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错,甚至还会将数据输入到错误的字段中,造成“张冠李戴”。
人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。
人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。
业务系统烟囱林立
过去 20 年中,只要是稍大一点的企业和政府部门,都建设了一批信息化系统来解决业务问题,但也导致了如今信息化整合的痛点和困难,变先发优势为数据困境。
数据作假
操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证。
管理原因
流程管理不完善
成员意识不开放
人才缺乏
组织以自身的业务发展的主要原则组建团队,数据建设则依赖于外部服务公司,而自身没有建立相应的管理手段和监督机制,从而无法准确判断数据项目的建设成效。
流程管理不完善
缺乏有效的数据质量保障机制和问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。
成员意识不开放
组织管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。
组织成员没有从组织战略的视角来看待数据资产,而把数据看成是创造它的部门的资产,从而导致数据冗余、数据不一致、数据割裂,从而导致数据价值难以发掘。
组织成员没有从组织战略的视角来看待数据资产,而把数据看成是创造它的部门的资产,从而导致数据冗余、数据不一致、数据割裂,从而导致数据价值难以发掘。
奖惩机制不明确
没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到权威源头或找不到负责人。
缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。
缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。
解决数据质量问题的思路
事前预防
制定数据质量标准
制定质量监测模型
制定质量管理机制
基于数据管理的复杂性和诱因的多重性特点,解决数据质量问题仅仅依靠一个技术工具是不够的,我们需要建立长效工作机制。
即根据组织特点,制定符合自身环境的工作制度,制定每个环节的工作流程,规定各个参与方的责任,确定各项数据的权威部门,制定数据质量指标,制定数据质量修复流程等等。
即根据组织特点,制定符合自身环境的工作制度,制定每个环节的工作流程,规定各个参与方的责任,确定各项数据的权威部门,制定数据质量指标,制定数据质量修复流程等等。
制定数据质量标准
数据标准成功定义的与否,直接决定了大数据建设的成果和数据质量的高低,需要在融合国家标准、行业标准和地方标准的基础上,融合组织自身的业务特色需求。
制定质量监测模型
数据质量模型代表的是业务需求,它是从业务需求的角度而描述出来的质量需求。
制定质量监测规则
数据监测规则代表的具体的质量检测手段,它是从技术角度来描述数据质量要求是如何被满足的,包括规范性、完整性、准确性、致性、时效性、可访问性,等等。
事中监控
监控数据中心质量
反馈数据质量问题
考核数据质量考核
监控原始数据质量
数据采集工作从数据源头获取最原始的数据,在数据采集过程中将数据分为“好数据”“坏数据”,“好数据”入库,“坏数据”则反馈给源头修复,因为数据来源部门最懂这些数据,也最能在源头上把数据问题彻底修复掉。
监控数据中心质量
经过各种采集、清洗、加工过程,数据被存入数据仓库中,这些数据也将被业务部门使用,所以,对于这些成果数据的质量监控和修复则犹为重要。
对于这类数据问题,我们可能使用简单的空值检查、规范性检查、值域检查、逻辑检查、一致性检查、等等规则就可以检查出来,也可能需要诸如多源比较、数据佐证、数据探索、波动检查、离群检查等等方法才可以检查出来。
对于这类数据问题,我们可能使用简单的空值检查、规范性检查、值域检查、逻辑检查、一致性检查、等等规则就可以检查出来,也可能需要诸如多源比较、数据佐证、数据探索、波动检查、离群检查等等方法才可以检查出来。
反馈数据质量问题
数据质量监控过程中,会发现两类问题,一类是源头的数据质量问题,一类是数据中心的数据质量问题,数据质量团队需要将这些问题及时反馈给源头部门和数据仓库建设团队。
考核数据质量考核
数据质量的考核是为了能够引起各个参与部门和参与团队对数据质量的重视,需要及时统计分析各种数据质量问题,并制定出相应的应对措施。
事后改善
收集数据质量需求
完善质量管理制度
完善质量监测规则
修复数据质量问题
发现质量问题不是最终的目标,我们仍要建立相关的流程和工具,通过手工、工单、自动化等等手段将质量问题修复掉,从而为业务创新提供可靠的数据支撑。
收集数据质量需求
通过数据中心的建设,质量问题的修复,必然能够促进数据的应用,我们仍要建立通畅的数据质量反馈通道,让各个部门参与到数据质量的再次完善中来,从而形成建设、应用和反馈的良性循环。
完善质量管理制度
制度和流程的建设并不是一蹴而就的,我们要在数据建设和质量完善的过程中,结合自身组织结构和业务特色,不断完善工作制度。
完善数据质量标准
各行各业不断涌现新的业务形态,原有的业务也在不断的变化,我们要紧跟业务的变化,不断完善符合业务需求的数据标准。
完善质量监测模型
如前所述,监测模型代表的业务需求,业务形态的变化、数据标准的变化和质量新需求的出现,同样要求监测模型能够做出相应的变化。
完善质量监测规则
同样,如今的信息化技术发展日新月异,我们要不断引入各种新技术来更加智能地发现和修复数据质量问题。
收藏
0 条评论
下一页