主数据管理
2020-03-24 10:02:49 11 举报
AI智能生成
数据中台-主数据管理梳理
作者其他创作
大纲/内容
复杂全面的架构
基础支撑服务层
安全管理
业务部门管理
角色管理
用户管理
权限控制
参数设置
日志管理
系统管理
数据业务管理层
数据申请/转入
数据清洗
不同数据类型定义各自的清洗方法
数据清洗目标
唯一性
描述是否存在重复记录
精确性
与描述的客观实体的特征相一致
完整性
是否存在缺失记录,缺失字段
一致性
同一实体同一属性在不同系统中是否一致
有效性
是否满足定义的条件或阈值范围
数据清洗内容
缺失数据
应有信息缺失
过滤出,规定时间内由客户补全
处理主体分类
人工清洗
记录量少
由专家填补缺失数据
自动清洗
记录量大
既有程序处理属性缺失
处理方法分类
忽略
填补缺省值
噪声数据
错误类别
错误数据
原因为业务系统不够健全
过滤,限期确认
重复数据
导出,由客户确认并整理
处理方法
分箱方法
减弱消除噪声影响
人工智能
人机结合
数据清洗过程
定义确定错误的类型
搜寻错误的实例
自动检测属性错误
检测重复数据的算法
纠正发现的错误
干净数据回流
数据清洗工具
特定功能的清洗工具
ETL工具
其他工具
数据审核
确定数据审核流程
自动校验
精确查重
模糊查重
通过定义的校验规则进行检查,保证唯一性和规范性
人工审批
数据维护
CRUD
数据集成
保证多个系统中的信息保持一致
数据模型层
业务实体模型
属性模型
校验规则
唯一性校验
关联性校验
取值范围校验
相关附属表校验
正则表达式校验
编码规则
引用规则
数据模板
接口服务层
WebService
Txt/Excel
消息中间件
数据集成服务层
数据分发
数据接收
分发策略
分发频次
同步服务配置
安全用户授权
启动落地
目标
标准规范,数据同源,应用统一,服务集中。完成最核心模块的设计开发,实现MDM核心功能
建设内容
数据模型设计
确定实体
方式:采用MA设计,具体采用哪些主体数据,需按项目实际情况适当定制。
具体主体内容
集团
定义:为一定目的组织起来共同行动的团体公司
例子:中粮集团,瑞安集团等
商场
定义:特指规模巨大、连成一体、包罗众多专卖店和商铺、集购物、休闲、娱乐、饮食为一体的商业中心或加盖的林荫道商业街
例子:西单大悦城,老佛爷百货
商户
定义:是指有实体经营场所的商家
商铺
定义:商铺是经营者为顾客提供商品交易、服务 、 感受体验的场所
停车场
定义:停车场是供车辆停放之场所。
商管(可选)
物业(可选)
位置数据实体内容
单元
定义:商场每个楼层划分的,对外出租的标准单元,一个商铺由1个或数个单元组成
重要属性:单元ID,单元类型,单元面积,所属楼层编号,状态
楼层
楼层编号,地下采用BN,地上采用FN,其中N表示自然数,采集时,其他系统按此翻译,楼层不需要单独的数据表格
建筑物
定义:楼座,有的商场由数个楼座组成
例子:方恒大厦A座,B座等
重要属性:建筑ID,名称,经度,纬度,行政区划编码,详细地址,所属商场ID
其他内容
类目
定义:商铺经营的类目
例子:餐饮-中餐-闽菜
品牌
定义:品牌是一种名称、术语、标记、符号或设计,或是它们的组合运用,其目的是借以辨认某个销售者或某群销售者的产品或服务,并使之同竞争对手的产品和服务区别开来
例子:阿迪达斯,耐克等。若未注册品牌,则使用店铺招牌。集合店使用自己的品牌或招牌。
属性模型
各实体属性字段
类型
整型
浮点型
字符串型
日期类型
约束条件
浮点型精度
字符串长度
日期类型格式
能否为空
是否唯一
域值(能取的值范围)
含义:见‘确定实体分支’
ID编码规则确定
主体数据ID编码规则
位置数据实体ID编码规则
品牌ID编码规则
类目ID编码规则
引用规则确定
含义:字典类数据穷举
内容
主数据类型:1集团,2商场,3商户,4商铺,5停车场,6商管,7物业 (可视项目实际情况增补)
运营模式:1物业方自运营、2商管公司自运营、3集团统一运营、4第三方代运营、5智慧图代运营
公司性质:1合资、2外资、3民营、4国企
经营状况:1正常、2停业
经营区域:1全球、2全国、3城市、4区县
停车场类型:1暖式车库、2冷室、3车棚、4漏天停车场
其他字典项,视项目实际情况需要增减
校验规则确定
唯一性校验
关联性校验
取值范围校验
相关附属表校验
正则表达式校验
业务管理
数据采集
初始化
采用ETL工具
利用用数仓ETL工具
也可采用文件导入
具体步骤见相应流程图
后继
实时整合
导入接口开发
消息中间件(可选)
说明:需有界面让操作者知道上传后继处理的状况
角色:数据申请者
数据校验
根据数据校验规则校验数据
成功则进行下一步数据清洗
失败则将校验未通过原因通过状态页告知操作者
说明:自动根据规则进行,上传后几乎同时可返回校验结果
数据清洗
定义:是指发现并改正不完整,不正确和不一致的主数据,从而提高数据质量的过程
数据清洗目标
唯一性
描述是否存在重复记录
精确性
与描述的客观实体的特征相一致
完整性
是否存在缺失记录,缺失字段
一致性
同一实体同一属性在不同系统中是否一致
有效性
是否满足定义的条件或阈值范围
数据清洗内容
缺失数据
应有信息缺失
是什么:是指名称,类型等系统关注的数据缺失,包含在数据建模中不为空的数据范围里。
怎么做:过滤出,形成文档交给客户,规定时间内由客户补全
处理主体分类
人工清洗
记录量少
由专家填补缺失数据
自动清洗
记录量大
既有程序处理属性缺失
处理方法分类
忽略
填补缺省值
噪声数据
错误类别
错误数据
原因为业务系统不够健全
过滤,限期确认
编码不对,格式不对,全角半角,内容错误,不必要的字符如回车,不可见字符等
重复数据
导出,由客户确认并整理
处理方法
分箱方法
减弱消除噪声影响
人工智能
人机结合
数据清洗过程
定义确定错误的类型
搜寻错误的实例
自动检测属性错误
检测重复数据的算法
字符串匹配算法KMP等
递归字段匹配算法等
Smith-Waterman 算法
cosine算法
纠正发现的错误
干净数据回流(由业务系统拉取审核完毕的数据,不在数据清洗这一步处理)
数据清洗工具
特定功能的清洗工具
ETL工具
高级的ETL工具有数据清洗功能,不过和丛伟谈过后确认数据仓库使用版本没有这个功能
几款开源的ETL工具
Apache Camel
Apache Kafka
Apatar
Heka
Logstash
Scriptella
Talend
Kettle(使用普遍)
数据审核
确定数据审核流程
说明:具体见数据审核流程图
自动校验
精确查重
模糊查重
通过定义的校验规则进行检查,保证唯一性和规范性
人工审批
审批结果要传递给上下游
提供录入审批意见功能
支持单人或多人配置审批功能
支持待审提醒功能/邮件等
支持任务审批列表
存在错误数据,可审核退回,并指派相应角色处理
数据集成
从多个业务系统采集进来的数据,一个实际的数据主体保留一条数据记录。若有多条需集成为一条记录
数据分发
主动
主数据管理系统调用目标系统的接口,为目标系统提供数据
各参与改造的业务系统需提供更新接口,并将接口定义提供出来
被动
目标系统调用主数据管理系统的接口,主数据管理系统返回相应的数据
主数据管理系统为参与改造的业务系统定制相应的接口,满足业务系统的应用需求。
消息中间件订阅分发
主数据发生改动时,主数据管理系统广播消息
分发目标系统
确定参与的业务系统
分发频率
分发数据范围
主数据管理的数据内容,业务系统需要的数据内容确认范围
数据同步规则
建议主数据管理系统提供接口,当发生改动时通知各业务系统,由业务系统拉取主数据管理的数据。
日志跟踪记录
分发记录需在日志系统内记录,供跟踪查找
异常处理
失败重发
数据监控
监控操作人员行为
工作流设计
图形化工作流
CRUD功能
系统功能
日志管理
监控系统运行情况,跟踪用户操作过程
安全管理
访问授权控制
可利用新客流成果
身份认证
界面模型设计
对应各业务管理工作流
数据交换中间件
Restfull接口
txt/excel
消息中间件,kafka等,点对点,订阅广播等
现状问题及解决
问题表述
数据分散管理,各自表述,管理口径和统计口径不一致,数据没有同一的标准,形成信息应用孤岛,影响上层BI应用的分析质量。
关键字:分散管理,没有形成统一标准,未打通
问题细目及解决
编码混乱
同一实体数据,ID不一致
解决:编码规则规范,集中存储,统一管理
名称混乱
例如有的系统叫KFC,有的系统叫肯德基
同一实体数据,名称不一致,
解决:集中存储,统一管理
数据准确性有问题
存在错误数据
存在过时数据
存在测试期数据
解决:通过数据清洗
数据同步问题
具体表述
有的系统常年不更新,需要使用时数据都是旧的
有的系统因为需要,维护了自己关心的部分数据,如MA只关心参与营销活动的商户/商铺
各实体的商铺记录数量不一致
解决:集中存储,统一维护,数据同源
维护成本问题
具体表述
各业务系统都有部分主数据要维护管理,需要投入人力,投入产出比太低
解决:集中存储,统一维护,其他子系统不必维护主数据,只需从主数据管理系统通过接口拉取。
属性字段各异
各系统关心的数据属性维度不完全一致
解决:数据建模,全面覆盖需求
品牌库
属性维度没有标准
具体到智慧图,有的系统建了数据表,但没有数据,有的系统维护简单的品牌库,数量有限,有的长时间不维护,要用时没有现成的;有的库大量重复,多重维护成本高,准确性有问题
解决:品牌表合理建模,在主数据系统维护一个品牌库,其他业务系统不维护,只共享主数据系统的品牌库。
类目库
没有统一的划分标准,各系统有各个系统的划分,难以通用
解决:合理的类目表建模,在主数据系统维护一个类目表,其他业务系统不维护
数据存在大量冗余
解决:数据集成,统一数据实体保留一个记录
内容缺失
具体到智慧图,比如MA的部分内容没有,商户关联的LBS楼层或者POI没有等
数据失真
被关联系统的数据改变了,但是关联方的数据还没修改
解决:数据分发,主数据系统集中存储,统一维护,业务系统统一使用主数据库管理的数据。
责任不明
数据的产生,使用,管理,消灭,都找不到责任人,出现问题不知道找谁,不清楚如何处理,不知道如何改善,影响管理效率,数据质量提升缺乏内在动力。
解决:建立用户,角色,日志记录系统,记录各个用户的操作记录。
如何解决
推动数据建模标准化
内容:实现主数据范围清晰定义,数据建模。
主体数据术语定义清晰标准。
编码标准化。
属性覆盖足够合理与全面,足够支撑已有的和将有的数据质量。
约束条件合理
参照关系定义完整
校验规则合理
价值:实现信息互通,功能联动的重要数据根基,可提供规范性信息支持服务。
资源:数据工程师1名,可部分利用MA部门设计成果,和本部门前期设计成果。
推动集中存储,统一维护
价值:
避免分散管理造成的一系列数据问题,降低维护成本,保证数据质量
内容:
分支主题
资源:
主数据内涵
主数据定义
定义
可以垮业务系统被共享的,单一,准确,权威的数据来源
识别方法
多因素分析法
要考虑的问题
哪些是主数据,哪些是主数据属性
识别不同主数据间的关系
识别主数据与业务系统之间的关系
识别主数据与业务管理之间的关系
根据主数据特征的识别表方法
子主题 1
主数据的特征
特征一致性
主数据的关键特征在不同业务系统中要一致
识别唯一性
同一个数据实体必须有同一个数据编码
长期有效性
主数据贯穿业务对象的整个生命周期
业务稳定性
主数据不会随着业务过程被修改,除非主数据特征本身发生变化
主数据的范围
描述主体范围
企业典型的主数据,财务数据,项目数据,基础数据等
具体到智慧图
集团
购物中心
商户
商铺
类目
品牌
单元
应用层次范围
元数据
引用数据
企业结构数据
业务结构数据
主数据目标
支持主数据的抽取,整合,分享利用,提供准确,及时,一致完整的主数据
集中式管理,唯一数据源
全生命周期管理
任务
建立主数据标准平台
建立不同主题的编码,标准属性数据库
通过系统实现主数据标准的管理
实现与BI业务系统的集成
类型
分析型MDM
不改变业务系统数据,不采用
操作型MDM
成为业务系统的数据源,将正确数据回流给各业务系统,采用
架构模式
合并式信息整合
数据单向流动:业务系统->MDM
业务系统修改,MDM需要跟着修改
不及时
优点:简单
注册式信息整合
只管理主数据与元数据的对照关系,详细数据在源系统
没根本解决数据质量问题
管理繁琐
共存式信息整合
从源数据提取数据到MDM
可在MDM或源数据系统维护数据
MDM生成一致准确的数据提供给源系统
基本实现全部的MDM功能
缺点,对源数据数据输入端没控制,垃圾数据不断产生,需要不断的清洗和整合
集中式信息整合
MDS从源数据系统提取数据,整合成准确统一的主数据集合存储在MDM,并分发给各业务系统,
实现全生命周期的管理:产生,校验,审核,使用,变更,核销
根本解决数据冗余,数据不一致,数据错误问题,保证质量
对各系统侵入度大,复杂度高
主数据管理的成熟度
P0级:没有实施任何的管理
P1级:
主数据管理系统的主要功能
主数据数据模型管理
业务实体模型
属性模型
编码规则
校验规则
引用规则
主数据业务管理
数据申请/转入
数据清洗
数据校验
数据审核
数据维护
数据集成
数据分发
工作流服务
定义主数据各业务工作流
业务授权绑定
工作流可视化
数据交换中间件管理
webservice接口管理
消息中间件
系统集成需要的技术架构
报表分析
常用报表查询
自定义报表查询
报表数据导出功能
系统管理
用户权限控制
日志管理功能
监控系统运行情况,跟踪用户操作过程
主数据要回答的一些问题
为什么要有主数据
现状
价值
面临的问题,难点
分期实现
数据治理相关内容
问题由来
大企业有多套系统,是由不同时期,不同团队开发完成,它们都参考着不同的标准生产各自数据。由于滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位,大量应用系统产生的数据是脏数据。这些脏数据是没有意义的,不能为数据挖掘和决策分析提供任何支持,这就是数据质量问题的由来。
质量问题四因素
信息因素
管理因素
技术因素
流程因素
收藏
收藏
0 条评论
下一页