《数据中台架构:企业数据化最佳实践》读书笔记
2020-07-06 13:44:11 10 举报
AI智能生成
又一本数据中台的实践手册,《数据中台架构:企业数据化最佳实践》读书笔记,有很多不同行业的数据表单,尤其作者之前的主数据管理经验丰富,从中获益颇深。
作者其他创作
大纲/内容
2 企业数据化
2.1 企业数据化认知
2.1.2 数据分类
知识、情报数据
数据中的精华部分,是劳动实践中的智慧结晶
统计结果数据
是数据的汇总,是事物的宏观总结
统计模型和复杂程度决定了统计结果数据的计算难度与业务价值
交易数据
关于财,物,责任的记录
行为数据
客观存在的行为的数据
重要些低于交易数据,而数据量远大于交易数据
无意义的杂乱数据
2.2 企业数据化与企业信息化及企业的关系
2.2.2 企业信息化
财务电算化
办公自动化
MRP,MRPII,ERP
平台化应用
集团管控型系统
面向服务体系架构与应用集成
便于异构系统间的集成,打通业务流和数据流
典型应用场景
业财一体化建设
门户为代表的页面级集成
以主数据和企业服务总线ESB为代表的服务集成
微服务与业务中台
应用业务场景快速变化
用户大流量访问
2.2.3 企业数据化
与企业信息化相比特点
企业数据化曾经是企业信息化的一部分
数据化的本质是在信息化建设的数据成果之上,进一步产生更多的数据
数据化建设将汇聚所有的数据,并进行数据模型的重新构建,模型体现了对业务的理解和对最新技术的使用
数据化工作将使用全新的工具和独立的算力并与信息化使用的资源完全分离
2.2.4 企业业务、企业信息化、企业数据化的关系
业务界面
描述了企业的真实业务,内部是岗位、流程和协作,外部是产品和服务
应用界面
应用界面是企业信息化建设的成果
数据界面
以获取应用系统产生的数据为基础,经过模型构建和算法加工,支撑企业管理和经营
三个界面之间的关系
业务界面是一切的核心
应用界面为了支撑业务界面存在,是多年信息化建设的成果
应用界面的完善促进了数据界面的产生与独立
数据界面独立承担数据资产的计算任务,所产生的结果被输送到业务界面和应用界面
数据界面会反向要求业务界面和应用界面进行必要的改变,以获取更多的数据和质量更好的数据
2.3 企业数据化建设的内容
2.3.1 企业数据化建设的一个核心目的
构建数据大脑
数据大脑的组成
数据资产与存储
一个大容量的实时的数据仓库
相关的各种数据工具
来自企业和企业外部的每一个有含义的字符串都是数据资源
数据资源经过清洗和转换存储在整体数据模型中成为数据资产
数据模型
以应用为导向、以当前数据为基础而构建的对企业业务完整描述的数据仓库模型
企业构建数据模型可能采用简单的四则运算,也可能采用复杂的算法
数据成果
数据资产被不断的技术,从而产生数据成果
数据成果的传递通路
数据成果通过各种通路传递给业务人员或者应用系统,应用系统自动运转或再结合业务场景传递给业务人员
数据大脑的评价模型
算力
数据存储量级
数据计算模型
对业务的支撑程度
企业的依赖程度
2.3.2 企业数据化建设的三个层次
看清业务:全面了解昨天发生的事
当前企业欠缺的一方面是数据化管理的思维,另一方面是相对公允的业务指标体系模型
企业数据化就是把一个个岗位,一个个层级用数据模型客观描述的过程
一个业务数据化了,一个岗位的行为模型数据化了,就标志着这件事情的管理难度降低了
用数据看清业务的关键点
数据指标体系的设计难度
对业务的深入认知
我们对业务的理解和认知,是最终能够设计出数据模型的最核心关键点
数据化思维和模型构建
业务团队对指标体系的认可和管理难度
个人的抵抗
每个岗位和业务场景的负责人可能不会主动交出数据业务化的控制权
企业数据化是一个需要顶层设计的整体性工作
高层管理者的支持
不能将本级的考核模型设置权限交给自己来完成
洞察细节:敏捷掌控当前发生的事
数据感知业务细节
业务监控预警
库存消息动态提醒
挖掘新的数据
车码合一
智慧智能:对未来的事情提出预测和建议
智能组货建议
网站购物者黄牛指数
2.3.3 企业数据化建设的五个部分
数据资源
利用好现有的交易数据
行为信息
外部数据服务的丰富
数据资产
与数据资源相比,数据资产更容易被数据应用获取和进行数据开发
打破了数据孤岛
统一数据模型
数据之所以从资源变为资产,就是因为构建了统一的数据模型,尤其在维度表层面,进行了整体的统一
便于开发和支撑数据应用
数据应用
形式
传统报表
分析主题
数据挖掘
大数据和机器学习建模
API
定义
凡是为各个业务环节,业务场景中对应的人或者机器提供增值数据服务的过程都已可以称为数据应用
关注
数据提供对不对
是否及时
使用方便
是否可以产生
有没有基础数据支撑
计算难度
数据治理
存在于各个层面
数据运营
主要消除业务和数据间的鸿沟
2.3.4 企业数据化建设的七种价值
提升效率
利用车辆行驶轨迹判断营运车辆
降低成本
基于集团统一物料编码的采购寻源、寻价
增加收入
多业态集团型企业内部交叉营销
控制风险
基于统一客商编码体系的付款风险控制
管理创新
基于员工行为数据的人员效能评估或者离职预测
业务创新
数据业务化
2.4 企业数据化的现状与问题
2.4.3 数据资产
企业的数据资源盘点缺失,数据资产分散
数据资产层不够健壮,数据应用经常跨过数据资产层直接在数据资源层获取数据
数据仓库模型建设不够健壮
数据偏重于传统交易数据,行为数据收集不足
2.4.4 数据应用
企业整体数据化建设应该要是以企业全局视角构建的
企业需要以全局视角构建业务统计的指标体系,保持稳定
传统的指标、报表输出有重要的作用和价值
将指标的定义和计算口径纳入管理体系
新应用更加关注行为数据和实体画像的微观分析
2.4.5 数据质量
在进行数据治理之前,企业需要明显哪些问题属于数据质量问题,是可以通过技术手段识别并解决的
企业需要针对不同数据类型表现出来的数据质量问题简历数据质量校验规则库,对历史数据进行校验,同时建立数据质量预警平台,对新数据产生的问题进行及时预警
常见的数据质量问题
基础数据的数据质量问题
一个实体采用多条数据描述,不能做到一物一码
实体属性定义混乱、不标准,采用多头定义,内部有冲突
属性值空缺严重或与定义不符合
交易数据的数据质量问题
数据内容与预先设定的数据模型不符合
数据内部缺失或者前后矛盾
实体行为的数据质量问题
数据大规模缺失
数据噪音较大
指标与表情的数据质量问题
定义、统计口径、技术计算口径不公开透明,采用多头计算
缺乏全局公认的指标体系
2.4.7 数据技术与产品
传统数据技术与产品的不足
非结构化数据处理能力不足
实时处理能力不足
科学算法能力不足
数据可视化能力不足
缺乏商业化的大数据开发平台
3 数据中台概述
3.1 数据中台是什么
定义
介于分布式数据仓库和企业全面数据化中间的任意一个点都可以被定义为数据中台
3.1.1 数据中台应该告诉企业全面数据化是什么样子的
数据中台要能完整的描述企业业务
从组织、岗位、职责方面描述企业业务
从规章制度、业务规范等方面描述企业业务
从业务流程及业务场景层面描述企业业务
数据中台要从企业业务现状和业务发展目标入手,规划企业的数据应用场景,并让这些场景与组织岗位、业务场景、业务流程相关联
企业要构建规范、清晰的业务指标体系与实体标签体系,并将具体的指标和标签与数据应用相关联
企业需要根据数据资产和业务系统现状,要对规划的数据应用进行价值评估,以及优先级排序
企业需要构建数据应用规划体系
数据的供给和业务的需求是没有尽头的,所有要构建一个可以持续规划的体系,以便持续产出规划内容
3.1.2 数据中台应该汇聚全域数据
建设数据中台最重要的是构建处于中间位置的数据资产层,汇聚所有企业内的数字化数据
梳理数据资源
数据中台全域数据可以在数据资源全面盘点的基础上根据使用目的分批进入
制定模型设计规范和开发规划
构建完整的数据仓库模型
选用合适的数据仓库产品
进行数据中台技术架构设计
数据中台架构
兼容原来的数据仓库产品
是否部署在云上
数据中台和其他应用的交互关系
进行数据抽取、清洗、开发
支持数据应用建设
让数据应用的开发部门在数据中台内部完成开发
3.1.3 数据中台应该能够检验数据治理的成果
不鼓励在数据中台上做过度的数据清洗和包装
数据治理内容
基础数据的数据治理检验
检验数据是否有多个源头,是否做到了一物一码
检验数据属性的定义是否清晰
检验数据内容是否与数据属性的定义一致
业务交易数据的数据治理成果检验与校正
检验交易数据的模型定义与当前数据内容是否相符
判断数据完整度
检验某个数据属性内的数据是否异常
检验一条记录中的数据内容是否与业务逻辑关系冲突
实体行为数据的数据治理成果检验与校正
实体行为数据的治理可以被理解为降噪
如果数据质量低于可使用的情况,要求数据源头参与治理
业务指标与实体标签的定义与规范管理
业务指标和实体标签散落在企业中的各条业务线与业务部门之中,统一的定义和管理是对企业业务数据化的一次大动作
3.1.4 数据中台应该全面支持数据应用落地
数据中台并不直接产生数据的应用价值或者业务价值,绝大多数业务价值是由数据应用产生的
数据中台的价值可以通过它对数据应用的支持间接衡量
在实施数据应用之前做好数据情况判断
在实施数据应用之中提供数据开发环境
在实施数据应用之后进行数据任务的监控和维护
3.2 数据中台的价值与建设的必要性
3.2.1 数据中台是数据化建设的基础
解决了全域数据汇聚的问题
3.2.2 数据中台是企业数据化建设的引擎
3.2.3 数据中台将各个部分的数据工作有机串联
3.3 数据中台建设五步法
数据资源的判断与规划
对现有数据资源盘点和统计
对企业可以拥有或者应该拥有的数据资源进行规划
构建盘点体系并使用必要工具,保证盘点的成果能够始终与真实情况相符
数据应用规划与设计
企业中有哪些数据需求
企业应该构建哪些数据应用
应该按照什么顺序实现这些数据应用
数据应用评估模型
是否可以实现
业务价值
实现成本
数据资产建设
数据资产是企业在全面数据化建设前期投入最多,见效最慢的基础层模块
技术建设
产品选型
技术架构设计
标准和数据仓库模型构建
建模及开发规范
数据建模
数据抽取、数据开发、任务监控与运维
数据质量校验
数据应用支撑
数据应用的详细设计与实现
数据应用开发与传统信息化应用开发的不同
数据应用关注数据源的内容和质量
大部分落地失败的数据应用,都是由数据源的各种问题引起的
复杂的数据开发需要不断调优和迭代
数据应用的结果数据的验证工作量占比高
算法类项目需要提前构建成果评估模型,首先获得甲方的认可,才能开始进行数据开发
数据应用的运维难度大
数据应用的成果需要运营
数据化需要一个具有同等战略高度的组织负责推进
组织是保障数据中台顺利落地的一个核心
数据化组织规划
4 数据资源盘点与规划
目的
盘点:了解数据资源的现状
规划:让企业知道还有哪些数据是可以使用的
4.1 数据资源盘点
4.1.1 数据资源分类
按数据格式划分
按存储形式划分
按数据描述内容划分
按数据归属地划分
按主题划分
4.1.2 数据资源盘点流程
盘点应用系统数据库中的数据
进行企业应用系统统计
了解系统所使用的数据库
获取数据库的数据字典
了解数据库表的含义
元数据记录
盘点文件服务器中的文件数据
统计文件服务器
了解文件内容和使用部门
从元数据视角进行数据资源统计
盘点中间件产生的日志数据
数据库日志
中间件、系统日志
其他日志
盘点数据服务中的数据
ESB发布的数据
应用系统发布的数据
外部数据服务中提供的数据
盘点网络和生产设备中的数据
流数据
IOT数据
盘点散落的数据
工作电子文档
电子版合同
4.1.3 数据资源盘点的成果
元数据列表、分类和属性
数据库中的元数据列表、分类和属性表
文件/文件夹中的元数据列表、分类和属性表
数据资源盘点统计
数据的整体情况
整体数据量情况
按照数据分类统计的数据量情况
按照数据分类统计的数据增量情况
数据明细统计
某个元数据的数据量统计
某个元数据的数据增量统计
数据属性内容覆盖度统计
线上数据资源盘点工具
4.2 数据资源规划
4.2.1 实体行为数据资源
埋点数据
辅助盘点用户运营机制是否合理
探索应用或产品设计的合理性和便利性
分析用户行为过程,挖掘用户流失原因
分析不同渠道的用户行为差异
爬虫数据
舆情监测
价格监测
渠道价格
竞品价格
IOT数据
智慧门店
门店实时信息展示
商品陈列方案优化
智慧水务
水表漏水分析
用水行为分析
4.2.2 外部数据服务规划
群体画像服务
产品优化
门店选址和楼盘营销
企业信息服务
保证客户数据的准确度
风控业务
识别上下级关系
公共数据服务
5 数据资产建设
5.1 数据资产建设概述
5.1.1 前期准备
正确的数据观
5.1.2 数据资产建设方法论
5.1.3 数据资产建设的步骤
产品选择
技术方案设计
数据资源了解
数据仓库模型设计
数据开发规范制定
数据仓库建设
数据应用支撑
5.1.1 前期准备
正确的数据观
出发点是考虑如何将业务通过数据形式展现出来
数据业务化是指在处理数据和应用数据时落脚点应该在业务上
那些能够解决场景需求,带来业务价值的数据就可以成为数据资产
前期需要详细的调研(业务,数据)
数据域设计
对业务的整体理解最终会反映在数据域的设计上
合理的数据域设计一方面体现设计人员对整体业务的理解,另一方面也会对数据归集和开发进行预先的数据划分与准备
5.1.2 数据资产建设方法论
识别三种对象(根目录)
人
动作的发起方
物
动作的承受方
关系
行为的一种抽象
关联发起方和承受方
建设数据类目体系
反映了建设者对企业原生数据的理解,是稳定的,不应经常发生变化
建设方式
按业务场景和业务流程组织
按物组织
按人组织
设计主题域和类目体系
5.2 产品选型与技术方案设计
5.3 数据模型设计规范
5.3.1 基本设计思路
数据模型是抽象描述现实业务的一种工具,是通过抽象的实体及实体之间的关系的形式表示现实世界中事物相互关系的一种映射
数据模型表现的是抽象的实体和实体之间的关系,通过对实体和实体之间关系的定义,来表达实际业务中具体的业务关系
数据模型架构
ODS操作数据存储层
从业务系统过渡到数据仓库核心层的操作数据的存储层
数据结构与业务系统基本一致,不做长时间数据存储
CMD公共维度模型层
DWD明细宽表层
维度和事实属性、度量信息融合所生成的明细宽表层
为后续的DWS层提供基础,也可以在DWS层无法支撑需求时直接为ADS层提供数据
其核心逻辑的变动要对下游保持尽可能的透明
DWS公共汇总数据层
面向分析主题建模
为ADS层提供足够的灵活性和扩展性的基础
ADS应用数据层
5.3.2 主题域设计
主题域是指面向业务分析,将业务过程或者维度进行抽象的集合
一般将企业业务核心的实体和经验过程概括为主题域
业务过程为不可拆分的行为事件
需要对企业核心业务系统的业务流与数据流进行详细的调研和梳理,才能设计出符合实际应用的数据架构
5.3.3 数据模型开发规范
数据要干净、有效
模型可扩展
禁止逆向调用
数据可回滚
成本控制
5.5.5 数据表的设计策略
DWD
根据业务过程来定义并建立事实表,在事实表内描述业务过程对应的原子粒度的事物信息
通过元数据系统查询判别当前建模对应的业务过程是否已有DWD层事实表,把相同业务过程的度量指标维护在同一个基础层模型表内
DWD层大维度表上的常用统计属性可以冗余到事实表中,以便引用和关联
DWS
确定DWS层模型所对应的维度和度量信息
确定对度量进行的衍生计算方式,如求和统计,去重统计
确定数据的刷新周期
5.4 数据开发规范及数据开发
5.4.1 数据开发规范
代码书写规范
代码结构规范
任务命名规范
代码格式统一
时间格式统一
函数使用建议
代码开发建议
周期调度配置
参数配置说明
动态分区的使用
任务发布规范
任务运维规范
数据质量稽核规范
5.4.2 数据采集
数据采集是指从不同的数据存放介质中将数据同步至数据中台,可以称为数据集成,数据同步,数据上云
准备工作
数据源分类
根据数据及时性要求,确定采集的技术组件
确定网络信息和环境信息
调研数据内容
调研数据质量
调研数据范围
技术架构
同步流程
5.4.3 数据开发
任务
脚本
资源
函数
流程
工作流
6 数据应用规划与建设
6.1 数据应用规划
企业业务架构描述
数据应用场景规划
数据应用规划应该清晰的描述数据应用,并描述数据应用所支持的业务场景和相关部门及岗位
指标体系和标签体系规划与管理
数据应用场景是一组业务指标或者实体标签的集合
数据应用建设评估
业务价值
工作量
业务优先级别
实现难易程度
可行性
6.1.1 企业业务架构梳理
企业业务架构梳理的目的
我们如何通过各种企业信息的收集和相对结构化的信息描述了解企业的业务运转全貌是一个重要的课题
当前主要通过企业组织架构信息描述和企业业务场景用例描述来对企业的业务进行描述
企业组织架构信息
以资料收集加关键部门和岗位访谈的方式进行信息收集
公司-部门-岗位
从组织的视角对企业业务运转有整体的理解
企业业务场景用例
内容
参与者
用例业务范围
主场景
分支场景
子业务场景用例
用例基本信息
编制方法
职责分解法
企业价值链
得到企业最宏观层面的业务场景用例
企业业务场景用例目录
6.1.2 数据应用场景规划
数据应用的分类
按呈现方式分类
按研发技术分类
按应用方向分类
按应用大小分类
数据应用规划的原则
优先构建规划体系,分批进行应用规划原则
业务需求与专家经验结合原则
业务价值优先原则
创新性原则
数据应用描述示例
数据应用的基本信息
数据应用实现的设计
数据应用所需要的数据资源
数据应用所支撑的业务场景及外部依赖
6.1.3 业务指标和实体标签体系的构建与管理
企业的业务指标体系往往是面向一个或几个具体的管理目标而制定的,在确定了具体的分析或描述目标后,和业务指标体系构建就变成了一个渐渐明晰,从抽象到具化的过程
对业务指标进行梳理,围绕企业的核心价值链展开——最耗时
寻找关键部门的KPI指标
紧扣所要描述的关键业务的核心业务流程
业务流
数据流
管理流
对梳理好的业务指标按照口径进行定义
伴随着内部管理问题的处理(统一口径处理)
进行应用分析,发现业务指标背后的更多信息
用户画像和用户实体标签的关系是整体和局部的关系,这种关系是通过标签体系体现
实体标签的构建
梳理规划
规范定义
数据同步
oneDate体系建设
实体标签体系设计与研发
应用于监控反馈
6.2 数据应用建设
主要形式
依托数据分析产品展现
可视化大屏展现
定制化开发展现
以数据API形式展现
7 数据应用之最佳实践
7.1 房地产行业的数据应用方案
价值链
可行性研究
市场调研
可行性分析
项目评估决策
拿地
项目投标
项目中标
设计
项目开发计划
产品策划
项目策划
产品设计
建造
采购与供应的计划及管理
施工前期准备
现场管理
技术管理
竣工验收
营销
营销计划
营销推广
转物业及项目复盘
物业交付
营销评价
管理评价
经济评价
典型数据应用
产品复盘
房地产楼盘产品复盘
业主画像
楼盘周边洞察
定向营销
渠道洞察、敏捷营销
营销效果评估
购房意向的实时评估
置业顾问效能分析
置业顾问效能与客户资源匹配
群诉预警
基于画像的业务交叉营销
7.2 鞋服行业的数据应用方案
营销侧需要解决的核心问题
广泛的数据采集与整合
标签体系构建和优化
算法能力建设
数据资源困局
终端数据采集不完整
终端零售统统掌握在渠道代理商手里,这也是品牌商无法真正接触终端消费者的根本原因
内部塑数据资源不统一
这个问题通常与组织建设有关,与企业内部利益分配有关
围绕店货匹配构建数据应用蓝图
构建面向设计师、买手、店长这几个关键角色的数据应用
赋能设计师客观了解市场和消费者
卖点分析
赋能买手实现智能组货
核心解决的是订货会阶段买手经验的问题
属于算法类应用,需要一个时间窗口来验证算法的有效性,并需要终端反馈信息来不断矫正算法中的参数
赋能店长高效引流
门店数字化运营
7.3 乳制品行业的数据应用方案
以消费者深度运营为目标建设乳制品行业数据应用
消费者画像
异常积分行为监控
7.4 新零售营销的数据应用方案
基于场景的精准营销
线下门店智能发券
线下门店竞品价格分析
7.5 人力资源领域的数据应用方案
属于领域类业务,即不太受行业业务限制,在各个行业内都有一定通用性的业务
选
岗位职能规划
人才选择
人才引进
用
入职培训
人员日常管理
育
业务培训
人员成长力测评
职业发展规划
留
人员加薪及晋升
人员激励
考
业务考核
能力考核
高潜力人员评估
人员离职预测
8 数据化组织规划
公司内部的数据化组织就是公司里的“东厂”
掌握企业所有的数字化数据
掌握当前最新的数据化建设技术
做企业业务优化的促进者
成为企业创新的支撑者
推动企业全面数据化建设
数据化组织的三大知识体系
掌握数据技术
深入了解企业业务
众多数据化解决方案和用数据解决业务问题的能力
9 数据中台与数据质量
可以把数据中台理解成一台数据机器
数据质量是数据治理体系中的一个子集,是和数据中台关系最大,最直接的一个部分
9.1 数据质量的常见问题
数据质量
准确性
合理性
一致性
重复性
及时性
完备性
数据类型
实体数据-主数据
交易数据
行为数据
业务指标和实体标签数据-统计结果数据
数据质量的提升以往的做法是在数据仓库中进行各种清洗操作,治标不治本
9.2 数据模型规范提升数据质量
数据定义梳理
数据属性定义梳理
数据分类梳理
需要特殊注意的几个场景
主数据的颗粒度问题
主数据的编码问题
9.2.1 数据的定义
主数据的定义
主数据的定义要让我们知道描述的实体是什么,范围有多大
交易数据和行为数据的定义
至少要包括清晰的时间,地点,人物和明确的行为内容
业务指标和实体标签的定义
详细阐述业务的计算口径和技术层面的计算口径
指标名称
指标定义
计算公式
业务口径
所在系统
指标定义部门
数据出口部门
数据模型的数据属性
在进行数据模型定义的时候,一方面要注意数据模型本身的定义,另一方面要注意数据属性的定义
9.2.2 数据的分类
在多视角需求时,制定多个分类方法
在种类繁多的时候,使用多级分类,且避免多重视角
9.2.3 数据的颗粒度
当某类数据既作为主数据又作为类别数据的时候,就要关注数据的颗粒度问题了
通常来说,人员数据,客户主数据,供应商主数据,组织主数据都不存在颗粒度问题,因为这些主数据描述的客观对象如果是一个就是一个,而物料主数据,产品主数据,资产主数据则都存在颗粒度问题
我们可以通过规定数据的“唯一属性组”来解决分类颗粒度的问题
9.2.4 数据的编码
数据的编码问题通常发生在主数据上,交易数据和行为数据已经大量采用了流水编码的方式,而业务指标和实体标签数据基本不存在编问题
建议编制流水码
让编码仅承担唯一性标识的功能,把其余信息在属性中体现
把众多属性信息放在数据属性中记录
不需要把属性信息编入编码
可以生成助记码
9.3 数据管理提升数据质量
梳理工作应该着重于主数据和交易数据,因为很多行为数据是机器采集而被动产生的
数据和数据属性存在多头管理
没有数据管理流程和标准
没有对数据管理要求和惩罚机制
缺乏技术上的监督和保障
建立数据管理组织
对企业的关键主数据而言,数据管理组织的建立更重要,因为这些数据(客商、产品、物料、项目)的全生命周期伴随企业经营的完整过程,往往是跨部门,跨业务流程的
9.4 数据共享提升数据质量
如果业务系统之间的业务单据能够直接对接形成闭环,就可以大幅减少在系统之间人为传递数据的工作
数据共享工作主要存在三个问题
业务数据如何传递
通过数据服务进行系统之间的数据集成
数据推送
数据拉
数据拷贝
基础数据如何保持一致性
主数据管理体系
统一的标准
统一管理系统或者入口
数据在系统之间的共享
如何通过技术手段监督多版本数据的一致性
如果发现某个数据,尤其是主数据保存在多个应用系统中,就可以把其存储在数据仓库中,同时使用技术手段对它的一致性进行监控
9.5 清洗历史数据提升数据质量
9.5.1 数据清洗的目的和策略
在企业范围内将所有数据找全
把属性填全
修改错误属性的数据
9.5.2 数据清洗的范围和组织
数据清洗的责任部门的指定
建议数据的对口管理部门就是数据清洗的责任部门
数据清洗范围的约定
9.5.3 数据清洗工具
数据排重
数据格式转换
数据内容校验
对缺失数据进行补录,修改错误数据
9.6 主数据管理提升基础数据质量
9.6.1 人员主数据管理
建议选取在各个系统中都需要,有共享需求的属性优先定义为人员主数据的属性
人员主数据的管理应当重点关注历史数据的清洗和数据在系统之间的共享
特点和主要问题
属性的选取问题
以保证人员数据的通用属性在全局的共享和一致性为首要任务,对于其他业务属性甚至标签等信息可以以数据服务的方式对全局提供
信息一致性问题
人员兼职,多岗位问题
9.6.2 账户主数据管理
账户主数据管理的前提是希望一个实体人员对应一个账户
账户主数据通常由信息部门管理,是唯一一个信息部门尅全权负责管理的主数据
账户开通时账户主数据应当与人员主数据保持联动
管理要点
大部分账户主数据来源于人员主数据
在账户主数据中,可以冗余设计一些人员信息字段
账户主数据需要在主数据管理系统中单独管理或者在账户管理系统中单独管理
9.6.3 组织主数据管理
管理要点
区分企业中各种业务维度所形成的组织,为每一个维度建立组织主数据
以行政组织主数据为主体,其他维度组织主数据与行政组织主数据进行映射
每种组织主数据及它们之间的映射关系都作为主数据进行管理
9.6.4 客商主数据管理
如果企业的规模比较小,生产链上的角色划分相对清晰,并且供应商和客户在各自的业务上交集比较小,建议分成两个主数据来管理
如果企业规模比较大,就合并成一个对象来管理
客户定义主要指法人客户而非个人客户
管理要点
很难给客户主数据规定一个统一的入口
主要问题
客户主数据的数据收集存在困难
有时无法为客户数据指定一个统一的入口
客户管理和客户关键信息的管理具有敏感性,仅仅凭借技术手段是无法单独完成数据合并的,需要辅助以完善的管理流程和制度
客户交易数据汇聚、行为数据汇聚、行为分析、客户画像是进一步的业务需求
供应商主数据管理以企业的供应商管理流程、管理制度为基础
9.6.5 顾客主数据管理
特指C端的顾客
特点
属性众多、分析模型多样
顾客信息的唯一性是个相对概念
顾客间的关系信息也应当是我们关注的内容
技术特点
数据量大
实时性要求高
数据合并复杂
标签计算复杂
9.6.6. 产品主数据管理
产品主数据在很多项目中是最核心的主数据,企业在这个主数据上花费的时间和精力,甚至已经超过了其他几个主数据之和
在众多主数据中,产品主数据是成熟度最低的主数据
判断主数据成熟度的方法
定义是否清楚
能不能数的清楚数据数量
数据在全局的共享程度如何
如果能够将产品主数据进行清晰的定义,数据的颗粒度问题就会随之解决,同时需要一个全局的颗粒度规定,在这个颗粒度的定义下,可以清晰的回答产品数量的问题
产品属性定义建议采用全属性定义
在产品的全生命周期中涉及的各个业务部门所管理和维护的属性都需要纳入产品主数据属性
9.6.7 项目主数据管理
9.6.8 资产主数据管理
资产主数据模型在不同行业中不具备通用性
9.6.9 物料主数据管理
物料主数据是一种类别主数据,而不是实体主数据
物料分类很难做到多实体全覆盖和不交叉
物料主数据为树形结构
10 数据中台建设
数据中台的策略选择
策略1
以数据中台的咨询和设计工作启动企业数据化建设——规划先行,优先设计
策略2
通过直接建设数据资产层支撑企业数据化建设
中台为主,构筑平台
策略3
以数据应用试点的业务价值推动企业数据化建设
应用切入,价值引导
整体流程
前期沟通
企业介绍及了解
通用方案介绍
微咨询
业务调研
IT调研
数据应用调研
定制方案与汇报
数据中台项目启动及环境搭建
数据中台项目的启动及系统部署
技术方案的确认
环境搭建
数据应用设计、数据仓库设计
数据应用设计
数据仓库设计
数据开发、数据应用开发与数据结果核对
数据开发
绝大部分的开发都将在数据仓库中完成
数据应用开发
数据结果核对
数据运营
数据中台的建设风险及应对方法
对数据中台的清晰认知和定位才是数据中台建设的最大风险点
数据的集中也意味着权限的集中和某些职能的转移
即使最底层的员工,对自己工作行为数据的守护也是一种本能的反应
在企业数据化建设中,大量的博弈都源自数据所有权,企业只有认清了这个本质才能够顺利的开展数据中台项目
11 数据中台的软件支撑
数据中台的技术支撑产品应当具有以下特点
一站式
可视化
大数据平台
平台的整体架构
计算存储引擎
离线:spark
实时:flink
数据开发平台
离线开发套件
实时开发套件
数据科学平台
数据资产平台
数据资产管理套件
数据地图
元数据管理
数据查找
数据表的元数据管理
数据血缘解析
数据管理
数据类目管理
数据审批授权
生命周期管理
数据脱敏管理
数据质量管理套件
数据服务引擎
数据应用规划产品
数据共享服务平台
数据分析引擎
标签引擎
0 条评论
下一页