华为数据之道-XMIND
2021-11-12 14:45:41 6 举报
AI智能生成
华为数据之道-XMIND
作者其他创作
大纲/内容
第一部分
非数字原生企业再数字化转型方面面临的挑战
非数字原生企业再企业成立之时,基本都是以物理世界为中心构建的。大部分企业再创建的时候,是围绕生产、流通、服务等具体的经济活动展开的。缺乏以软件和数据平台为核心的数字世界入口
业态特征:产业链条长,多业态并存
例如华为同样形成了从研发到销售、供应、交付、运维的长链条
运营环境:数据交互和共享风险高
各个国家的进出口管制措施、环保条例、安全隐私法规等
IT建设过程:数据复杂、历史包袱重
不同版本的ERP软件和不同类型的数据库存储环境等,导致数据来源多样,难以集中共享,也不敢随意改造或者替换
数据质量:数据可信和一致化的要求程度高
数据产生时的质量高低不仅直接影响产品质量,而且直接影响整个内部业务的运作效率和成本
数字原生企业再设立之初就是以数字世界为中心构建的,生成了以软件和数据平台为核心的数字世界入口
华为再数据治理和数字化转型方面的目标、愿景、蓝图和框架
华为的数字化转型和数据治理
华为数字化转型整体目标
实现全链接的智能华为,成为行业标杆作为华为的数字化转型目标
对内,各业务领域数字化、服务化、打通跨领域的信息断点,达到领先于行业的运营效率。
对外,对准五类用户的ROADS体验,实现与客户做生意 时候更简单,更高效,更安全,提升客户满意度。
ROADS
RealTime实时
OnDemand按需
AllOnline全在线
DIY自助
Social社交化
华为数字化转型蓝图及对数据治理的要求
举措1:实现“客户交互方式”的转变,用数字化手段做厚,做深客户界面,实现与客户做生意更简单、更高效、更安全。
举措2:实现“作战模式”的转变,围绕两大业务流,以项目为中心,对准一线精兵团队作战,率先实现基于ROADS的体验。
举措3:实现“平台能力”提供方式的转变,实现关键业务对象的数字化并不断汇聚数据,实现流程数字化和能力服务化,支撑一线作战人员和客户的全联接。
举措4:实现“运营模式”的转变,基于同意数据底座,实现数字化运营与决策,简化管理,加大对一线人员的授权。
举措5:云华、服务化的IT基础设施与IT应用,同意公司IT平台,同时构建智能服务。
华为的数据治理历程
2007-2015年
持续提升数据质量,减少纠错成本
通过数据质量度量与持续改进,确保数据真实反映业务,降低运营风险
数据全流程贯通,提升业务运作效率:通过业务数字化,标准化,借助IT技术,实现业务上下游信息传递、共享。
2017年至今
业务可视,能够快速,准确决策:通过数据汇聚,实现业务状态透明可视,提供基于“事实”的决策支持依据。
人工智能,实现业务自动化:通过业务规则数字化,算法化,嵌入业务流,逐步替代人工判断
数据创新,成为差异化竞争优势,基于数据的用户洞察,发现新的市场机会点。
华为数据工作额愿景和目标
愿景:实现业务感知,互联,智能和ROADS体验,支撑公司数字化转型
目标:清洁,透明,智慧数据,使能卓越运营和有效增长
华为数据工作建设的整体思路和框架
数据工作框架
数据源
业务数字化时数据工作的前提,通过业务对象,规则与过程数字化,不断提升数据质量,建立清洁,可靠的数据源
数据湖
通过物理与虚拟两种入湖方式,汇聚华为内部和外部的海量数据,形成清洁,完整,一致的数据湖。
数据主题联接
通过五种数据联接方式,规划和需求双驱动,建立数据主题连接,并通过服务支撑数据消费。
数据消费
对准数据消费场景,提供同意的数据分析平台,满足自助式的数据消费需求。
数据治理
为保障各个业务领域数据工作的有序开展,需建立统一的数据治理能力,如数据体系,数据分类,数据感知,数据质量,安全与隐私等。
企业政策和架构协同的角度,介绍企业级数据综合治理体系,理顺了数据与变革、运营、IT之间的协同关系,明确了数据管理的责任主体在于业务
建立公司级的数据治理政策
华为数据管理总纲领
信息架构管理原则
建立企业级信息架构,统一数据语言
所有变革项目需遵从数据管控要求,对于不遵从要求的项目,数据管控组织拥有一票否决权
应用系统设计和开发遵从企业级信息架构
数据产生管理原则
数据规划对其业务战略,业务战略规划必须包含关键数据举措
公司数据OWNER拥有公司数据管理的最高决策权。各数据owner承担数据工作路标,,信息架构,数据责任机制和数据质量的管理责任。
关键数据需定义单一数据源,一点录入,多点调用。
谁生产数据,谁就对数据质量负责。数据Owner负责基于使用要求指定数据质量标准,且需要征得关键使用部门的同意。
数据应用管理原则
数据应在满足信息安全的前提下充分共享,数据产生部门不得拒绝跨领域的,合理的数据共享需求。
信息披露,数据安全管理,数据保管和个人数据隐私保护等必须准售法律法规和道德规范的要求。
数据问责与奖罚管理原则
数据owner应建立数据问题回溯和奖惩机制。
信息架构管理政策
管理信息架构的角色和职责
公司数据owner负责批准企业级信息架构,裁决重大信息架构问题和争议。
各数据owner负责其所辖数据的信息架构建设和维护,承接及落实公司的数据规划要求。
公司的数据管理专业组织作为数据工作的支撑组织,负责组织信息架构的建设,维护,落地及遵从管控,负责协调跨领域的信息架构冲突。
数据管控组织作为信息架构专业评审机构,确保信息架构的质量和集成。
信息架构建设要求
关键数据应被识别,分类,定义及标准化,数据的定义再公司范围内应当唯一,数据标准制定要考虑跨流程要求。
数据资产目录必须承接公司各个业务环节的使用需求和报告分析最小粒度的要求。
信息架构驱动应用架构设计,合理规划数据分布
应用系统数据库的设计和开发要遵循信息架构,减少数据冗余,实现接口标准化。
信息架构遵从管控
变革项目必须遵从已发布的信息架构i,变革项目的交付件须包含信息架构内容。
业务流程设计必须遵从已发布的信息架构。再流程说明文件,操作指导书或者模板文件中体现。
应用系统设计必须遵从已发布的信息架构。
数据源管理政策
数据同源是华为数据治理的核心观点之一
数据源管理原则
所有关键数据必须认证数据源,关键数据是指影响公司运营,经营报告的数据,在公司范围内统一发布。
数据管理专业组织为关键数据指定源头,数据源必须遵从信息架构和标准,经信息架构专家委员会认证后成为数据源。
所有关键数据仅能在数据源录入,修改,全流程共享,其他调用系统不能修改。下游环节发现的数据源质量问题,应当在数据源进行修正。
所有应用系统必须从数据源或者数据源镜像获取关键数据。
数据owner确保数据源的数据质量,对不符合数据质量标准的数据源,必须限期整改
数据源认证标准
数据源是在信息链上正式发布数据的第一个数据存储系统
数据源是某项数据唯一的录入点
数据源必须是数据维护最为及时,正确,完整的数据存储系统
数据源所在系统的性能和可用性应当满足其他调用系统的数据访问需求。
数据质量管理政策
数据质量的持续提升是华为数据治理的核心目标
数据质量管理职责及要求
各数据owner负责保障所辖数据的质量,承接公司数据owner设定的数据质量目标,,指定数据质量标准及评测指标,持续度量与改进。
公司全员在业务执行过程中应确保业务记录满足数据质量要求。
财经各级CFO组织应遵循职业道德准则,诚实记录和报告财经数据,承担财务监控和及时报告的职责。
公司各级数据管理专业组织为数据owner提供数据质量管理专业支撑。
内控组织将数据质量管控要素的执行情况纳入半年度评估范围,推动数据质量问题的闭环管理。
内审部门作为独立机构,负责重大数据问题的审计和责任回溯。
数据质量管理的业务规则和管理要求
流程建设应考虑数据质量要求,,将数据的关键质量控制要素纳入关键控制点
数据owner负责基于使用要求指定数据质量标准,且需征得关键使用部门的同意
数据创建应确保录入正确,关键数据应复核或审批。
对影响关键经营指标的数据造假行为,采取零容忍态度
上有缓解应保证数据的真实,完整并及时传递到下游环节。
因外部因素频繁变化的基础数据,(如汇率)等,数据owner应及时维护并同意发布最新数据。
数据质量应持续进行度量。数据owner应主动解决长期影响业务运营和经营管理的数据问题。
报告与分析的层级和最小粒度应适度,能与最小业务信息单元相匹配。
融入变革,运营与IT的数据治理
建立管理数据流程
L1:管理BT&IT
L2:管理数据
L3:管理信息架构管理数据质量管理数据分析
管理数据流程与管理变革项目,管理质量与运营
通过变革体系和运营体系进行决策
数据治理融入IT实施
通过内控体系赋能数据治理
建立业务负责制的数据管理责任体系
任命数据owner和数据管家
公司数据owner职责
制定数据管理体系的愿景和路标
传播数据管理理念,营造数据文化氛围
建设和优化数据管理体系,包括组织与任命,授权与问责等。
批准公司数据管理的政策和法规
裁决跨领域的数据及管理争议,解决跨领域的重大数据及管理问题。
各级数据owner职责
负责数据管理体系建设
负责信息架构建设
负责数据质量管理
负责数据底座和数据服务建设
负责数据争议裁决
建立公司层面的数据管理组织
数据管理组织中哥哥组织的职责和分工
体系建设者
负责数据管理的战略,规划,政策,规则的制定
负责数据管理体系建设
数据架构及核心数据资产管理
确保公司数据质量水平
能力中心
构建数据管理的方法,工具,平台
负责专业能力的开发和建设,包括数据架构,数据分析,信息管理,数据质量管理
业务的数据伙伴
面向业务,,提供数据解决方案,解决业务数据痛点
支撑业务数据需求
向业务提供标准化的主数据或基础数据服务
文化倡导者
在公司范围建设追求卓越,“谁创建数据,谁就对数据负责”的文化
用数据支撑业务决策的文化
不同类型的数据管理方式和要点
给予数据特性的分类管理框架
按产生部门
内部数据
外部数据
按数据特性
结构化数据
基础数据(参考数据)
主数据
事务数据
报告数据
观测数据
规则数据
非结构化数据
不同类型数据治理的侧重点
基础数据
重点在于变更管理和统一标准管控
信息架构建设
完善信息架构建设,持续识别基础数据并纳入管理
外部协同有效性,使得对外部世界的描述统一
数据内容管理
管理基础数据版本,管理基础数据的关联及映射关系
业务场景数字化,结构化分流业务场景,提高业务敏捷性
数据内容看护
基础数据内容变更纳入日常管理
业务规则自动化,简化业务规则判断,业务规则可配置
数据使用更规范
建设基础数据服务,提供给各个消费场景
业务分析准确性,减少分析前的清晰和转换,支撑E2E的业务分析和决策
主数据治理
主数据的最重要管理要求是确保同源多用和重点进行数据内容的校验。
主数据管理策略
唯一性
主数据英代表企业中的某个业务对象的唯一实例,以应对真实世界的对象。
联邦管控
联邦管控模型代表在中央制定政策,标准和模型,在地方由数据管家和用户一起在流程的各个层级中来实施这些政策,标准和模型。
单一数据源
为确保数据跨系统,跨流程的唯一性和一致性,需要为每个属性的创建,更新和读取确定一个应用系统作为数据源。
数据、流程、IT系统
正确的数据需要在正确的流程中创建,更新和使用,并在正确的应用系统中落地,这种协同讲确保全公司范围内的数据质量。
事前的数据质量策略
应该在数据创建阶段就主动管理数据质量,而非在问题出现后被动解决。
主数据集成消费框架
数据消费层
包括所有消费数据的IT产品团队,负责提出数据集成需求和集成接口实施。
主数据服务实施层
负责主数据集成解决方案的落地,包括数据服务的IT实施和数据服务的配置管理
主数据服务设计层
为需要集成主数据的IT产品团队提供咨询和方案服务,负责手里主数据集成需求,制定主数据集成解决方案,维护主数据的通用数据模型
管控层
由信息架构转接担任,负责主数据规则的制定与发布,以及主数据集成争议或例外的决策。
客户数据架构优化案例
确保下游IT系统或应用不从非数据源系统集成客户数据。
确保下游IT系统或应用集成合法数据源且不修改属性。例如,修改了展现业务含义的字段,讲编码改为编号。
确保下游IT系统或应用中不补录数据
确保下游IT系统或应用不向后传递数据。
主数据的一致性带来的业务价值
实现“数出一孔”,提高数据质量。提高数据准确性及及时性。减少不同部门之间的对账成本,帮助提高财经报告等的准确性
满足内外部应遵从的要求,降低公司风险。
支持经营分析和价值评价。
支持价值挖掘,聚焦优质客户。
事务数据治理
重点在于管理好事务数据对主数据和基础数据的调用,以及事务数据之间的关联关系,确保上下游信息传递顺畅。
报告数据治理
用于报告和报表的数据可以分为以下几种
用于报表项数据生成的事实表,指标数据,维度
用于报表项统计和计算的统计函数,趋势函数及报告规则
用于报表和报告展示的序列关系数据
用于报表项描述的主数据,;基础数据,事务数据,观测数据
用于对报告进行补充说明的非结构化数据
观测数据治理
观测数据的感知方式分为软感知和硬感知
观测数据的特征
数据量较大,且为过程性,主要用于监控分析
由机器自动采集生成,例如各种传感器或探测器产生的数据
是观测工具采集回来的原始数据,仅转换结构和格式,不做任何业务规则解析
规则数据治理
规则数据的特征
规则数据不可实例化
规则数据包含判断条件和决策结果两部分信息
规则数据的结构在纵向,横向两个维度上相对稳定,变化形式多为内容刷新
规则数据的变更对业务活动的影响是大范围的
规则数据必须要有唯一的数据owner
非结构化数据管理
核心是对其基本特征与内容进行提取,并通过元数据落地来开展数据治理。
非结构化数据的元数据分类
基本特征类
参考都柏林十五个核心元数据
例如标题,格式,来源等
给予非结构化数据内容的上下文语境,解释目标文件对象的数据内容,加深对目标对象的客观理解,如标签,相似性检索,相似性连接等。
元数据管理平台通过基本特征类和内容增强类元数据进行管理管控
外部数据治理
外部数据治理的主要原则
合规优先原则
遵从法律法规、客户授权、公司政策等约束
责任明确原则
所有外部数据都需要明确管理责任主体
可审计,可追溯原则
控制访问权限,留存访问日志
受控审批原则
在授权范围内外部数据管理责任主体应合理审批使用方的数据获取要求。
元数据管理
元数据治理的几个挑战
数据找不到、读不懂,不可信
华为的元数据管理机制
确保数据“入湖有依据,出湖可检索”作为华为元数据管理的使命和目标。
元数据分类
业务元数据
用户访问数据时了解业务含义的途径,包括资产目录,owner,数据密级等
技术元数据
实施人员开发系统时使用的数据,包括物理模型的表与字段,ETL规则,集成关系等。
操作元数据
数据处理日志及运营情况数据,包括调度拼读,访问记录等。
元数据管理的价值
数据消费侧
元数据能支持企业指标,报表的动态构建
数据服务侧
元数据支持数据服务的统一管理和运营,并实现利用元数据驱动IT敏捷开发
数据主题侧
元数据统一管理分析模型,敏捷相应井喷式增长的数据分析需求
数据湖侧
元数据能实现暗数据的透明化,增强数据活性,并能解决数据治理与IT落地脱节的问题
数据源侧
元数据支撑业务管理规则的有效落地,保障数据内容合格,合规
元数据管理架构及策略
产生元数据
制定元数据管理相关流程与规范的落地方案,在IT产品开发过程中实现业务元数据与技术元数据的连接
采集元数据
通过统一的元模型从各类IT系统中自动采集元数据
注册元数据
基于增量与存量两种场景,制定元数据注册方法,完成底座元数据注册工作。
运维元数据
打造公司元数据中心,管理元数据产生,采集,注册的全过程,实现元数据运维
元数据管理方案
通过制定元数据标准,规范,平台与管控机制,建立企业级元数据管理体系,并推动其在公司各领域落地,支撑数据底座建设与数字化运营。
元数据管理
产生元数据
业务元数据设计原则
一个主题域分组下有多个主题域,每个主题域下有多个业务对象,一个业务对象下有多个逻辑实体,一个逻辑实体下有多个属性,一个属性有一个数据标准
一个数据标准可悲一个或多个属性引用,每个属性归属于一个逻辑实体,每个逻辑实体归属于一个业务对象
技术员数据设计原则
物理表设计需满足三范式,如为了降低系统的总体资源消耗,提高查询效率,可逆范式设计
物理表,视图和字段的设计需基于用途进行分类
承载业务用途的物理表,虚拟表,视图必须与逻辑实体一一对应,承载业务用途的字段必须与属性一一对应。
系统间的数据传递需优先采用数据服务。
采集元数据
选择适配器
配置数据源
配置采集任务
注册元数据
元数据注册原则
数据owner负责,谁的数据就由谁负责业务元数据和技术元数据连接关系的建设和注册发布。
按需注册,各领域数据管理部根据数据搜索,共享的需求,推进元数据注册。
注册的元数据信息安全密级为内部公开。
元数据注册规范
准备度评估
IT系统名称必须是公司标准名称
数据资产目录是否经过评审并正式发布
数据owner是否确定数据密级
物理表,虚拟表,视图名
元数据连接
逻辑实体和物理表/虚拟表/视图一对一规范
业务属性与字段一对一连接规范
注册发布
元数据注册方法
一对一模式
将逻辑实体和物理表一对一连接,将逻辑实体属性和物理表字段一对一连接
主从模式
主表结构和从表结构一致,按某种维度存储在不同物理表中
主扩模式
逻辑实体的大部分业务属性在主物理表,少数属性在其他物理表中
父子模式
多个逻辑实体业务属性完全相同,按不同场景区分逻辑实体名称,但落地在同一张物理表。
运维元数据
通过对元数据进行分析,发现数据注册,设计,使用的现状及问题,确保元数据的准确,完整。
第二部分
信息架构
给出信息架构的四个组件,给出建设原则和核心要素,并引出业务对象,过程,规则三项数字化建设方向
信息架构的四个组件
数据资产目录
数据分层结构
L1
主题域分组
L2
主题域
L3
业务对象
L4
逻辑数据实体
L5
属性
通过分层架构表达
对数据的分类和定义
厘清数据资产
建立数据模型的输入
数据标准
数据标准组件
业务术语
数据标准
业务定义的规范
统一语言,消除歧义
为数据资产梳理提供标准的业务含义和规则
数据标准应该覆盖以下三个视角
业务视角
用于同一业务侧语言和理解,明确定义每个属性所遵从的业务定义和用途,业务规则,同义词,并对名称进行同一定义,避免重复
技术视角
对IT实施形成必要的指引和约束,包括数据类型,长度,如果存在多个允许值,则应对每个允许值进行明确的限定。
管理视角
明确各业务部门在贯彻数据标准管理方面应承担的责任。
企业级数据模型
通过ER建模实现对数据及其关系的来描述
指导IT开发,是应用系统实现的基础
数据模型是从数据视角对现实世界特征的模拟和抽象,根据业务需求抽取信息的主要特征,反应业务信息之间的关联关系。
数据分布
数据分布组件
信息链
数据流
数据源
数据在业务流程和IT系统上流动的全景视图
识别数据的来龙去脉
定位数据问题的导航
信息架构原则
建立企业层面的共同行为准则
原则一:数据按对象管理,明确数据owner
原则二:从企业视角定义信息架构
原则三:遵从公司的数据分类管理框架
原则四:业务对象结构化,数字化
原则五:数据服务化,同源共享
信息架构的核心要素
基于业务对象进行设计和落地
按业务对象进行架构设计
原则一:业务对象是指企业运作和管理中不可缺少的重要人、事、物
业务对象有唯一身份标识信息
业务对象相对独立并有属性描述
业务对象可以实例化
按业务对象进行架构落地
逻辑数据实体设计
一体化建模管理
子主题 3
传统信息架构向业务数字化扩展:对象,过程,规则
既有信息架构的几个问题
大量业务和作业所产生的数据并没有完整的呗管理
大量业务过程没有形成可视、可管理的数据
大量业务规则缺乏管理,无法灵活应用
数字化转型的扩展
对象数字化
过程数字化
规则数字化
数据底座
提出了数据底座建设的整体框架,介绍了数据胡和数据主题链接两个层次的建设实践
数据底座可实现如下目标
统一管理结构化,非结构化数据
打通数据供应通道,为数据消费提供丰富的数据原材料,半成品以及成品,满足公司自主分析,数字化运营的不同场景的需求。
确保公司数据完整,一致,共享
确保数据安全可控
数据底座的建设策略
统筹推动
以用促建
急用先行
数据底座资产四项原则
数据安全原则
需求、规划双轮驱动原则
数据供应多场景原则
信息架构遵从原则
华为数据湖的几个特点
逻辑统一
根据数据类型,业务区域等由多个不同的物理存储构成,并通过统一的元数据语义层进行定义,拉通和管理
类型多样
存放所有不同类型数据
原始记录
对原始数据的汇聚,不对数据做任何的转换,清洗,加工处理,保留数据最原始特征
数据入湖的6个标准
明确数据owner
发布数据标准
认证数据源
定义数据密级
数据质量评估
元数据注册
数据入湖方式
批量入湖
数据复制同步
消息集成
流集成
数据虚拟化
结构化数据入湖
检查数据源准备度
评估入湖标准
实施数据入湖
注册元数据
非结构化数据入湖
四种方式
基本特征元数据入湖
文件解析内容入湖
文件关系入湖
原始文件入湖
数据主体连接:将数据转换为“信息”
5类数据主体联接的应用场景
多角度分析
关联影响分析
特定范围圈定
对结果,质量,效率度量
智能分析
多维模型设计
4个主要步骤
确定业务场景
声明粒度
维度设计
事实表设计
图模型设计
几个关键步骤
业务场景定义
信息收集
图建模
实体、概念、属性、关系的标注
实体和概念的识别
属性识别和关系识别
标签设计
标签体系建设
选定目标对象,根据业务需求确定标签所打的业务对象,业务对象范围参考公司发布的信息架构中的业务对象
根据标签的复杂程度,进行标签层级设计
进行详细的标签和标签值设计
打标签
打标签数据存储结构
打标签的实现方法
事实标签
根据标签值和属性允许值的关系由系统自动打标签
规则标签
设计打标签逻辑由系统自动打标签
模型标签
设计打标签算法模型由系统自动打标签
指标设计
指标拆解过程
解读指标定义,识别指标
基于指标叠加公式拆解指标
基于指标拆解结果,识别指标数据
数据匹配落地
算法模型设计
需求评估
业务驱动的分析需求识别
梳理业务需求的背景,现状和目标
由战略或变革提出可能的分析需求,则应进行战略目标解耦
初步识别分析结果的应用场景
数据驱动的分析需求识别
在集成的数据环境中进行数据挖掘,探索可能的分析应用
初步识别分析需求和确认应用领域
初步识别分析结果的应用场景
价值与可行性评估
分析需求的业务价值
分析前提与可行性,包括目前业务流程与可能的影响因素
根据相关的历史数据,进行假设和分析,明确业务范围
数据准备
深入探索数据资产目录,识别与分析主体可能相关的数据
提供数据源、数据标准、数据流等信息
收集与整合原始数据,生成分析数据集
根据分析需求进行数据帅选和质量分析
方案设计
明确要分析的业务目标与相关假设
定义数据集中的分析目标,样本与筛选条件
设计所需变量,指标,可能的分析方法与产出
规划分析的应用场景
建模与验证
决定是否及需要分析建模
根据技术复杂度,业务效益与资源评估是否需要分析建模,如不需要建模分析,则运用BI分析
建模与验证
对模型参数和变量进行调整,并验证(如准确度和稳定度评估)
试算分析
编写数据分析线下验证报告
决定是否及需要IT开发
根据模型验证成果,预估业务效益,IT成本和资源等评估分析结果是否需要IT开发
模型线上验证
设定线上验证范围与场景
进行线上验证,制定模型监控机制
进行业务试运营与推广
转运营
数据服务
以自助、高效、复用为数据服务的目的,提出了对数据进行搜索,加工和分析的消费过程管理方案
数据服务定义
数据服务是基于数据分发,发布的框架,将数据作为一种服务产品来提供,以便满足客户的实时数据需求,它能复用并符合企业和工业标准,兼顾数据共享和安全
数据服务的价值
保障“数出一孔”,提升数据一致性
数据消费者不用关注技术细节,可以满足不同类型的数据服务需求
提升数据敏捷响应能力
满足用户灵活多样的消费诉求
兼顾数据安全
数据服务建设策略
明确数据服务化方法
明确数据服务全生命周期,识别各环节的管理关键点,推动各领域加速实现数据服务化
制定数据服务管理规范与流程
制定设计规范与运营规范,优化数据服务流程,保障数据服务化工作有序,高效开展,解决重复建设,不可管理与复用度不高的问题
构建数据服务中心
提供一站式数据服务开发,测试,部署能力,实现数据服务敏捷响应
数据服务生命周期管理
服务识别与定义
业务与数据握手,识别服务的业务价值,准入条件与服务类型,减少重复建设,提升复用度。
分析数据服务需求
识别可重用性
判断准入条件
数据owner是否明确?
数据是否有明确的安全密级定义
元数据是否已经定义
业务元数据和技术元数据是否建立联接
面向数字化运营分析场景时,数据是否已入湖
制定迭代计划
服务设计与实现
业务、数据、IT三方协同,使设计、开发、测试与部署快速迭代以实现服务的敏捷交付,缩短数据服务的建设周期
粒度设计原则
业务特性;将业务相近或相关,数据粒度相同的数据设计为一个数据服务
消费特性:将高概率同事访问,时效性要求相同的数据设计为一个数据服务
管理特性:综合考虑企业在数据安全管理策略方面的要求
能力特性:将单一能力模型设计为一个服务
参考规范
同一种提供形式下,一个数据只能设计在一个数据服务中
按主题(业务对象)将相同维度的数据设计为一个数据服务
将同一个逻辑实体的数据设计为一个数据服务
将单一功能的算法,应用模型设计为一个数据服务
服务开发,测试部署的重点能力
服务需求接收与管理
明确数据管理部门、IT、业务代表的具体职责
构建自助式开发平台
代码自动审查
数据自动验证
功能自动测试
构建功能自动化测试能力,自动对数据服务SLA
服务部署
服务运营
通过统一数据服务中心及服务运营机制,保障服务SLA与持续优化
数据集服务
数据集服务定义
数据服务提供方被动的公开数据以供数据消费方检索
数据服务提供方并不定义数据处理逻辑,但数据和数据处理逻辑仍然由其控制
数据服务的生命周期即数据访问授权的有效期
提供的数据来自数据湖时
允许将数据湖的同一个业务对象内的一个或多个资产封装为数据服务
允许将数据湖内单个资产及其关联主数据合并封装为数据服务
不允许将数据湖中跨业务对象的多个资产合并封装为一个数据服务
提供的数据来自于主题联接
允许将单个主题联接的数据资产封装为一个或多个数据服务
不允许将多个主题联接数据资产直接合并封装为一个数据服务
数据供应的”三个1“准则
1天
对一发布数据服务的场景,从需求提出到消费者通过服务获取数据,在1天内完成
1周
对于一进底座但无数据服务的场景,从需求提出到数据服务设计落地,消费者通过服务获取数据,在1周内完成
1月
对一结构化但围巾数据底座的场景,从需求提出到汇聚入湖,数据主体联接,数据服务谁家落地,,消费者通过服务获取数据,在1个月内完成。
数据服务SLA的关键步骤
组织职责的明确
流程规范的制定与落实
IT平台的建设
面向需求方的效率承诺度量
构建以用户体验为核心的数据地图
数据供应者与消费者之间的矛盾
找数难
数据分散在不同数据库不同表中
读不懂
数据库物理层和业务层脱离,消费者无法直接读懂物理层数据,无法确认数据能否满足需求,只能求助于IT人员,大量转换和人工验证。
数据地图的的4类关键用户群体
业务分析师
数据科学家
数据管家
IT开发人员
数据地图的关键能力
数据搜索
排序推荐
数据样例
资产/用户画像
打造业务自助分析的关键能力
针对三类对象提供的差异性服务
业务分析师
提供自助分析能力,业务人员通过拖拉拽即可产生分析报告
数据科学家
提供高效的数据接入能力和常用的数据分析组件,快速搭建数据探索和分析环境
IT开发人员
提供云端数据开发,计算,分析,应用套件,支持海量数据的分析与可视化,实现组件重用
以租户为核心的自助分析关键能力
多租户管理能力租户的4个关键角色
租户owner
租户管理员
查看者
分析师
数据加工能力
数据分析能力
即席查询
可视分析
从结果管理到过程管理
数据赋能业务运营
数据服务的几个优点
满足业务运营中数据实时可视化的需求
满足业务运营中及时诊断语境的需求
满足业务运营中复杂智能决策的需求
数据消费的五个实施步骤
业务需求提出
数据需求解析
数据搜索和获取
数据服务提供
报告设计和展示
华为数据驱动数字化运营的历程和经验
从行走到公交阶段
从公交到自驾阶段
从无序到有序阶段
人工智能阶段
做好数字化运营的三个要点
发育
激励
共享
做好数字化运营的两个基础
数据服务
IT平台
第三部分
数据全量感知
数字孪生的全量,无接触感知为目标,介绍了数据的硬感知和软感知两类能力,
基于物理世界的硬感知能力
条形码和二维码
磁卡
FRID
OCR和ICR
图像数据采集
音频数据采集
视频数据采集
传感器数据采集
工业设备数据采集
硬感知在华为的实践
门店数字化
站点数字化
360度全景拍照+OCR,构建站点物理对象完整的围栏、塔高、机房尺寸、设备尺寸等
基于数字世界的“软感知“能力
埋点
日志数据采集
网络爬虫
软感知在华为的实践
捕捉用户在界面上从数据定位到最终消费的浏览过程和停留实践,关联用户信息,自动生成用户画像和数据画像,提供可识别的分类资产用于搜索,减少匹配差异,训练搜索引擎和推荐算法,提供最优数据推荐结果和排序位置
通过感知能力推进企业业务数字化
感知数据生成后,数据接入的几个考虑点
数据源的可用性分析
接入数据量的大小
数据接入过程是持续的还是按一定的实践间隔进行
数据接入是pull的方式还是push的方式
在数据接入过程中,是否需要做数据校验或数据标准化
在接入的过程中,是否需要对数据做进一步的处理,如数据聚合,数据分类等
感知元数据管理
感知方式元数据
对数据感知的方法进行登记注册的过程,在后续的数据消费过程中可以知道数据来源
感知内容元数据
包括结构化和非结构化数据
非数字原生企业数据感知能力的建设
基础数字孪生
传统的模式,存储一些物体实体相关的静态数据,如属性信息,特征数据等
被动数字孪生
提供了实体在某个时间点的虚拟呈现
无法保证数字模型的数据时最新的
存在3D模型、设计图纸或数字化呈现
动态数字孪生
3D数字模型和物理实体之间的映射关系
数字模型实时物理实体的状态
来自传感器/IOT的实时数据提供了物理实体状态,但信息流时单向的
半智能数字孪生
物理实体和数字模型实现的信息的双向流通,通过数字孪生可以控制或改变物理实体
智能数字孪生
可以在虚拟空间运行数字模型,通过假设分析来执行物理实体的假设方案,进而预测物理实体的未来。
综合质量提升
基于PDCA框架,介绍了对企业业务数据异常的全面监控
数据质量
数据质量的定义
数据适合使用的程度,满足特定用户期望的程度。
数据质量的评估维度
数据在创建、传递过程中有无缺失和遗漏
及时性
数据交付的及时性、抽取及时性、呈现及时性等
准确性
无虚假数据
一致性
不同系统中同一个实体的信息应当一致
唯一性
同一数据只能有唯一标识符
有效性
数据的值、格式和展现形式符合数据定义的要求,例如国籍等信息必须是选项中的一个。
数据质量的总体框架
自上而下打造数据质量领导力
全面推进数据质量持续改进机制
不断加强数据质量能力保障
全面监控企业业务异常数据
数据质量规则
单列数据质量规则
关注数据属性值有无以及是否符合自身规范的逻辑判断
不可为空类
语法约束类
如邮箱格式、身份证
格式规范类
如日期格式
长度约束类
如密码长度约束
值域约束类
事实参照标准类
例如华为的法人信息需要与国家法人数据库中信息一致
跨列数据质量规则
关注数据属性间关联关系的逻辑判断
应为空值类
敏感站点不允许维护经纬度信息
单表等值一致性约束类
合同的RMB签约金额必须等于USD签约金额与汇率的乘积
单表逻辑一致性约束类
合同的关闭日期不能早于注册日期
入库及时类
通过HR系统员工入职日期和系统创建日期判断入职信息维护及时性
跨行数据质量规则
关注数据记录之间关联关系的逻辑判断
外关联约束类
主数据与当前表的主外关联
跨表等值一致性
同一客户主表的合同金额应当等同于字表合同金额之和
跨表逻辑一致性
员工任命日期应早于员工的到岗日期
跨表数据质量规则
关注数据集关联关系的逻辑判断
记录唯一性
法人客户,如中国移动通信股份有限公司说有且只能存在一笔记录
层级结构一致性约束类
所有子网类型的客户,满足总部-分布-子网三层结构
异常数据监控
识别监控对象范围,确定监控内容
重要性原则
关键主数据和基础数据
关键事务数据
痛点问题
成本效益原则
运作成熟且质量较高的数据,或度量成本很高但预期改进很少的数据,可不优先考虑
数据管家也可通过收集业务需求,质量问题等其他途径,从中帅选当前需监控的数据·
数据源剖析
数据源内容
数据源结构
技术结构
空值频率
相异值频率
值范围
模式
长度
数据类型
业务结构
平面结构
树状结构
数据源质量
设计和配置监控规则
通过数据质量综合水平牵引质量提升
数据质量度量运作机制
度量模型
过程设计与执行结果兵种,设计质量评估信息架构的建设,执行质量评估数据清洁
数据owner职责
公司数据owner
下达数据质量目标,并签发数据质量度量报告,基于数据质量结果及改进状况,对相应数据owner进行奖励及问责
各领域数据owner
承接公司数据owner设定的数据质量目标,明确数据质量问题责任人,并推动问题闭环管理,对数据质量度量结果负责,一句要求向公司数据owner述职
专业职称组织职责要求
公司数据管理部
根据公司数据管理工作规划,制定数据质量目标,组织数据质量度量工作开展,发布公司数据质量度量报告,组织评审数据质量标准及指标,并验收数据质量问题闭环状况。
各领域数据管理部
基于公司数据质量度量工作要求,拟定数据质量标准并设计指标,执行数据质量度量,组织各领域业务专家,分析数据质量问题根音,制定改进举措及闭环管理。
度量规则
度量对象选定原则
聚焦业务运营痛点数据和影响财报的关键数据
度量频率
一年度量两次
度量方法
从设计及执行两个方面开展
评价标准
统一采用百分率的方式评价
设计质量度量
数据资产目录
业务对象须有明确,唯一的数据owner,并对该业务对象全流程端到端的质量负责,如是否有定义数据质量目标,是否有数据质量工作规划等
业务对象的元数据质量,如数据分类是否完整,业务定义是否准确
资产目录完整性
数据标准
数据标准元数据质量,如数据标准是否唯一,业务用途及定义是否准确,各责任主体是否爱有效等。
所有业务对象应准确关联数据标准
数据标准在IT系统及其对应的业务流程中应得到应用和遵从
数据模型
开发概念模型和逻辑模型
物理数据模型设计应遵从逻辑数据模型谁家,数据库中物理表的落地应遵循物理模型
数据分布
已认证数据源
交易侧完整的信息链和数据流
交易侧业务资产,数据湖,主体联接,数据服务,自主分析之间的完整准确的血缘关系
设计质量打分模型
执行质量度量
1.确定度量指标
重要性原则
成本效益原则
明确性原则
分层分级原则
持续度量原则
确定数据质量衡量标准
执行度量
质量改进
执行PDCA循环
可控共享
介绍了如何构建以元数据为基础的数据安全隐私保护框架,如何简历动静结合的数据保护和授权管理方案
数据安全成为国家竞争的新战场
构建以元数据为基础的安全隐私保护框架
数据管理
完整性
一致性
可用性
信息安全
保密性
全球网络安全与用户隐私保护
隐私保护
客户网络安全
法务合规
贸易合规
商业秘密
数据安全隐私分层分级管控策略
五个层级的密级
外部公开
可以在公司外部公开发布
内部公开
可以在公司内部公开
秘密
公司较为重要或敏感信息,其邪路会使公司利益受损,影响范围较大
机密
公司较为重要或敏感信息,其邪路会使公司利益受损,影响范围广泛
绝密
公司较为重要或敏感信息,其邪路会使公司利益受损,影响范围巨大
资产分类
核心资产
对应绝密信息,特质公司真正具有商业价值的信息资产
关键资产
属于机密信息,特质公司在市场竞争中获胜的决定性作用的信息资产
隐私管控需求的五类分类
个人数据
敏感个人数据
商业联系个人数据
一般个人数据
特种个人数据
数据底座的安全隐私五个方案包
数据底座安全隐私管理政策
说明数据底座责任边界,数据风险标识标准,数据加工,存储,流转规范
数据风险标识方案
平台提供的数据标识能力
数据保护能力架构
数据底座分级存储架构能力
数据组织授权管理
数据在组织内共享的规则
数据个人权限管理
个人访问数据的权限管理方案
数据安全规范主体
数据密级分级标准
存储保护基线
描述每一个级别的数据资产的存储要求以及入湖原则
流转审批层级
审批流转逻辑
隐私保护防范主体
个人数据分类分级标准
个人数据保护基线
根据个人数据分级,需要做不同程度的数据保护和脱敏,特种个人数据严禁入湖
流转审批层级
静动结合的数据保护和授权管理
存储保护
高防区隔离
透明加密
对称加密
静态脱敏
访问控制
授权访问机制
可追溯
数据水印技术等方式
第四部分
基于对“机器认知世界”的理解,提出了对数据治理未来的思考,唱响了AI治理、数据主权和数据生态建设
数据“新的生产要素
数据被列为生产要素
数据资产的价值由市场决定
数据将进入企业的资产负债表
大规模数据交互的企业数据生态
数据生态离不开底层技术的支撑
信任
安全与数据主权
数据生态系统
标准化的互用性
增值应用
数据市场
摆脱传统手段的数据管理方式
智能数据管理是数据工作的未来
内容级分析能力提供资产全景图
属性特征启发驻外键智能联接
质量缺陷预发现
算法助力数据管理
数字道德抵制算法歧视
0 条评论
下一页