首页  思维导图  详情

2023-制造业《工业4.0》和《华为数据治理》大数据治理与应用解读

2024-09-12 10:27:45   2  举报





AI智能生成

面向制造业企业进行数据治理的方法、过程、华为数据治理之道

数据治理

制造业数字化转型

工业4.0

华为数据治理

汽车

作者其他创作

大纲/内容

IT技术

IT术语

IT术语
IoT:intenet of things 物联网、万物互联的互联网
IA：信息架构
BA：业务架构
AA：应用架构
TA：技术架构
Digital Twin：数字孪生
DMAP：数据地图

知识图谱：知识图谱已广泛应用于智能搜索，智能问答，个性化推荐等领域。

大数据

大数据：
1、是“生产资料”
2、可实现开源降本+节流增效
3、单位量级：Byte-KB-MB-GB-TB-PB -EB -ZB-YB
4、4V特点：（1）大量volume：数据量巨大；（2）多样Variety：数据类型众多；（3）价值Value：价值高（价值密度低）；（4）高速Velocity：处理速度快；

什么是大数据？
(1)
(2)存在混乱不精确-思考数据用来做预判而非决策; 当拥有海量数据时，绝对准确不再是唯一目标；
(3);
(4)一切都可以量化；

大数据思维变化总结？
(1)从样本思维到总体思维；
(2)从精确思维到容错思维；
(3)从关注因果关系到关注相关关系；
(4)从自然思维到智能思维；

如何应用大数据？
(1)观念维度
(2)流程维度：采集、运算、应用等
(3)业务维度：
(4)管理维度：数据架构、数据治理等、

汽车产业发展趋势于应对策略

两件事改变世界：万物互联、碳中和

智能制造发展与关键技术研究

发展背景：数字化、网络化、智能化—数字中国、智慧建设

国务院政府工作报告

2018年：互联网＋
2019年：智能+
2020年：工业互联网

智能制造领域国内外发展现状

智能：信息获取-分析-获取决策

智能制造：将新兴通信技术/科学技术运用于制造生命周期的人/机/物/环境等，进行感知/互联/学习/分析/决策等，进而高效/优质/绿色/柔性的制造产品和服务用户。

国外:美国和德国领先
德国：工业4.0
美国：工业互联网

国内：
2019年-推动传统产业改造升级-扩展“智能+”
2020年-推荐智能制造

智能制造新模式、手段、业态

新模式：以用户为中心的互联化、服务化、协同化、个性化、柔性化、社会化的制造产品和服务用户的制造新模式。

新手段：数字化、物联花、虚拟化、服务化、协同化、定制化、柔性化、智能化

新业态："泛在互联、数据驱动、共享服务、跨界融合、自主智慧、万众创新“的智能制造生态。

智能制造系统技术体系

体系框架

总体技术、智能互联产品专业技术、智能互联产品专业技术、智能制造系统平台技术、智能产品设计技术.......系统软件技术、平台软件技术、应用软件技术

标准体系框架

安全技术体系框架

工业4.0和中国制造2025

推荐刊物：《哈佛制造》——制造领袖：陈述、质疑与辩论

制造业情况

（1）制造业应用大数据的基础较弱：eg企业上云率，中国40%，欧洲70%
（2）大数据技术滞后、成果转化率低

各个“作业面”的关注点不同：
组织战略-为什么做？
业务战略-做什么？
职能战略-怎么做？

竞争能力的本质与瓶颈：
安达信模型 K↑=（P+K）(S幂) K为资源/信息或知识、P为组织的成员、+为模式或方法、S为共享

德国工业4.0：eg西门子智能制造
何为智能制造？可以“自己生产自己”，核心特征是数据的透明、柔性、协同。
何为智慧工厂？智能生产、智能物流、智能产品。

个人思考：信息化-数字化-数据规范-数据清洗-数据加工-数据分析-数智化实现

制造术语

OTD：order-to-delivery 订单-交付：指从下订单开始一直到拿到车辆所必须的所有流程和步骤。OTD包括了“客户-经销商-厂家-经销商-客户”整个环节。

供应链管理方式：
STO：sale to order，面向订单销售
ETO：engineering to order，面向订单设计
ATO：assembly to order，面向装配
LTO：按订单定位

汽车企业的系统应用框架总览
（供应链管理系统、产品工程系统、企业管理系统和制造系统）

汽车企业信息化支撑环境

网络系统

按照网络覆盖范围：局域网、广域网
按照网络适用范围分类：公用网、专用网
按照网络拓扑结构分类：总线网、环状网、星状网、树状网、网状网
按照网络的交换方式分类：电路交换网、报文交换网、分组交换网、混合交换网
按照通信信道的类型分类：点-点通信网、广播通信网

数据中心

服务器及存储系统

数据库系统

华为数据治理之道

第一章：数据驱动的企业数字化转型

1.1 非数字原生企业的数字化转型挑战

1.2 华为数字化转型与数据治理

1.3 华为数据治理实践

第二章：建立企业级别数据综合治理体系

2.1 建立企业级数据综合治理政策

2.2 融合变革、运营与IT的数据治理

2.3 建立业务负责制的数据管理责任体系

第三章：差异化的企业数据分类管理框架

结构化数据管理

观测数据

感知方式分类：
1、软感知：利用软件或者技术手段收集数字世界的数据
2、硬感知：利用设备或者装置收集物理实体为载体的数据

特点：
1、数据量大、且为过程性数据
2、机器自动采集生成或者观测工具采集回来的原始数据

非结构化数据管理

治理核心：对其基本特征与内容进行提取，并通过元数据落地开展。

外部数据管理

治理原则：
1、合规优先：得到授权；
2、责任明确：明确引入责任主体；
3、有效流动：不与本企业数据重复，优先使用企业已有数据；
4、可审计、可追溯：留存访问日志；
5、受控审批：允许他人使用；

元数据管理

定义：描述数据的数据，用于打破业务和IT间的语言障碍。

使命和目的：数据入湖有依据、出湖可检索。

类型：
1、业务元数据：用户了解业务含义的数据等
2、技术元数据：开发系统时使用的数据等
3、操作元数据：数据处理日志及运营情况数据等

数据资产编码原则：
1、统一性原则：所有人使用一套编码
2、唯一性原则：一个数据资产和一个编码唯一对应
3、可读性原则：编码可作为数据资产分类和检索的关键词
4、扩展性原则：从管理监督可扩展，允许后续业务发展

第四章：信息架构建设

数据标准：
1、业务视角：对名称统一定义和用途。
2、技术视角：形成IT实施约束，例如数据类型和长度
3、管理视角：明确数据的管理责任主题，例如业务规则责任主体、数据维护责任主体、数据监督责任主体

信息架构原则：
1、数据按对象管理，明确数据责任人：责任落实。
2、从企业视角定义信息架构：数据的信息架构不仅考虑单一领域，所有对该数据有使用需求的领域要求都应被考虑。
3、遵从公司的数据分类管理框架：各部门按照统一的框架进行。
4、业务对象结构化、数字化：包含业务结果和业务规则在内的业务队对象做成结构化
5、数据服务化、同源共享：数据只有单一数据源，使用获取和更改从源头进行。“一点定义、全局共享。”

传统信息架构向业务数字化扩展：
对象、过程、规则

既有信息架构无法满足业务需要的体现：
1、大量业务和作业产生的数据并没有完整的被管理：现有信息架构中只承载了部分属性，还有大部分未定义无法利用。例如：合同内的信息。
2、大量业务过程没有形成可视、可管理数据：
3、大量业务规则缺乏管理、无法灵活使用：

面向传统信息架构的数字化转型扩展：
1、对象数字化：建立对象本体在数字世界的映射。-数字孪生。
2、过程数字化：不仅记录结果，也记录过程用于了解过程进度或反过来改进结果。记录过程不干预业务。例如车辆行驶中自动监控是否存在交通违规。
3、规则数字化：实现业务规则和IT应用解耦，关键业务规则数据要实现可配置。

第五章：数据底座建设

5.1 非数字原生企业数字化转型的数据底座建设框架

目标：
1、统一管理结构化、非结构化数据。
2、打通数据供应通道、满足数据供应需求。
3、确保公司数据完整、一致、共享。降低数据维护和使用成本。
4、保障数据安全可控。通过数据权限控制、数据服务封装等手段，实现数据隐私、合规地消费。

数据底座建设策略：
1、统筹推动：
2、以用促建：
3、急用先行：

数据底座资产建设原则：
1、数据安全原则：利用包括授权管理、权限控制、数据加密、数据脱敏等技术手段。
2、需求、规划双轮驱动原则：基于业务规划和需求触发双驱动。
3、数据供应多场景原则：根据业务需要提供离线/实时、物理/虚拟等数据，满足不同数据消费场景。
4、信息架构遵从原则：遵从公司信息架构，获批后发布并完成注册。

5.2 数据湖

数据湖特点：
1、逻辑统一：
2、类型多样：存放结构化数据、非结构化数据等不同类型的数据。
3、原始数据：汇聚原始数据，但不做转换、清洗、加工等处理，保留原始特征，为加工和消费提供可能。

数据入湖6个标准：
1、明确数据责任人：
2、发布数据标准：作为标准在企业内被共同遵守。
3、认证数据源：确保数据从正确的数据源头入湖。一般数据源是指业务上首次正式发布某项数据的应用系统。
4、定义数据密级：数据责任人定义数据的密级和降密机制，到期或者满足降密条件的数据需要及时降密。
5、数据质量评估：目的是让数据消费人员了解数据质量和数据风险，同时数据负责人推动数据源头质量提升。
6、元数据注册：将业务元数据和技术元数据关联，是数据消费人员通过业务语义搜索数据湖中数据，降低理解门槛，提升消费范围。

数据入湖方式：
1、物理入湖：将原始数据复制粘贴到数据湖中，包括批量处理、数据复制同步、消息和流集成等方式。
（要求历史数据、大批量数据且实时性要求不高的场景）
2、虚拟入湖：原始数据不在数据湖中进行物理存储，而是通过建立对应虚拟表的集成方式实现入湖。
（不要求历史数据、小批量数据且实时性要求高的场景）

数据入湖5种技术手段：
1、批量集成：处理需要进行复杂数据清理和转换且数据量较大的场景。
2、数据复制同步：适用于需要提高可用性和对数据源影响小的场景。
3、消息集成：通常通过API捕获或提取数据，适用于处理不同数据结构以及需要高可靠性和复杂转换的场景。
4、流集成：主要关注流数据的采集和处理，不适合需要复杂数据清理和转换的场景。
5、数据虚拟化：适用需要低数据延迟、高灵活性和临时模式的消费场景；不适合需要处理大量数据的场景。

结构化数据入湖过程：
1、数据入湖需求分析及管理：对于规划驱动入湖场景或需求驱动入湖场景，都需经过评审。
2、检查数据入湖条件和入湖标准：
（1）检查数据源准备度：检查包括数据字典、数据模型、元数据的物理表规范度、源系统的数据质量等。
（2）评估数据入湖标准：
①明确数据owner
②发布数据标准：定义了数据属性的业务含义、业务规则等。
③认证数据源：原则上以初始源入湖，数据源认证保证数据湖数据一致性和唯一性的重要措施。
④定义数据密级：数据湖共享、权限控制等的关键依据。
⑤评估入湖数据质量：给入湖数据打质量标签。
3、实施数据入湖：
4、注册元数据：

非结构化数据入湖4种方式：
1、基本特征元数据入湖(必须)：数据内容仍存储在源系统，数据湖中仅存储非结构化数据的基本特征元数据。
2、文件解析内容入湖(非必须)：对数据源的文件内容进行文本解析、拆分后入湖。原始文件仍存储在源系统，数据湖中仅存储解析后的内容增强元数据。
3、文件关系入湖(非必须)：原始文件仍存储在源系统，数据湖中仅存储文件的关系等内容增强元数据。
4、原始文件入湖(非必须)：从源端把原始文件搬入湖，数据湖中存储原始文件并进行全生命周期管理。

5.3 数据主题联接：将数据转化为"信息"

5类数据主题联结：
1、多维模型：以业务流（事件）为中心联接（合同、销售订单等）。
2、图模型：面向数据间的关联影响分析。以对象（主体）为中心联接（供应商、客户等）。
3、标签模型：对特定业务范围的圈定。智能标签（员工、用户画像等）。
4、指标模型：对业务结果、效率和质量的度量。指标数据（原子指标数据、衍生/复合等）。
5、算法与模型：算法模型（辅料计划预测、机会点挖掘等）是面向智能分析的场景，通过数学建模对现实世界抽象、模拟和仿真，提供支撑业务判断和决策的高级分析方法。

多维模型设计

设计4步骤
1、确定业务场景：分析也无需求、识别需求的业务流及对应的逻辑数据实体和关联关系。
2、声明粒度：粒度表示数据单元的细节程度或综合程度。
3、维度设计：维度是用于观察和分析业务数据的视角，支持对数据进行汇聚、钻取、切片分析。维度由层次结构(关系)、层级、成员、属性组成。维度可以分为基础树和组合树。

满足条件
1、单一性：有且仅有一个视角。
2、单向性：“上大下小”维度只能支撑自上而下的分解和自下而上的收敛，每个成员只能存在向上的收敛路径，不能具备向上和向下两个方向的收敛逻辑。
3、正交性：成员两两不相交，同一成员不能同时拥有多个上级成员。
4、事实表设计：事实表存储业务过程事件的性能度量结果，由粒度属性、维度属性、事实属性和其他描述属性组成。

图模型设计
(信息处理加工技术)

图模型由节点和边组成。(1)节点表示实体或概念：(2)边由属性或关系构成：

步骤：
1、业务场景定义：业务场景决定信息涵盖范围，以及信息颗粒度的表示。信息颗粒度的原则是“能满足业务应用的最粗颗粒度”。
2、信息收集：(1)与应用场景直接相关的信息；(2)与应用场景间接相关，但可辅助理解问题的信息。
3、图建模：相同数据可以有若干模式定义，良好模式可以减少数据冗余。
4、实体、概念、属性、关系的标注：企业图模型中涉及的实体和概念可分为三类(1)公共类：时间等；(2)企业类：业务术语等；(3)行业类：金融行业等。
5、实体和概念的识别：图模型中实体、概念的识别后运用命名实体识别方法扩展出新实体概念，经业务确认后，列入实体、概念库。
6、属性识别与关系识别：一般采用混合存储方式：(1)图数据库；(2)关系型数据库 (3)RDF存储方式:适合重逻辑推理的应用场景;(4)属性图存储方式:适合重图计算的应用场景；

知识计算：根据图谱信息得到更多隐含知识，知识计算三大关键技术：
(1)图挖掘计算：①图遍历；②经典算法，如最短路径等；③路径的探寻；④权威节点的分析；⑤族群分析；⑥相似节点的发现。
(2)基于本体的推理：
(3)基于规则的推理：

标签设计

标签分类：
1、事实标签：描述实体的客观事实。标签来源于实体的属性，是客观和静态的。
2、规则标签：是对数据加工处理后的标签，是属性与度量结合的统计结果。标签是通过属性结合一些判断规则生成的，是相对客观和静态的。
3、模型标签：是洞察业务价值导向的不同特征，是对于实体的评估和预测。标签通过属性结合算法生成的，是主观和动态的。

标签管理：
1、标签体系建设
2、打标签

标签体系建设：
1、选定目标对象，根据业务需求确定标签所打的业务对象。
2、根据标签的复杂程度进行标签层级设计。
3、进行详细的标签和标签值设计，包括标签定义、适用范围、标签的生成逻辑等；
（1）事实标签：应与业务对象中的属性和属性值保持一致，不允许新增和修改；
（2）规则标签：按照业务部门的规则进行相关设计；
（3）模型标签：根据算法模型生成；

打标签：
1、打标签数据存储结构：打标签是建立标签值与实例数据的关系。
2、打标签的实现方法：
（1）事实标签：根据标签值和属性允许值的关系由系统自动打标签。
（2）规则标签：设计打标签逻辑由系统自动打标签。
（3）模型标签：设计打标签算法模型由系统自动打标签。

指标设计

一般构成：
1、指标名称：体现了指标在质的规定性和量的规定性两个方面的特点：
2、指标数值：反映了指标在具体时间、地点、条件下的数量表现。

指标分类：
1、原子指标：指标数据通过添加口径/修饰词、维度卷积而成；
2、复合指标：指由一个或多个原子指标叠加计算而成。

指标拆解：
1、解读指标定义，识别指标：
2、基于指标叠加公示拆解指标：明确原子指标和复合指标间的支撑关系。
3、基于指标拆解结果、识别指标数据：
4、数据匹配落地：补充指标、指标数据中的标准属性名称以及对应的落地物理表，支持用户自助实现指标计算，拉通指标设计和落地。

算法模型设计

算法模型管理框架：1、建模；2、模型资产管理；3、模型消费；

算法模型的设计步骤：
1、需求评估：
①业务驱动的分析需求识别；②数据驱动的分析需求识别；③价值与可行性评估；
2、数据准备：
3、方案设计：
4、建模与验证：
（1）决定是否需要分析建模；
（2）建模与验证：确认模型成效与应用，进行优化和效益评估；
（3）试算分析；
（4）编写数据分析线下验证报告；
（5）决定是否需要IT开发；
（6）模型线上验证；
（7）转运营；

第六章：数据服务建设
基于数据发布、发布框架、将数据作为一种服务产品来提供

6.1 数据服务定义

什么是数据服务？

数据服务给企业带来的价值
1、保障“数出一孔”提升数据的一致性：通过服务获取数据避免数据“搬家”，减少向下游二次传递造成的数据不一致。
2、数据消费者不用关注技术细节，可以满足不同类型的数据服务需求：消费者不需要知道数据来源只要能找到对应数据即可。
3、提升数据敏捷响应能力：不需要按使用者重复沟构建集成通道，通过“订阅”获取数据服务。
4、满足用户灵活多样的消费诉求：避免供应方持续开发却满足不了消费方灵活多变的数据使用诉求。
5、兼顾数据安全：所有数据服务的使用都可管理，确保数据使用的合规。

数据服务建设策略
1、制定数据服务建设的方法。
2、要建立数据服务流程，以确保各个环节的有效协同，定义整个生命周期中的每个角色的责任和有效输出。
3、要构建统一的数据服务能力中心，负责数据服务建设方法、规范、流程的落地。数据服务不同于传统集成方式，应该有统一的平台提供能力保障。

数据服务生命周期管理（三阶段）？

数据服务识别与定义
1、分析数据服务需求：判断数据服务类型、数据内容、数据源、时效性要求。
2、识别可重用性：判断以哪种方式（新建服务、直接复用、服务变更）满足业务需求。
3、判断准入条件：
4、制定迭代计划：根据数据服务需求制定敏捷交付计划。

数据服务设计与实现
数据服务颗粒度原则
①业务特性：业务相近或相关的数据设计为一个数据服务；
②消费特性：将高概率同时访问、时效性要求相同的数据涉及为一个数据服务；
③管理特性：综合考虑企业在数据安全管理策略方面的要求；
④能力特性：将单一能力模型设计为一个服务。

数据服务的变更与下架
①数据服务变更管理：包括服务变更内容和服务变更影响；
②数据服务的下架管理：主动下架（由服务消费方主动提出的数据服务下架申请）和被动下架（通过运营度量策略判断需要下架的数据服务）；

数据服务分类与建设规范

数据集服务

数据集服务特征：
由服务提供方提供相对完整的数据集合，消费方“访问”数据集合，并自行决定接下来的处理逻辑。

数据集服务建设规范：
1、当所提供的数据来自数据湖时
①允许将数据湖的同一个业务对象内的一个或者多个资产封装为数据服务。
②允许将数据湖内单个资产及其关联主数据合并封装为数据服务。
③不允许将数据湖中跨业务对象的多个资产合并封装为一个数据服务。
2、当所提供的数据来自于主题联接时
①允许将单个主题联接的数据资产封装为一个或多个数据服务。
②允许将由多个主题联接数据资产组成的多维模型整体封装为一个数据服务。
③不允许将多个主题联接数据资产直接合并封装为一个数据服务。

数据API服务

数据API服务特征：
服务提供方“响应”消费方的服务请求，提供执行结果。

数据API服务 VS 数据集成服务：
1、供应/消费数据服务：应用组件间传递的是基于数据服务契约的消息，即传递对数据进行逻辑操作的结果。
2、高聚合：订单服务使业务逻辑变得更加集中，易于数据同源管控。
3、松耦合：业务逻辑的变化对服务消费方没有直接影响。

打造数据供应的“三个1”

数据供应到消费的数据供应链：
价值流与关键能力匹配关系格式举例：价值流（关键能力）
数据产生（数据定义-数据采集&数据清洗）-数据整合（数据汇聚-数据联接）-数据分析（统计分析-高级分析）-数据消费（数据服务-数据可视）

数据供应整体目标“三个1”：
1天：对于已发布数据服务的场景，从需求提出到消费者通过服务获取数据，1天内完成。
1周：对于已进底座但无数据服务的场景，从需求提出数据服务设计落地、消费者通过服务获取数据，1周内完成。
1月：对于已结构化但未进底座的场景，从需求提出到汇聚入湖、数据主题联接、数据服务设计落地、消费者通过服务获取数据，1个月内完成。

6.2 构建以用户体验为核心的数据地图

数据地图的核心价值

数据消费者认为的使用数据的两大困难：
1、找数难：用户不知道从哪里获取数据和数据正确性。
2、读不懂：数据消费者无法直接读懂物理层数据，熟悉物理层结果的IT人员不是数据消费者。

数据地图：
基于元数据应用，以数据搜索为核心，通过可视化方式，综合反映有关数据的来源、数量、质量、分布、标准、流向、关联关系，让用户高效率地找到数据，读懂数据，支撑数据消费。

数据地图的四类关键用户：
1、业务分析师：企业最大的数据消费群体。对数据可信度、业务含义、数据定位有强烈诉求。
2、数据科学家：对业务含义、数据关系有强烈诉求。
3、数据管家：对数据质量、信息架构、数据关系有强烈的诉求。
4、IT开发人员：对数据定位、数据关系有强烈诉求。

数据地图的关键能力

1、数据搜索：
2、排序推荐：（1）被动响应推荐排序：（2）主动管理推荐顺序：
3、数据样例：
4、资产/用户画像：通过标签化的手段来对资产和用户进行清晰地描绘。

6.3 人人都是分析师

从“保姆”模式到“服务+自助”模式

传统“保姆”模式缺点：
1、总部开发周期长、通常从需求提出到开发实现，需要多轮次需求解析和澄清。
2、无法满足灵活多变的业务需求。

“服务+自助”模式优点：
1、数据分析消费周期极大缩短。
2、发挥业务运营主观能动性。
3、减少“烟囱式”系统的重复建设。

打造业务自助分析的关键能力

针对三类角色提供的差异性服务
1、面向业务分析师，提供自助分析能力，业务人员通过“拖、拉、拽”即可快速产生分析报告。
2、面向数据科学家，提供高效的数据接入能力和常用的数据分析组件，快速搭建数据探索和分析环境。
3、面向IT开发人员，提供云端数据开发、计算、分析、应用套件，支撑海量数据的分析与可视化，实现组件重用。

以租户为核心的自助分析关键能力
1、多租户管理能力
2、数据加工能力
3、数据分析能力（1）即席查询；（2）可视分析；（3）自助分享能力；

6.4 从结果管理到过程管理，从能“看”到能“管”

数据赋能业务运营
1、满足业务运营中数据实时可视化的需求
2、满足业务运营中及时诊断预警的需求
3、满足业务运营中复杂智能决策的需求

数据消费典型场景实践
从需求提出到消费的过程：

1、业务需求提出：
需求描述：明确业务序曲的痛点、目标和收益。
需求范围明确：报告的使用场景、角色/岗位；业务定义及规则的明确；业务活动的起点和终点；

2、数据需求解析：
报告数据识别：列举所需数据，明确分析维度。
分析报告模型设计：从可行性出发，识别分析视角的最小颗粒度。

3、数据搜索和获取：
数据搜索：数据已入湖可申请使用；数据未入湖则推动数据owner履行入湖作业。
数据获取：根据数据的密级/隐私标签等要素，通过相应的审批后方可获取所需数据。

4、数据服务提供：
数据入湖
护具主题联接资产设计
数据服务开发落地
测试验证
数据资产注册
数据授权

5、报告设计和展示：
将已有数据结合报告展示需求，进行报告界面设计与功能的开发

华为数据驱动数字化运营的历程和经验
做好数字化运营的“三个要点、两个基础”

三个要点：
1、发育：识别关键核心人员并进行培训，掌握自助分析基本能力。
2、激励：鼓励业务部门充分原创。
3、分享：推送优秀实践在各业务部门间的快速复制。

两个基础：
1、数据服务：数字化消费的关键、数字化运营的重要基础。
2、IT平台：分析平台、数据结果呈现前台。

第七章：打造“数字孪生“的数据全量感知能力

7.1 “全量、无接触”的数据感知能力框架

数据感知能力的需求起源：数字孪生

数据感知能力框架

数据感知分类：
1、软感知：使用软件或各种技术进行数据收集，收集对象存在于数字世界，通常不依赖为设备进行收集。
2、硬感知：主要利用设备或装置进行数据的收集，收集对象为物理世界中的实体，或者以实体为载体的信息、事件、流程等。

7.2 基于物理世界的“硬感知”能力

“硬感知”能力的分类

1、条形码与二维码：
（1）条形码用不同宽度的黑条和空白标识信息，通常表达字符集不过10个数字、26个英文字母及一些特殊字符。字符个数最多为128个ASCII字符。
（2）二维码是用某种特定的几何图形按照一定规律在平面上分布的黑白相间的图形。
二维码有错误修正及防伪功能，增加了数据安全性。

2、磁卡：
（1）卡片状的磁性记录介质。
（2）优点-成本低。缺点-卡的保密性和安全性较差。

3、非接触式自动识别技术：通过无线射频方式进行非接触双向数据通信，利用无线射频方式对记录媒体进行读写，从而达成识别目标和数据交换的目的。
（1）RFID（Radio Rrequency Identification，无线射频识别）：
①距离从几米到几十米；②频段较多不统一；③更多应用在生产、物流、跟踪、资产管理上。
（2）NFC（Near Field Communication，近场通信）：
①举例小于10cm，安全性高；②仅限13.56MHZ的频段，与非接触智能卡技术兼容，厂商基本都支持NFC；③在门禁、公交、手机支付等领域应用。

4、OCR和ICR：
（1）OCR（Optical Character Recognition，光学字符识别）通过边检测暗、亮的模式确认形状，将形状翻译成计算机文字的过程。
（2）ICR（Intelligent Character Recognition，智能字符识别）人工智能技术采用推理分析结合语义知识库，对未识别进行补充全，解决OCR技术缺陷。

5、图像数据采集：
应用场景：指纹、虹膜、视网膜、面部、掌纹、人耳等。

6、音频数据采集：
（1）ASR（Automatic Speech Recognition，自动语音识别）：将人类语音转化为计算机输入，例如二进制编码、字符序列、或文本文件。

7、视频数据采集：

8、传感器数据采集：
数据特点：多源、实时、时序化、海量、高噪声、异构、价值密度低等，数据通信和处理难度都较大。

9、工业设备数据采集：
工业设备数据是对工业机器设备产生数据的统称。工业设备和系统能够采集、存储、加工、传输数据。

“硬感知”能力在华为的实践

1、门店数字化：
2、站点数字化：

7.3 基于数字世界的“软感知”能力

“软感知”能力的分类

1、埋点：
（1）代码埋点：根据统计需求选择需要埋点的区域及埋点方式，从而获取想要数据。
（2）可视化埋点：通过可视化页面设定埋点区域和事件ID，从而在用户操作时记录操作行为。
（3）全埋点：在SDK部署时做统一的埋点，将APP或应用程序的操作尽量多地采集下来。

2、日志数据采集：
（1）操作日志：系统用户使用系统过程中的一系列的操作记录。
（2）运行日志：用于记录网元设备或应用程序在运行过程中的状况和信息。
（3）安全日志：用于记录在设备侧发生的安全事件，如登录、权限等。

3、网络爬虫：
Python、Java、PHP、C#、Go等语言都可以实现爬虫。

“软感知”能力在华为的实践

7.4 通过感知能力推进企业业务数字化

感知数据在华为信息架构中的位置

非数字原生企业数据感知能力的建设

第八章：打造"清洁数据"的质量综合管理能力

8.1 基于PDCA的数据质量管理框架

什么是数据质量？
数据满足应用的可信程度

(1)完整性：指数据在创建、传递过程中无缺失和遗漏。包括实体完整、属性完整、记录完整和字段值完整四个方面。
(2)及时性：指及时记录和传递相关数据，满足业务对信息获取的时间要求。
(3)准确性：指真实、准确地记录原始数据，无虚假数据及信息。
(4)一致性：指遵循统一的数据标准记录和传递数据和信息。
(5)唯一性：指同一数据只能有唯一的标识符。
(6)有效性：指数据的值、格式和展现形式符合数据定义和业务定义的要求。

数据质量管理范围

数据质量和流程质量的区别？
(1)流程质量是基于流程结果评估业务执行的好坏。
(2)数据质量更关注业务对象、业务规则、业务过程、业务结果等数据是否得到及时
记录。

数据质量的总体框架

依据：以IS08000质量标准体系为依据，PDCA数据质量管理框架。

目标和动力：以数据清洗为目标，以业务需求为驱动。

8.2 全面监控企业业务异常数据

数据质量规则

四类数据质量分类框架？
(1)单列数据质量规则：关注数据属性值的有无以及是否符合自身规范的逻辑判断。
(2)跨列数据质量规则：关注数据属性间关联关系的逻辑判断。
(3)跨行数据质量规则：关注数据记录之间关联关系的逻辑判断。
(4)跨表数据质量规则：关注数据集关联关系的逻辑判断。

数据质量特性？
完整性、及时性、有效性、一致性、唯一性、准确性

异常数据监控

(1)识别监控对象范围，确定监控内容。
(2)数据源剖析：a)数据源内容;b)数据源结构;c)数据源质量;
(3)设计和配置监控规则，自动监测异常数据。

8.3 通过数据质量综合水平牵引质量提升

通过组织、流程、IT三方面的能力保障，
是数据质量管理“系统化”、“持续化”、“常态化”。

数据质量度量运作机制

(1)度量模型=设计质量+执行质量。设计质量评估信息架构的建设，执行质量评估数据清洁。
(2)数据Owner职责要求： ①公司数据Owner；②各领域数据Owner；
(3)专业支撑组织职责要求：①公司数据管理部；②各领域数据管理部；
(4)度量规则： ①度量对象选定原则；②度量频率；③度量方法；④评价标准；

设计质量度量

(1)数据资产目录： ①业务对象需有明确、唯一的数据Owner。②业务对象的元数据质量。 ③资产目录完整性。
(2)数据标准： ①数据标准元数据质量；②所有业务对象应准确关联数据标准；③数据标准在IT系统及其对应的业务流程中应得到应用和遵从。
(3)数据模型： ①开发概念模型和逻辑模型；②物理数据模型设计应遵从逻辑数据模型设计，数据库中物理表的落地应遵循物理模型；
(4)数据发布：①已认证数据源；②交易侧完整的信息链和数据流；③交易侧业务资产、数据湖、主题联接、数据服务、自助分析之间完整准确的血缘关系。
(5)设计质量打分模型：

执行质量度量

1、执行质量度量评估数据内容的清洁度，三要素：
(1)客户关注重要性：给客户运营直接带来影响的数据客户关注度高；
(2)法律财务风险性：与法律、财务关联性强，发生质量问题会触犯法律或财产损失的，则风险性高；
(3)业务流程战略性：数据产生的业务流程如是核心交易流程或者战略地位高流程则获得关注高；

2、确定度量指标-数据质量指标按照5项原则设置：
(1)重要性原则：对核心数据、痛点问题严重的数据，需重点考虑设计度量指标；
(2)成本效益原则：运作成熟且质量较高的数据，或度量成本很高但预期改进很少的数据，可考虑简化度量指标或者不度量。
(3)明确性原则：指标设计清晰、可衡量。
(4)分层分级原则：可根据不同层级的管理诉求，设计分层分级的指标。
(5)持续度量原则：一次性就可解决问题的数据不需要度量。

3、确定数据质量衡量标准：数据质量衡量标准是指指标测评结果与用户质量诉求的关系。
满分、优、良、好、差

4、执行度量：

质量改进

目的：
数据质量改进致力于增强满足数据质量要求的能力。
质量改进的步骤本身就是一个PDCA循环。

数据质量控制（A）和数据质量改进（B）的关系？
(1)质量活动分为两类：维持和改善。维持的方法数据质量控制。改善的方法是数据质量改进。
(2)从结果来说：数据质量控制目的是维持某一特定的质量水平，控制系统的偶发性缺陷；数据质量改进则对某一特定的数据质量水平进行“突破性”提升。
(3)控制是日常工作，可纳入流程体系进行标准化；质量改进是一项阶段性工作，达成既定目标后就完成了；
(4)质量控制是质量改进的前提，控制就意味着维持以前的质量水平，不要下降。不能只关注质量改进，改进后要实施质量控制，二者交替进行，相辅相成。

第九章：打造"安全合规"的数据可控共享能力

9.1 内外部安全形势，驱动数据安全治理发展

数据安全成为国家竞争的新战场：数据已成为企业和国家的“战略资源”和“生产要素”。

数字时代数据安全的新变化：数据泄露的路径越来越多元。

9.2 数字化转型下的数据安全共享

数据安全治理绝不是一套IT工具组合的产品级解决方案，而是从决策层到技术层、从管理制度到工具支撑，自上而下贯穿整个组织架构的完整链路。

9.3 构建以元数据为基础的安全隐私保护框架

以元数据为基础的安全隐私治理

元数据承载管理元素：
(1)数据管理：完整性、一致性、可用性
(2)信息安全：保密性
(3)全球网络安全与用户隐私保护：隐私保护、（客户）网络安全
(4)法务合规：贸易合规、商业秘密

数据安全隐私分层分级管控策略

将内部信息密级维度分为五类：
(1)外部公开：指可以在公司外部公开发布的信息，不属于保密信息。
(2)内部公开：指可以在全公司范围内公开，但不应向公司外部扩散的信息。
(3)秘密：是公司较为重要或敏感的信息，其泄露会使公司利益遭受损害，且影响范围较大。
(4)机密：是公司非常重要或敏感的信息，其泄露会使公司利益遭受较大损害，且影响范围广泛。
(5)绝密：是公司最重要或敏感的信息，其泄露会使公司利益遭受巨大损害，且影响范围巨大。

从资产维度增加两类划分，进行针对性管理：
(1)核心资产：对应绝密信息，特指公司真正具有商业价值的信息资产。
(2)关键资产：属于机密信息，特指对我司在消费者BG、5GV领域领先战略竞争对手，在市场竞争中获胜起绝对性作用的信息资产。

将涉及潜在隐私管控需求的数据分为五类进行管理：
(1)个人数据：与一个身份已被识别或者身份可能被识别的自然人(数据主体)相关的任何信息。
(2)敏感个人数据：指在个人基本权力和自由方面极其敏感，一旦泄露可能会造成人身伤害、财务损失、名誉损害、身份盗窃或欺诈、歧视性待遇等的个人数据。
(3)商业联系个人数据：指自然人基于商业联系目的提供的可识别到个人的数据。
(4)一般个人数据：除敏感个人数据、商业联系人以外的个人数据、作为一般个人数据。
(5)特种个人数据：GDPR法律中明文确定的特数据种类个人数据，严禁物理入湖，严禁共享及分析。

数据底座安全隐私分级管控方案

在应用数据安全与隐私保护框架和方法基础上，构建了数据底座的安全隐私五个子方案包:
(1)数据底座安全隐私管理政策：说明数据底座的责任边界、数据风险标识标准、数据加工、存储、流转规范；
(2)数据风险标识方案：平台提供的数据标识能力；
(3)数据保护能力架构：数据底座分级存储架构能力。
(4)数据组织授权管理：数据在组织内共享的规则；
(5)数据个人权限管理：个人访问数据的权限管理方案。

数据底座安全管理总则与数据管理原则一致，即“核心资产安全优先、非核心资产效率优先”。
数据安全规范主体包含三部分：
(1)数据密级分级标准：包括外部公开、内部公开、秘密、机密、绝密五个等级。
(2)存储保护的基线：描述每一个级别的数据资产的存储要求以及入湖原则。
(3)流转审批层级：描述每一个级别的数据资产在申请数据共享时应该经过哪些控制审批。

隐私保护规范主体包括三部分：
(1)个人数据分类、分级标准：非个人数据、商业联系个人数据、一般个人数据、敏感个人数据，共4个级别。
(2)个人数据保护基线：根据个人数据分级做不同程度的数据保护，法律明文规定的特种个人数据严禁入湖。
(3)流转审批层级：隐私审批层级基本与安全一致。

分级标识数据安全隐私

风险标识方法：
(1)人工标识数据风险；
(2)基于规则与AI的自动识别；

9.4 “静”“动”结合的数据保护与授权管理

静态控制：数据保护能力框架

数据保护能力：
(1)存储保护：
①高防护隔离：是我们通过在数据底座独立部署单独的防火墙以及配合流向控制、堡垒机等措施，对高密资产重点防护。
②透明加密：透明加密就是对表空间进行加解密，进入表空间的表自动加密，有权限的应用读取表空间的表时就自动解密。
③对称加密：对称加密指应用对数据字段应用对称加密算法进行加密，需要配合统一的密钥管理服务使用。
④静态脱敏：首先需要从技术角度制定出脱敏标准。
(2)访问控制：动态脱敏是一项基于身份的访问控制。
(3)可追溯：数据水印技术（成熟）。

动态控制：数据授权与权限管理

数据授权管理：

定义：
数据授权主要是面向组织，指数据Owner对组织授予数据访问权的过程，让数据与组织绑定，为组织提供长期的数据订阅权限。

两个场景：
1）数据加工授权：由于数据主题联接资产建设中需要跨组织进行数据联接、加工、训练需要转移数据而发生的数据授权场景。
2）数据消费授权：由于业务用户数据的分析需要订阅数据服务而发生的数据授权场景。

数据权限管理：

定义：
数据权限管理是基于访问管控规范，对授予的数据访问权限进行管理的过程。

两个场景：
(1)面向个人：指业务制定数据访问管控规范，授予个人数据访问权限的过程，具有与个人绑定、短期有效的特点。
①业务分析师获取数据资产（原材料场景）。②业务用户获取报告访问权限（成品场景）。
(2)面向与岗位绑定的综合管理者:

第十章：未来已来：数据成为企业核心竞争力

10.1 数据：新的生产要素

数据被列为生产要素：制度层面的肯定

2019年10月，中国共产党第十九届中央委员会第四次全体会议审议通过了《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》（以下简称《决定》）。《决定》指出：“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制。”这是首次将数据作为与劳动、资本、土地、知识、技术、管理并列的生产要素。

2020年4月9日，《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》（以下简称《意见》）正式公布。《意见》分类提出了土地、劳动力、资本、技术、数据五个要素领域改革的方向，明确了完善要素市场化配置的具体举措。《意见》提出要从三个方面加快培育数据要素市场：推进政府数据开放共享；提升社会数据资源价值；加强数据资源整合和安全保护。

数据将进入企业的资产负债表

在数字时代，能否掌握数据资产并将其有效转化为生产要素，已经成为衡量一个企业核心竞争力的决定性因素。
围绕数据这一新的生产要素的两个方面来论述：第一，如何提高数据资产的利用率；第二，如何降低数据的运行维护成本。

数据资产的价值由市场决定

10.2 大规模数据交互的企业数据生态

数据生态离不开底层技术的支撑

数据生态建设目标是：
从依赖管理手段到依赖自动化技术，增强数据管理的可信、透明；通过基于密码学和区块链技术的智能合约代码化，支撑商业生态系统的数据安全交换；构建统一标准的数据交换空间，实现与客户、合作伙伴协同的数据生态体验。

数据主权是数据安全交换的核心

数据主权是自然人或公司实体对其数据进行排他性自决的权利。
数据主权与云主权、数据采集组件的主权共同构成了完整的生态主权。

数据主权管理与数据所有权管理区别？
数据所有权管理针对的是数据提供，确保数据同源可信，数出一孔；
数据主权管理针对的是数据访问与使用，确保数据安全共享，防止数据滥用。

国际数据空间的目标与原则

国际数据空间（International Data Spaces，IDS）是一个虚拟数据空间。

IDS的目标是满足以下战略需求：
(1)信任：信任是IDS的基础。
(2)安全与数据主权：IDS的各个组成部分依赖于现有的安全措施。
(3)数据生态系统：IDS架构无须具备集中的数据存储能力，相反，IDS架构追求分散化数据存储，这实际上意味着，在传递给可信任的另一方之前，数据仍然()由各自的数据所有者所有。
(4)标准化的互用性：IDS连接器作为架构的核心组件，由不同的供应商提供并以不同的形式展现。
(5)增值应用：IDS允许将应用嵌入各个连接器，以便在纯数据交换的基础上提供服务。
(6)数据市场：IDS允许创建使用数据应用、基于数据的新型服务。

多方安全计算强化数据主权

10.3 摆脱传统手段的数据管理方式

智能数据管理是数据工作的未来

内容级分析能力提供资产全景图

属性特征启发主外键智能联接

质量缺陷预发现

算法助力数据管理

数字道德抵御算法歧视

10.4 第四个世界：机器认知世界

真实唯一的“物理世界”和五彩缤纷的“人类认知世界”

第一，不同的功能部门对产品的认知是不同的。
第二，对于大型企业，往往存在多个产品事业部，存在多个信息系统，对“产品”数据定义除了受到“功能部门”视角的影响，还取决于不同架构师的经验和抽象能力。

映射“物理世界”的数字孪生——"数字世界"