DAMA重点知识拆解
2023-08-09 17:47:34 2 举报
AI智能生成
DAMA(数据管理协会)是一个专注于数据管理的全球性组织,致力于推动数据管理的最佳实践和标准。DAMA的知识体系包括数据治理、数据架构、数据建模和设计、数据存储和操作、数据分析和准备、数据安全和隐私等多个方面。其中,数据治理是DAMA的核心内容,它涉及到数据的所有权、访问权、质量、安全等方面的问题。数据架构则关注如何设计和实现高效、可靠的数据系统。数据建模和设计则是将业务需求转化为数据模型的过程。数据存储和操作则涉及到数据的存储、备份、恢复等问题。数据分析和准备则是利用各种工具和技术对数据进行分析和处理。最后,数据安全和隐私则是保护数据不被未经授权的访问和使用。
作者其他创作
大纲/内容
第17章 数据管理和组织变革管理 2 分
变革法则
1)组织不变革,人就变
2)人们不会抗拒变革,但抵制被改变
3)事情之所以存在是惯性所致
4)除非有人推动变革,否则很可能止步不前
5)如果不考虑人的因素,变革将很容易
William Bridges的变革转型阶段
结束阶段
相持阶段
新的开始阶段
柯特的变革管理八大误区
误区一:过于自满
误区二:未能建立足够强大的指导联盟
误区三:低谷愿景的力量
误区四:10倍、100倍或1000倍地放大愿景
误区五:允许阻挡愿景的障碍存在
误区六:未能创造短期收益
误区七:过早宣布胜利
误区八:忽视将变革融入企业文化
柯特提出阻碍变革管理的常见因素
1)内向型文化
2)瘫痪的官僚机构
3)狭隘性政治
4)信任度低
5)缺乏团队合作
6)狂妄自大
7)欠缺领导力或者领导力失败
8)对未知的恐惧
柯特的重大变革八步法
1. 树立紧迫感
2. 建立指导联盟
3. 建立愿景和策略
4. 沟通变革愿景
5. 给基于委员会的行动授权
6. 创造短期收益
7. 巩固收益并创造更多变革
8. 将变更成果融入企业文化
第16章 数据管理组织与角色期望 4 分
了解当前组织的企业文化、运营模式和人员作用
1)数据在组织中的作用
2)关于数据的文化规范
3)数据管理和数据治理实践
4)如何组织和执行工作
5)汇报关系的组织方式
6)技能水平
网络运营模式
通过RACI(谁负责,Responsible;谁批准,Accountable;咨询谁,Consulted;通知谁,Informed)责任矩阵,利用一系列的文件记录联系和责任制度,使分散的非正规性组织变得更加正式,称为网络模式。
关键成功因素
1)高管层的支持
2)明确的愿景
3)主动的变更管理
4)领导者之间的共识
5)持续沟通
6)利益相关方的参与
7)指导和培训
8)采用度量策略
9)坚持指导原则
10)演进而非革命
首席数据官(CDO)
1)建立组织数据战略
2)使以数据为中心的需求与可用的IT和业务资源保持一致
3)建立数据治理标准、政策和程序
4)为业务提供建议(以及可能的服务)以现实数据能动性,如业务分析、大数据、数据治理和数据技术
5)向企业内外部利益相关方宣传良好的信息管理原则的重要性
6)监督数据在业务分析和商务智能中的使用情况
个人角色
个人角色可以从业务或IT角度分别定义
1.执行官角色
2.业务角色
3.IT角色
1)数据架构师
2)数据建模师
3)数据模型管理员
4)数据库管理员
5)数据安全管理员
6)数据集成架构师
7)数据集成专家
8)分析/报表开发人员
9)应用架构师
10)技术架构师
11)技术工程师
12)桌面管理员
13)IT审计员
4. 混合角色
1)数据质量分析师
2)元数据专家
3)BI架构师
4)BI分析师/管理员
5)BI项目经理
第15章 数据管理成熟度评估 6分
引言
概念
能力成熟度评估(Capability Maturity Assessment,CMA)是一种基于能力成熟度模型(Capability Maturity Model,CMM)框架的能力提升方案,描述了数据管理能力初始状态发展到最优化的过程。
成熟度级别
0级。无能力级。
1级。初始级或临时级:成功取决于个人的能力。
2级。可重复级:制定了最初级的流程规则。
3级。已定义级:已建立标准并使用。
4级。已管理级:能力可以被量化和控制。
5级。优化级:能力提升的目标是可量化的。
数据管理成熟度评估(DMMA)可用于全面评估数据管理,也可用于聚焦单个知识领域甚至单个过程
业务驱动因素
1. 监管。监管对数据管理提出了最低成熟度水平要起。
2. 数据治理。出于规划与合规性目的,数据治理需要进行成熟度评估。
3. 过程改进的组织就绪。组织认识到要改进其实践过程应从评估其当前状态开始。
4. 组织变更。组织变更(如合并)会带来数据管理挑战
5. 新技术。技术的进步提供了管理和使用数据的新方法
6. 数据管理问题。
目标和原则
目标
数据管理能力评估的主要目标是评估关键数据管理活动的当前状态,以便制定计划进行改进
1)向利益相关方介绍数据管理概念、原则和实践
2)厘清利益相关方在组织数据方面的角色和责任
3)强调将数据作为关键资产进行管理的必要性
4)扩大对整个组织内数据管理活动的认识
5)有助于改进有效数据治理所需的协作
基本概念
现有DMMA框架
1)CMMI数据管理成熟度模型(DMM)
2)EDM委员会DCAM
3)IBM数据治理委员会成熟度模型
4)斯坦福数据治理成熟度模型
5)Gartner的企业信息管理成熟度模型
活动
执行成熟度评估
1. 收集信息
2. 执行评估
重新评估成熟度
1)通过第一次评估建立基线评级
2)定义重新评估参数,包括组织范围
3)根据需要,在公布的时间表上重复DMM评估
4)跟踪相对于初始基线的趋势
5)根据重新评估结果制定建议
第14章 大数据和数据科学 4分
引言
信息收敛三角
分支主题
基本概念
数据科学
数据科学将数据挖掘、统计分析和机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。
数据科学的过程
分支主题
大数据
特征
1)数据量大(Volume)
2)数据更新快(Velocity)
3)数据类型多样/可变(variety/Variability)
4)数据黏性大(Viscosity)
5)数据波动性大(Volatility)
6)数据准确性低(Veracity)
数据湖
数据湖是一种可以提取、存储、评估和分析不同类型和海量数据的环境,可供多种场景使用。
机器学习
算法类型
1)监督学习(Supervised learning)。基于通用规则(如将SPAM邮件与非SPAM邮件分开)
2)无监督学习(Unsupervised learning)。基于找到那些隐藏的规律(数据挖掘)
3)强化学习(Reinforcement learning)。基于目标的实现(如在国际象棋中击败对手)
语义分析
使用自然语言处理(NLP)分析短语或句子、语义察觉情绪,并揭示情绪的变化,以预测可能的情景。
规范分析
规范分析(Prescriptive Analytics)比预测分析更进一步,它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。
非结构化数据分析
非结构化数据分析(Unstructured Data Analytics)结合了文本挖掘、关联分析、聚类分析和其他无监督学习技术来处理大型数据集。
运营分析
运营分析(Operational Analytics)也称为运营BI或流式分析,其概念使用运营过程与实时分析的整合中产生。
数据可视化
可视化(Visualization)是通过使用图片或图形表示来解释概念、想法和事实的过程。
数据混搭
数据混搭(Data Mashups)将数据和服务结合在一起,以可视化的方式展示见解或分析结果。
工具
MPP无共享技术和架构
大规模并行处理(MPP)的无共享数据库技术,已成为面向数据科学的大数据集分析标准平台
在MPP数据库中,数据在多个处理服务器(计算节点)之间进行分区(逻辑分布),每个服务器都有自己的专用内存来处理本地数据。
第13章 数据质量 10分
引言
导致低质量数据产生因素
1. 组织缺乏对低质量数据影响的理解
2. 缺乏规划
3. 孤岛式系统涉及
4. 不一致的开发过程
5. 不完整的文档
6. 缺乏标准或缺乏治理等
数据质量管理不是一个项目,而是一项持续性工作
语境关系图:数据质量
定义
为确保满足数据消费者的需求,应用数据管理技术进行规划,实施和控制等管理活动
目标
根据数据使用者的需求,开发一种让数据符合用途的管理方法
作为数据生命周期的一部分,定义数据质量控制的标准、要求和规范
定义和实施测量、监控和报告数据质量水平的过程
通过过程和系统的改进,识别和提倡提高数据质量的机会
输入
数据政策和标准
数据质量期望
业务需求
业务规则
数据需求
业务元数据
技术元数据
数据源和数据存储
数据血缘
活动
1.定期高质量数据(P)
2.定义数据质量战略(P)
3.识别关键数据和业务规则(P)
1)识别关键数据
2)识别已有规则和模式
4.执行初始数据质量评估(P)
1)确定问题并排定优先顺序
2)执行问题根本原因分析
5.确定改进方向并排定优先顺序
1)根据业务影响确定行动优先级
2)制定预防和纠正措施
3)确认计划的行动
6.定义数据质量操作(P)
7.开发和部署数据质量操作(D)
1)开发数据质量操作规则
2)修正数据质量缺陷
3)度量和监控数据质量
4)报告数据质量水平和调查结果
交付成果
数据质量战略和框架
数据质量规划组织
数据概况分析
基于问题根本原因分析的建议
数据质量管理规程
数据质量报告
数据质量治理报告
数据质量服务等级协议
数据政策和指南
方法
多个自己交叉抽查
标记和注释数据问题
根本原因分析
统计过程控制
工具
数据剖析和查询工具
数据质量规则模版
质量检查和审计代码模块
元数据存储库
度量指标
和治理一致性指标
数据质量测量结果
数据质量趋势
数据问题管理指标
业务驱动因素
1. 提高组织数据价值和数据利用的机会
2. 降低低质量数据导致的风险
3. 提高组织效率和生产力
4. 保护和提高组织的声誉
目标和原则
数据质量管理目标
1)根据数据消费者的需求,开发一种受管理的方法,使数据适合要求。
2)定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分。
3)定义和实施测量、监控和报告数据质量水平的过程。
数据质量管理遵循原则
1)重要性。
数据质量管理应关注对企业及其客户最重要的数据,改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判定。
2)全生命周期管理。
数据质量管理应覆盖从创建或草沟直至处置的数据全生命周期,包括其在系统内部和系统之间流转时的数据管理(数据链中的每个环节都应确保数据具有高质量的输出)。
3)预防。
数据质量方案的重点应放在预防数据错误和降低数据可用性等情形上,不应放在简单的纠正记录上。
4)根因修正。
提高数据质量不只是纠正错误,因为数据质量问题通常与流程或系统设计有关,所以提高数据质量通常需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决。
5)治理。
数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境。
6)标准驱动。
数据生命周期中的所有利益相关方都会有数据质量要求。在可能的情况下,对于可量化的数据质量需求应该以可测量的标准和期望的形式来定义。
7)客观测量和透明度。
数据质量水平需要得到客观、一致的测量。应该与利益相关方一同讨论与分享测量过程和测量方法,因为他们是质量的裁决者。
8)嵌入业务流程。
业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准。
9)系统强制执行。
系统所有者必须让系统强制执行数据质量要求。
10)与服务水平关联。
数据质量报告和问题管理应纳入服务水平协议(SLA)
基本概念
数据质量
数据质量一词既指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。
关键数据
大多数组织都有大量的数据,但并非所有的数据都同等重要。数据质量管理的一个原则是将改进的重点集中在对组织及其客户最重要的数据上
评估关键数据的要求
1. 监管报告
2. 财务报告
3. 商业政策
4. 持续经营
5. 商业战略,尤其是差异化竞争战略
数据质量维度
数据质量维度是数据的某个可测量的特征
三个最具影响力的任务
Strong-Wang框架侧重于数据消费者对数据的看法
Thomas Redman在《信息时代的数据质量》一书中,制定了一套基于数据结构的数据质量维度。Redman将一个数据项定义为“可表示的三元组”:一个实体属性域与值的集合。
Larry English在《改善数据仓库和业务信息质量》一书中提出了一套综合指标,分为两大类别:固有特征和实用特征。固有特征与数据使用无关,实用特征是动态的,与数据表达相关,其质量价值依赖数据的用途而不同
数据质量的6个核心维度
1)完备性。存储数据量与潜在数据量的百分比
2)唯一性。在满足对象识别的基础上不应多次记录实体实例(事物)
3)及时性。数据从要求的时间点起代表现实的程度。
4)有效性。如数据符合其定义的语法(格式、类型、范围),则数据有效。
5)准确性。数据正确描述所描述的“真实世界”对象或事件的程度。
6)一致性。比较事物多种表述与定义的差异。
数据质量和元数据
元数据对于管理数据质量至关重要。数据质量是为了满足预期,而元数据是阐明期望的主要手段。
数据质量改进生命周期
改进数据质量常用方法
戴明环是一个被称为“计划-执行-检查-处理”的问题解决模型
P:计划
D:执行
C:检查
A:行动/处理
数据质量业务规则类型
1)定义一致性。
确认对数据定义的理解相同,并在整个组织过程中得到实现和正确使用;
2)数值存在和记录完备性。
定义数值缺失的情况是否可接受规则
3)格式符合性。
按指定模式分配给数据元素的值,如设置电话号码格式的标准
4)值域匹配性。
指定数据元素的赋值须包含在某个数据值域的枚举值中,如州字段的合理取值为2个字符的美国邮政编码。
5)范围一致性。
数据元素赋值必须在定义的数字、词典或时间范围内,如数字范围大于0、小于100.
6)映射一致性。
表示分配给数据元素的值,必须对应于映射到其他等效对应值域中的选择值。
7)一致性规则。
指根据这些属性的实际值,在两个(或多个)属性之间关系的条件判定。
8)准确性验证。
将数据值与记录系统或其他验证来源(如从供应商处购买的营销数据)中的相应值进行比较,以验证值是否匹配。
9)准确性验证。
指定哪些实体必须具有唯一表达,以及每个表达的真实世界对象有且仅有一个记录的规则。
10)及时性验证。
表明与数据可访问性和可用性预期相关特征的规则。
数据质量问题的常见原因
1)缺乏领导力导致的问题
2)数据输入过程引起的问题
3)数据处理功能引起的问题
4)系统设计引起的问题
5)解决问题引起的问题
数据剖析:数据剖析(Data Profiling)是一种用于检查数据和评估质量的数据分析形式
方法
纠正措施
执行数据修正方法
1. 自动修正
2. 人工检查修正
3. 人工修正
有效的数据质量指标
特征
1)可度量性。
2)业务相关性。
3)可接受性。
4)问责/管理制度。
5)可控制性。
6)趋势分析。
数据质量和数据治理
度量指标
数据质量的高阶指标
1)投资回报
2)质量水平
3)数据质量趋势
4)数据问题管理指标
5)服务水平的一致性
6)数据质量计划示意图
第12章 元数据管理 10分
引言
定义
1. 元数据最常见的定义是“关于数据的数据”。
2. 元数据对于数据管理和数据使用来说都是必不可少的
3. ISO的元数据注册标准ISO/IEC 11179旨在基于精确数据定义,在异构环境中实现以元数据为驱动的数据交换
元数据:语境关系图
定义
通过计划、实施和控制活动确保访问到高质量的、整合的元数据
目标
1. 提供企业可理解的业务术语并使用它
2. 从不同来源采集和整合元数据
3. 提供访问元数据的标准方法
4. 确保元数据质量与安全
交付成果
元数据战略
元数据标准
元数据架构
元模型
统一的元数据
元数据库
数据血缘
影响分析
依赖分析
元数据控制过程
方法
数据血缘和影响分析
应用于大数据采集的元数据
工具
元数据存储库管理工具
其他工具的元数据存储库
度量指标
元数据覆盖范围积分卡
元数据存储库分发
元数据使用报告
元数据质量分析卡
业务驱动因素
数据管理需要元数据,元数据本身也需要管理,可靠且良好管理元数据有助于:
1. 通过提供上下问语境和执行数据质量检查提高数据的可信度
2. 通过扩展用途增加战略信息(如主数据)的价值
3. 通过识别冗余数据和流程提高运营效率
4. 防止使用过时或不正确的数据
5. 减少数据的研究时间
6. 改善数据使用者和IT专业人员之间的沟通
7. 创建准确的影响分析,从而降低项目失败的风险。
8. 通过缩短系统开发生命周期时间缩短产品上市时间
9. 通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响
10. 满足监督合规
元数据管理不善容易导致以下问题
1. 冗余的数据和数据管理流程
2. 重复和冗余的字典、存储库和其他元数据存储
3. 不一致的数据元素定义和数据滥用的相关风险
4. 元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心
5. 怀疑元数据和数据的可靠性
目标和原则
元数据管理的目标
1. 记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性。
2. 收集和整合来自不同来源的元数据,以确保人们了解来自组织不同部门的数据之间的相似与差异。
3. 确保元数据的质量、一致性、及时性和安全
4. 提供标准途径,使元数据使用者(人员、系统和流程)可以访问元数据
5. 推广或强制使用技术元数据标准,以实现数据交换
元数据实施原则
1)组织承诺
将元数据管理作为企业整体战略的一部分,将数据作为企业资产进行管理
2)战略
制定元数据战略,考虑如何创建、维护、集成和访问元数据
3)企业视角
4)潜移默化
5)访问
确保员工了解如何访问和使用元数据
6)质量
流程所有者应对元数据的质量负责
7)审计
制定、实施和审核元数据标准,以简化元数据的集成和使用
8)改进
创建反馈机制
基本概念
元数据与数据
元数据也是一种数据,应该用数据管理的方式进行管理
元数据的类型
业务元数据
业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其它特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义
技术元数据
技术元数据提供有关数据的技术细节、存储数据的系统以及在系统内和系统间数据流转过程的信息
操作/运营元数据
操作元数据描述了处理和访问数据的细节
ISO/IEC 11179元数据注册标准
组成
第一部分:数据元素生成和标准化框架
第二部分:数据元数据分类
第三部分:数据元素的基本属性
第四部分:数据定义的形成规则和指南
第五部分:数据元素的命名和识别原则
第六部分:数据元素的注册
元数据来源
1. 应用程序中元数据存储库
2. 业务术语表
3. 商务智能工具
4. 配置管理工具
5. 数据字典
6. 数据集成工具
7. 数据库管理和系统目录
8. 数据映射管理工具
9. 数据质量工具
10. 字典和目录
11. 事件消息工具
12. 建模工具和存储库
13. 参考数据库
14. 服务注册
15. 其他元数据存储
元数据架构的类型
1)集中式元数据架构
2)分布式元数据架构
3)混合式元数据架构
4)双向元数据架构
方法
应用于大数据采集的元数据
活动
元数据需求
1)更新频次
元数据属性和属性集更新频率
2)同步情况
数据源头变化后的更新时间
3)历史信息
是否需要保留元数据的历史版本
4)访问权限
通过特定的用户界面功能,谁可以访问元数据,如何访问
5)存储结构
元数据如何通过建模来存储
6)集成要求
元数据从不同数据源的整合程度,整合的规则
7)运维要求
更新元数据的处理过程和规则(记录日志和提交申请)
8)管理要求
管理元数据的角色和职责
9)质量要求
元数据的质量需求
10)安全要求
一些元数据不应该公开,因为会泄漏某些高度保密数据的信息
元模型
创建一个元数据存储库的数据模型,也叫元模型
查询、报告和分析元数据
元数据指导如何使用数据资产:在商务智能(报表和分析)、商业决策(操作型、运营型和战略型)以及业务语义(业务所述内容及其含义)方面使用元数据。元数据存储库应具有前端应用程序,并支持查询和获取功能,从而满足以上各类数据资产管理的需要
元数据治理
度量指标
1. 元数据存储库完整性
2. 元数据管理成熟度
3. 专职人员配备
4. 元数据使用情况
5. 业务术语活动
6. 主数据服务数据遵从性
7. 元数据文档质量
8. 元数据存储库可用性
第11章 数据仓库和上午智能 10分
引言:数据仓库,该技术赋能组织将不同来源的数据整合到公共的数据模型中去,整合后的数据能为业务运营提供洞察,为企业决策支持和创造组织价值开辟新的可能性。数据仓库还是减少企业建设大量决策支持系统的一种手段
业务驱动因素
语境关系图
定义
通过规划、实施和控制过程,来提供决策支持数据,支持从事报告、查询和分析的知识工作者
目标
建立和维护提供集成数据所需的技术环境、技术和业务流程,以支持运营功能、合规性要求和商务智能活动
支持和赋能知识工作者进行有效的业务分析和决策
度量指标
使用指标
客户/用户满意度
主题域覆盖率
时间响应和性能指标
目标和原则
组织建设数据仓库的目标
1)支持商务智能活动
2)赋能商业分析和高效决策
3)基于数据同差寻找创新方法
数据仓库建设应遵循指导原则
1)聚焦业务目标
2)以终为始
让业务优先级和最终交付的数据范围驱动数据仓库内容的建设
3)全局性的思考和设计,局部性的行动和建设
4)总结并持续优化,而不是一开始就这样做
5)提升透明度和自助服务
6)与数据仓库一起建立元数据
7)协同
8)不要千篇一律
基本概念
1.商务智能
1.商务智能指的是一种理解组织诉求和寻找机会的数据分析活动
2.商务智能指的是支持这类数据分析活动的技术集合
2. 数据仓库
1. 一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序
2.为了支持历史的、分析类的和商务智能的需求,数据仓库建设还会包括相依赖的数据集市,数据集市的数据仓库中数据子集的副本
3.从广义上来说,数据仓库包括为任何支持商务智能目标的实现提供数据的数据存储或提取操作。
数据仓库建设的方法
Bill Inmon
把数据仓库定义为“面向主题的 ,整合的、随时间变化的、相对稳定的支撑管理决策的数据集合”,用规范化的关系模型来存储和管理数据
面向主题的
整合的
随时间变化的
稳定的
聚合数据和明细数据
历史的
CIF组成部分
1.应用程序
2. 数据暂存区
3. 集成和转换
4.操作型数据存储(ODS)
5. 数据集市
6. 操作型数据集市(OpDM)
7. 数据仓库
8. 运营报告
9. 参考数据、主数据和外部数据
Ralph Kimball
数据仓库定义为“为查询和分析定制的交易数据的副本”,他的方法通常称作多维模型
多维模型通常称作星型模型,由事实表(包含有关业务流程的定量数据,如销售数据)和多维表(存储与事实表数据相关的描述性属性),为数据消费解答关于事实表的问题,如这个季度产品X卖了多少)组成。
多个事实数据表将通过“总线”共享公共的维度或遵循一致性的维度,类似于计算机中的总线。通过插入遵循维度的总线,可以将多个数据集市集成为企业级的数据集市。
数据仓库包含的组件
1. 业务源系统
2. 数据暂存区
3. 数据展示区
4. 数据访问区
数据仓库架构组件
数据仓库环境包括一系列组织起来以满足企业需求的架构组件
1. 源系统
源系统包括要流入数据仓库/商务智能环境的业务系统和外部数据
2. 数据集成
包括抽取、转换和加载
3. 数据存储区域
1)暂存区
2)参考数据和主数据一致性维度
3)中央数据仓库
4)操作型数据存储(ODS)
5)数据集市
6)数据立方体(Cubes)
从源系统流动到数据暂存区,数据可以在这里被清洗,当数据集成并存储在数据仓库或操作数据存储中时,可以对其进行补充丰富。在数据仓库中,可以通过数据集市或数据立方体访问数据,生成各种各样的报表。
加载处理方式
数据仓库建设涉及两种主要的数据集成类型:历史加载和持续不断的数据更新
1)历史数据
2)批量变更数据捕获
OLAP
包括
1.切片
2. 切块
3. 向下/向上钻取
4. 向上卷积
5. 透视
三种经典OLAP实现方法
1)关系型联机分析处理(ROLAP)
2)多维矩阵型联机分析处理(MOLAP)
3)混合型联机分析处理(HOLAP)
第10章 参考数据和主数据 4分
引言:在任何组织中,都存在一些需要跨业务领域、跨流程和跨系统使用数据
业务驱动因素
1. 满足组织数据需求
2. 管理数据质量
3. 管理数据集成的成本
4. 降低风险
5. 档案的合理处理
参考数据和主数据
PCDO(计划、控制、开发、运营)语境关系图
定义:管理共享数据以满足组织目标,减少与数据冗余相关的风险,确保更高的质量,并降低数据整合的成本
目标
1. 在一个组织内,跨领域和应用程序共享信息资产
2. 提供权威的经协调和质量评估的参考数据和主数据来源
3. 通过使用标准、通用数据模型和集成模式降低成本和复杂性
交付成果
1. 主数据和参考数据需求
2. 数据模型和集成模式
3. 可信的参考数据和主数据
4. 可重复利用的数据服务
方法
使用条件协议
业务关键部分交叉引用
处理日志分析
工具
数据建模工具
元数据资料库
数据剖析和质量工具
数据集成工具
主数据管理应用平台
数据共享/集成架构
度量指标
数据质量和遵从性
数据变更活动
数据消费和服务
数据共享可用性
数据管理专员覆盖率
数据共享变量和使用情况
拥有总成本
参考数据和主数据管理的目标和原则
目标
1)确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据
2)促使企业在各业务单元和各应用系统之间共享参考数据和主数据
3)通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性
原则
1)共享数据。为了能在组织中实现参考数据和主数据共享,必须把这些数据管理起来
2)所有权。参考数据和主数据的所有权属于整个组织,而不是属于某个应用系统或部门
3)质量。参考数据和主数据需要持续的数据质量监控和治理
4)管理职责。业务数据管理专员要对控制和保证参考数据的质量负责
5)控制变更。
1.在给定的事件点,主数据值应该代表组织对准确和最新内容的最佳理解
2.对参考数据的更改应该遵循一个明确的流程:在实施变更之前应该进行沟通并得到批准
6)权限。主数据值应仅从记录系统(System of Record)中复制。
基本概念
参考数据和主数据管理的区别
主数据是“以与业务活动相关的通用和抽象概念形式提供业务活动语境的数据,包括业务交易中涉及的内部和外部对象的详细信息(定义和标识符),如客户、产品、雇员、供应商和受控域(代码值)”
参考数据是指可用于描述或分类其他数据,或者将数据与外部的信息联系起来的任何数据。最基本的参考数据由代码和描述组成
主数据
一般组织的主数据包括下列事物的数据
1. 参与方
2. 产品和服务
3. 财务体系
4. 位置信息
5. 法律主数据
6. 行业主数据-参考目录
主数据管理的关键处理步骤
1)数据模型管理
2)数据采集
3)数据验证、标准化和数据丰富
4)实体解析和标识符管理
实体解析:是确定两个对现实世界对象的引用到底是指同一对象还是不同对象的过程
实体解析包括
实例提取
实例准备
实例解析
身份管理
关系分析
第1章 数据管理 4分
引言
业务驱动因素
数据管理的主要驱动力也是使组织能够从其数据资产中获取价值
1)是数据为业务赋能
2)是数据作为生产要素直接用来脚哟
基本概念
数据
1. 数据是一种表示方法,它代表的是除自身以外的事物。数据既是对其所代表对象的解释,也是必须解释的对象
2. 数据被称为“信息的原材料”,而信息则被称为“在上下文语境中的数据”。
数据和信息
为不同的目的的准备数据和信息,将使数据管理形成一个核心原则
数据和信息都需要被管理;如果再将两者的使用和客户的需求结合在一起进行管理,则两者应具有更高的质量
数据是一种组织资产
资产是一种经济资源,能被拥有或控制、持有或产生价值。资产可以转换为货币。数据已经被广泛认可为一种企业资产。
1)数据作为生产要素是我国最先提出的
2)许多组织把自己定义为“数据驱动“型组织。
想要保持竞争力的企业必须停止基于直觉或感觉做出决策,而是使用事件触发和应用分析来获得可操作的洞察力。数据驱动包括认识到必须通过业务领导和技术专业知识的合作关系,以专业的规则高效地管理数据。
以前是拍脑袋或者摸着石头过河,现在需要用数据驱动决策
3)当今的业务发展速度意味着变革不再是可选项,数字化转型已经成为共识。
4)目前作为一种资产还不能反应在财务报表中
数据管理原则
1)数据是有独特属性的资产
2)数据的价值可以用经济术语来表示
3)管理数据意味着对数据的质量管理
数据管理的核心目标之一就是数据质量管理
4)管理数据需要元数据
5)数据管理需要规划
6)数据管理须驱动信息技术决策
由业务来驱动数字化转型,由IT部门来落地
7)数据管理是跨职能的工作
除了一把手工程外,还需要全员参与
数据管理一定跨职能的,一定需要大量的协作,这是一条很重要的原则
8)数据管理需要企业级视角
9)数据管理需要多角度思考
zachman模型
10)数据管理需要全生命周期的管理,不同类型数据有不同的生命周期特征
11)数据管理需要纳入与数据相关的风险
12)有效的数据管理需要领导层承担责任
一把手工程
数据管理的挑战
数据与其他资产的区别
1. 无形的
2. 持久的、不会磨损
3. 数据很容易被复制和传送,但它一旦被丢失或销毁,就不容易重新产生了
4. 同时被多人使用
数据价值
数据价值基本上都是用成本来核算,没有用利润来核算
价值(Value)是一件事物的成本和从中获得利益的差异。对于有些资产而言,如存货,计算价值就是非常容易,就是它的购买成本和销售价格之间的差额。
评估数据价值需要首先计算在组织内部持续付出的一般成本和各类收益
评估数据资产面临的主要挑战是,数据的价值是上下文相关(对一个组织有价值的东西可能对另一个组织没有价值),而且往往是暂时的(昨天有价值的东西今天可能没有价值)
数据质量
确保高质量的数据是数据管理的核心
多数情况下要运用数据的过程中进行学习,并进一步创造价值
高质量数据的作用
1)改善客户体验
2)提高生产力
3)降低风险
4)快速响应商机
5)增加收入
6)洞察客户、产品、流程和商机,获得竞争优势
数据优化计划
如果把数据视作创造的一种产品,将要通过它的生命周期做出更好的决定,这些决策需要系统的思考,涉及
1)数据也许被视为独立于业务流程存在
2)业务流程与支持它们的技术之间的关系
3)系统的设计和架构及其所生成和存储的数据
4)使用数据的方式可能被用于推动组织战略
元数据和数据管理
数据管理需要元数据
元数据描述了一个组织拥有什么数据,它代表什么、如何被分类、它来自哪里、在组织之内如何移动、如何在使用中演进、谁可以使用它以及是否为高质量数据。
元数据是以数据形式构成的,因此需要进行严格管理。通常,管理不好数据的组织根本不管理元数据。元数据管理是全面改进数据管理的起点
数据管理是跨职能的工作
数据管理需要系统规划的设计技能、管理硬件和构建软件的高技术技能、利用数据分析理解问题和解释数据的技能、通过定义和模型达成共识的语言技能以及发现客户服务商机和实现目标的战略思维。
建立企业的视角
数据治理变得越来越重要的一个原因是帮助组织跨垂直领域做出数据决策
数据管理需要多角度思考
数据生命周期
从战略上讲,组织不仅要定义其数据内容需求,还要定义其数据管理要求。这些要求包括对使用、质量、控制和安全的制度和期望,企业架构和设计方法,以及基础设施和软件开发的可持续方法。
从概念上讲,数据生命周期很容易描述。它包括创建或获取、移动、转换和存储数据并使其以及维护和共享的过程,是数据的过程,以及处理数据的过程。
数据链
数据不仅具有生命周期,而且具有血缘(它从起点移动到使用点的路径,也称为数据链。)
数据管理对数据生命周期的影响
1)创建和使用是数据生命周期中的关键点
2)数据质量管理必须贯穿整个数据生命周期
3)元数据质量管理必须贯穿整个数据生命周期
4)数据管理还包括确保数据安全,并降低与数据相关的风险
5)数据管理工作应聚焦于关键数据。将数据ROT(冗余的Redundant、过时的Obsolete、碎片化的Trivial)降至最低
不同种类的数据
任何管理系统都需要将管理的对象进行分类
按数据类型分类
交易数据
参考数据
主数据
元数据
类别数据
源头数据
事件数据
详细交易数据
按数据内容
数据域
主题区域
数据所需的格式
保护级别
存储或访问的方式
位置
数据和风险
数据不仅代表价值,也代表风险
数据的风险在于,它可能被误解和误用
数据管理和技术
高效的数据管理需要领导力和承诺
首席数据官(CDO)
倡导CDO的作用源于认识到管理数据会带来独特的挑战,成功的数据管理必须由业务驱动,而不是IT驱动
数据管理战略
战略
战略是一组选择和决策,它们共同构成了实现高水平目标的高水平行动过程
1. 数据战略应该包括使用信息以获得竞争优势和支持企业目标的业务计划
2. 数据战略需要一个支持性的数据管理战略-- 一个维护和改进数据质量、数据完整性、访问和安全性的规划,同时降低已知和隐含的风险
数据管理战略的组成
1)令人信服的数据管理愿景
2)数据管理的业务场景
3)指导原则、价值观和管理观点
4)数据管理的使命和长期目标
5)数据管理成功的建议措施
6)符合SMART原则(具体、可衡量、可操作、现实、有时间限制)的短期(12~24个月)数据管理计划目标
7)对数据管理角色和组织的描述,以及对其职责和决策权的总结
8)数据管理程序组件和初始化任务
9)具体明确范围的优先工作计划
10)一份包含项目和行动任务的实施路线图草案
数据管理战略规划的可交付成果
1. 数据管理章程
包括总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等
2. 数据管理范围声明
包括规划目的和目标(通常3年),以及负责实现这些目标的角色、组织和领导
3. 数据管理实施线路图
确定特定计划、项目、任务分配和交付里程碑
数据管理框架
战略一致性模型(SAM)
抽象了各种数据管理方法的基本驱动因素,模型的中心是数据和信息之间的关系
阿姆斯特丹信息模型(AIM)
与战略一致性模型一样,从战略角度看待业务和IT的一致性
分支主题
DAMA-DMBOK框架
第一阶段
数据建模和设计
数据存储和操作
数据安全
第二阶段
数据架构
数据质量
元数据
第三阶段
数据仓库和商务智能
参考数据和主数据
文件和内容管理
第四阶段
数据挖掘
大数据分析
DAMA环境因素六边形图
人员
组织和文化、角色和职责
技术
工具、交付成果
过程
活动、方法
知识领域语境关系图
定义:知识领域综述
度量指标:流程的测量结果
活动
1.计划活动(P)
2.控制活动(C)
3.开发活动(D)
4.运营活动(O)
第2章 数据处理和伦理 2分
引言
数据处理伦理指如何以符合伦理准则的方式获取、存储、管理、使用和销毁数据
核心
1. 对人的影响
2. 滥用的可能
3. 数据的经济价值
数据处理法规
1. 美国的HIPAA(健康保险可移植性和责任法案)
2. 加拿大的PIPEDA(个人信息保护和电子文案法案)
3. 欧盟通用数据保护条例(GDPR)
语境关系图:数据处理伦理
定义
数据处理伦理是指如何以符合道德准则及社会责任的方式去获取、存储、管理
目标
定义组织中数据处理的伦理规范
教导员工不正当处理数据会产生的企业风险
改变或渗透数据处理行为文化
监管、度量、监控和调整组织伦理准则行为
活动
1.回顾数据处理实践(P)
2.识别准则、方法和风险因素(P)
3.建立数据处理伦理策略(P)
4.找到实践差距(D)
5.沟通和培训员工(D)
6.监控和校正(C)
交付成果
当前实践和差距
数据处理伦理策略
沟通计划
职业伦理培训计划
公司数据伦理声明
对数据伦理问题的认识
统一激励措施,绩效考核指标和目标
更新策略
数据处理伦理报告
方法
沟通计划清单
年度伦理宣誓大会
度量指标
培训员工人数
合规/不合规事件
企业高管参与
业务驱动因素
伦理意味着“在没有人注意的情况下正确做事”
君子慎独
创建一种伦理文化需要引入适当的治理活动,包括建立控制机制,以确保数据处理的预期结果和最终结果都符合伦理要求,不违背托管人的信任或侵犯人类的尊严
数据伦理除了有一个相对立面,也是对决策者、开发者、使用者的一种约束
基本概念
数据伦理准则
生物伦理学以维护人类尊严为中心的公认原则为数据伦理准则提供了一个良好的起点。
四个准则
1)尊重他人
2)行善原则
3)公正
4)尊重法律和公众利益
数据处理伦理遵循的四大支柱
1)面向未来的数据处理条例、尊重隐私权和数据保护权利
2)确定个人信息处理的责任人
3)数据处理产品及服务设计及工程过程中的隐私意识
4)增加个人的自主权
数据隐私法背后的原则
欧盟的GDPR准则
公平、合法、透明
数据主题中的个人数据应以合法、公平和透明的方式进行处理
目的限制
必须按照制定、明确、合法的目标去采集个人数据,并且不得将数据用于采集目标之外的方面
数据最小化
采集的个人数据必须足够相关,并且仅限于与处理目的相关的必要信息
准确性
个人数据必须准确,有必要保持最新的数据。必须采取一切合理步骤,确保在完成个人数据处理后能及时删除或更正不准确的个人数据
存储限制
数据必须以可以识别的数据主体(个人)的形式保存,保存时间不得超过处理个人数据所需的时间
诚信和保密
必须确保个人数据得到安全妥善的处理,包括使用适当技术和组织方法防止数据被擅自或非法处理,防止意外丢失、被破坏或摧毁等
问责制度
控制数据的人员应负责并能够证明符合上述这些原则
加拿大的PIPEDA的法定义务
美国隐私方案标准
建立数据伦理文化
1.评审现有数据处理方法
2.识别原则、实践和风险因素
3.制定合乎伦理的数据处理策略和路线图
4.采用对社会负责的伦理风险模型
第3章 数据治理 10分
引言
数据治理(Data Governance,DG)的定义是在管理数据资产过程中行使权力和管控,包括计划、监控和实施
数据治理职能是指导所有其他数据管理领域的活动
数据治理的目的是确保根据数据管理制度和最佳实践正确的管理数据
数据管理的整体驱动力是确保组织可以从其数据中获得价值,数据治理聚焦于如何制定有关数据的决策,以及人员和流程在数据方面的行为方式
数据治理内容
1)战略
2)制度
3)标准和质量
4)监督
5)合规
6)问题管理
语境关系图
定义
对数据资产管理行使权力、控制和共享决策(规划、监测和执行)的系列活动
目标
提升企业管理数据资产能力
定义、批准、沟通和实施数据管理的原则、政策、程序、指标、工具和责任
监控和指导政策合规性、数据使用和管理活动
交付成果
数据治理策略
数据策略
业务/数据治理行动路线图
数据规范、数据治理策略、过程
操作框架
路线图和实现战略
操作计划
业务术语
数据治理积分卡
数据治理网站
沟通计划
识别数据价值
实践结果成熟粗评估
度量指标
遵从法规和内部数据规范
价值
有效性
持续性
业务驱动因素
数据治理是通过其他业务信息化管理需求所驱动的,如主数据(MDM)管理等
数据治理的驱动因素大多聚焦于减少风险或改进流程
1. 减少风险
1)一般性风险管理
2)数据安全
3)隐私
2. 改进流程
1)法规遵从性
2)数据质量提升
3)元数据管理
4)项目开发效率
5)供应商管理
在整个组织内澄清数据治理的业务驱动因素是基础性工作,将它与整体业务战略保持一致
数据治理不是一次性的行为。治理数据是一个持续性的项目集,以保证组织一直聚焦于能够从数据获得价值和降低有关数据的风险
数据治理要与IT治理区分开
1)IT治理制定关于IT投IT应用组合和IT项目组合的决策,从另一个角度还包括硬件、软件和总体技术架构
2)数据治理仅聚焦于管理数据资产和作为资产的数据
目标和原则
数据治理的目标
使组织能够将数据作为资产进行管理
数据治理提供治理原则、制度、流程、整体框架、管理指标,监督数据资产管理,并指导数据管理过程中各层级的活动。
数据治理程序内容
1)可持续发展(Sustainable)
不是以一个项目作为终点,而是一个持续的过程
2)嵌入式(Embedded)
数据治理不是一个附加管理流程
3)可度量(Measured)
大数据治理基础的原则
1.领导力和战略(Leadership and Strategy)
2.业务驱动(Business-driven)
3.共担责任(Shared Responsibility)
4.多层面(Multi-layered)
5.基于框架(Framework-based)
6.原则导向(Principle-based)
基本概念
数据治理确保数据被恰当地管理而不是直接管理数据
1.以数据为中心的组织
转型并非易事,现有文化及内部制度、关于拥有权的争议、预算、历史遗留系统,都将成为建立企业级数据治理和数据管理的最大障碍
2.数据治理组织
数据治理可以从政治治理的角度来理解。它包括立法职能(定义策略、标准和企业架构)、司法职能(问题管理和升级)和执行职能(保护和服务、管理责任)
数据治理组织的组成部分
分支主题
典型数据治理委员会
分支主题
3.数据治理运营模型类型
集中式管理模式
分布式管理模式
联邦式管理模式
4.数据管理职责
数据管理职责(Data Stewardship)描述了数据管理岗位的职责,以确保数据资产得到有效控制和使用
数据管理活动
1)创建和管理核心元数据
2)记录规则和标准
3)管理数据质量问题
4)执行数据治理运营活动
5.数据管理岗位的类型
1)管理专员(Steward,直译为管家)指其职责是为别人管理财产的人。
2)首席数据管理专员(Chief Data Stewards,CDO)
3)高级数据管理专员(Executive Data Stewards)
4)企业数据管理专员(Enterprise Data Stewards)
5)业务数据管理专员(Business Data Stewards)
6)数据所有者(Data Owner)
7)技术数据管理专员(Technical Data Stewards)
8)协调数据管理专员(Coordinating Data Stewards)
6.数据制度
数据制度包括对数据治理管理初衷的简要说明和相关基本规则,这些规则贯穿数据和信息的创造、获取、集成、安全、质量和使用的全过程
数据战略规划、数据安全管理规则、主数据管理规则、元数据管理规则等一个清单,规章制度
7.数据资产估值
数据资产估值(Data Asset Valuation)是一个理解和计算数据对组织的经济价值的过程
活动
规划组织的数据治理
数据治理工作必须支持业务战略和目标。
数据治理与数据相关的决策责任可共享。
1. 执行就绪评估
评估当前组织的信息管理能力、成熟度和有效性,对于制定数据治理的计划至关重要
典型评估包括
1)数据管理成熟度
2)变革能力
3)协作准备
4)与业务保持一致
2.探索与业务保持一致
数据治理项目必须能够被找到并提供特定的价值来为组织做出贡献
数据质量分析是评估的一部分工作
数据管理实践的评估是数据治理评估过程的另一个关键方面
制定数据治理战略
1.定义数据治理运营框架
开发数据治理的基本定义很容易,但创建一个组织采用的运营框架可能很困难。
构建组织的运营框架考虑几个方面
1)数据对组织的价值
2)业务模式
3)文化因素
4)监管影响
3. 推动数据管理项目
推动数据治理项目关键是阐明数据管理提高效率和降低风险的方法
实施数据治理
1. 发起数据标准和规程
数据管理知识领域内的标准化概念
1)数据架构
2)数据建模和设计
3)数据存储和操作
4)数据安全
5)数据集成
6)文件和内容
7)参考数据和主数据
8)数据仓库和商务智能
9)元数据
10)数据质量
11)大数据和数据科学
2.制定业务术语表
业务术语表目标
1)对核心业务概念和术语有共同的理解
2)降低由于对业务概念理解不一致而导致数据误使用的风险
3)改进技术资产(包括技术命名规范)与业务组织之间的一致性
4)最大限度地提高搜索能力,并能够获得记录在案的组织知识
工具和方法
线上应用/网站
数据治理规划的网站应该包括
1)数据治理战略和项目章程,包括愿景、效益、目标、原则和实施路线图
2)数据制度和数据标准
3)数据管理制度的角色和职责说明
4)数据治理相关新闻公告
5)指向相关数据治理社区论坛的链接
6)指向相关数据治理主题执行进展的链接
7)数据质量测试报告
8)问题识别和上报的规程
9)请求服务或获取问题的入口
10)相关在线资源的描述和链接、演示文档和培训计划
11)数据管理实施路线图
业务术语表
业务术语表是数据治理的核心工具。IT部门要认可业务术语表的定义,并将定义与数据进行关联
工作流工具
文档管理工具
数据治理积分卡
度量指标
数据治理指标的示例
1.价值
1)对业务目标的贡献
2)风险的降低
3)运营效率的提高
2.有效性
1)目标的实现
2)扩展数据管理专员正在使用的相关工具
3)沟通的有效性
4)培训的有效性
5)采纳变革的速度
3.可持续性
1)制度和流程的执行情况(它们是否正常工作)
2)标准和规程的遵从情况(员工是否在必要时遵守指导和改变行为)
第4章 数据架构 10分
引言
数据架构
1.数据架构的主要目标是有效的管理数据,以及有效的管理存储和使用数据的系统
2.最为详细的数据架构设计文件是正式的企业数据模型,包含数据名称、数据属性和元数据定义、概念和逻辑实体、关系以及业务规则。物理数据模型也属于数据架构文件,但物理数据模型是数据建模和设计的产物,而不是数据架构的产物
3.数字化转型几乎发生在每个企业中。其业务模式从设备供应转变为按使用和可用性收取费用
业务驱动因素
数据架构的目标
数据架构的目标是在业务战略和技术实现之间建立起一座通畅的桥梁,数据架构是企业架构中的一部分
数据架构的职责
1)利用新兴技术所带来的业务优势,从战略上帮助组织快速改变产品、服务和数据
2)将业务需求转换为数据和应用需求,以确保能够为业务流程处理提供有效数据
3)管理复杂数据和信息,并传递至整个企业
4)确保业务和IT技术保持一致
5)为企业改革、转型和提高适应性提供支撑
数据架构成果和实施
数据架构主要成果
1)数据存储和处理需求
2)设计满足企业当前和长期数据需求的结构和规划
数据架构:语境关系图
定义
识别企业数据需求(无论数据结构如何),并设计和维护总蓝图以满足这些需求。使用总蓝图来指导数据集成、控制数据资产,并使数据投资与战略保持一致
目标
别数据存储和处理需求
设计结构和计划以满足企业当前和长期的数据需求
战略性地为组织做好准备,快速发展其产品、服务和数据,以利用新兴技术中固有的商机
输入
企业架构
业务架构
IT标准和目标
数据策略
活动
1.建立企业数据架构(P)
1)评估现有数据架构规范
2)制定路线图
3)管理项目中的企业需求
2.与其他企业架构集成(O)
交付成果
数据架构设计
数据流
数据价值链
企业数据模型
实施路线图
方法
生命周期评论
图标使用规范
工具
数据建模工具
资产管理软件
图形设计应用程序
度量指标
架构标准接受率
实现趋势
业务价值度量指标
数据架构师需定义和维护事宜
1)定义组织中数据的当前状态
2)提供数据和组件的标准业务词汇
3)确保数据架构和企业战略及业务架构保持一致
4)描述组织数据战略需求
5)高阶数据整合概要设计
6)整合企业数据架构蓝图
总体数据架构实施包括
1)使用数据架构构件(主蓝图)来定义数据需求、指导数据整合、管控数据资产,确保数据项目投入与企业战略保持一致
2)与参与改进业务或IT系统开发的利益相关方合作,学习并影响他们。
3)通过数据架构及通过的数据词汇,搭建企业数据语言
基本概念
1.企业架构类型
业务架构
数据架构
应用架构
2.企业架构框架
IEEE计算机协会维护的企业架构框架标准是ISO/IEC/IEEE 42010:2011,系统和软件工程-架构描述和对比表
Zachman框架是一个本体,即6*6矩阵构成了一组模型,这组模型可以完整地描述一个企业以及相互之间的关系
矩阵框架的两个维度
问询沟通(如是什么、怎样做、在哪、是谁、什么时间和为什么)在列中显示
重新定义转换(如识别、定义、描述、规范、配置和实例)在行中显示
3.企业数据架构
1)企业数据模型
企业数据模型是一个整体的、企业级的、独立实施的概念或逻辑数据模型,为企业提供通用的、一致的数据视图
2)数据流设计
定义数据库、应用、平台和网络(组件)之间的需求和主蓝图。这些数据流展示了数据在业务流程、不同存储位置、业务角色和技术组件间的流动
活动
解决简化数据和企业架构所面临复杂问题的方式
1)面向质量
专注于业务和IT开发周期内对数据架构进行不断改进
2)面向创新
专注于业务和IT转换,致力于新的期待和机会。用创新性技术和数据使用驱动创新,已经成为现代企业架构的一种功能。
企业数据结构项目相关的活动包括
1)定义范围
2)理解业务需求
3)设计
4)实施
将架构活动嵌入到项目中的过程也不同,采用的方式
1)瀑布方式。
作为整个企业设计的一部分,在连续阶段中理解需求和构建系统
2)迭代方式。
逐步学习和构建(如小型瀑布模型)
3)敏捷方式。
这种方式是指在离散的交付包中学习,构建并测试(称为“sprints”冲刺)。
敏捷模型(Scrum,快速开发,统一流程)能提高目标导向的模型,强调用户界面设计、软件设计和系统行为
DevOps是一种新兴且流行的敏捷方法,当程序员和数据架构师有很强的工作联系,并且他们的标准和指南兼容时采用这种方式
第5章 数据建模和设计 10 分
引言
概念
数据建模是发现、分析和确定数据需求的过程,用一种成为数据模型的精确形式表示和传递这些需求
6种模式
关系模式
多维模式
面向对象模式
事实模式
时间序列模式
NoSQL模式
按照描述详细程度的不同,每种模式又可以分为三层
概念模型
逻辑模型
物理模型
业务驱动因素
为什么做数据建模
数据模型对于有效的数据管理至关重要
1)提供有关数据的通用词汇表
2)获取、记录组织内数据和系统的详细信息
3)在项目中作为主要的交流沟通工具
4)提供了应用定制、整合,甚至替换的起点
语境关系图:数据建模和设计
定义
数据建模是发现、分析和确定需求的过程,然后采用数据模型的精确形式表示和传递这些数据需求。这个过程是循环迭代的,可能包括概念、逻辑和物理模型
目标
确认并记录不同视角对数据需求的理解,确保应用程序更符合当前和未来的业务需求,为更多数据应用或数据管理奠定一个良好的基础,例如主数据管理和数据治理项目
输入
现有的数据模型和数据库
数据标准
数据集
初始数据需求
原始数据需求
数据架构
企业分类法
活动
1.规划数据建模(P)
2.建立数据模型(D)
1)创建概念数据模型
2)创建逻辑数据模型
3)创建物理数据模型
3.审核数据模型(C)
4.维护数据模型(O)
交付成果
概念数据模型
逻辑数据模型
物理数据模型
方法
命名规范
数据库设计规范
数据库类型选择
工具
数据建模工具
数据血缘工具
数据分析工具
元数据资料库
数据模型模式
行业数据模型
度量指标
数据模型校验指标
目标和原则
数据建模的目标是确认和记录不同视角对数据需求的理解从而使应用程序与当前和未来的业务需求更加紧密地结合在一起,并为成功地完成完成广泛的数据应用和管理活动奠定基础,如主数据管理和数据治理计划
良好的数据建模
降低成本
增加未来需求重复利用的可能性
降低构建新应用的成本
确认和记录不同视角的理解有助于
1)格式化
数据模型是对数据结构和数据关系的简洁定义
2)范围定义
数据模型可以帮助解释数据上下文的边界,以及购买的应用程序包、项目、方案和实施的现有系统
3)知识保留记录
数据模型通过以书面的形式获取知识来保存系统或项目的企业信息。它能给未来项目提供原始记录
基本概念
1.数据建模和数据模型
数据建模最常见在系统开发于系统维护的工作环境中,也称为系统开发生命周期(SDLC)
模型是现实中事物的一种表征或者想要创造事物的一种模式。一个模型可以包含一个或多个图表
2.建模的数据类型
1)类别信息
用于对事物进行分类和分配事物类型的数据
2)资源信息
实施操作流程所需资源的基本数据
3)业务事件信息
在操作过程中创建的数据
4)详细交易信息
详细的交易信息通常通过销售系统(商店或在线应用)生成。其实就是OLTP
3.数据模型组件
1)实体
在数据建模之外的概念中,实体(Entity)的定义是有别于其他事物的一个事物
1)实体的别名
实体实例是特定实体的具体化或取值
实体别名会根据模型(Scheme)而变化
实体别名(Entity Aliases)也会根据模型抽象程度不同而有所不同
2)实体的图形表示
3)实体的定义
高质量的数据定义基本特征
1.清晰(Clarity)
2.准确(Accuracy)
3.完整(Completeness)
2)关系
关系(Relationship)是实体之间的关联。关系捕获概念实体之间的高级别交互、逻辑实体之间的详细交互以及物理实体之间的约束
1)关系的别名
2)关系的图形表示
3)关系的基数
基数是什么
基数(Cardinality)说明了一个实体(实体实例)和其他实体参与建立关系的数量
对于基数而言,只能选择0、1或多(多的意思是超过1各)
关系的元数(Arity)
关系中涉及实体的数目被称为关系的元数
一元关系
一元关系也被称为递归关系或自我引用关系
二元关系
涉及两个实体的关系被称为二元关系
三元关系
涉及三个实体的关系被称为三元关系
外键
外键通常用在物理数据建模中表示关系,在逻辑数据建模中,有时也用这种方法表示关系
3)属性
属性(Attribute)是一种定义、描述或度量实体某方面的性质
1)属性的图形表示
2)标识符
标识符(Identifiers)也称为键,是唯一标识实体实例的一个或多个属性的集合
1.键的结构类型
单一键(Simple Key)是唯一标识实体实例的一个属性
组合键(Compound Key)是一组由两个或多个属性组成的集合,这些属性一起唯一地标识一个实体实例
复合键(Composite Key)包含一个组合键和至少一个其他单一键或非键属性
2.键的功能类型
超键(Super Key)是唯一标识实体实例的任何属性集
主键(Primary Key)是被选择为实体唯一标识符的候选键
备用键(Alternate Key)是一个候选键,虽然也是唯一的,但没有被选作为主键
3.标识关系与非标识关系
独立实体是指起主键仅包含只属于该实体的属性
非独立实体是指其主键至少包含一个来自其他实体的属性。非独立实体至少含有一个标识关系。
标识关系是指父实体(关系图中的一端实体)的主键作为外键被继承到子实体主键的一部分
在非标识关系中,父实体的主键仅被继承为子实体的非主外键属性
4)域
在数据建模中,域代表某一属性可被赋予的全部可能取值
域可以用多种不同的方式定义
1)数据类型
2)数据格式
3)列表
4)范围
5)基于规则
4.数据建模的方法
常见六种建模方法
关系建模
在关系建模中有几类不同的表示法来表达实体间的关系
信息工程法IE
最常见的是信息工程法,该方法采用三叉线(俗称“鸡爪模型”)来表示基数
信息建模的集成定义IDEF1X
巴克表示法(Barker)
陈氏表示法(Chen)
维度建模
1)事实表
在维度模型中,事实表(Fact Tables)的行对应于特定的数值型度量值。事实表占据了数据库的大部分空间
2)维度表
维度表表示业务的重要性,并且主要包含文字描述
各个维度必须在每一行都有一个独一无二的标识符
渐变类的维度根据变化的速率和类型来管理变化
1. O,第一类,覆盖(Overwrite)
2.R,第二类,新行(New Row)
3.C,第三类,新列(New Column)
3)雪花模型
将星型模式中的平面、单表、维度结构规范为相应的组件层次结构或网络结构
4)粒度
粒度(Grain)是指事实表中的单行数据的含义或者描述,这是每行都有的最详细信息
5)一致性维度
是基于整个组织考虑构建的,而不是基于某个特定的项目
6)一致性事实
使用跨多个数据集市的标准化术语
面向对象建模
UML
统一建模语言(UML)是一种图形风格的建模语言。
UML规定了类(实体类型)和它们之间关系类型
UML类模型特点
1)与ER图相似,但ER中没有操作(Operation)或方法部分
2)在ER图中,与操作最为接近概念的是存储过程
3)属性类型(如日期、分钟)是用程序编程语言的数据类型表示的,而不是物理数据库数据类型来表示
4)默认值可以在符号中有选择的显示
5)访问数据是通过类的公开接口
类操作
1)公开的。完全可见
2)内部可见的。对子实体可见
3)私密的。隐藏的
基于事实建模
1)对象角色建模(ORM)是一种模型驱动的工程方法
2)完全面向通信的建模(FCO-IM)
基于时间建模
1)数据拱顶(Data Vault)是一组支持一个或多个业务功能领域,面向细节、基于时间且唯一链接的规范化表
数据拱顶模型3种类型的实体
中心表
链接表
卫星表
2)锚建模
锚建模(Anchor Model)适合信息的结构和内容都随时间发生变化的情况
4个基本建模概念
锚
属性
连接
节点
锚模拟的是实体和事件,属性模拟了锚的特征,连接表示了锚之间的关系,节点用来模拟共享的属性
非关系型建模
非关系型数据库(NoSQL)是基于非关系技术构建的数据库的统称
常见四种NoSQL数据库
文档数据库
通常将业务主题存储在一个称为文档的结构中,而不是将其分解为多个关系结构
键值数据库
只在两列中存储数据(键和值),其特征是可以在值列同时存储简单(如日期、数字、代码)和复杂(未格式化的文本、视频、音乐、文档、照片)的信息
列数据库
图数据库
是为那些使用一组节点就可以很好的表示它们之间的关系的数据而设计的,这些节点之间的连接数不确定。
5.数据模型级别
数据库管理的三重模式
1)概念模式(Conceptual)
体现了正在数据库中建模企业的“真实世界”视图,代表企业当前的“最佳模式”或“经营方式”
2)外模式(External)
它是数据库管理系统的各个用户操作与特定需求相关企业模型的子集。这些子集称为“外模式”
3)内模式(Internal)
数据的“机器视图”由哪模式描述。该模式描述了企业信息的存储表示形式
1-概念数据模型
概念数据模型(CDM)是一系列相关主题域的集合来描述概要数据需求
2-逻辑数据模型
逻辑数据模型(LDM)是对数据需求的详细描述,通常用于支持特定用法的语境中(如应用需求)。逻辑数据模型不受任何技术或特定实施条件的约束。逻辑数据模型通常是从概念数据模型扩展而来
3-物理数据模型
物理数据模型(PDM)描述了一种详细的技术方案,通常以逻辑数据模型为基础,与某一类系统硬件、软件和网络工具相匹配
1)规范模型
规范模型是物理模型的一个变种,用于描述系统之间的数据移动
该模型描述了在系统之间作为数据报或消息传递的数据结构
2)视图
视图是虚拟表,它提供了一种从多张包含或引用实际属性的表中查看数据的方法
3)分区
是拆分表的过程。执行分区是为了方便存档和提高检索性能
分区可以是垂直的(按列分组),也可以是水平的(按行分组)
1)垂直分割
减少查询返回的结果集,可以根据列的不同为某表创建自己
2)水平分割
为减少查询返回的结果集,使用某列的值作为区分创建子集表
4)逆规范化
逆规范化是将符合规范规则的逻辑数据模型经过慎重考虑后,转换成一些带冗余数据的物理表。换言之,逆规范化有意将一个属性放在多个位置。
6.规范化
规范化是运用规则将复杂的业务转化为规范的数据结构的过程
第一范式(1NF)
确保每个实体都有一个有效的主键,每个属性都依赖于主键,而且消除冗余的分组,以确保每个属性的原子性(不能有多个值存在)。
第二范式(2NF)
确保每个实体都有最小的主键,每个属性都依赖于完整的主键
第三范式(3NF)。确保每一个实体都没有隐藏的主键,每个属性都不依赖于主键值之外的任何属性(仅依赖于完整的主键)
确保每一个实体都有最小的主键,每个属性都依赖于完整的主键
Boyce/Codd范式(BCNF)
解决了交叉的复合候选键的问题
第四范式(4NF)
将所有三元关系分解成二元关系,直到这些关系不能再分解成更小的部分
第五范式(5NF)
将实体内部的依赖关系分解成二元关系,所有联结依赖部分主键
7.抽象化
抽象化就是将细节移除,这样可以在更广泛的情况下扩展适用性,同时保留概念或主题的重要和本质属性
抽象包括泛化(Generalization)和特化(Specialization)
泛化将实体的公共属性和关系分组为超类(Supertype)实体
特化将实体中的区分属性分离为子类(Subtype)实体
子类关系意味着超类的所有属性都被子类继承
活动
规划数据建模
数据建模工作交付成果
1.图表
2.定义
3.争议和悬而未决的问题
4.血缘关系
数据建模过程中血缘血缘关系重要的原因
1)有助于数据建模人员深入理解数据的需求,准确定位属性来源
2)确定属性在源系统中的情况,这是验证模型和映射关系准确性的有效工具
建立数据模型
1.正向工程
从ER图 -> DDL或数据库直接建表
2.逆向工程
DDL或数据库直接建表 -> ER图
审核数据模型
数据模型记分卡
方法
数据库设计中的最佳实践
设计和构建数据库,DBA应牢记PRISM设计原则
1)性能和易用性(Performance and Ease of Use)
确保用户可快速、轻松地访问数据,从而最大限度地提高应用程序和数据的业务价值
2)可重用性(Reusability)
应确保数据库结构在适当的情况下,能够被多个应用重复使用,并且可用于多种目的(如业务分析、质量改进、战略规划、客户关系管理和流程改进)。避免将数据库、数据结构或数据对象耦合到单个应用程序中
3)完整性(Integrity)
无论语境如何,数据始终具有有效的业务含义和价值,并且应始终反映业务的有效状态
4)安全性(Security)
应始终及时向授权用户提供真实准确的数据,且仅限授权用户使用
5)可维护性(Maintainability)
确保创建、存储、维护、使用和处置数据的成本不超过其对组织的价值,以能够产生价值的成本方式执行所有数据工作
数据建模和设计治理
度量指标
数据模型记分卡
11项度量指标
分支主题
第6章 数据存储和操作 2分
引言:数据存储与操作包括对存储数据设计、实施和支持,最大化实现数据资源的价值,贯穿于数据创建/获取到处置的整个生命周期
定义:管理数据存储的设计、实现和支持活动,以实现其最大化价值
度量指标
数据存储度量指标
性能度量指标
操作度量指标
服务度量指标
基本概念
服务水平协议SLA(Servies Level Assignment)
通用应用接口API:(Application Programming Interface)
开放数据库互连ODBC:(Open DataBase Connectivity)
数据库管理员DBA:(DataBase Administrator)
数据即服务Daas:(Data As a Service)
数据库架构类型
集中式
分布式
联邦的(自治的)
区块链数据库:区块链数据库属于一种联邦数据库,用于安全管理金融交易
非联邦的(非自治的)
数据处理类型
ACID
1. 原子性(Atomicity)
2. 一致性(Consistency)
3. 隔离性(Isolation)
4. 持久性(Durability)
BASE
1. 基本可用(Basically Available)
2. 软状态(Soft State)
3. 最终一致性
CAP:CAP定理(也称为“布鲁尔定理)是集中式系统在朝着分布式的系统方向发展过程中提出的理论。CAP定理指的是分布式系统不可能同时满足ACDI的所有要求。系统规模越大,满足的要求点越少。
1. 一致性(Consistency):系统必须总是按照设计和预期的方式运行
2. 可用性(Availability)。请求发生时系统时刻都保持可用状态,并对请求做出响应。
3. 分区容错性(Partition Tolerance):偶尔发生数据丢失或者部分系统古战发生时,系统依然能够继续运行提供服务。
数据存储介质:磁盘、内存、闪存
常见用法:
磁盘和存储区域网络(SAN : Storage Area Networks)
内存和列压缩解决方案
虚拟存储区域网络(VSAN:Virtual SAN)
基于云的存储解决方案
射频识别技术(RFID:Radio Frequency I-dentification)
数字钱包
数据中心和私有云
公有云及混合云存储
数据库环境
生产环境
非生产环境
开发环境
测试环境
1. 质量保证测试(QA)
2. 集成测试
3. 用户验收测试(UAT)
数据沙盒或实验环境
数据库组织模型
1. 层次型数据库
2. 关系型数据库(RDBMS)
1) 多维数据库
2) 时态数据库
1. 有效时间
2. 事物时间
3. 非关系型数据库(NoSQL:Not Only SQL)
1) 列式数据库
2) 空间数据库(GIS)
3) 对象/多媒体数据库
4) 平面文件数据库
5) 键值对
6) 三元组存储
常见数据库过程
1. 数据归档
2. 容量和增长预测
3. 变动数据捕获(CDC)
概念:变动数据捕获(CDC)是指检测到数据的变动并确保与变动相关的信息被适当记录的过程
方法
1. 数据版本控制-评估标识已改动过行的列(例如,有上次更新时间戳的列、有版本号的列、有状态标识的列)
2. 通过读取日志
3. 同时建立一张表存储变动的数据
4. 通过专业软件:如OGG捕获
4. 数据清除
5. 数据复制
1)主动复制:不存在主副本,可以在每个副本上主动创建和存储来自其它副本的相同数据
2)被动复制:首先在主副本上创建和存储数据,然后把更改的状态传送到其它副本上
6. 韧性与恢复
7. 数据保留
8. 数据分片
第7章 数据安全 8分
引言
数据安全包括安全策略和过程的规划、建立与执行,为数据和信息资产提供正确的身份验证、授权、访问和审计。
数据安全需求来源
1. 利益相关方
2. 政府法规:政府法规制定的出发点是保护利益相关方的利益
3. 特定业务关注点:每个组织的专有数据都需要保护
4. 合法访问需求:组织在保护数据安全的同时,还必须启用合法访问
5. 合同义务:合同和保密协议对数据安全要求也有影像
业务驱动因素:降低风险和促进业务增长是数据安全活动的主要驱动因素
1. 降低风险:随着数据法规的增多(通常是为应对数据盗窃和违规),合规性要求也随之增加
流程:P计划C控制D开发O运营
目标
1. 启动对企业数据资产的适当访问,并防止不适当的访问
2. 理解并遵守所有有关隐私、保护和保密的法规和政策
3. 确保所有利益相关方的隐私和保密需求得到执行和审计
交付成果
1. 数据安全架构
2. 数据安全策略
3. 数据隐私和保密标准
4. 数据安全访问控制
5. 法规遵从的数据访问视图
6. 安全分级记录
7. 身份验证和用户访问历史记录
8. 数据安全审计报告
工具
访问控制系统
保护软件
身份管理技术
入侵监测/入侵防御软件
元数据跟踪
数据脱敏/加密
度量指标
安全实施指标
安全意识指标
数据保护指标
安全事件指标
机密数据扩散率
步骤
1)识别敏感数据资产并分类分级
2)在企业中查找敏感数据
3)确定保护每项资产的方法
4)识别信息与业务流程如何交互
2. 业务增长
3. 安全性作为资产
数据安全目标和原则
目标
1. 支持适当访问并防止对企业数据资产的不当访问
2. 支持对隐私、保护和保密制度、法规的遵从
3. 确保满足利益相关方对隐私和保密的要求
原则
1. 协同合作
2. 企业统筹
3. 主动管理
4. 明确责任
5. 元数据驱动
6. 减少接触以降低风险
风险分类
1. 关键风险数据 (Critical Risk Data,CRD)
2. 高风险数据(High Risk Data,HRD)
3. 中等风险数据(Moderate Risk Data,MRD)
安全过程
1)4A加E
访问(Access)
审计(Audit)
验证(Authentication)
授权(Authorization)
权限(Entitlement)
2)监控
数据完整性
在安全性方面,数据完整性(Data Integrity)是一个整体状态要求,以免于遭受不当增/删改所造成的影像。
美国的萨班斯法案(Sarbanes-Oxley)
加密
加密(Encryption)是将纯文本转换为复杂代码,以隐藏特权信息、验证传送完整性或验证发送者身份的过程。
哈希
将任意长度数据转换为固定长度数据标识
对称加密
对称加密使用一个密钥来加解密数据
DES:数据加密标准
3DES:三重DES
AES:高级加密标准
IDEA:国际数据加密算法
非对称加密
在非对称加密中,发送方和接收方使用不同的密钥。
非对称加密算法
RSA
Diffie-Hell-man
PGP(Pretty Good Privacy)是一个免费的公钥加密应用程序
混淆或脱敏
通过混淆处理(变得模糊或不明确)或脱敏(删除、打乱或其它方式更改数据的外观等)的方式来降低数据可用性,同时避免丢失数据的含义或数据与其它数据集的关系
脱敏的类型
静态脱敏
静态数据脱敏(Persistent Data Masking)永久且不可逆转的更改数据。这种类型的脱敏通常不会在生产环境中使用,而是在生产环境和开发(或测试)环境中运用。静态脱敏虽然会更改数据,但数据仍可用于测试、应用程序、报表等。
1. 不落地脱敏(In-flight Persistent Masking)
当在数据源(通常在生产环境)和目标(通常是非生产)环境之间移动需要脱敏或混淆处理时,会采用不落地脱敏
2. 落地脱敏(In-place Persistent Masking)
当数据源和目标相同时,可使用落地脱敏。从数据源中读取未脱敏数据,进行脱敏操作后直接覆盖原始数据。
动态脱敏
动态数据脱敏(Dynamic Data Masking)是在不更改基础数据的情况下,在最终用户或系统中改变数据的外观。
脱敏方法
1. 替换
将字符或整数值替换为查找或标准模式中的字符或整数值。例如,可以用列表中的随机值替换名字
2. 混排
在一个记录中交换相同类型的数据元素或者在不同行之间交换同一属性的数据元素。
3. 时空变异
把日期前后移动若干天(小到足以保留趋势),足以使它无法识别。
4. 数值变异
应用一个随机因素(正负一个百分比,小到足以保持趋势),重要到足以使它不可识别。
5. 取消或删除
删除不应该出现在测试系统中的数据
6. 随机选择
将部分或全部数据元素替换为随机字符或一系列单个字符。
7. 加密技术
通过密码代码将可识别、有意义的字符流转换为不可识别的字符流。
8. 表达式脱敏
将所有值更改为一个表达式的结果
regular expression正则表达式
9. 键值脱敏
指定的脱敏算法/进程的结果必须是唯一且可重复的,用于数据库键值字段(或类似字段)脱敏。
数据安全类型
1. 设施安全
2. 设备安全
3. 凭据安全
1)身份管理系统
2)电子邮件系统的用户ID标准
3)密码标准
4)多因素识别
4. 电子通信安全
数据安全制约因素
1. 保密等级
机密信息仅在“需要知道”的基础上共享
2. 监管要求
保密和监管的主要区别是要求来源不同
1)机密数据
1. 对普通受众公开
2. 仅内部使用
3. 机密
4. 受限机密
5. 绝密
2)监管限制的数据
活动
管理与企业安全相关对行为需要不同级别的制度
1. 企业安全制度
2. IT安全制度
3. 数据安全制度
工具
1. 杀毒关键/安全软件
2. HTTPS
3. 身份管理技术
4. 入侵侦测和入侵防御软件
5. 防火墙(防御)
6. 元数据跟踪
7. 数据脱敏/加密
实施指南
外包世界中的数据安全
任何事情皆可外包,但责任除外
负责、批注、咨询、通知(RACI)矩阵也有助于明确不同角色的角色、职责分离和职责,包括他们的数据安全义务。
确立明确的问责制和所有权,从而支持总体数据安全制度及其实施。
机密数据扩散
应衡量机密数据的副本数量,以减少扩散。机密数据存储的位置越多,泄漏的风险就越大。
第8章 数据集成和互操作 2分
引言
数据集成和互操作(DII)描述了数据在不同数据存储、应用程序和组织这三者内部和之间进行移动和整合的相关过程
数据集成是将数据整合成物理的或虚拟的一致格式
数据互操作是多个系统之间进行通信的能力
业务驱动因素
1. 数据集成和互操作主要目的是为了对数据移动进行有效管理
2. 组织从软件供应商处购买应用程序二不是开发定制应用程序,这扩大了企业数据集成和互操作的需求
3. 维护管理成本
4. 支持组织遵守数据处理标准和规则的能力
目标和原则
目标
1. 按照所需格式,及时的提供安全、合规的数据
2. 构建开发共享模型和接口,降低解决方的成本和复杂度
3. 识别有意义的事件,自动触发预警和动作
4. 支撑商务智能、数据分析、主数据管理,并致力于提高运营效率
基本概念
1. 抽取、转换、加载
数据集成和互操作的核心是抽取、转换和加载(ETL)这一基本过程。
抽取
转换
1. 格式变化
技术上的格式转换,如从ENCDIC到SACII的格式转换
2. 结构变化
如从非规范化到规范化的记录
3. 语义变化
数据值转换时保持语义的一致性表达,如源性别代码可以包括0、1、2和3,而目标性别代码可以标识为UNKNOWN、FAMALE、MALE或NOT PROVIDED
4. 消除重复
5. 重新排序
加载
抽取、加载、转换(ETL)
如果目标系统比源系统或中间应用系统具有更强的转换能力,那么数据处理的顺序可以切换为ETL-抽取、加载、转换
映射
映射(Mapping)是转换的同义词,它既是从源结构到目标结构建立查找矩阵的过程,也是该过程的结果。
时延
时延(Latency)是指从源系统生成数据到目标系统可用该数据的时间差。
1. 批处理
2. 变更数据捕获(CDC)
是一种通过增加过滤来减少传送带宽需求的方法,只包含在特定时间范围内更改过的数据。
三种基于数据的变更数据捕获技术
1. 源系统填入特定的数据元素
2. 源系统进程在更改数据时被添加到一个简单的对象和标识符列表,然后用于控制抽取数据的选择
3. 源系统复制已经变化的数据。这些数据已经作为交易的一部分变成了独立对象,然后用于抽取数据
3. 准实时和事件驱动
4. 异步
5. 实时,同步
6. 低延迟或流处理
交互模型
1.点到点
1)影响处理
2)管理接口
3)潜在的不一致
2.中心辐射型
是点对点的替代方案,它将共享数据(物理或虚拟)整合到应用程序可以使用的一个中央数据中心
数据中心提供一致的数据视图,对源系统性能的影响有限
3. 发布订阅
发布和订阅模型涉及推送(发布)数据的系统和其他接受(订阅)数据的系统
数据集成和互操作架构概念
1. 应用耦合
2. 编排和流程控制
3. 企业应用集成
4. 企业服务总线(Enterprise Service Bus,EBS)
是用于在多个系统间接近实时共享数据的数据集成解决方案,其数据中心是一个虚拟概念,代表组织中数据共享的标准和规范格式。
是一个系统,它充当系统之间的中介,在它们之间传送消息
5. 面向服务的架构(SOA)
通过在应用程序之间良好的服务调用,可以提供推送数据或更新数据(或其他数据服务)的功能
6. 复杂事件处理
7. 数据联邦和虚拟化
当数据存在不同的数据存储库时,还可以通过除物理集成以外的方式来聚合。数据联邦(Data Federation)提供访问各自独立数据存储库组合的权限。数据虚拟化(Data Virtualization)使分布式库以及多个异构数据存储能够作为单个数据库来访问和查看
8. 数据即服务(DaaS)
软件即服务(SaaS)是一种交付和许可模式
9. 云化集成
也称为集成平台即服务或IPaaS
活动
剖析数据
基本剖析包括
1. 数据结构中定义的数据格式和从实际中推断出来的格式
2. 数据的数量,包括null值、空或默认数据的级别
3. 数据值以及它们与定义的有效值集合的紧密联系
4. 数据集内部的模式和关系,如相关字段和基数规则
5. 与其他数据集的关系
收集业务规则
业务规则是需求的一个关键子集,是定义或约束业务处理方面的语句。
业务规则分为四类
业务术语定义
相互关联的术语的事实
约束或行为断言
派生
实现数据集成和互操作需要业务规则的支撑包括几个方面
1. 评估潜在的源数据集和目标数据集的数据
2. 管理组织中的数据流
3. 监控组织中的操作数据
4. 指示何时自动触发事件和警报
第9章 文件和内容管理 2分
引言
1. 文件和内容管理是指针对存储在关系型数据库之外的数据和信息的采集、存储、访问和使用过程的管理。重点在于保持文件和其他非结构化或半结构化信息的完整性,并使这些信息能够被访问。
2. 在许多组织中,非结构化数据和结构化数据有着直接的关系,有关内容的管理决策应同样适用于非结构化数据的管理要求。如同其他类型的数据一样,文件的非结构化内容也应是安全且高质量的。确保文件和内容管理的安全性和高质量,需要可靠的架构和管理良好的元数据。
业务驱动因素
文件和内容管理的主要业务驱动因素
1. 法规遵从性要求
2. 诉讼响应能力
3. 电子取证请求能力
4. 业务连续性要求
5. 帮助组织提高效率
目标和原则
实施文件和内容管理最佳实践目标
1. 确保能够高速有效地采集和使用非结构化的数据和信息
2. 确保结构化和非结构化数据之间的整合能力
3. 遵守法律义务并达到客户预期
文件和内容管理遵循以下指导原则
1. 组织中的每个人都应该在保护组织的未来方面发挥作用。每个人都必须按照既定的制度和程序来创建、使用、检索和处置档案
2. 档案和内容处理方面的专家应充分参与制度和规划的制定。不同的行业和法律管辖区之间,监管实践可能会有很大的差异。
基本概念
1. 内容:内容是指文件、档案或网站内的数据或信息。
内容管理
内容管理包括用于组织、分类和构造信息资源的流程、方法和技术,以便以多种方式存储、发布和重复使用这些资源。
内容元数据
元数据对于管理非结构化数据至关重要,无论是传统上认为的内容和文件
内容建模
内容建模(Content Modeling)是将逻辑内容概念转换为具有关系的内容类型、属性和数据类型的过程
内容分发方法
内容需要模块化、结构化、可重复使用,且与设备和平台无关。
内容分发系统分为三种
1. 推式(Push)
2. 拉式(Pull)
3. 交互式(Interactive)
2. 受控词表:受控词表(Controlled Vocabularies)是被明确允许用于通过浏览和搜索对内容进行索引分类、标引、排序和检索术语的定义列表
1)词汇表管理
控制词汇表的主要目的是实现采用一致并便于检索的方式描述内容对象
2)词汇表视图和微控制词汇表
3)术语和选择列表
4)术语管理
5)同义词环和规范表
6)分类法
7)分类方案和打标签
8)主题词表
9)本体
3. 文件(Document)和档案:文件是包含任务说明,对执行任务或功能的方式和事件的要求以及任务执行和决策的日志等的电子或纸质对象。文件可用于交流并分享信息和知识。程序、协议、方法和说明书都属于文件。
只有部分文件才能称为档案(Record)。档案可用于证明所做决策和所采取的行动是复合程序的;可作为组织业务活动和法规遵从的证据。
文件管理
文件管理包括在文件和档案的整个生命周期中控制和组织它们的流程、方法和技术
档案管理
档案管理是文件管理的一部分,管理档案有一些特殊的要求
精心的档案管理的特点
1. 内容
2. 背景
3. 及时性
4. 永久性
5. 结构
数据资产管理
数据资产管理(Digital Asset Management,DAM)和文件管理流程相似,它专注于存储、跟踪和使用视频、徽标、照片等富媒体文件。
非结构化数据
非结构化数据有多种电子格式:文字处理文件、电子邮件、社交媒体、聊天室、平面文件、电子表格、XML文件、事物性消息、报告、图形、数字图像、缩微胶片、视频和音频。纸质文件中也存在大量非结构化数据。
工具
企业内容管理系统(ECM)
关键成功因素
1. 对现有内容的审核和分类
2. 合适的信息架构
3. 对内容生命周期的支持
4. 定义合适的元数据标签
5. 在ECM解决方案中自定义功能的能力
实施指南
档案管理成熟度
5个等级
1级,低于标准的(Sub-Standdard)。信息治理和档案保管问题没有得到解决或只是最低限度的解决
2级,发展中的(In Development)。认识到信息治理和档案保管可能对组织产生的影响
3级,基本的(Essential)。必须满足法律法规的最低要求
4级,积极的(Proactive)。已经建立了一个以持续改进为重点的主动式信息治理计划。
5级,完成改革的(Transformational)。信息治理已经融入企业的基础架构和业务流程。
文件和内容治理
信息治理架构
驱动因素
1. 法律和法规遵从
2. 档案的合理处置
3. 对电子取证的前瞻性准备
4. 敏感信息的安全
5. 电子邮件和大数据等风险领域的管理
0 条评论
下一页