CDGP重点章节知识库
2025-01-05 23:43:04 0 举报
AI智能生成
DAMA 考试 CDGP考试重点
作者其他创作
大纲/内容
考试范围
子主题
选择题答题技巧
选择题具体内容如下:
1. 考查内容
• 考查考生对数据治理、数据架构、数据科学和大数据分析、数据管理成熟度评估等基本概念、业务驱动、目标和原则、活动、技术和工具、度量指标等。
• 考查考生对一些具有多项内容的记忆程度及自主分析情况。
2. 选项特点
• 通常在选项中,一部分是选择教材上的内容,个别选项是出题人自行编写的选项,或者从容易混淆的其他地方寻找的选项。
• 在判断选项时,尤其是错误的选项,一般都具有一定的规律和特征,因为错误的选项与正确的选项在描述对象、语言习惯、语言风格、涉及范围等方面都有细微差异。
3. 答题策略
• 多选题通常答案数量普票偏多,只有两个的非常少,普遍在三个或三个以上,因此,当个别题目答案不能确定时,尽量多选,不要少选。
• 因本书绝大部分理论都是基于六边形原则展开,因此针对部分选择题,尽量基于数据管理理论体系展开,尤其是六边形原则出发寻找答案。
这些技巧可以帮助考生更好地应对CDGP多项选择题,提高答题的准确率。
1. 考查内容
• 考查考生对数据治理、数据架构、数据科学和大数据分析、数据管理成熟度评估等基本概念、业务驱动、目标和原则、活动、技术和工具、度量指标等。
• 考查考生对一些具有多项内容的记忆程度及自主分析情况。
2. 选项特点
• 通常在选项中,一部分是选择教材上的内容,个别选项是出题人自行编写的选项,或者从容易混淆的其他地方寻找的选项。
• 在判断选项时,尤其是错误的选项,一般都具有一定的规律和特征,因为错误的选项与正确的选项在描述对象、语言习惯、语言风格、涉及范围等方面都有细微差异。
3. 答题策略
• 多选题通常答案数量普票偏多,只有两个的非常少,普遍在三个或三个以上,因此,当个别题目答案不能确定时,尽量多选,不要少选。
• 因本书绝大部分理论都是基于六边形原则展开,因此针对部分选择题,尽量基于数据管理理论体系展开,尤其是六边形原则出发寻找答案。
这些技巧可以帮助考生更好地应对CDGP多项选择题,提高答题的准确率。
书本章节
3章数据治理
定义
在管理数据资产过程中形势权利和观看,包括计划、监控和实施
数据质量的范围有
战略
定义、交流和驱动数据战略和数据治理战略
的执行
的执行
制度
设置与数据、元数据管理、访问、使用、安全
和质量有关的制度
和质量有关的制度
标准和质量
设置和强化数据质量、
数据架构标准。
数据架构标准。
监督
在质量、制度和数据管理的关键领域提供
观察、审计和纠正等措施(通常称为管理职责Stewardship)。
观察、审计和纠正等措施(通常称为管理职责Stewardship)。
合规
确保组织可以达到数据相关的监管合规
性要求。
性要求。
问题管理
识别、定义、升级和处理问
题,针对如下领域:
数据安全、数据访问、数据质量、合规、数据所有权、制度、标
准、术语或者数据治理程序等。
题,针对如下领域:
数据安全、数据访问、数据质量、合规、数据所有权、制度、标
准、术语或者数据治理程序等。
管理的好处
管不好导致的问题
常见驱动因素
数据治理最常见的驱动因素是法规遵从性
数据治理和数据管理的关系
数据治理确保数据恰当地管理,而不是直接管理数据
数据管理管理数据以达到既定目标
4章数据架构
定义
架构是构建一个系统的艺术和科学,以及在此过程中形成的成果
目标:
在业务战略和技术实现之间建立起一座通畅的桥梁
识别数据存储和处理需求
设计结构和计划以满足企业当前和长期的数据需求
战略性地为组织做好准备,快速发展其产品、服务和数据,以利用新兴技术中固有的商机
架构类型
业务架构
数据架构
目标:有效地管理数据,以及有效地管理存储和使用数据的系统
应用架构
技术架构
企业数据模型
包含数据名称、数据属性、元数据定义、概念和逻辑实体、关系以及业务规则
物理数据模型也属于数据架构文件
但物理数据模型是数据建模和设计的产物,而不是数据架构的产物
5章数据建模与设计
7数据安全
4A
访问
Access
审计
Audit
验证
Authentication
授权
Authorization
权限
Entitlement
10章参考数据与主数据
Mia
11章数据仓库与商务智能
12章元数据
定义
关于数据的数据
管理的好处
1.通过提供上下文语境和执行数据质量检查提高数据可信度
2.通过扩张用途增加战略的价值
3.通过识别冗余数据和流程提高运营效率
4.防止使用过时或不正确的数据
5.减少数据的研究时间
6.改善数据使用者和IT专业人员之间的沟通
7.创建准确的影响分析,从而降低项目失败风险
8.通过缩短系统开发生命周期时间缩短产品上市时间
9.通过全面记录数据背景、历史和来源降低培训成本和流动的影响
10.满足监管合规
管不好导致的问题
1.冗余的数据和数据管理流程
2.重复和冗余的字典、存储库和其它元数据存储
3.不一致的数据元素定义和数据滥用的风险
4.元数据的不同版本相互矛盾且有冲突,降低了数据使用者的信心
5.怀疑元数据和数据的可靠性
类型
业务元数据
定义
关注数据的内容和条件,另包括与数据治理相关的详细信息
类型
数据集、表和字段的定义和描述
业务规则、转换规则、计算公式和推导公式
数据模型
数据质量规则检核结果
数据的更新计划
数据溯源和数据血缘
数据标准
特定的数据元素记录系统
有效值约束
利益相关方联系信息
数据的安全/隐私级别
已知的数据问题
数据使用说明
范围
包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义
技术元数据
定义
提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息
类型
物理数据库表名和字段名
字段属性
数据对象的属性
访问权限
数据crud规则
物理数据模型、包括数据表名、建和索引
记录数据模型与实物资产之间的关系
ETL作业详细信息
文件格式模式定义
源到目标的映射文档
数据血缘文档,包括上游和下游变更影响的信息
程序和应用的名称描述
周期作业的调度计划和依赖
恢复和备份规则
数据访问的权限、组、角色
范围
操作元数据
定义
描述和处理访问数据的细节
类型
范围
批处理程序的作业执行日志
抽取历史和结果
调度异常处理
审计、平衡、控制度量的结果
错误日志
报表和查询的访问模式、频率和执行时间
布丁和版本的维护计划和执行情况,以及当前的补丁级别
备份、保留、创建日期、灾备恢复预案
服务水平协议要求和规定
容量和使用模式
数据归档、保留规则和相关归档文件
清洗标准
数据共享规则和协议
技术人员的角色、职责和联系信息
来源
应用程序中元数据存储库
业务术语表
商务智能工具
配置管理工具
数据字典
数据集成工具
数据库管理和系统目录
数据映射管理工具
数据质量工具
字典和目录
事件消息工具
建模工具和存储库
参考数据库
服务注册
其他元数据存储
架构方式
集中式元数据架构
优点
缺点
分布式元数据架构
混合元数据架构
双向元数据架构
13数据质量
Mia
关键数据
企业关键数据
- 监管报告
- 财务报告
- 商业政策
- 商业战略(尤其是差异化竞争战雷)
- 持续经营
个人关键数据
- PII身份信息
- 财务信息
- PHI医疗信息
- 教育信息
数据质量纬度
考试写出6-8个纬度即可
可衡量的维度
- 完整性
- 有效性
- 格式一致性
主观判断的不可衡量的维度
- 可用性
- 可靠性
- 声誉
数据质量改进生命周期
戴明环PDCA
数据质量改进的最有效方法是:“持续改进”
数据质量和元数据
数据质量常见原因及解决办法
- 缺乏领导力——
- 系统设计产生——
- 数据输入过程产生——
- 数据处理过程产生——
- 数据问题解决过程产生——
需要补充解决办法
数据质量的活动
考试不一定按照书上的七个步骤,可以添加自己的理解
- 定义高质量数据
- 定义数据质量战略
- 识别关键数据和业务规则
- 初始数据质量评估POC
- 识别改进方向并排定优先顺序
- 定义数据质量改进目标
- 开发和部署
数据优先级排序的考虑因素
数据的龄期
数据的纠正成本
数据的潜在工作成本
受影响数据的关键性
受影响数据的数量
受问题影响的业务流程数量和类型
受问题影响的相关人数(消费者、客户、共影响、员工)
受问题影响的相关风险
14大数据和数据科学
第2章
4项基本原则
尊重他人
行善
公正
尊重法律和公众利益
GDPR
试题库
GP6月份考试题
【2024年6月CDGP设计及论述题】
1、酒店管理系统建模(10分)
这个题目要求考生设计一个酒店管理系统的模型。考生需要考虑酒店管理的各个方面,如客房预订、客户管理、财务管理等,并构建一个能够支持这些功能的系统模型。
2、数据安全,乙方给甲方造成了4000千万损失,这个题目涉及数据安全的责任划分和企业的数据安全能力。
(1)责任是谁,为什么(2分)
考生需要分析在数据安全事件中,责任应该由谁承担,以及原因。
(2)企业具备数据安全能力(5分)
考生需要讨论企业应该具备哪些数据安全能力来预防和应对数据安全事件。
(3)分类分级具体方式和管理体系(3分)
考生需要描述数据分类和分级的具体方法,以及如何建立相应的管理体系。
3、数据仓库
这个题目涉及数据仓库的基本概念和构建方法。
OLTP和OLAP(3分)
考生需要解释在线事务处理(OLTP)和在线分析处理(OLAP)的区别和联系。
怎么建立数据仓库(3分)
考生需要描述建立数据仓库的步骤和方法。
SCD(4分)
考生需要解释缓慢变化维度(SCD)的概念,并讨论其在数据仓库中的应用。
4、元数据
这个题目要求考生基于数据资产盘点,说明元数据的详细类型。
考生需要了解元数据的分类,如业务元数据、技术元数据等,并能够详细描述每种元数据的类型和用途。
5、主数据
这个题目涉及主数据的识别和管理。
识别主数据(3分)
考生需要解释什么是主数据,并描述识别主数据的方法。
数据中台已经替换主数据,主数据“已死”,是不是不需要了,你怎么看?为什么。与数据中台onDID是不是一样的(3分)
考生需要讨论数据中台对主数据的影响,以及主数据是否仍然重要,同时比较主数据和数据中台的onDID。
怎么建立主数据管理(4分)
考生需要描述建立主数据管理的步骤和方法。
6、数据质量
这个题目涉及数据质量的管理和提升。
导致数据质量低下的原因及对应措施(5分)
考生需要分析导致数据质量低下的原因,并提出相应的改进措施。
建立数据质量绩效考核指标体系(5分)
考生需要设计一个数据质量绩效考核的指标体系,以评估和提升数据质量。
1、酒店管理系统建模(10分)
这个题目要求考生设计一个酒店管理系统的模型。考生需要考虑酒店管理的各个方面,如客房预订、客户管理、财务管理等,并构建一个能够支持这些功能的系统模型。
2、数据安全,乙方给甲方造成了4000千万损失,这个题目涉及数据安全的责任划分和企业的数据安全能力。
(1)责任是谁,为什么(2分)
考生需要分析在数据安全事件中,责任应该由谁承担,以及原因。
(2)企业具备数据安全能力(5分)
考生需要讨论企业应该具备哪些数据安全能力来预防和应对数据安全事件。
(3)分类分级具体方式和管理体系(3分)
考生需要描述数据分类和分级的具体方法,以及如何建立相应的管理体系。
3、数据仓库
这个题目涉及数据仓库的基本概念和构建方法。
OLTP和OLAP(3分)
考生需要解释在线事务处理(OLTP)和在线分析处理(OLAP)的区别和联系。
怎么建立数据仓库(3分)
考生需要描述建立数据仓库的步骤和方法。
SCD(4分)
考生需要解释缓慢变化维度(SCD)的概念,并讨论其在数据仓库中的应用。
4、元数据
这个题目要求考生基于数据资产盘点,说明元数据的详细类型。
考生需要了解元数据的分类,如业务元数据、技术元数据等,并能够详细描述每种元数据的类型和用途。
5、主数据
这个题目涉及主数据的识别和管理。
识别主数据(3分)
考生需要解释什么是主数据,并描述识别主数据的方法。
数据中台已经替换主数据,主数据“已死”,是不是不需要了,你怎么看?为什么。与数据中台onDID是不是一样的(3分)
考生需要讨论数据中台对主数据的影响,以及主数据是否仍然重要,同时比较主数据和数据中台的onDID。
怎么建立主数据管理(4分)
考生需要描述建立主数据管理的步骤和方法。
6、数据质量
这个题目涉及数据质量的管理和提升。
导致数据质量低下的原因及对应措施(5分)
考生需要分析导致数据质量低下的原因,并提出相应的改进措施。
建立数据质量绩效考核指标体系(5分)
考生需要设计一个数据质量绩效考核的指标体系,以评估和提升数据质量。
酒店管理系统ER图
子主题
子主题
子主题
GP9月份试题
【2024年9月CDGP设计及论述题解析】
1. 主数据管理
问题1:你遇到哪些主数据问题?
(1) 不完整。导致业务壁垒,阻碍集成与共享。
(2) 不规范。缺乏规范体系,导致实例冗余,增加集成难度,影响共享。
(3) 不及时。滞后主数据的持续使用导致信息不对称、决策风险
问题2:如何识别主数据?
(1)实体:是否共享。
(2)属性:重要的或相对稳定的属性。
(3)最大公约数原则。
问题3:如何构建一个行之有效的主数据管理系统?
(1)识别驱动因素和业务需求。
(2)评估和评价数据源。
(3)定义架构方法。
(4)建模主数据。
(5)定义管理职责和维护流程。
(6)建立治理制度,
(7)推动主数据使用。
2. 数据安全
问题1:评估当前安全数据风险和实施控制和规程的内容。
(1)评估当前安全风险。
①存储或传送的数据敏感性。
②保护数据的要求。
③现有的安全保护措施。
(2)实施控制和规程。
①分配密级。
②分配监管类别。
③管理和维护数据安全。
④管理安全制度遵从性。
问题2:如何构建数据安全体系?
数据安全治理得需要有足够的资金支持,面向系统、企业内保持方案一致,建立安全战略等,主要包括:数据安全分析现状,数据安全活动、以及基于数据生命周期得数据安全管理三个维度。
(1)数据安全分析现状包含对安全进行分类分级:
1、梳理数据资产,识别敏感数据资产并分类分级
2、在企业中查找敏感数据
3、确定保护每项资产的方法
4、识别信息与业务流程如何交互
(2)实施安全活动:
1、识别数据安全需求。
①业务需求。
②监管要求。
2、制定数据安全制度。
①企业安全制度。
②IT安全制度。
③数据安全制度。
④数据安全应急处理机制。
3、制定数据安全细则。
①定义数据保密等级。
②定义数据监管类别。
③定义安全角色。
角色分配矩阵、角色分配层次结构。基于CRUD和RACI矩阵制定。
4、评估当前安全风险。
①存储或传送的数据敏感性。
②保护数据的要求。
③现有的安全保护措施。
5、实施控制和规程。
①分配密级。
②分配监管类别。
③管理和维护数据安全。
④管理安全制度遵从性。
(3)数据安全生命周期
1、规划:将数据与安全和隐私需求关联
2、设计&启用:在系统中建立数据保护和安全措施
3、创建/获取:对新数据进行分类,以便合理保护数据
4、存储/维护:确保数据存储符合政策法规的要求
5、使用:管理访问权限,以保证对数据的合理使用,防止滥用
6、增强:在监管要求和识别新的安全威胁上保持领先
7、处置:遵循有关政策和法规要求处理数据
3. 元数据管理
问题1:如何建设高效的元数据管理体系?
1、定义元数据战略。【启动战略,组织访谈,成熟度评估,开发架构,制定计划】
①启动元数据战略计划。
②组织关键利益相关方访谈。
③评估现有的元数据资源和信息架构。
④开发未来的元数据架构。
⑤制定分阶段的实施计划
2、理解元数据需求。【需求主要还是集中在数据管理,也可以结合指标元数据去说明】
①更新频次 ②同步情况 ③历史信息 ④访问权限 ⑤存储结构
⑥集成要求 ⑦运维要求 ⑧管理要求 ⑨质量要求 ⑩安全要求
3、定义元数据架构。
①创建元模型。(定义元数据战略和理解元数据需求后设计的第一步)
②应用元数据标准。
③管理元数据存储。
4、创建和维护元数据。
管理元数据质量的方法:责任、标准、改进。
①整合元数据。
②分发和传递元数据。
5、查询、报告和分析元数据。
问题2:元数据系统应该有哪些功能?
1、元数据采集。
2、元数据查询。
3、元数据分析。
4、元数据变更管理。
5、元数据浏览视图。
6、元数据版本管理。
7、权限管理。
8、主动型元数据管理【必考】
①实时自动更新,确保元数据永远是最新的
②主动型的驱动数据管理和应用。不止是收集,而是要创造
③全面数据管理的协作共享。
4. 数据仓库与数据湖
问题1:数据仓库与数据湖的区别?
数据仓库与数据湖在存储数据类型、数据处理模式以及服务对象均存在差异,各有千秋,可以在不同的场景互补应用,数据仓库和数据湖的异同如下:
相同点:
都储存的历史明细的结构化数据
主要使用人员都是业务分析人员
不同点:
数据湖可以存储结构化和非结构化数据
数据湖的加载方式是ELT,数据仓库的ETL
数据仓库更多是传统的统计分析,数据湖支持数据和文本挖掘,做预测分析和规范分析。
问题2:数据湖有哪些优势?
1、数据科学家可以挖掘和分析数据的环境。
2、原始数据的集中存储区域,只需很少量的转换。
3、数据仓库明细历史数据的备用存储区域。
4、信息记录的在线归档。
5、可以通过自动化的模型识别提取数据的环境。
问题3:如何构建湖仓一体?
可以把图画出来
5. 数据质量
问题1:数据质量管理的指导原则?
1、重要性 2、全生命周期管理 3、预防 4、 根因修正 5、治理
标准驱动 7、客观测量和透明度 8、嵌入业务流程 9、系统强制执行 10、与服务水平关联
问题2:如何建立数据质量管理?
(1)定义高质量数据。
①对业务目标和战略达成共识。 ②识别组织痛点。
③评估现有数据质量。 ④评估依赖关系、技术架构、系统支持。
(2)定义数据质量战略。
(3)识别关键数据和业务规则。
(4)执行初始数据质量评估。
(5)识别改进方向并确定优先级
(6)定义数据质量改进目标。
(7)开发和部署数据质量操作。
①管理数据质量规则。
②度量和监控DQI。
③制定问题数据的操作过程。
④制定数据质量SLA
⑤编写数据质量报告
问题3:建立数据质量考核体系?
可从DMBOK度量指标答
(1)投资回报率
(2)质量水平
(3)质量趋势
(4)SLA一致性
(5)问题管理
(6)实施路线一致性
也可从国标数据质质量6性答
①规范性(考核数据对标准、业务规则的符合度)
②完整性(考核数据随业务描述的完整度、覆盖度)
③准确性(考核数据对业务描述的准确度、真实度)
④一致性(考核数据在不同环境下的一致程度)
⑤时效性(考核数据的值随时间变化的正确程度)
⑥可访问性(考核数据可被访问的程度)
6. 数据建模
问题:集团人力资源系统建模案例?
1. 主数据管理
问题1:你遇到哪些主数据问题?
(1) 不完整。导致业务壁垒,阻碍集成与共享。
(2) 不规范。缺乏规范体系,导致实例冗余,增加集成难度,影响共享。
(3) 不及时。滞后主数据的持续使用导致信息不对称、决策风险
问题2:如何识别主数据?
(1)实体:是否共享。
(2)属性:重要的或相对稳定的属性。
(3)最大公约数原则。
问题3:如何构建一个行之有效的主数据管理系统?
(1)识别驱动因素和业务需求。
(2)评估和评价数据源。
(3)定义架构方法。
(4)建模主数据。
(5)定义管理职责和维护流程。
(6)建立治理制度,
(7)推动主数据使用。
2. 数据安全
问题1:评估当前安全数据风险和实施控制和规程的内容。
(1)评估当前安全风险。
①存储或传送的数据敏感性。
②保护数据的要求。
③现有的安全保护措施。
(2)实施控制和规程。
①分配密级。
②分配监管类别。
③管理和维护数据安全。
④管理安全制度遵从性。
问题2:如何构建数据安全体系?
数据安全治理得需要有足够的资金支持,面向系统、企业内保持方案一致,建立安全战略等,主要包括:数据安全分析现状,数据安全活动、以及基于数据生命周期得数据安全管理三个维度。
(1)数据安全分析现状包含对安全进行分类分级:
1、梳理数据资产,识别敏感数据资产并分类分级
2、在企业中查找敏感数据
3、确定保护每项资产的方法
4、识别信息与业务流程如何交互
(2)实施安全活动:
1、识别数据安全需求。
①业务需求。
②监管要求。
2、制定数据安全制度。
①企业安全制度。
②IT安全制度。
③数据安全制度。
④数据安全应急处理机制。
3、制定数据安全细则。
①定义数据保密等级。
②定义数据监管类别。
③定义安全角色。
角色分配矩阵、角色分配层次结构。基于CRUD和RACI矩阵制定。
4、评估当前安全风险。
①存储或传送的数据敏感性。
②保护数据的要求。
③现有的安全保护措施。
5、实施控制和规程。
①分配密级。
②分配监管类别。
③管理和维护数据安全。
④管理安全制度遵从性。
(3)数据安全生命周期
1、规划:将数据与安全和隐私需求关联
2、设计&启用:在系统中建立数据保护和安全措施
3、创建/获取:对新数据进行分类,以便合理保护数据
4、存储/维护:确保数据存储符合政策法规的要求
5、使用:管理访问权限,以保证对数据的合理使用,防止滥用
6、增强:在监管要求和识别新的安全威胁上保持领先
7、处置:遵循有关政策和法规要求处理数据
3. 元数据管理
问题1:如何建设高效的元数据管理体系?
1、定义元数据战略。【启动战略,组织访谈,成熟度评估,开发架构,制定计划】
①启动元数据战略计划。
②组织关键利益相关方访谈。
③评估现有的元数据资源和信息架构。
④开发未来的元数据架构。
⑤制定分阶段的实施计划
2、理解元数据需求。【需求主要还是集中在数据管理,也可以结合指标元数据去说明】
①更新频次 ②同步情况 ③历史信息 ④访问权限 ⑤存储结构
⑥集成要求 ⑦运维要求 ⑧管理要求 ⑨质量要求 ⑩安全要求
3、定义元数据架构。
①创建元模型。(定义元数据战略和理解元数据需求后设计的第一步)
②应用元数据标准。
③管理元数据存储。
4、创建和维护元数据。
管理元数据质量的方法:责任、标准、改进。
①整合元数据。
②分发和传递元数据。
5、查询、报告和分析元数据。
问题2:元数据系统应该有哪些功能?
1、元数据采集。
2、元数据查询。
3、元数据分析。
4、元数据变更管理。
5、元数据浏览视图。
6、元数据版本管理。
7、权限管理。
8、主动型元数据管理【必考】
①实时自动更新,确保元数据永远是最新的
②主动型的驱动数据管理和应用。不止是收集,而是要创造
③全面数据管理的协作共享。
4. 数据仓库与数据湖
问题1:数据仓库与数据湖的区别?
数据仓库与数据湖在存储数据类型、数据处理模式以及服务对象均存在差异,各有千秋,可以在不同的场景互补应用,数据仓库和数据湖的异同如下:
相同点:
都储存的历史明细的结构化数据
主要使用人员都是业务分析人员
不同点:
数据湖可以存储结构化和非结构化数据
数据湖的加载方式是ELT,数据仓库的ETL
数据仓库更多是传统的统计分析,数据湖支持数据和文本挖掘,做预测分析和规范分析。
问题2:数据湖有哪些优势?
1、数据科学家可以挖掘和分析数据的环境。
2、原始数据的集中存储区域,只需很少量的转换。
3、数据仓库明细历史数据的备用存储区域。
4、信息记录的在线归档。
5、可以通过自动化的模型识别提取数据的环境。
问题3:如何构建湖仓一体?
可以把图画出来
5. 数据质量
问题1:数据质量管理的指导原则?
1、重要性 2、全生命周期管理 3、预防 4、 根因修正 5、治理
标准驱动 7、客观测量和透明度 8、嵌入业务流程 9、系统强制执行 10、与服务水平关联
问题2:如何建立数据质量管理?
(1)定义高质量数据。
①对业务目标和战略达成共识。 ②识别组织痛点。
③评估现有数据质量。 ④评估依赖关系、技术架构、系统支持。
(2)定义数据质量战略。
(3)识别关键数据和业务规则。
(4)执行初始数据质量评估。
(5)识别改进方向并确定优先级
(6)定义数据质量改进目标。
(7)开发和部署数据质量操作。
①管理数据质量规则。
②度量和监控DQI。
③制定问题数据的操作过程。
④制定数据质量SLA
⑤编写数据质量报告
问题3:建立数据质量考核体系?
可从DMBOK度量指标答
(1)投资回报率
(2)质量水平
(3)质量趋势
(4)SLA一致性
(5)问题管理
(6)实施路线一致性
也可从国标数据质质量6性答
①规范性(考核数据对标准、业务规则的符合度)
②完整性(考核数据随业务描述的完整度、覆盖度)
③准确性(考核数据对业务描述的准确度、真实度)
④一致性(考核数据在不同环境下的一致程度)
⑤时效性(考核数据的值随时间变化的正确程度)
⑥可访问性(考核数据可被访问的程度)
6. 数据建模
问题:集团人力资源系统建模案例?
子主题
GP10月份考试题
2024年10月份考题【单选题、多选题、设计题和论述题】
单选题
1.数据资产交易最重要的条件,数据价值评估
2.数据二十条中的三权是指,数据资源持有权,数据加工使用权和数据产品经营权
3.法规遵从性,会计准则??不懂
4.算法模型,监督学习和强化学习??
5.数据资产度量,主要是成本法,包含数据获取和储存
6.六边形包含内容,选C好像
7.数据架构ISO定义,组件与组件的关系
8.DCMM评估结果输出不包括,数据战略
9.数据建模训练集和测试集数据比例,默认七比三,感觉测试集可以为0。
10.数据管理职责,所有人员都有决策权错误的吧
多选题
1.数据成熟度评估,不能解决处理问题的时效
2.DCMM有别于DAMA的独有的模块,数据战略和数据标准
3.数据建模,一元,属性,值域,SCD等四个全选
4.数据仓库和数据湖,排除被数据中台取代一个选项?已有湖仓方案落地
5.以下哪些属于非结构化数据,全选
6.数据治理网站内容不包括,员工工资,外包
7.Hadoop和mpp,全选
8.数据编织,数据混搭,数据中台,数仓,排除中心化和去中心化选项?不懂
9.数据管理的原则,数据是资产,数据有风险
10.数据治理执行就绪评估,包括成熟度评估,战略与业务保持一致
11.SBA架构,排除跟kappa架构一样
12.架构主要职责描述,排除那个需求定义很长一串的选项
13.数据科学过程,选择数据源,获取和集成数据
14. 开源和信创,开源不能用于信创,题目和选型看太快不是很确定。另外选项是,hive是数仓,来源应用大部分来自apache和github,mahout是推荐引擎
15.
第一题:建项目管理系统的逻辑模型
第二题:主要考核主数据
1.主数据的定义
2.主数据的类型
3.主数据和数据标准,数据质量的关系
4.怎么实施主数据管理项目
第三题:元数据和数据资源目录
1.元数据来源
2.元数据好坏评价
3.元数据管理方案
第四题:数据安全分类分级
1.数据安全责任是谁?为什么?(题目是乙方员工泄露了甲方数据)
2.除了数据安全分类分级,还有什么数据安全管理手段?
3.数据安全分类分级怎么做?怎么确定数据安全分类分级的标准?111. 数据敏感度分级
绝密级:涉及国家、企业核心机密的数据,泄露可能会带来严重的法律和经济后果。如国家机密数据、企业的技术核心数据等。
机密级:包括涉及个人隐私、重要业务流程的数据。泄露会影响个人权益或公司的竞争力。如客户数据、财务数据等。
内部级:仅限于内部使用,泄露不会直接造成重大损失,但会影响日常业务运作。如公司内部的流程数据、一般业务数据等。
公开级:对外公开的数据,没有泄露风险。例如公司网站上的公开信息、年报等。
2. 数据价值分级
高价值数据:对业务运营、决策和发展有重大影响的数据,如核心业务数据、决策支持数据等。
中价值数据:对业务有一定影响的数据,但非核心数据。
低价值数据:对业务影响较小或较少使用的数据。
3. 数据生命周期分级
生产数据:实时使用的数据,影响业务流程的正常运行。
存档数据:不常用,但需要保存以备查的数据。
历史数据:过时的数据,可能不再用于日常业务。
4. 数据访问分级
严格访问:限制非常严格的,只有极少数人员可以访问的数据。
内部访问:公司内部相关人员可以访问的数据。
外部访问:部分外部合作方可以访问的数据,但需严格审查。
5. 数据类型分级
结构化数据:如数据库中的表、文件等,通常用于存储和管理核心业务数据。
半结构化数据:如日志文件、XML等,包含部分结构信息但不完全。
非结构化数据:如文档、图像等,内容杂乱无章第五题:数据仓库
1.怎么建设数据仓库
2.数仓和数据湖的区别
3.怎么解决SCD问题
第六题:数据质量
1.设计一套数据质量提升的数据优先级原则
2.根据设计的优先级原则,确定你所在企业的数据质量提升优先级,并设计一套数据质量管理体系
单选题
1.数据资产交易最重要的条件,数据价值评估
2.数据二十条中的三权是指,数据资源持有权,数据加工使用权和数据产品经营权
3.法规遵从性,会计准则??不懂
4.算法模型,监督学习和强化学习??
5.数据资产度量,主要是成本法,包含数据获取和储存
6.六边形包含内容,选C好像
7.数据架构ISO定义,组件与组件的关系
8.DCMM评估结果输出不包括,数据战略
9.数据建模训练集和测试集数据比例,默认七比三,感觉测试集可以为0。
10.数据管理职责,所有人员都有决策权错误的吧
多选题
1.数据成熟度评估,不能解决处理问题的时效
2.DCMM有别于DAMA的独有的模块,数据战略和数据标准
3.数据建模,一元,属性,值域,SCD等四个全选
4.数据仓库和数据湖,排除被数据中台取代一个选项?已有湖仓方案落地
5.以下哪些属于非结构化数据,全选
6.数据治理网站内容不包括,员工工资,外包
7.Hadoop和mpp,全选
8.数据编织,数据混搭,数据中台,数仓,排除中心化和去中心化选项?不懂
9.数据管理的原则,数据是资产,数据有风险
10.数据治理执行就绪评估,包括成熟度评估,战略与业务保持一致
11.SBA架构,排除跟kappa架构一样
12.架构主要职责描述,排除那个需求定义很长一串的选项
13.数据科学过程,选择数据源,获取和集成数据
14. 开源和信创,开源不能用于信创,题目和选型看太快不是很确定。另外选项是,hive是数仓,来源应用大部分来自apache和github,mahout是推荐引擎
15.
第一题:建项目管理系统的逻辑模型
第二题:主要考核主数据
1.主数据的定义
2.主数据的类型
3.主数据和数据标准,数据质量的关系
4.怎么实施主数据管理项目
第三题:元数据和数据资源目录
1.元数据来源
2.元数据好坏评价
3.元数据管理方案
第四题:数据安全分类分级
1.数据安全责任是谁?为什么?(题目是乙方员工泄露了甲方数据)
2.除了数据安全分类分级,还有什么数据安全管理手段?
3.数据安全分类分级怎么做?怎么确定数据安全分类分级的标准?111. 数据敏感度分级
绝密级:涉及国家、企业核心机密的数据,泄露可能会带来严重的法律和经济后果。如国家机密数据、企业的技术核心数据等。
机密级:包括涉及个人隐私、重要业务流程的数据。泄露会影响个人权益或公司的竞争力。如客户数据、财务数据等。
内部级:仅限于内部使用,泄露不会直接造成重大损失,但会影响日常业务运作。如公司内部的流程数据、一般业务数据等。
公开级:对外公开的数据,没有泄露风险。例如公司网站上的公开信息、年报等。
2. 数据价值分级
高价值数据:对业务运营、决策和发展有重大影响的数据,如核心业务数据、决策支持数据等。
中价值数据:对业务有一定影响的数据,但非核心数据。
低价值数据:对业务影响较小或较少使用的数据。
3. 数据生命周期分级
生产数据:实时使用的数据,影响业务流程的正常运行。
存档数据:不常用,但需要保存以备查的数据。
历史数据:过时的数据,可能不再用于日常业务。
4. 数据访问分级
严格访问:限制非常严格的,只有极少数人员可以访问的数据。
内部访问:公司内部相关人员可以访问的数据。
外部访问:部分外部合作方可以访问的数据,但需严格审查。
5. 数据类型分级
结构化数据:如数据库中的表、文件等,通常用于存储和管理核心业务数据。
半结构化数据:如日志文件、XML等,包含部分结构信息但不完全。
非结构化数据:如文档、图像等,内容杂乱无章第五题:数据仓库
1.怎么建设数据仓库
2.数仓和数据湖的区别
3.怎么解决SCD问题
第六题:数据质量
1.设计一套数据质量提升的数据优先级原则
2.根据设计的优先级原则,确定你所在企业的数据质量提升优先级,并设计一套数据质量管理体系
子主题
23年3月份试题
【2023年3月CDGP设计及论述题】
一、设计题
基于图书阅读的设计APP设计,电子书浏览、收藏功能,实体书可下单进行购买通过物流进行配送,用户注册,并成为会员,会员有选择关闭广告的功能。
基本功能:预览、浏览、收藏
订购功能:下单、配送
社交功能:获得用户授权,识别好友信息,好友可见浏览、收藏历史
推荐功能:推荐给用户他可能喜欢的书籍
广告功能:向用户推荐广告,会员可选择屏蔽广告
排名:好友可进行排名
要求:
1、进行实体、属性、关系的发现设计
2、根据描述补全可能有用的实体
3、遵循范式,如有违反请说明
4、.....
二、主数据题目
1、结合贵公司实际情况阐述主数据管理的驱动因素,目标原则及如何确定范围
1、确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。
2、促使企业在各业务单元和各应用系统之间共享参考数据和主数据。
3、通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。
2、如何识别主数据
1、实体:是否共享。
2、属性:重要的或相对稳定的属性。
3、最大公约数原则。
3、主数据管理的步骤
1、识别驱动因素和业务需求。【必考】
2、评估和评价数据源。
3、定义架构方法。
4、建模主数据。
5、定义管理职责和维护流程。
6、建立治理制度,
7、推动主数据使用。
三、元数据题目
1、如何保证元数据的新鲜度
个人解答
一、建立定期更新机制
设定更新周期:
根据元数据所涉及的业务领域、数据变化频率等因素,确定一个合理的固定更新周期。
制定更新计划:
明确在每个更新周期内具体的更新任务、负责人员以及更新流程。
二、实时监测数据变化
数据变更触发机制:
利用数据库的触发器功能或专门的监控工具,当底层数据发生特定的变化(如数据的插入、修改、删除等操作)时,自动触发元数据的更新操作。
实时监控系统:
搭建实时监控系统来持续关注数据的动态。该系统可以通过对数据存储区域(如数据库、文件系统等)的持续扫描或监听数据接口的流量等方式,一旦发现有数据的异动,就及时通知相关人员或自动启动元数据的更新流程。
三、数据来源的准确性保障
数据源审核:
在获取元数据的初始阶段,要对数据源进行严格的审核。确保数据源本身是可靠的、具有权威性的。
多源数据验证:
当有多个数据源可用于获取元数据时,可以通过对不同数据源的数据进行相互验证来提高元数据的准确性和新鲜度。
四、人员培训与管理
专业培训:
对涉及元数据管理和更新的人员进行专业培训,使其熟悉元数据的概念、重要性以及更新的规范和流程。
责任明确:
明确每个人员在元数据管理流程中的具体责任,避免出现职责不清导致的更新延误或错误。
五、元数据管理工具的有效利用
自动化更新工具:
选用合适的元数据管理工具,很多这类工具都具备自动化更新的功能。例如,一些企业级的元数据管理系统可以根据预设的规则和条件,自动对元数据进行更新操作,无需人工过多干预。如可以设置当某个数据文件的修改时间超过一定时限后,系统自动更新该文件相关的元数据(如文件大小、修改者等)。
版本控制工具:
利用版本控制工具来管理元数据的不同版本,确保在更新过程中能够清晰地追踪到元数据的变化轨迹。
2、结合本公司实际如何设计元数据管理体系
一、明确业务需求和目标
业务流程梳理:
深入了解公司各个业务部门的主要工作流程,如销售部门的客户订单处理流程、生产部门的产品制造流程、财务部门的账务处理流程等。分析在这些流程中涉及到哪些数据的产生、流转、使用和存储,以及这些数据相关的元数据信息(如数据来源、数据用途、数据所有者等)。
例如,在销售订单处理流程中,订单数据的元数据可能包括订单创建时间、下单客户信息、销售代表、订单状态等,通过梳理流程明确这些元数据对业务的重要性和作用。
确定管理目标:
根据公司的战略规划和业务需求,确定元数据管理体系要实现的具体目标。比如,提高数据质量,确保数据的准确性、完整性和一致性;提升数据共享和协作效率,使不同部门能够更便捷地获取和使用所需数据;增强数据安全性,通过对元数据的管理更好地保护公司的敏感数据等。
二、建立元数据标准和规范
定义元数据元素:
结合公司业务特点,确定需要管理的元数据元素集合。这些元素可以涵盖数据的基本属性(如名称、类型、长度等)、业务属性(如业务含义、所属业务流程、相关业务规则等)、管理属性(如数据所有者、数据管理员、更新周期等)等方面。
以人力资源管理数据为例,员工信息表的元数据元素可能包括员工姓名(数据类型为字符串,长度根据实际情况设定)、员工编号(唯一标识符,数据类型为数字)、入职时间(日期类型)、所属部门(字符串类型,关联到公司组织架构中的具体部门)等。
制定命名规范:
为元数据元素制定统一的命名规范,确保名称清晰、准确且具有一致性。避免出现不同部门对同一元数据元素使用不同名称的情况,以免造成混淆。例如,对于表示产品销售价格的元数据元素,统一命名为 “产品销售价格”,而不是有的部门叫 “售价”,有的部门叫 “卖出价” 等。
确定数据格式和编码标准:
规定元数据元素的数据格式(如日期格式采用 “YYYY-MM-DD”,数字格式采用保留几位小数等)和编码标准(如对于性别信息,采用 “0” 表示男性,“1” 表示女性等)。这有助于保证元数据在不同系统和部门之间的交换和使用时的一致性。
三、规划元数据架构
确定元数据存储方式:
根据公司的数据量、数据类型以及现有技术架构,选择合适的元数据存储方式。可以是使用专门的元数据存储库(如基于关系数据库构建的元数据存储库),也可以是将元数据集成到现有的数据仓库、企业资源规划(ERP)系统等中进行存储。
例如,对于数据量较大且对元数据管理要求较高的公司,可能会选择搭建独立的元数据存储库,以便更好地进行元数据的集中管理和维护;而对于小型公司,将元数据存储在现有的 ERP 系统中可能就能够满足需求。
设计元数据层次结构:
构建元数据的层次结构,一般可以分为业务元数据、技术元数据和操作元数据等层次。业务元数据主要描述数据的业务含义、用途等;技术元数据侧重于数据的技术实现细节,如数据存储格式、数据访问路径等;操作元数据则记录数据的操作历史,如数据的创建时间、更新时间、操作者等。
以公司的营销数据为例,业务元数据可能包括营销活动名称、目标客户群体、营销效果评估指标等;技术元数据可能涉及营销数据存储在哪个数据库、采用何种数据存储格式等;操作元数据则会记录营销数据每次的创建、更新情况以及相关操作者的信息。
四、组建元数据管理团队
明确团队角色和职责:
设立元数据管理员、业务数据所有者、技术支持人员等不同角色。元数据管理员负责元数据管理体系的整体规划、标准制定、日常维护等工作;业务数据所有者负责提供本部门业务数据的准确信息,参与元数据标准的制定,并监督本部门元数据的更新情况;技术支持人员负责提供技术支持,如搭建元数据存储库、实现元数据的自动化管理工具等。
例如,在一家制造企业中,元数据管理员负责统筹规划企业内所有产品制造相关元数据的管理工作,业务数据所有者可能是各个生产车间的负责人,他们要提供车间生产数据的元数据信息,技术支持人员则负责构建和维护用于存储产品制造元数据的数据库系统。
培训团队成员:
对元数据管理团队成员进行相关培训,使其熟悉元数据管理的概念、方法、工具以及公司制定的元数据标准和规范。培训内容可以包括元数据管理基础知识、公司业务流程、相关技术工具的使用等方面。
比如,对元数据管理员进行深入的元数据管理理论培训以及如何使用特定的元数据管理软件进行操作培训;对业务数据所有者进行关于如何准确提供业务数据的元数据信息以及如何监督更新情况的培训;对技术支持人员进行关于如何构建和维护元数据存储库以及实现自动化管理工具的培训。
五、建立元数据管理流程
元数据采集流程:
明确元数据从哪里采集、如何采集以及由谁采集。通常,业务数据所有者负责提供本部门业务数据的元数据信息,采集方式可以是通过填写专门的元数据采集表单、利用数据接口自动提取等。
例如,在财务部门,财务人员作为业务数据所有者,通过填写财务数据元数据采集表单,提供如财务报表名称、编制日期、报表类型等元数据信息;或者利用财务软件与元数据管理系统之间的接口,自动提取部分财务数据的元数据信息。
元数据审核流程:
设立元数据审核环节,由元数据管理员或指定的审核人员对采集到的元数据进行审核。审核内容包括元数据的完整性、准确性、是否符合标准和规范等方面。
比如,元数据管理员对销售部门提供的客户订单元数据进行审核,检查订单创建时间、下单客户信息、订单状态等元数据元素是否完整,是否准确反映了订单的实际情况,以及是否符合公司制定的元数据命名规范、数据格式标准等。
元数据更新流程:
确定元数据的更新条件、更新方式以及更新周期。当业务数据发生变化时,如销售订单状态从 “已下单” 变为 “已发货”,相应的元数据也需要更新。更新方式可以是人工手动更新,也可以是利用自动化管理工具进行自动更新。更新周期可以根据业务数据的变化频率来确定,如对于频繁变化的销售订单数据,可能需要每天更新其元数据;而对于相对稳定的企业组织架构数据,可能一个月更新一次就够了。
例如,当生产车间的生产进度数据发生变化时,车间负责人作为业务数据所有者可以通过手工输入的方式更新生产进度数据的元数据,或者利用与生产管理系统相连的自动化管理工具进行自动更新。
元数据发布流程:
建立元数据发布流程,明确在元数据更新完成后,如何将更新后的元数据发布到相关系统或部门,以便供其使用。发布方式可以是通过数据接口推送、在内部系统中发布公告等。
比如,在人力资源管理系统中,当员工信息的元数据更新完成后,通过数据接口将更新后的元数据推送至工资核算系统、绩效评估系统等相关系统,以便这些系统能够根据最新的元数据进行相应的操作。
六、实施元数据监控与评估
建立监控机制:
搭建元数据监控系统,对元数据的采集、审核、更新、发布等各个环节进行监控。监控内容包括元数据的状态(如是否采集完成、是否审核通过、是否更新成功等)、元数据的质量(如完整性、准确性、一致性等)以及元数据管理流程的执行情况(如是否按照规定的流程进行操作等)。
例如,通过在元数据管理系统中设置监控点,实时监控财务数据元数据的采集情况,查看财务人员是否按照规定的格式和时间完成了财务报表元数据的采集任务,以及审核人员是否及时对采集到的元数据进行了审核等。
开展评估工作:
定期对元数据管理体系进行评估,评估内容包括元数据的质量、元数据管理流程的有效性、元数据对业务的支持效果等方面。根据评估结果,对元数据管理体系进行调整和优化。
比如,每季度对公司的产品制造元数据管理体系进行评估,检查产品制造元数据的完整性、准确性是否满足业务需求,元数据管理流程是否有效执行,以及元数据对产品制造业务的支持效果如何。根据评估结果,可能会对元数据标准、管理流程、团队成员职责等方面进行调整和优化。
七、持续改进元数据管理体系
收集反馈信息:
从元数据管理团队成员、业务部门、其他相关部门等多个渠道收集关于元数据管理体系的反馈信息。反馈内容可以包括对元数据标准和规范的意见、对管理流程的看法、对团队成员职责的建议等方面。
例如,业务部门可能会反馈说某些元数据元素的定义不够清晰,影响了他们准确提供元数据信息;或者说元数据更新流程太繁琐,需要简化等。
分析反馈问题:
对收集到的反馈信息进行分析,找出存在的问题和不足之处。根据分析结果,确定需要改进的方面和具体改进措施。
比如,分析业务部门反馈的问题后发现,是因为元数据标准中对某一元素的定义确实存在模糊之处,导致业务部门难以准确提供元数据信息。那么就需要对元数据标准进行重新定义,使其更加清晰明确。
实施改进措施:
根据分析确定的改进措施,对元数据管理体系进行改进。改进措施可以包括调整元数据标准和规范、优化管理流程、重新培训团队成员等方面。
例如,针对业务部门反馈的元数据更新流程繁琐的问题,对元数据更新流程进行优化,简化不必要的环节,提高更新效率;同时对元数据管理团队成员进行重新培训,使他们熟悉新的更新流程。
四、质量管理题目
1、数据质量问题如何进行提升
2、......记不清了,大概还是数据管理的目标还是实施活动忘记了
五、数据安全题目
1、我国颁布的数据相关的法律
《中华人民共和国网络安全法》
《中华人民共和国电子商务法》
《中华人民共和国数据安全法》
《中华人民共和国个人信息保护法》
2、数据安全意识指标包括哪些?
考虑以下这些常规领域并选择适当的指标:
1)风险评估结果。评估结果提供了定性数据,需要反馈给相关业务单位,以增强其责任意识。
2)风险事件和配置文件。通过这些事件和文件确定需要纠正的未管理风险敞口。在安全意识倡议实施后,通过后续的测试来确定风险敞口以及制度遵从方面的缺失或可衡量改进的程度,以了解这些信息的传达情况。
3)正式的反馈调查和访谈。通过这些调查和访谈确定安全意识水平。此外,还要衡量在目标人群中成功完成安全意识培训的员工数量。
4)事故复盘、经验教训和受害者访谈。为安全意识方面的缺口提供了丰富的信息来源。具体指标可包括已减小了多少漏洞。
5)补丁有效性审计。涉及使用机密和受控信息的计算机,以评估安全补丁的有效性(尽可能推荐自动补丁系统)。
3、结合贵公司实际情况如何进行数据安全体系建设
1.识别数据安全需求(业务需求、监管要求)
2.落实组织架构个管理职责
3.制定数据安全制度
(企业安全制度、IT安全制度、数据安全制度)
4.制定数据安全细则
(定义数据保护等级、定义监管类别、定义安全角色)
5.评估当前安全风险
(评估传输/存储的敏感性、数据保护要求遵从性、现有的安全措施,记
录调查结果、以便未来创建基线。)
6.实施控制和流程
(分配密级、分配监管类别、管理和维护数据安全、管理法规遵从性)
六、数仓及大数据题目
1、数据仓库设计的步骤
1、理解需求
2、定义和维护数据仓库和商务智能架构。
①技术架构。②管理流程。
3、开发数据仓库和数据集市。
①将源映射到目标。②修正和转换数据。
4、加载数据仓库。
工作量最大的步骤。
5、实施商务智能产品组合。
①根据需求将用户分组。②将工具与用户需求匹配。
6、维护数据产品。
①发布管理。
②管理数据产品开发生命周期。
③监控和调优加载过程。
④监控和调优商务智能活动。
2、数据仓库及数据湖的异同点
数据仓库与数据湖在存储数据类型、数据处理模式以及服务对象均存在差异,各有千秋,可以在不同的场景互补应用,数据仓库和数据湖的异同如下:
相同点:
都储存的历史明细的结构化数据
主要使用人员都是业务分析人员
不同点:
数据湖可以存储结构化和非结构化数据
数据湖的加载方式是ELT,数据仓库的ETL
数据仓库更多是传统的统计分析,数据湖支持数据和文本挖掘,做预测分析和规范分析。
3、阐述数据仓库、数据湖及数据中台三者的关系
数据仓库构建了企业级的数据模型。
大数据平台在此基础上进行拓展,解决了海量、实时数据的计算和存储问题。
而数据中台则是将数据服务化之后提供给业务系统,目标是将数据能力渗透到各个业务环节
一、设计题
基于图书阅读的设计APP设计,电子书浏览、收藏功能,实体书可下单进行购买通过物流进行配送,用户注册,并成为会员,会员有选择关闭广告的功能。
基本功能:预览、浏览、收藏
订购功能:下单、配送
社交功能:获得用户授权,识别好友信息,好友可见浏览、收藏历史
推荐功能:推荐给用户他可能喜欢的书籍
广告功能:向用户推荐广告,会员可选择屏蔽广告
排名:好友可进行排名
要求:
1、进行实体、属性、关系的发现设计
2、根据描述补全可能有用的实体
3、遵循范式,如有违反请说明
4、.....
二、主数据题目
1、结合贵公司实际情况阐述主数据管理的驱动因素,目标原则及如何确定范围
1、确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。
2、促使企业在各业务单元和各应用系统之间共享参考数据和主数据。
3、通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。
2、如何识别主数据
1、实体:是否共享。
2、属性:重要的或相对稳定的属性。
3、最大公约数原则。
3、主数据管理的步骤
1、识别驱动因素和业务需求。【必考】
2、评估和评价数据源。
3、定义架构方法。
4、建模主数据。
5、定义管理职责和维护流程。
6、建立治理制度,
7、推动主数据使用。
三、元数据题目
1、如何保证元数据的新鲜度
个人解答
一、建立定期更新机制
设定更新周期:
根据元数据所涉及的业务领域、数据变化频率等因素,确定一个合理的固定更新周期。
制定更新计划:
明确在每个更新周期内具体的更新任务、负责人员以及更新流程。
二、实时监测数据变化
数据变更触发机制:
利用数据库的触发器功能或专门的监控工具,当底层数据发生特定的变化(如数据的插入、修改、删除等操作)时,自动触发元数据的更新操作。
实时监控系统:
搭建实时监控系统来持续关注数据的动态。该系统可以通过对数据存储区域(如数据库、文件系统等)的持续扫描或监听数据接口的流量等方式,一旦发现有数据的异动,就及时通知相关人员或自动启动元数据的更新流程。
三、数据来源的准确性保障
数据源审核:
在获取元数据的初始阶段,要对数据源进行严格的审核。确保数据源本身是可靠的、具有权威性的。
多源数据验证:
当有多个数据源可用于获取元数据时,可以通过对不同数据源的数据进行相互验证来提高元数据的准确性和新鲜度。
四、人员培训与管理
专业培训:
对涉及元数据管理和更新的人员进行专业培训,使其熟悉元数据的概念、重要性以及更新的规范和流程。
责任明确:
明确每个人员在元数据管理流程中的具体责任,避免出现职责不清导致的更新延误或错误。
五、元数据管理工具的有效利用
自动化更新工具:
选用合适的元数据管理工具,很多这类工具都具备自动化更新的功能。例如,一些企业级的元数据管理系统可以根据预设的规则和条件,自动对元数据进行更新操作,无需人工过多干预。如可以设置当某个数据文件的修改时间超过一定时限后,系统自动更新该文件相关的元数据(如文件大小、修改者等)。
版本控制工具:
利用版本控制工具来管理元数据的不同版本,确保在更新过程中能够清晰地追踪到元数据的变化轨迹。
2、结合本公司实际如何设计元数据管理体系
一、明确业务需求和目标
业务流程梳理:
深入了解公司各个业务部门的主要工作流程,如销售部门的客户订单处理流程、生产部门的产品制造流程、财务部门的账务处理流程等。分析在这些流程中涉及到哪些数据的产生、流转、使用和存储,以及这些数据相关的元数据信息(如数据来源、数据用途、数据所有者等)。
例如,在销售订单处理流程中,订单数据的元数据可能包括订单创建时间、下单客户信息、销售代表、订单状态等,通过梳理流程明确这些元数据对业务的重要性和作用。
确定管理目标:
根据公司的战略规划和业务需求,确定元数据管理体系要实现的具体目标。比如,提高数据质量,确保数据的准确性、完整性和一致性;提升数据共享和协作效率,使不同部门能够更便捷地获取和使用所需数据;增强数据安全性,通过对元数据的管理更好地保护公司的敏感数据等。
二、建立元数据标准和规范
定义元数据元素:
结合公司业务特点,确定需要管理的元数据元素集合。这些元素可以涵盖数据的基本属性(如名称、类型、长度等)、业务属性(如业务含义、所属业务流程、相关业务规则等)、管理属性(如数据所有者、数据管理员、更新周期等)等方面。
以人力资源管理数据为例,员工信息表的元数据元素可能包括员工姓名(数据类型为字符串,长度根据实际情况设定)、员工编号(唯一标识符,数据类型为数字)、入职时间(日期类型)、所属部门(字符串类型,关联到公司组织架构中的具体部门)等。
制定命名规范:
为元数据元素制定统一的命名规范,确保名称清晰、准确且具有一致性。避免出现不同部门对同一元数据元素使用不同名称的情况,以免造成混淆。例如,对于表示产品销售价格的元数据元素,统一命名为 “产品销售价格”,而不是有的部门叫 “售价”,有的部门叫 “卖出价” 等。
确定数据格式和编码标准:
规定元数据元素的数据格式(如日期格式采用 “YYYY-MM-DD”,数字格式采用保留几位小数等)和编码标准(如对于性别信息,采用 “0” 表示男性,“1” 表示女性等)。这有助于保证元数据在不同系统和部门之间的交换和使用时的一致性。
三、规划元数据架构
确定元数据存储方式:
根据公司的数据量、数据类型以及现有技术架构,选择合适的元数据存储方式。可以是使用专门的元数据存储库(如基于关系数据库构建的元数据存储库),也可以是将元数据集成到现有的数据仓库、企业资源规划(ERP)系统等中进行存储。
例如,对于数据量较大且对元数据管理要求较高的公司,可能会选择搭建独立的元数据存储库,以便更好地进行元数据的集中管理和维护;而对于小型公司,将元数据存储在现有的 ERP 系统中可能就能够满足需求。
设计元数据层次结构:
构建元数据的层次结构,一般可以分为业务元数据、技术元数据和操作元数据等层次。业务元数据主要描述数据的业务含义、用途等;技术元数据侧重于数据的技术实现细节,如数据存储格式、数据访问路径等;操作元数据则记录数据的操作历史,如数据的创建时间、更新时间、操作者等。
以公司的营销数据为例,业务元数据可能包括营销活动名称、目标客户群体、营销效果评估指标等;技术元数据可能涉及营销数据存储在哪个数据库、采用何种数据存储格式等;操作元数据则会记录营销数据每次的创建、更新情况以及相关操作者的信息。
四、组建元数据管理团队
明确团队角色和职责:
设立元数据管理员、业务数据所有者、技术支持人员等不同角色。元数据管理员负责元数据管理体系的整体规划、标准制定、日常维护等工作;业务数据所有者负责提供本部门业务数据的准确信息,参与元数据标准的制定,并监督本部门元数据的更新情况;技术支持人员负责提供技术支持,如搭建元数据存储库、实现元数据的自动化管理工具等。
例如,在一家制造企业中,元数据管理员负责统筹规划企业内所有产品制造相关元数据的管理工作,业务数据所有者可能是各个生产车间的负责人,他们要提供车间生产数据的元数据信息,技术支持人员则负责构建和维护用于存储产品制造元数据的数据库系统。
培训团队成员:
对元数据管理团队成员进行相关培训,使其熟悉元数据管理的概念、方法、工具以及公司制定的元数据标准和规范。培训内容可以包括元数据管理基础知识、公司业务流程、相关技术工具的使用等方面。
比如,对元数据管理员进行深入的元数据管理理论培训以及如何使用特定的元数据管理软件进行操作培训;对业务数据所有者进行关于如何准确提供业务数据的元数据信息以及如何监督更新情况的培训;对技术支持人员进行关于如何构建和维护元数据存储库以及实现自动化管理工具的培训。
五、建立元数据管理流程
元数据采集流程:
明确元数据从哪里采集、如何采集以及由谁采集。通常,业务数据所有者负责提供本部门业务数据的元数据信息,采集方式可以是通过填写专门的元数据采集表单、利用数据接口自动提取等。
例如,在财务部门,财务人员作为业务数据所有者,通过填写财务数据元数据采集表单,提供如财务报表名称、编制日期、报表类型等元数据信息;或者利用财务软件与元数据管理系统之间的接口,自动提取部分财务数据的元数据信息。
元数据审核流程:
设立元数据审核环节,由元数据管理员或指定的审核人员对采集到的元数据进行审核。审核内容包括元数据的完整性、准确性、是否符合标准和规范等方面。
比如,元数据管理员对销售部门提供的客户订单元数据进行审核,检查订单创建时间、下单客户信息、订单状态等元数据元素是否完整,是否准确反映了订单的实际情况,以及是否符合公司制定的元数据命名规范、数据格式标准等。
元数据更新流程:
确定元数据的更新条件、更新方式以及更新周期。当业务数据发生变化时,如销售订单状态从 “已下单” 变为 “已发货”,相应的元数据也需要更新。更新方式可以是人工手动更新,也可以是利用自动化管理工具进行自动更新。更新周期可以根据业务数据的变化频率来确定,如对于频繁变化的销售订单数据,可能需要每天更新其元数据;而对于相对稳定的企业组织架构数据,可能一个月更新一次就够了。
例如,当生产车间的生产进度数据发生变化时,车间负责人作为业务数据所有者可以通过手工输入的方式更新生产进度数据的元数据,或者利用与生产管理系统相连的自动化管理工具进行自动更新。
元数据发布流程:
建立元数据发布流程,明确在元数据更新完成后,如何将更新后的元数据发布到相关系统或部门,以便供其使用。发布方式可以是通过数据接口推送、在内部系统中发布公告等。
比如,在人力资源管理系统中,当员工信息的元数据更新完成后,通过数据接口将更新后的元数据推送至工资核算系统、绩效评估系统等相关系统,以便这些系统能够根据最新的元数据进行相应的操作。
六、实施元数据监控与评估
建立监控机制:
搭建元数据监控系统,对元数据的采集、审核、更新、发布等各个环节进行监控。监控内容包括元数据的状态(如是否采集完成、是否审核通过、是否更新成功等)、元数据的质量(如完整性、准确性、一致性等)以及元数据管理流程的执行情况(如是否按照规定的流程进行操作等)。
例如,通过在元数据管理系统中设置监控点,实时监控财务数据元数据的采集情况,查看财务人员是否按照规定的格式和时间完成了财务报表元数据的采集任务,以及审核人员是否及时对采集到的元数据进行了审核等。
开展评估工作:
定期对元数据管理体系进行评估,评估内容包括元数据的质量、元数据管理流程的有效性、元数据对业务的支持效果等方面。根据评估结果,对元数据管理体系进行调整和优化。
比如,每季度对公司的产品制造元数据管理体系进行评估,检查产品制造元数据的完整性、准确性是否满足业务需求,元数据管理流程是否有效执行,以及元数据对产品制造业务的支持效果如何。根据评估结果,可能会对元数据标准、管理流程、团队成员职责等方面进行调整和优化。
七、持续改进元数据管理体系
收集反馈信息:
从元数据管理团队成员、业务部门、其他相关部门等多个渠道收集关于元数据管理体系的反馈信息。反馈内容可以包括对元数据标准和规范的意见、对管理流程的看法、对团队成员职责的建议等方面。
例如,业务部门可能会反馈说某些元数据元素的定义不够清晰,影响了他们准确提供元数据信息;或者说元数据更新流程太繁琐,需要简化等。
分析反馈问题:
对收集到的反馈信息进行分析,找出存在的问题和不足之处。根据分析结果,确定需要改进的方面和具体改进措施。
比如,分析业务部门反馈的问题后发现,是因为元数据标准中对某一元素的定义确实存在模糊之处,导致业务部门难以准确提供元数据信息。那么就需要对元数据标准进行重新定义,使其更加清晰明确。
实施改进措施:
根据分析确定的改进措施,对元数据管理体系进行改进。改进措施可以包括调整元数据标准和规范、优化管理流程、重新培训团队成员等方面。
例如,针对业务部门反馈的元数据更新流程繁琐的问题,对元数据更新流程进行优化,简化不必要的环节,提高更新效率;同时对元数据管理团队成员进行重新培训,使他们熟悉新的更新流程。
四、质量管理题目
1、数据质量问题如何进行提升
2、......记不清了,大概还是数据管理的目标还是实施活动忘记了
五、数据安全题目
1、我国颁布的数据相关的法律
《中华人民共和国网络安全法》
《中华人民共和国电子商务法》
《中华人民共和国数据安全法》
《中华人民共和国个人信息保护法》
2、数据安全意识指标包括哪些?
考虑以下这些常规领域并选择适当的指标:
1)风险评估结果。评估结果提供了定性数据,需要反馈给相关业务单位,以增强其责任意识。
2)风险事件和配置文件。通过这些事件和文件确定需要纠正的未管理风险敞口。在安全意识倡议实施后,通过后续的测试来确定风险敞口以及制度遵从方面的缺失或可衡量改进的程度,以了解这些信息的传达情况。
3)正式的反馈调查和访谈。通过这些调查和访谈确定安全意识水平。此外,还要衡量在目标人群中成功完成安全意识培训的员工数量。
4)事故复盘、经验教训和受害者访谈。为安全意识方面的缺口提供了丰富的信息来源。具体指标可包括已减小了多少漏洞。
5)补丁有效性审计。涉及使用机密和受控信息的计算机,以评估安全补丁的有效性(尽可能推荐自动补丁系统)。
3、结合贵公司实际情况如何进行数据安全体系建设
1.识别数据安全需求(业务需求、监管要求)
2.落实组织架构个管理职责
3.制定数据安全制度
(企业安全制度、IT安全制度、数据安全制度)
4.制定数据安全细则
(定义数据保护等级、定义监管类别、定义安全角色)
5.评估当前安全风险
(评估传输/存储的敏感性、数据保护要求遵从性、现有的安全措施,记
录调查结果、以便未来创建基线。)
6.实施控制和流程
(分配密级、分配监管类别、管理和维护数据安全、管理法规遵从性)
六、数仓及大数据题目
1、数据仓库设计的步骤
1、理解需求
2、定义和维护数据仓库和商务智能架构。
①技术架构。②管理流程。
3、开发数据仓库和数据集市。
①将源映射到目标。②修正和转换数据。
4、加载数据仓库。
工作量最大的步骤。
5、实施商务智能产品组合。
①根据需求将用户分组。②将工具与用户需求匹配。
6、维护数据产品。
①发布管理。
②管理数据产品开发生命周期。
③监控和调优加载过程。
④监控和调优商务智能活动。
2、数据仓库及数据湖的异同点
数据仓库与数据湖在存储数据类型、数据处理模式以及服务对象均存在差异,各有千秋,可以在不同的场景互补应用,数据仓库和数据湖的异同如下:
相同点:
都储存的历史明细的结构化数据
主要使用人员都是业务分析人员
不同点:
数据湖可以存储结构化和非结构化数据
数据湖的加载方式是ELT,数据仓库的ETL
数据仓库更多是传统的统计分析,数据湖支持数据和文本挖掘,做预测分析和规范分析。
3、阐述数据仓库、数据湖及数据中台三者的关系
数据仓库构建了企业级的数据模型。
大数据平台在此基础上进行拓展,解决了海量、实时数据的计算和存储问题。
而数据中台则是将数据服务化之后提供给业务系统,目标是将数据能力渗透到各个业务环节
23年6月份试题
【2023年6月CDGP设计及论述题解析】
1、结合国内外数据安全法律法规,谈谈境外传输数据安全管理体系建设。
国内:《数据安全法》、《网络安全法》、2022年9月施行《数据出境安全评估办法》
国外:欧盟数据保护条令,美国国土安全法案和美国爱国者法、联邦信息安全管理法、加拿大198法案等
涉及到个人信息:《个人信息保护法》
● 从以下几个方面进行数据安全管理建设:
(1)信息安全,包括:脆弱性、威胁、风险、加密、混淆/脱敏
(2)网络安全,包括:后门、机器人/尸、防火墙、DMZ、键盘记录器、渗透测试、虚拟专用网(VPN)
(3)数据安全,包括: 设施安全、设备安全、凭据安全、电子通信安全
● 通过数据生命周期进行管理及建设:
数据全生命周期包括规划-设计/启用-创建/获取-存储/维护-使用-增强及处置。
规划:将数据与安全和隐私需求关联
设计&启用:”在系统中建立数据保护和安全措施
创建/获取:对新数据进行分类,以便合理保护数据
存储/维护:确保数据存储符合政策法规的要求
使用:管理访问权限,以保证对数据的合理使用,防止滥用
增强:在监管要求和识别新的安全威胁上保持领先
处置:遵循有关政策和法规要求处理数据
2、(1)主数据管理挑战?
(2)主数据管理目标?
(3)如何识别主数据?
(4)主数据管理实施步骤?
【2024年峰会也考到】
(1)挑战:实体解析(身份管理),它是识别和管理来自不同系统和流程数据之间的关联的过程。必须对这个过程进行持续的管理,让这些主数据实体、实例和标识保持一致。
(2)目标:确保组织在各个流程中拥有完整一致最新且权威的主数据、促使企业在各业务单元和各应用系统之前共享主数据。
(3)主数据是关于业务实体的数据,主要包括参考数据、企业结构数据、交易结构数据。主数据实体的识别/解析步骤如下:1)匹配、2)标解析、3)配工作流和对帐类型、4)数据ID管理5)从属管理
(4)步骤:识别驱动因素和需求、评价评估数据源、定义架构方法、建模主数据、定义管理职责和维护六、建立治理制度推动主数据使用。
3、(1)如何构建数仓?
(2)现代数据架构的特点?
(3)数据仓库及数据湖的异同点?
(4)如何解决SCD问题?
【2024年峰会也考到】
(1)数据仓库建设主要流程:
1)理解需求2)定义和维护数据仓库/商务智能架构3)开发数据仓库和数据集市4)加载数据仓库5)实施商务智能产品组合6)维护数据产品
(2)现代数据架构的特点:
大数据的特点:3V(数量大、类型多、变化快)+价值密度低、价值高
数据架构的特点:湖仓一体化,流批一体化。典型的代表是Lambda架构和Kappa架构。这里可以根据分值展开讲一讲。
(3)数据仓库和数据湖的异同点:
● 相同点:
都可以用于大数据存储和分析,面向企业级应用。
都有着非常大的存储容量和高效的数据存取速度。
都支持批量和实时数据的处理,可以应对不同的数据处理需求。
都面向企业决策和数据分析。
● 异同点:
数据结构:数据仓库采用规范化的数据结构,而数据湖则支持任意的数据格式以及非规范化的数据存储模式。
数据来源:数据仓库主要是通过ETL的方式从不同的数据源抽取数据之后,再进行清洗、整合加工。而数据湖则是将未被处理、未经过清洗的原始数据存储在一个统一的存储空间中,支持所有的数据格式直接读取以及查询。
数据使用:数据仓库主要用于企业决策和报表分析,是一种比较传统的数据分析方式。而数据湖具有更加广泛的应用范围,可以支持包括大数据、机器学习、人工智能等多种领域。
数据时效性:数据仓库数据主要是历史性数据记录, 它被归档和批量处理,所以实际数据在数小时或数天以后才能获得。而数据湖支持更加实时的数据处理和查询,可以实时地获取数据并进行处理。
(4)SCD问题:一些维度表的数据不是静态的,而是会随着时间而缓慢地变化,这种随着时间发生变化的维度称之为缓慢变化维,把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题。
解决方法:保留原始值、改写属性值、增加维度新行、增加维度新列、增加历史表、使用拉链表保存历史快照(推荐)。
4、(1)如何确定数据质量管理的优先级顺序?
(2)结合本公司实际情况按照(1)顺序构建数据质量管理体系。
【2024年峰会也考到】
(1)数据质量管理应该从组织中最重要的数据入手。即质量更高,为组织及客户提供更多价值。可以根据监管要求、财务价值和对客户的直接影响等因素对数据进行优先级排序。
(2)结合实际情况本公司数据内容及优先级排序(略)。
构建数据质量管理体系的方法:根据数据的生命周期进行数据质量管理。
规划: 定义高质量数据的特征
设计&启用:定义系统和流程控制来规避数据问题产生,保持数据质量
创建/获取:测量或检查数据,确保数据满足质量要求
存储/维护:借助系统和流程检测数据,确保数据能够持续的满足期望
使用:使用反馈循环机制来持续提升数据的质量
增强:就数据质量提升机会采取行动
处置:基于数据质量要求正确地识别和提升数据
5、结合本公司实践如何构建元数据管理体系,确保元数据质量。
元数据是数据。与其他数据一样,它也有一个生命周期我们必须对它的生命周期进行管理。
规划:定义元数据的需求
设计&启用:将创建和管理元数据作为正在进行的数据管理活动的一部分
创建/获取: 确保创建元数据并满足质量要求
存储/维护:确保元数据保持当前状态并继续满足需求
使用:使用元数据,从数据中获取价值。启用反馈循环可以提高元数据质量
增强:使用新知识增强现有的元数据,实现新的元数据需求
处置:清除或归档过时的元数据
● 步骤:按照质量管理步骤对元数据质量进行管理
(1)定义高质量元数据
(2)定义元数据质量战略
(3)定义初始评估范围
(4)执行初始元数据质量评估
(5)识别改进并排列优先级
(6)定义元数据质量改进目标
(7)开发和部署元数据质量操作等方面。
● 元数据活动:
定义元数据战略、理解元数据需求、定义元数据架构、黄建和维护元数据、查询报告和分析元数据。
6、酒店会员建模
1、结合国内外数据安全法律法规,谈谈境外传输数据安全管理体系建设。
国内:《数据安全法》、《网络安全法》、2022年9月施行《数据出境安全评估办法》
国外:欧盟数据保护条令,美国国土安全法案和美国爱国者法、联邦信息安全管理法、加拿大198法案等
涉及到个人信息:《个人信息保护法》
● 从以下几个方面进行数据安全管理建设:
(1)信息安全,包括:脆弱性、威胁、风险、加密、混淆/脱敏
(2)网络安全,包括:后门、机器人/尸、防火墙、DMZ、键盘记录器、渗透测试、虚拟专用网(VPN)
(3)数据安全,包括: 设施安全、设备安全、凭据安全、电子通信安全
● 通过数据生命周期进行管理及建设:
数据全生命周期包括规划-设计/启用-创建/获取-存储/维护-使用-增强及处置。
规划:将数据与安全和隐私需求关联
设计&启用:”在系统中建立数据保护和安全措施
创建/获取:对新数据进行分类,以便合理保护数据
存储/维护:确保数据存储符合政策法规的要求
使用:管理访问权限,以保证对数据的合理使用,防止滥用
增强:在监管要求和识别新的安全威胁上保持领先
处置:遵循有关政策和法规要求处理数据
2、(1)主数据管理挑战?
(2)主数据管理目标?
(3)如何识别主数据?
(4)主数据管理实施步骤?
【2024年峰会也考到】
(1)挑战:实体解析(身份管理),它是识别和管理来自不同系统和流程数据之间的关联的过程。必须对这个过程进行持续的管理,让这些主数据实体、实例和标识保持一致。
(2)目标:确保组织在各个流程中拥有完整一致最新且权威的主数据、促使企业在各业务单元和各应用系统之前共享主数据。
(3)主数据是关于业务实体的数据,主要包括参考数据、企业结构数据、交易结构数据。主数据实体的识别/解析步骤如下:1)匹配、2)标解析、3)配工作流和对帐类型、4)数据ID管理5)从属管理
(4)步骤:识别驱动因素和需求、评价评估数据源、定义架构方法、建模主数据、定义管理职责和维护六、建立治理制度推动主数据使用。
3、(1)如何构建数仓?
(2)现代数据架构的特点?
(3)数据仓库及数据湖的异同点?
(4)如何解决SCD问题?
【2024年峰会也考到】
(1)数据仓库建设主要流程:
1)理解需求2)定义和维护数据仓库/商务智能架构3)开发数据仓库和数据集市4)加载数据仓库5)实施商务智能产品组合6)维护数据产品
(2)现代数据架构的特点:
大数据的特点:3V(数量大、类型多、变化快)+价值密度低、价值高
数据架构的特点:湖仓一体化,流批一体化。典型的代表是Lambda架构和Kappa架构。这里可以根据分值展开讲一讲。
(3)数据仓库和数据湖的异同点:
● 相同点:
都可以用于大数据存储和分析,面向企业级应用。
都有着非常大的存储容量和高效的数据存取速度。
都支持批量和实时数据的处理,可以应对不同的数据处理需求。
都面向企业决策和数据分析。
● 异同点:
数据结构:数据仓库采用规范化的数据结构,而数据湖则支持任意的数据格式以及非规范化的数据存储模式。
数据来源:数据仓库主要是通过ETL的方式从不同的数据源抽取数据之后,再进行清洗、整合加工。而数据湖则是将未被处理、未经过清洗的原始数据存储在一个统一的存储空间中,支持所有的数据格式直接读取以及查询。
数据使用:数据仓库主要用于企业决策和报表分析,是一种比较传统的数据分析方式。而数据湖具有更加广泛的应用范围,可以支持包括大数据、机器学习、人工智能等多种领域。
数据时效性:数据仓库数据主要是历史性数据记录, 它被归档和批量处理,所以实际数据在数小时或数天以后才能获得。而数据湖支持更加实时的数据处理和查询,可以实时地获取数据并进行处理。
(4)SCD问题:一些维度表的数据不是静态的,而是会随着时间而缓慢地变化,这种随着时间发生变化的维度称之为缓慢变化维,把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题。
解决方法:保留原始值、改写属性值、增加维度新行、增加维度新列、增加历史表、使用拉链表保存历史快照(推荐)。
4、(1)如何确定数据质量管理的优先级顺序?
(2)结合本公司实际情况按照(1)顺序构建数据质量管理体系。
【2024年峰会也考到】
(1)数据质量管理应该从组织中最重要的数据入手。即质量更高,为组织及客户提供更多价值。可以根据监管要求、财务价值和对客户的直接影响等因素对数据进行优先级排序。
(2)结合实际情况本公司数据内容及优先级排序(略)。
构建数据质量管理体系的方法:根据数据的生命周期进行数据质量管理。
规划: 定义高质量数据的特征
设计&启用:定义系统和流程控制来规避数据问题产生,保持数据质量
创建/获取:测量或检查数据,确保数据满足质量要求
存储/维护:借助系统和流程检测数据,确保数据能够持续的满足期望
使用:使用反馈循环机制来持续提升数据的质量
增强:就数据质量提升机会采取行动
处置:基于数据质量要求正确地识别和提升数据
5、结合本公司实践如何构建元数据管理体系,确保元数据质量。
元数据是数据。与其他数据一样,它也有一个生命周期我们必须对它的生命周期进行管理。
规划:定义元数据的需求
设计&启用:将创建和管理元数据作为正在进行的数据管理活动的一部分
创建/获取: 确保创建元数据并满足质量要求
存储/维护:确保元数据保持当前状态并继续满足需求
使用:使用元数据,从数据中获取价值。启用反馈循环可以提高元数据质量
增强:使用新知识增强现有的元数据,实现新的元数据需求
处置:清除或归档过时的元数据
● 步骤:按照质量管理步骤对元数据质量进行管理
(1)定义高质量元数据
(2)定义元数据质量战略
(3)定义初始评估范围
(4)执行初始元数据质量评估
(5)识别改进并排列优先级
(6)定义元数据质量改进目标
(7)开发和部署元数据质量操作等方面。
● 元数据活动:
定义元数据战略、理解元数据需求、定义元数据架构、黄建和维护元数据、查询报告和分析元数据。
6、酒店会员建模
子主题
23年9月份试题
【2023年9月CDGP设计及论述题】
1.建模题:电商精准营销场景,包含聚合层和汇总层;
2.数据安全的分级分类有哪些,各自优缺点是啥并设计数据安全的框架;
3.元数据的功能,元数据表质量保证;
4.大数据流程、大数据的特征;
5.主数据功能、关键步骤、如何保证主数据质量;
6.数据质量活动,设计方案保证数据质量;
1.建模题:电商精准营销场景,包含聚合层和汇总层;
2.数据安全的分级分类有哪些,各自优缺点是啥并设计数据安全的框架;
3.元数据的功能,元数据表质量保证;
4.大数据流程、大数据的特征;
5.主数据功能、关键步骤、如何保证主数据质量;
6.数据质量活动,设计方案保证数据质量;
额外知识
子主题
0 条评论
下一页