思维导图,【中级职称】项目集成管理工程师(新版教材) 第6章、数据工程
2024-09-12 00:55:07 0 举报
AI智能生成
数据工程是项目集成管理工程师领域的重要组成部分,主要涉及对项目所涉及的数据收集、组织、存储、处理和利用等环节进行有效管理。在新版教材中,数据工程的核心内容包括:数据管理过程、数据分析和数据质量控制等。数据管理过程包括规划、实施、监控和收尾等阶段,主要通过对数据的处理流程进行管理和控制,确保数据的准确性、一致性和完整性。数据分析则是对项目产生的数据进行深入研究,以挖掘潜在的商业价值、发现趋势和规律,为决策提供支持。数据质量控制则是对数据的质量进行管理和评估,确保数据的有效性和可靠性。此外,数据工程还需要关注数据安全、数据隐私和数据伦理等问题,确保数据的合法使用和保护。在数据工程中,常用的文件类型包括数据库文件、数据报告、数据字典和数据流程图等。数据工程需要注重细节,因此需要使用修饰语如“准确”、“完整”、“一致”、“合规”等来强调其重要性。
作者其他创作
大纲/内容
1、数据采集和预处理
1.1、数据采集
1.2、数据采集方法
1.2.1、传感器采集
1.2.2、系统日志采集
1.2.3、网络采集
1.2.4、其他数据采集
1.1.1、数据采集类型
1.1.1.1、结构化数据
以关系型数据库表管理的数据
1.1.1.2、半结构化数据
非关系模型的、有基本固定结构模式的数据
1.1.1.3、非结构化数据
没有固定模式的数据
1.2、数据的预处理
1.2.1、一般采用数据清洗的方法
1.2.2、数据预处理的流程
1.3、数据处理的方法
1.3.1、缺失数据的预处理
1、删除缺失值
2、均值填补法
3、热卡填补法
4、其他方法
1.3.2、异常数据的预处理
1、分箱法
2、回归法
1.3.3、不一致数据的预处理
1、人工修改
2、借助工具
1.3.4、重复数据的预处理
借助工具:用Excel、VBA、Python等工具处理
1.3.5、格式不符数据的预处理
清洗
2、数据存储及管理
2.1、数据存储
2.1.1、存储介质
1、磁带
1.1、磁带机、自动加载磁带机和磁带库
1.2、缺点是数据比较慢
2、光盘
2.1、有VCD、DVD两种
2.2、3个特点:
2.2.1、光盘上的数据具有只读性
2.2.2、不受电磁影响
2.2.3、适合用来对数据进行永久性归档备份
3、磁盘
3.1、一般采用独立冗余磁盘阵列RAID
4、内存
4.1、用于存放CPU中的运算数据
4.2、断电后丢失所有数据
5、闪存
5.1、一种固态技术
5.2、集内存的访问速度和存储持久性于一体的特点
5.3、常作为磁盘的替代品
6、云存储
6.1、将数据存储在异地位置
6.2、通过公共互联网或者专用私有网络进行访问
2.1.2.、存储形式
2.1.2.1、文件存储
1、文件级或基于文件的存储
2、组织和存储数据分层存储方法
2.1.2.2、块存储
1、将数据存储成块的技术
2、适用于需要快速、高效和可靠的进行数据传输的计算场景
2.1.2.3、对象存储
处理大量非结构化数据的存储架构
2.1.3、存储管理
1、资源调度管理
2、存储资源管理
3、负载均衡管理
4、安全管理
系统攻击
1、以扰乱服务器正常工作为目的,如拒绝服务(Dos)攻击、勒索病毒等
2、以入侵或破坏服务器为目的,如窃取数据、修改网页等
2.2、数据归档
2.2.1、将不活跃的“冷”数据从可立即访问的存储介质中迁移到查询性能较低、成本较低、大容量的存储介质中
2.2.2、过程是可逆的
2.3、数据备份
2.3.1、备份结构
1、DAS备份结构
1.1、将备份设备(RAID或磁带库)直接连接到备份服务器
1.2、适合数据量不大、操作系统类型单一、服务器数量有限的情况
2、基于LAN的备份结构
2.1、一种C/S模型,多个服务器或者客户端通过局域网共享备份系统
2.2、优点是用户可以通过LAN共享备份设备,并且可以对备份工作进行集中管理
2.3、缺点是备份数据流通过LAN到达备份服务器,会占用网络资源
3、LAN-FREE备份结构
3.1、将备份数据流和业务数据流分开
3.2、缺点是由于备份数据流要经过应用服务器,因此会影响应用服务器提供正常的服务
4、SERVER-FREE备份结构
4.1、是LAN-FREE备份结构的改进
4.2、通过第三方备份代理直接将数据从应用服务器的存储设备传送到备份设备上
2.3.2、备份策略
2.3.2.1、完全备份
每天全备份
2.3.2.2、差量备份
1、每周一次全备份
2、本周其余每天备份与全备份的差异部分
2.3.2.3、增量备份
1、每周一次全备份
2、本周其余每天备份与上次备份的差异部分
2.4、数据容灾
2.4.1、衡量容灾系统主要指标
1、RPO
代表了当灾难发生时允许丢失的数据量
2、RTO
代表了系统恢复的时间
2.4.2、关键技术
1、远程镜像技术
在主数据中心和备份中心之间进行数据备份时用到的远程复制技术
2、快照技术
关于指定的数据集合的一个完全可用的复制,该复制时相应数据在某个时间点的映像
3、数据治理和建模
3.1、元数据
3.1.1、信息内容:内容元数据
3.1.2、内容对象:专门的元数据
3.1.3、内容对象集合:资源集合元数据
3.1.4、对象的管理与保存:管理元数据
3.1.5、对象的服务过程服务系统:服务元数据
3.1.6、元数据管理:元元数据
3.2、数据标准化
3.2.1、主要内容
1、元数据标准化
2、数据元标准化
3、数据模式标准化
4、数据分类和编码标准化
3.2.2、具体过程
1、确定数据需求
2、制定数据标准
3、批准数据标准
4、实施数据标准
3.3、数据质量
3.3.1、衡量数据质量的指标体系
1、完整性
2、规范性
3、一致性
4、准确性
5、唯一性
6、及时性
3.3.2、数据质量元素分类
1、数据质量定量元素
2、数据质量非定量元素
3.3.3、数据质量评价过程流程图
3.3.4、数据质量评价方法
1、直接评价
2、间接评价
3.3.5、数据质量控制分类
1、前期控制
2、后期控制
3.4、数据模型
3.4.1、概念模型
1、实体
2、属性
3、域
4、键
5、关联
3.4.2、逻辑模型
1、层次模型
2、网状模型
3、关系模型
4、面向对象模型
5、对象关系模型
3.4.3、物理模型
真正实现数据在数据库中的存放
3.5、数据建模
3.5.1、数据需求分析
3.5.2、概念模型设计
3.5.3、逻辑模型设计
3.5.4、物理模型设计
4、数据仓库和数据资产
4.1、数据仓库
1、一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合
2、用于支持管理决策
3、数据仓库结构
4.2、主题库
多层体系结构
4.3、数据资产管理
4.3.1、数据转换两个环节
数据资源化
数据资产化
4.3.2、数据资产流通
通过数据共享、数据开放或数据交易等流通模式,推动数据资产在组织内外部的价值实现
4.3.3、数据共享
打通组织各部门间的数据壁垒,建立统一的数据共享机制,加速数据资源在组织内部的流动
4.3.4、数据开放
1、政府:指公共数据资源开放
2、企业:指披露企业运行情况、推送政企数据融合等
4.3.5、数据资产运营
对数据服务、数据流通情况进行持续跟踪和分析,以数据价值管理为参考,从数据使用者的视角出发,全面评价数据应用效果,建立科学的正向反馈和闭环管理机制
4.3.6、数据交易
开展以数据获取衍生形态为核心的交易行为
4.3.7、数据价值评估
数据资产管理的关键环节,是数据资产化的价值基线
4.4、数据资产编目
概念模型构成
1、数据资源目录
2、信息项
3、数据资源库
4、标准规范
5、数据分析及应用
5.1、数据集成
5.1.1、数据集成的方法
1、模式集成
2、复制集成
3、混合集成
5.1.2、数据访问接口
ODBC
JDBC
OLE DB
ADO
5.1.3、WebService技术
1、三个组成部分
2、是一个面向访问的分布式计算模型
3、本质是用一种标准化方式实现不同服务系统之间的互调和集成
4、基于XML、SOAP、WSDL、UDDI等协议,开发、发布、发现和调用快平台、跨系统的各种分布式应用
5.1.4、数据网络技术
1、是一种用于大型数据集的分布式管理与分析的体系结构
2、四透明性
2.1、分布透明性
2.2、异构透明性
2.3、数据位置透明性
2.4、数据访问方式透明性
5.2、数据挖掘
5.2.1、与传统差异4个方面
1、数据量差异
2、方法差异
3、侧重差异
4、成熟度不同
5.2.2、5大主要任务
1、数据总结
2、关联分析
3、分类和预测
4、聚类分析
5、孤立点分析
5.2.3、流程5大阶段
1、确定分析对象
2、数据准备
3、数据挖掘
4、结果评估
5、结果应用
5.3、数据服务
5.3.1、数据目录服务
5.3.2、数据查询与浏览及下载服务
5.3.3、数据分发服务
5.4、数据可视化
表示方式
1、一维数据可视化:简单的线性数据
2、二维数据可视化:由两种主要描述属性构成的数据
3、三维数据可视化:比二维数据更进了一层,可描述立体信息
4、多维数据可视化:超过三维,为了实现可视化,往往需要降维
5、时态数据可视化:二维数据的一种特例,即二维中有一位是时间轴
6、层次数据可视化:每个节点都有一个父节点
7、网络数据可视化:与任意数量的其他节点有关系的节点的数据
6、数据脱敏和分类分级
6.1、数据脱敏
6.1.1、就是对数据进行去隐私化处理,实现对敏感信息的保护
6.1.2、敏感数据
6.1.2.1、分类
1、个人敏感数据
2、商业敏感数据
4、国际秘密数据
6.1.2.2、敏感程度分类
L1:公开
L2:保密
L3:机密
L4:绝密
L5:私密
6.1.3、脱敏方式
6.1.3.1、可恢复
脱密后数据可通过一定的方式,恢复成原来的敏感数据,此类脱敏规则主要指各类加密解密算法规则
6.1.3.2、不可恢复
脱敏后的数据被脱敏的部分使用任何方式都不能恢复,一般可分为替换算法和生成算法两类
6.1.4、脱敏原则
1、算法不可逆原则
2、保持数据特征原则
3、保留引用完整性原则
4、规避融合风险原则
5、脱敏过程自动化原则
6、脱敏结果可重复原则
6.2、数据分类
6.2.1、数据根据内容的属性或特征将数据按一定的原则和方法绩效区分和归类,并建立起一定的分类体系和排序
6.2.2、数据分类要素
1、分类对象
2、分类依据
6.3、数据分级
6.3.1、分级维度
1、按特性分级
2、基于价值(公开、内部、重要核心等)
3、基于敏感程度(公开、秘密、机密、绝密等)
4、基于司法影响范围(境内、跨区、跨境等)
6.3.2、数据分级的基本框架
1、一般数据
2、重要数据
3、核心数据
6.3.3、数据分级参考表
0 条评论
下一页
为你推荐
查看更多