第十四章:数据仓库与数据挖掘
2019-04-07 10:00:54 89 举报
AI智能生成
国三数据库第十四章:数据仓库与数据挖掘
作者其他创作
大纲/内容
决策支持系统的发展
相关概念
操作型数据:Operational Data 简称 OD
联机事务处理: Online Transaction Processing 简称 OLTP
决策支持系统: Decision Support System 简称 DSS
管理信息系统: MIS
决策支持系统及其演化
基于数据仓库的决策支持系统
数据仓库技术概述
数据仓库的概念与特征
数据仓库是一个面向主题的,集成的,非易失的,且随时间变化的数据集合,用来支持管理人员的决策
主题与面向主题
主题
是一个抽象概念,宏观分析领域所设计的对象,是有关对象实体的集合。也称为分析主题,分析领域
面向主题
数据仓库的其他特征
集成
数据的抽取
数据的转化
数据的清洗(过滤)
数据的装载
时变性
数据仓库中的每条数据都应包涵一条时间信息
数据仓库的体系结构与环境
数据层面
操作型数据
操作型数据存储ODS
数据仓库DW
数据集市DM
个体层数据
功能结构层面
数据处理
数据管理
数据应用
数据仓库的数据组织
数据组织结构
数据仓库中的数据分类
早期细节级
当前细节级
轻度综合级
高度综合级
粒度
数据的综合程度称为粒度
粒度越大,综合程度越高
粒度越小,综合程度越低
数据分区
系统层分区
数据库系统提供的机制,逻辑上是一个表,物理上属于不同的分区,DBMS知道个分区之间的逻辑关系
应用层分区
由代码实现,逻辑上,物理上都属于不同的表,DBMS并不知道他们之间的逻辑关系
元数据(Meta Data)
是数据的数据,或者是描述数据的数据
描述内容
数据的结构
数据的内容
数据的链
数据的索引
……
目的
让用户能更快的找到所需要数据
让前台工具和管理员更好的理解和管理数据
分类
技术型元数据
业务型元数据
操作型数据存储ODS
分类
ODS 1
更新频率秒级
较难实现
ODS 2
更新频率小时级
容易实现
ODS 3
更新频率天级
容易实现
ODS 4
根据数据来源和数据类型分区
设计与建造数据仓库
数据仓库设计的需求与方法
数据仓库设计需求
取决于用户需求
设计方法
数据仓库的数据模型
分类
概念数据模型
ER图(实体关系图)
逻辑数据模型
关系模型(主要使用)
网状模型
……
物理数据模型
物理存取方式
数据存储结构
数据存放位置
存储分配
注意
数据仓库的数据模型一般包含纯操作型数据
数据仓库中的数据模型一般要扩充关键字属性,在其加入时间属性
数据仓库的数据模型中常常需要增加导出数据
数据仓库的设计步骤
实现数据集成的方式
ETL
ELT
设计步骤
概念模型设计
技术评估
环境准备工作
逻辑模型设计
物理模型设计
数据生成
应用实现
数据仓库运行与维护
数据仓库的运行与维护
数据仓库数据的更新维护
主题数据刷新
对细节数据的刷新
对导出数据的刷新
维护的基本思路
根据某种维护策略,在一定条件下出发维护操作
维护操作捕捉到数据源中的数据变化
通过一定的策略对数据仓库中的数据进行相应的更新操作,以保证两者的一致性
维护策略
分类
实时维护
在数据源发生变化时,立刻更新数据仓库中的数据
触发条件是数据源进行了数据更新操作
能够保证用户总能查询到最新的数据
对硬件要求很高,很多情况下难以实现
延时维护
视图被查询完成时更新
触发条件是用户在数据源发生变化后首次对数据仓库执行查询操作时
快照维护
定期对数据仓库进行维护,触发条件是时间
无法提供最新的数据
不会带来任何硬件软件上的负担
应用最为广泛
捕捉数据源的变化
触发器
修改数据源应用程序
通过日志文件
快照比较法
效率低,不可行
导出数据的刷新
刷新(维护)的方法
根据维护对象的数据源对其进行重新计算
根据数据源的变化量在维护对象原有的数据的基础上进行数据添加和修改(增量式维护)
提高此算法效率的方法
分离更新过程
利用数据表间可能存在的数据计算关系逐级计算
数据仓库的维护过程中间用户无法获取数据仓库中的数据
数据仓库监控与元数据管理
数据仓库监控
存储容量的监控
增加一些设备
减少一些视图
导出一些数据
……
各种数据的使用率的监控
数据和对象的安全性的监控
网络通信状况、网络数据流量、数据源数据变化情况、集成和维护工具运行效率,查询响应时间……
元数据管理
数据仓库监控的过程代码和结果都是技术元数据
联机分析处理与多维数据模型
OLAP简介
用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持
特点
快速
可分析
多维
多维分析的基本概念
数据仓库中以多维形式组织起来的数据
从多个角度,不同曾层次,采用各种数据分析技术,对数据进行剖析,使用户能从不同角度和不同层次观察和分析数据
多维视图
描述
多维模型的数据视图或数据集为多维空间中的点集
作用
描述多维分析系统中用户所看到的数据
多维分析的基本操作
钻取与卷起
切片与切块
旋转
数据交叉(最简单的旋转)
OLAP的实现方式
基于多维数据库的OLAP(MOLAP)
缺点
缺乏标准(最大问题)
扩展性差
能存储的数据规模有限
难以实现数据维护
基于关系数据库的OLAP(ROLAP)
优点
技术成熟
有前车之鉴
开发过程快,风险小
缺点
表的连接和索引处理会降低系统性能
多数分析型操作必须在前端应用中进行
混合型的OLAP(HOLAP)
前两者的混合实现,汲取他们的优势
操作型细节数据使用关系型数据库进行管理
综合型的数据使用多维数据库实现OLAP操作
缺点
结构较为复杂
数据挖掘技术
数据挖掘步骤
数据准备
数据源
数据仓库
普通数据文件
过程
数据选取
数据预处理
数据变换
数据挖掘
结果解释评估
分类预测任务
描述型任务
关联规则挖掘
分类挖掘
聚类挖掘
时间序列分析
0 条评论
下一页