OLAP与数据立方体
2023-03-23 10:23:04 10 举报
AI智能生成
OLAP(联机分析处理)和数据立方体都是用于数据分析的工具,但它们有着不同的实现方式。OLAP是一种多维数据分析方法,它通过将多个维度组合在一起来分析数据,而数据立方体则是一种多维数据结构,它将数据按照多个维度进行组织。OLAP通常使用关系型数据库来实现,而数据立方体则可以使用任何类型的数据库来实现。此外,OLAP还提供了一些高级功能,如切片、切块、钻取等,这些功能可以帮助用户更好地分析数据。总之,OLAP和数据立方体都是非常有用的工具,可以帮助用户更好地理解和利用数据。
作者其他创作
大纲/内容
OLAP的概念
OLAP的定义
联机分析处理(OLAP)是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面(多维)观察信息,以达到深入理解数据的目的。这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。
OLAP的准则
多维概念视图
透明性
可访问性
一致稳定的报表性能
客户/服务器体系结构
维的等同性
动态的稀疏矩阵处理
多用户支持能力
非限定的跨维操作
直观的数据操作
灵活的报表生成
不受限制的维和聚集层次
OLAP的特征
子主题
用户对OLAP的快速反应能力有很高的要求
可分析性
OLAP系统应能处理任何逻辑分析和统计分析
多维性
系统必须提供对数据分析的多维视图和分析
信息性
OLAP系统应能及时获得信息,并且管理大容量的信息
多维分析的基本分析动作
切片
在给定数据立方体的一个维上进行选择操作就是切片,切片的结果是得到一个二维平面数据。
切块
在给定数据立方体的两个或多个维上进行选择操作就是切块,切块的结果得到一个子立方体。
钻取
改变维的层次,变换分析的粒度。它包括向下钻取(drill-down)和向上钻取(drill-up)。
旋转
旋转就是将维的位置进行互换。旋转操作的本质就是改变观察数据立方体的视角,通过交换行和列得到不同视角的数据。
OLAP的数据模型
ROLAP数据模型
ROLAP(Relation OLAP)是基于关系数据库的OLAP,简称关系OLAP
数据存放于关系型数据库中,用户的多维查询请求由ROLAP引擎处理为SQL查询,结果以多维方式呈现。
数据存放于关系型数据库中,用户的多维查询请求由ROLAP引擎处理为SQL查询,结果以多维方式呈现。
MOLAP数据模型
基于多维数据库的OLAP,简称为多维OLAP;
数据以多维方式存储,每一个数据单元都可以通过维度的定位直接访问。
数据以多维方式存储,每一个数据单元都可以通过维度的定位直接访问。
ROLAP数据模型和ROLAP的数据组织与应用比较
HOLAP数据模型
MOLAP与ROLAP的结合形式,兼具MOLAP的查询效率高和ROLAP的存储效率高的优点。
数据立方体的基本概念
概念
方体
在数据立方体中,它的每个维度都可能存在概念分层。从这些不同的概念层上创建出的数据立方体称为方体,实质上,一个方体就相当于一个group-by。
基本方体
就是在抽象程度最低的层面上建立的数据立方体。基本方体的泛化程度是最小的。
顶点方体
与基本方体恰恰相反,顶点方体是从抽象程度最高的层面上建立出来的,它的泛化程度也是最大的
基本单元
不含聚集值的单元。基本方体的单元就是基本单元。
聚集单元
非基本单元的单元是聚集单元。聚集单元在一个或多个维聚集。每个聚集维用“*”表示。
完全物化
预先计算所有方体。完全物化在响应查询时会很迅速,但是需要海量的存储空间。
不物化
不预先计算任何“非基本方体”。在响应查询的时候会耗费大量计算资源,而且还很缓慢。
部分物化
选择一部分进行预先计算。部分物化很好的调和了不物化的“响应慢,存储空间小”和完全物化的“响应快,存储空间大”。可以预先计算一些用户指定的维度或者单元。
完全立方体
数据立方体中的所有方体中的所有的单元都是给定的。
冰山立方体
对于稀疏的数据立方体,预先规定一个最小支持度阈值(也称冰山条件),来进行部分物化,这种部分物化的方体称之为冰山方体。
闭立方体
一单元c是闭单元,如果不存在单元d,使得d是单元c的特殊化(后代),即d通过将c中的*值用非*值替换得到,并且d与c具有相同的度量值。闭立方体是一个仅由闭单元组成的数据立方体。
立方体外壳
部分物化的另一种策略,仅预计算涉及少数维的方体(比如3到5维),这些立方体形成对应数据立方体的外壳。利用外壳对其他的维组合查询进行快速计算。
数据立方体计算的一般策略
排序、散列和分组
将排序、散列(hashing)和分组操作应用于维的属性,以便对相关元祖重新排序和聚类
当存在多个子女方体时,由最小的子女聚集
从方体C1上抽象泛化得出的方体C2,则C1称为C2的子女方体,C2称为C1的父母方体。如果存在许多个子女方体,那么从最小的子女方体来计算父母方体会更有效。例如:总销量可以通过月销量或天销量来计算,则选用月销量来聚集
同时聚集和缓存中间结果
由先前计算的较底层聚集来计算较高层聚集,而非从基本方体开始计算,大大减少磁盘上的I/O操作。
用先验剪枝策略来计算冰山立方体
先验性质是指当已知的单元不满足最小支持度,那么这个单元的后代也不满足最小支持度。冰山立方体的冰山条件是指单元必须满足最小支持度阈值。所以在计算冰山立方体时,可以通过先对单元的后代进行筛选来剪枝。
数据立方体的计算方法
多路数组策略计算完全立方体
从顶点方体向下计算冰山立方体
使用动态星树结构计算冰山立方体
快速高维OLAP预计算壳片段
0 条评论
下一页