数仓核心概念
2020-08-19 10:11:01 2 举报
AI智能生成
什么是数仓
作者其他创作
大纲/内容
数仓核心概念
数据仓库
商业智能的核心部分,主要是将不同数据源的数据整合到一起,通过多维分析为企业提供决策支持,报表生成等,存入数据仓库的资料必定包含时间属性
数据库
面向事务
遵循三范式
原子性,列不可再分
主键,一行的唯一标识
外键,表与表的联系
存储在线业务数据
面向分析
历史数据
数据可能存在大量冗余
多个维度分析,提供更多观察视角
OLAP和OLTP
OLAP:联机分析处理
大量的历史数据为基础
配合时间点的差异
以多维度的方式分析数据
一般带有主观的查询需求
OLTP:联机事务处理
侧重于数据库的增删改查
ACID
A:原子性
C:一致性
I:隔离性
D:持久性
分层思想
数据分层的好处
提高数据的复用性
减少大量的重复计算
复杂问题简单化
数据结构清晰
分层
预处理层
etl将业务系统的数据经过抽取,清洗,转换之后加载到数据仓库的过程
作用
将企业中的分散、零乱、标准不统一的数据整合到一起
ods:原始数据层
存放ETL之后的原始数据
在业务系统和数据仓库之间形成一个隔离层,保存的是原始数据或者ETL之后的原始数据
dwd:数据明细层
结构和粒度与ods保持一致,对ods层数据进行再次清洗
去空
去脏数据
去超过极限的数据
整理压缩算法,存储格式
行式存储
TEXTFILE
SEQUENCEFILE
列式存储
ORC
PARQUET
查看是否能维度退化
列裁剪
将数据拆分为多级维度表
建模
确定建模方式
雪花模型
星型模型
根据建模方式抽取维度表和事实表
dws:数据服务层
轻度汇总
构建出的公共指标
以某一维度为线索,计算度量
ads:数据应用层
对应主题的统计指标数据,可以直接用于前端的展示
维度和度量
维度
观察数据的角度
时间,地点,性别等都是维度
度量
基于数据所计算出来的考量值
例如每个地点的人数统计,这个数量就是度量
预计算
cube
所有维度组合的Cuboid作为一个整体,被称为Cube
cuboid
N个维度的组合,将度量做聚合运算,然后将运算的结果保存为一个物化视图
事实表和维度表
事实表:Fact Table
存储有事实记录的表,如系统日志,事实表的记录在不断地动态增长,所以他的体积通常大于其他表
维度表:Dimension Table
与事实表相对应的一种表,保存了维度的属性,可以和事实表做关联
维度表好处如下
缩小了事实表的大小
便于维度的管理和维护,增加、删除和修改维度的属性
维度表可以为多个事实表重用
多维数据模型
星型模型:star schema
事实表和纬度表通过主外键相关联,维度表之间没有关联
效率高
数据冗余
雪花模型:snowFlake schema
将星型模型种的某些维度抽离成更细粒度的维度,然后让维度之间产生关联
效率低
冗余可以接受
0 条评论
下一页
为你推荐
查看更多