数据仓库理论
2022-06-23 13:57:00 67 举报
AI智能生成
数据仓库理论
作者其他创作
大纲/内容
数仓建模
范式建模
维度建模
星型模型
雪花模型
星座模型
总结:
1、雪花模型在维度表、事实表之间的连接很多,因此性能方面会比星型模型低。
2、雪花模型使用的是规范化数据。其维度层级和维度信息都存储在数据模型之中。
星形模型是反规范化数据,数据存在冗余,维度直接关联事实表,性能较好。
星形模型是反规范化数据,数据存在冗余,维度直接关联事实表,性能较好。
3、雪花模型在设计上更加复杂,ETL较复杂且不能并行化。
星形模型不需要添加附属维度层级,ETL相对简单,可以实现高度的并行化。
星形模型不需要添加附属维度层级,ETL相对简单,可以实现高度的并行化。
应用
电池画像
BI报表
数据挖掘
人工智能
数仓管理
数据血缘
元数据管理
数据质量监控
指标体系
意义
整体理解业务
主动发现问题
快速定位原因
是什么
OSM模型
Object(目标)
GVM
Strategy(策略)
提高资产利用率
提高新用户规模
提高复购比例
...
Measure(度量)
柜效比
新增用户数
用户复购率
指标分类
原子指标
不可拆分的指标
GVM
用户数
电池数
衍生指标
原子指标+修饰词
GMV+地区 = 上海GMV
电池数+状态=返厂电池数
用户数+时间=一周内新增用户
派生指标
衍生指标+计算逻辑
GMV同比/环比
财务柜效
定义
数仓是一个面向主题、集成的、相对稳定、反应历史变化的数据集合
面向主题
按照部门划分
按照业务划分
按照系统划分
集成性
稳定性
反映历史变化
分层
意义
复杂问题简单化
实时监控预警机制,例如表结构的同步。
分析重点监控对象
通知业务将重点表的变更进行实时通知
重点关注某几类业务,例如风控,财务。
便于理解
空间换时间,减少重复开发
数据之间解耦合
ods(operation data store):原始数据层
dim(public dimension):公共维度层
dwd(data warehouse detail):明细数据层
dws(data warehouse service):数据汇总层
ads(application data store):数据应用层
构建流程
调研
划分主题域
销售域
运营域
构建明细模型
dim
dwd
构建汇总模型
dws
ads
ETL实现
抽取
转换
清洗
加载
数仓应用
用户画像
BI报表
数据挖掘
人工智能
验证/优化
验证
反馈
优化
0 条评论
下一页