数据仓库
2024-11-04 21:25:34 0 举报
AI智能生成
数据仓库是一个存储和管理大量数据的系统,旨在为企业提供决策支持。它从多个数据源收集、整合和存储数据,这些数据可以来自关系数据库、平面文件、电子邮件、网络日志等。数据仓库的结构通常包括事实表和维度表,其中事实表存储具体数据,维度表提供上下文信息。通过对这些数据进行分析,企业可以更好地理解业务情况,预测未来趋势,并做出更明智的决策。常见的数据仓库工具包括Hadoop、Oracle Exadata、Teradata等。
作者其他创作
大纲/内容
数据仓库
面向主题的
集成的(从多个地方抽取和主题相关的数据)
随时间变化的(将操作型的数据按周期性的转移到数据仓库)
稳定的(用于分析而不是用于操作;几乎不需要修改)
基本特点
数据集市:面向部门的部门级别的数据仓库,通常对应一个星状多维模式
它能够将各种业务系统中积累的数据进行集成,转换管理,从而便于数据分析,制定长期战略决策
为什么要数据仓库?
数据源(操作型数据库,外部数据,其他)
数据仓库,元数据(相对于仓库的字典)
多维立方体,数据集市
体系结构
Extraction:抽取
Transform:转换(数据清洗:缺失值,冗余,集成:命名实体的识别)
Load:加载
应用在前端工具上
维度表:相应维度的描述信息把隐含的含义单独作为一个属性
维度(通常一个,详细信息在维度表)
度量(数值)
事实表
多维数据模型(维度数据模型)
选择业务/主题
交易事实表
周期快照事实表
累计快照事实表:与事物相关的整个生命周期的主要事件的相关信息
外框
选择事实表每行取值的粒度
粒度由细到粗
确定事实表的一行涉及的维度有什么
确定度量:一个事实表各个度量的粒度必须相同
构建方法
缺点:有些维度是非规范的(城市相同的国家,省份是一样的)
星状模式(最常见,简单):一个事实表,若干的维度表
雪片模式
事实星座:不同的事实表共用维度表
多维数据模型
0 条评论
回复 删除
下一页