数据仓库设计过程
2019-03-20 09:46:29 12 举报
AI智能生成
数据仓库的设计过程描述
作者其他创作
大纲/内容
(一)企业需求分析
1.对用户需求分类
在公司中,用户所在部门承担的任务是什么?
用户在部门中承担的任务是什么?
目前从何处获取这些信息?
得到信息后,如何处理它?
用户希望得到什么样的报表形式?
2.确定需求提问
(1)商务目标
企业部门的目标是什么?怎样将这些目标融进整个公司目标之中?要达到这些目标有哪些需要?
商业策略是什么?商业活动的领域有哪些?这些领域是怎样联系在一起从而达到商务活动的目的?
(2)当前信息源
在现有报表过程中,当前传递了哪些信息?
这些信息的详细程度怎样?
提供数据和信息的地区有计算机系统支持吗?
这些计算机系统中数据的质量、可靠性、一致性、完整性等商务评价指标指的是什么?
是否需要从购买外部数据?从哪里购买?
(3)主题领域
哪些维度或者领域对数据的分析是非常有价值的?这些维度有固定的层次吗?
做出商务决策仅仅需要当地有关信息吗?
是否有用于指定决策的自然商务分区?
(4)关键性能指标
商业环境中机构的表现是怎样监控的?
要监控机构内部哪些关键的指标?
所有市场被平等地衡量吗?
(5)信息频率
用户需要多长时间对数据更新一次?适当的时间结构是什么?
在数据仓库中,信息的实时性需求是什么?
对数据进行分析时,如何进行比较?
(二)概念模型设计
确定主题和主题域边界
概念模型设计:主要是确定数据仓库中应该包含的数据类及其相互关系
1.界定系统边界
要做的决策类型有哪些?
决策者感兴趣的是什么问题?
这些问题需要什么样的信息?
要得到这些信息需要包含原有数据库系统的哪些部分的数据?
2.确定主要的主题域
主题:在一个较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念
描述主题域
分析主题时所关心的事实
分析主题时的各种观察角度
主题域之间的联系
事实及观察主题团的属性组、公共码键
数据仓库的概念模型一般采用多维数据模型来建模
多个星形模型
维度:观察事实的角度
度量:观察得到的事实数据
分析原有数据库的数据“怎样组织”、“如何分布”
(三)逻辑模型设计
逻辑模型设计:用一系列的关系模式来表达数仓概念模型中的事实实体和维度实体
分析主题域,确定当前要装载的主题
确定粒度层次划分
粒度越小,级别越低,数据越详细
粒度越大,级别越高,数据综合度越高
粒度划分标准
详细数据、轻度总结、高度总结
粒度划分参考方面
细节数据的数据量
多维分析的最低要求
数仓通常在统一模式中使用多重粒度
近细远粗
确定聚合设计
可加性度量
聚合
非可加性度量
确定数据分割策略
数据分割:把逻辑统一的数据分割成较小的、可以独立管理的物理单元进行存储,以便重构、重组和回复。
考虑因素
数据量(而非记录行数)
数据分析处理的实际情况
简单易行以及粒度划分策略等
关系模式定义
(四)物理模型设计
*前置条件
全面了解所选用的数据库管理系统,特别是存储结构和存取方法
了解数据环境、数据的使用频度、使用方式、数据规模及响应时间要求等
了解外部存储设备的特性,如分块原则、块大小的规定、设备的I/O特性等
估计存储容量
确定存储结构
确定索引结构
合理对表进行归并
优化存储分配
0 条评论
下一页