数据仓库分层管理
2021-08-08 14:52:15 3 举报
数据仓库分层管理是一种将数据仓库划分为不同层次的方法,以便更好地组织和管理数据。这种方法通常包括以下几个层次:操作数据层、汇总数据层、数据集市层和数据挖掘层。操作数据层包含原始业务数据,汇总数据层包含经过加工和汇总的数据,数据集市层包含特定主题或业务领域的数据,而数据挖掘层则包含通过分析工具挖掘出来的有价值的信息。这种分层管理方法有助于提高数据的可用性和可靠性,同时也便于用户快速找到所需的信息。
作者其他创作
大纲/内容
FlinkAggregate
实时报表服务
DWS
HBase
FlinkETL
MysqlRedisHBase
Kafka
ODS
ClickHouse实时OLAP
数据仓库分层管理图
业务方数据库
恢复历史数据
Hive/Presto
DIM
方案二
读取
相对于方案二: ○ 增加ODS层落地hive,排查分析原始数据比较方便,恢复历史数据的时候可获取hive数据写入kafka,然后按原流处理的逻辑重新处理即可,只需修改数据源为历史数据对应的topic。 ○ 需新增kafka写入hive逻辑 ○ 需新增从hive读取数据写入kafka ○ 需新增整条链路历史数据对应的topic
方案一
实时数据接口服务
Hive
优点: ○ 便于数据回溯、重算和数据质量验证。缺点: ○ 通过批处理重算,需要维护两套代码,开发和维护成本高。 ○ 需要两套计算资源适用场景: ○ 超大规模历史数据计算,且这种场景比较频繁。 ○ 对数据质量要求极高,需要比对实时和离线的计算结果,甚至利用离线去修正实时的计算结果。
优点: ○ 无需维护两套代码,开发迭代速度快。 ○ 数据回溯和重算方便,重算时间根据需求回溯的时间范围定。 ○ 只需流计算资源,资源占用小缺点: ○ ODS\\DWD部分数据“不可见”,原始数据和中间数据不便于查询(解决方案:可通过重新消费指定时间范围的数据查询,或导入需要的数据到olap引擎) ○ 依赖业务端反馈问题(解决方案:设计数据质量监控指标,实时监控报警)适用场景: ODS\\DWD查询不频繁等
DWD
写入
0 条评论
下一页