离线数仓
2023-03-03 08:46:30 19 举报
离线数仓
作者其他创作
大纲/内容
HDFS
日志文件全量表增量表都以json格式在HDFS上进行存储
统计报表
每日的增量,按照日期分区
DWD事务事实表、周期快照事实表、累积快照事实表首日加购表、每日加购事实表、以及下单、退单、付款,购物车表及属于全量也属于增量评价、互动、收藏等事实表上面的数据根据业务数据的增量表得到流量域页面浏览事务事实表这个表要根据日志数据得到
每日的全量按照日期分区
ADS存放的最终的统计结果
根据hdfs上的json文件不做任何数据处理进行建表一般分三种表日志表全量表增量表并按时间分区
ODS
业务系统
flume
业务数据
ETL抽取、清洗、转换、和加载
hive离线数仓
行为数据
DIM维度表和拉链表比如商品维度表、优惠卷维度表、活动维度、地区维度、日期维度、根据全量表得到以及用户拉链表(运用于缓慢变化维)
datax和Maxwell
DWS应对派生指标相同的业务,把相同的派生指标建DWS表。比如回流用户数,流失用户数,回流用户数他们都有找到用户最后一天登录的日期,可以将各个用户最后登录日期建成一个单独的表这个表就在DWS分区
0 条评论
下一页