数仓5.0数据流程图+建模思路+实现思路
2023-04-23 14:39:09 0 举报
详细介绍了数仓5.0每个指标的数据流程,书写了每个流程的详细设计思想,让大家能够在面试的时候非常透彻的把建模和数据流向思路讲清楚,非常值得保存随时在地铁公交上回味! 持续更新中......
作者其他创作
大纲/内容
dws_traffic_session_page_view_1d流量域会话粒度页面浏览最近1日汇总表
ods_base_province_full省份表
dwd_traffic_page_view_inc流量域页面浏览事务事实表
ods_user_info_inc用户表
dim_user_zip维度层用户拉链表
ads_page_path路径分析
面试问题:描述一下你做的一个指标的从底层到指标的一个流程?就拿流量主题的流量统计来说,流量统计主要统计最近1天,最近7天,最近30天的各渠道的一个流量统计。渠道主要指手机品牌比如说华为、小米、苹果等。ads层要求出各渠道的访客、各渠道的会话、各渠道会话平均时长、各渠道平均浏览页面数以及跳出率。跳出率主要指用户访问了一个页面的比例。ads层的数据我们一般是到dws层取,dws宽表层我们设计了一张流量域会话粒度页面浏览的天表这个天表里面有会话id,手机的型号、品牌等、channel、以及最近一日的访问时长,最近一日的访问页面数。dws的天表是我们在dwd层 流量域页面浏览事实表获取的,这里就要设计一个会话id,来供后面使用dwd的这个事实表对应的是一个浏览事实,主要是时间、手机各种参数、浏览页面的id等dwd的浏览表肯定是来自浏览的日志表了,这没啥好解释的。
ads_traffic_stats_by_channel流量统计
ods_log_inc日志表
ads_user_change用户变动统计
dwd_user_login_inc用户域用户登录事务事实表
用户主题
dws_user_user_login_td用户域用户粒度登录历史至今汇总表
流量主题
0 条评论
回复 删除
下一页