电商数仓数据分析
2022-11-10 19:15:42 2 举报
离线数仓数据分析
作者其他创作
大纲/内容
订单漏斗模型中的转化率ads_app_ld_conversion_rate
商品销量排名ads_yjx_goods_topN_day
流量明细大宽表ads_app_tfc_cube
首次触点归因:待归因事件中,最早发生的事,被认为是导致业务结果的唯一因素末次触点归因:待归因事件中,最近发生的事,被认为是导致业务结果的唯一因素线性归因:待归因事件中,每一个事件都被认为对业务结果产生了影响,影响力平均分摊位置归因:定义一个规则,比如最早、最晚事件占40%影响力,中间事件平摊影响力时间衰减归因:越晚发生的待归因事件,对业务结果的影响力越大目标事件:x待归因事件: a b c首次触点归因: a c b x a:100% c:0% b:0%末次触点归因: a c b x a:0% c:0% b:100%线性归因: a c b x a:33.333% c:33.333% b:33.333%位置归因:a c b e x a:40% c:10% b:10% e:40%时间衰减归因:a c b e x a:10% c:20% b:30% e:40%
技术选型
主要作用:直接映射操作数据(原始数据),数据备份;建模方法:与原始数据结构保持完全一致存储周期:相对来说,存储周期较短;视数据规模,增长速度,以及业务的需求而定;对于埋点日志数据ODS层存储,通常可以选择3个月或者半年;存1年的是土豪公司(或者确有需要,当然,也有可能是数据量很小)
用户行为日志表ods_app_event_log
优惠券粒度订单最近30日汇总表dws_trade_coupon_order_30d
地理位置集成成功率dq_dwd_app_event_log_area
dq数据库
商品信息表ods_yjx_goods_full
活跃用户天数active_user_day
质量检查1.地理位置切割成率2.session切割比率
最近30天发布的优惠券的补贴率ads_coupon_stats
错误!!! ods.ods_yjx_goods_collection; ods.ods_yjx_goods_sku; dwd.dwd_yjx_order;
1. 过滤出所有带9999-12-31的区间记录,并full join 当天日活数据2. 只有“左边”有,右边“没有”的数据,区间end=CURRENT-1day3. 其他的,区间END 都取“9999-12-31”即可4.最后,将两部分数据union all合并即可
商品总销量及销售总额ads_yjx_goods_sales_day
地域分区表dim_area_dict
需求数据:计算日期、月份、连续5天用户数、连续7天、连续14天、连续20天、连续30天计算频率:每日更新
商品分类维度表ods_yjx_category_full
1.T-1(绑定评分表)日出现的组合,但是T日(日志)没有出现,做score衰减 (原值*0.6)2.T-1日(绑定评分表)出现的组合,但是T日(日志)也出现,做score累加 (昨日+当天) 3.T-1日(绑定评分表)没出现的组合,但是T日(日志)也出现,取T日的score (取今天分值)
用户流存中间表dws_usr_ret_cnt
商品加入购物车日排名ads_product_cart_topN
定时脚本 ETL任务提交
流失用户计算ads_wastage_count
ODS层
经纬度信息表t_md_areas
中间表模型开发dws_event_attribute_day
用户连续活跃区间记录表dws_app_user_ctnu_rng
需求分析
地域属性维度统计ads_province_tfc_1d
新用户留存率计算ads_user_retention_day_rate
订单项目表ods_yjx_order_item_inc
商品销量排名ads_yjx_goods_category_topN_day
技术开发
dwd.dwd_app_event_detail
各分类加购价位分布分析ads_category_cart_cnt
加购汇总表dws_trade_user_cart_add_1d
优惠券维度信息表dim_coupon_full
商品收藏信息表ods_yjx_goods_collection_inc
ODS层功能 ---操作数据层
流量明细大宽表dws_app_tfc_topic
1.前日出现的组合,今日没出现,则分数衰减2. 前日出现的今日,今日也出现,则分数累加,并更新时间戳3. 前日没出现的组合,今日出现,则取今日的得分
购物车周期快照事实表dwd_trade_cart_inc
当日交易综合统计ads_trade_stats
优惠券使用(下单)事务事实表dwd_coupon_order_inc
优惠券领取事务事实表dwd_coupon_get_inc
一个维度所有可能的取值的个数,叫做这个维度基数(cardinality)像省市区,几百个信息,低基维像用户id,手机号等等,千万甚至上亿,高基维再高,超高基维会造成Cube膨胀,再进行维度组和产生数据量比原始数据量大出数倍。Cube构建的优化显得至关重要。
session切割的比率dq_app_event_log_ssp
test数据库
用户行为明细表dwd_app_event_detail
MySQL
商品明细表dwd_yjx_goods
当月连续活跃用户数ads_app_user_act_ctnu_m
ADS层
活跃用户数(日、周、月)总ads_usr_active_cnt
绑定评分表dws_device_account_bind_score
商品主题表dws_yjx_goods_topic
消费画像标签表计算ads_userprofile_consume_tag
用户每日活跃表dwd_app_user_dau
DWD层
优惠券获取归因分析统计ads_event_coupon_fetch_attribute_day
入仓方案
日活:当日活跃的用户数周活:当周活跃的用户数月活:当月活跃的用户数
订单明细事实表dwd_yjx_order_item_inc
1.去除json数据体中的废弃字段(前端开发人员在埋点设计方案变更后遗留的无用段)2. 过滤掉json格式不正确的(脏数据)3. 过滤掉日志中缺少关键字段(deviceid/properties/eventid/sessionid 缺任何一个都不行)的记录!4. 过滤掉日志中不符合时间段的记录(由于app上报日志可能的延迟,有数据延迟达)5. 对于web端日志,过滤爬虫请求数据(通过useragent标识来分析)
商品sku表ods_yjx_goods_sku_full
用户连续活跃区间记录app_user_active_range
新用户每日活跃表dwd_app_user_register
订单商品汇总表dws_trade_user_sku_order_1d
会话信息聚合表dws_app_session_agr
事件归因分析
商品品牌维度表ods_yjx_brand_full
DIM层
商品品牌维度信息表dim_sku_full
新增用户数(日、周、月)总ads_new_user_count
商品加购数量地区分布ads_region_cart_cnt
漏斗分析模型dws_app_ld_compstep
1. Spark解析:通过Spark程序解析Json文件再写入Hive表中2. getJsonObject():将整个Json看作一个字段先存入Hive表中,再通过Hive自带的函数(getJsonObject)解析再写入另一张表3. JsonSerDe:通过Hive兼容的Json解析器直接将Json数据解析到一张表中。(Hive3.X之后提供原生的JsonSerDe)
订单详情表ods_yjx_order_inc
购物车信息表ods_yjx_cart_info_inc
字典表ods_yjx_dic_full
1.清洗过滤 过滤掉日志中缺少关键字段[ deviceid | properties | eventid | sessionid ] 缺任何一个都不行的记录! 过滤掉日志中不符合时间段的记录(由于app上报日志可能的延迟,有数据延迟到达)2.数据规范化处理3.Session分割(30min)4.数据集成(GPS、IP)5.ID-Mapping 新老访客标记 标记新老用户,并将新用户记录在redis中6.保存结果到Hive
优惠券信息表 ods_yjx_coupon_info_full
订单事实拉链表dwd_yjx_order_zip
DWS层
DWD层功能 ---数据细节层
收藏
收藏
0 条评论
下一页