离线数仓数据处理流程
2021-06-17 09:58:42 123 举报
离线数仓
作者其他创作
大纲/内容
logFile
azkaban实质是当新的一天数据采集到以后,通过自动调用脚本实现数据的自动流转,其实就是编写一个集成脚本并且带先后顺序,去调用原有系统的每日数据装载脚本,最后执行流程如下:
DWT
Hive
ods_base_trademark品牌表
dws_area_stats_daycount地区主题
hive自定义函数
ods_payment_info支付表
dwd_favor_info收藏事实表(周期型快照事实表)
解释
dwt_sku_topic商品主题
ods_base_category1一级品类表
SpringBoot日志
检查kafka中是否有数据
新版:需要修改日期,可以批量生成多天的数据第一次:mock.sh init以后:mock.sh 2021-06-15
Kafka
ods_to_dwd_log.sh
ods_order_refund_info退单表
dim_coupon_info优惠券维度表(全量)
dwd_display_log曝光日志表
dwd_error_log错误日志表
hdfs_to_mysql.sh
日志数据
此处报错通常是因为:dim_user_info表的nick_name字段重复和email字段丢失,需改对应的每日导入脚本
业务数据
ods_order_detail订单明细表
ods_favor_info收藏表
ods_activity_info活动信息表
新版:lg.sh 2021-06-15
ods_base_region地区表
生成业务数据 java -jar /opt/module/db_log/gmall2020-mock-db-2021-01-22.jar
DWS层首日数据装载脚本dwd_to_dws_init.sh all 2020-06-14
dwd_payment_info支付事实表(累积型快照事实表)
建模过程中,因为有数据,只需要开启hadoop集群和hive服务就行
dwd_comment_info评价事实表(事务型事实表)
dim_date_info时间维度表(特殊)
dwd_coupon_use优惠券领用事实表(累积型快照事实表)
Web业务数据
dwt_user_topic用户主题
ods_base_dic编码字典表
DIM维度层
生产Flumehadoop202
ods_user_info用户表
dwd_order_refund_info退单事实表(事务型事实表)
SpringBoot后端服务器
项目启动流程:hadoop 集群zookeeper 集群kafka 集群f2.shf1.shlg.sh
dws_visitor_action_daycount访客主题
DWD层业务数据首日装载脚本ods_to_dwd_db_init.sh all 2020-06-14
ods_log日志表
dwt_visitor_topic访客主题
离线数仓数据处理流程
dws_to_dwt.sh
业务数据每日同步脚本 mysql_to_hdfs.sh all 2020-06-15
dws_user_action_daycount用户主题
业务流程
DWT层每日数据导入脚本dws_to_dwt.sh 2020-06-14
ods_coupon_info优惠券信息表
DWS层每日数据装载脚本dwd_to_dws.sh all 2020-06-14
ods_refund_payment退款表
消费日志日志 f2.sh
ODS层业务表每日数据装载脚本hdfs_to_ods_db.sh all 2020-06-14
dws_coupon_info_daycount优惠券主题
消费Flumehadoop204
业务数据MySQL =>HDFS:业务数据表比较多。所以数据导入比较慢
此次是把数据从HDFS=》MYSQL数据库以让后端开发人员使用,因为是全表导出,所以执行比较慢
ods_sku_attr_value商品平台属性表
ods_order_detail_coupon订单明细优惠券关联表
dwd_action_log动作日志表
mysql_to_hdfs.sh
表关系图
数仓搭建-ADS层
日志数据的解析导入,报错通常是:explode_json_array hive的自定义炸开函数没有注册(对应的jar包没有上传)
dwt_coupon_topic优惠券主题
DWT层首日数据导入脚本dws_to_dwt_init.sh all 2020-06-14
ods_activity_rule活动规则表
dim_activity_rule_info活动维度表(全量)
DWS
web/app埋点前端数据
ods_to_dim_db.sh
azkaban调度
ods_order_status_log订单状态日志表
ods_comment_info评论表
dwd_cart_info加购事实表(周期型快照事实表)
DIM层首日数据装载脚本ods_to_dim_db_init.sh all 2020-06-14
dwd_order_detail订单明细事实表(事务型事实表)
dwd_start_log启动日志表
ods_base_category3三级品类表
dim_base_province地区维度表(特殊)
dim_sku_info商品维度表(全量)
DWD层用户行为数据加载脚本ods_to_dwd_log.sh all 2020-06-14
MySQL业务数据
hdfs_to_ods_log.sh
dwd_page_log页面日志表
dws_sku_action_daycount商品主题
日志数据生成脚本 lg.sh
DIM层每日数据装载脚本ods_to_dim_db.sh all 2020-06-14
dwt_activity_topic活动主题
ODS
ods_sku_info商品(SKU)表
ods_order_detail_activity订单明细活动关联表
ADS层业务数据导入脚本 dwt_to_ads.sh all 2020-06-14
ods_coupon_use优惠券领用表
dwt_area_topic地区主题
HDFS
建模
dws_activity_info_daycount活动主题
dwt_to_ads.sh
首日同步脚本 mysql_to_hdfs_init.sh all 2020-06-14
ods_spu_info商品(SPU)表
ODS层业务表首日数据装载脚本hdfs_to_ods_db_init.sh all 2020-06-14
hdfs_to_ods_db.sh
ods_cart_info购物车表
文件压缩格式由原来的 lzo 改为 Gzip
Nginx
dwd_refund_payment退款事实表(累积型快照事实表)
DWD
ods_order_info订单表
ods_base_category2二级品类表
第一次执行修改文件:application.properties#是否重置mock.clear=0 =>改为 1 第二次执行修改为0#是否重置用户mock.clear.user=0 =>改为 1 第二次执行修改为0
ods_base_province省份表
dwd_order_info订单事实表(累积型快照事实表)
dwd_to_dws.sh
ods_to_dwd_db.sh
生产Flumehadoop203
收集日志 f1.sh
DWD层业务数据每日装载脚本ods_to_dwd_db.sh all 2020-06-14
ods_sku_sale_attr_value商品销售属性表
Sqoop
hdfs_to_ods_log.sh 2020-06-14
dim_user_info用户维度表(拉链表)
/opt/module/kafka/bin/kafka-console-consumer.sh --consumer.config config/consumer.properties --topic topic_log --bootstrap-server hadoop102:9092
收藏
0 条评论
下一页