电商大数据架构
2020-11-18 12:08:12 0 举报
采集项目,离线数仓,电商大数据项目陈述
作者其他创作
大纲/内容
sqoop
指标 -活跃设备数(日、周、月)设备主题:留存率沉默用户本周回流用户流失用户最近连续三周的活跃用户最近七天连续三天的活跃用户会员主题转化率商品主题地区主题活动主题...
dwd
MySQL业务数据库
ads
flume
消费
即席查询kylindruid
采集
webApp前端埋点
NGINX
数据倾斜从业务的角度分析数据倾斜的产生1.按平台统计注册人数、浏览量、下订单量、收藏量2.按照省份统计 ******* 随机数_省份id(01/02...) 随机数_市id(01/02...) 随机数_区县id(001/002...) 随机数_乡镇id(001/002...)3.品类:统计浏览量、下订单量、收藏量 服饰鞋帽 家具家纺 大宗电器 家用电器 数码 居家日用 食品 居家日用:卫生纸、 食品:火腿肠 服饰鞋帽:丝袜、护腕 解决:对品类id进行key打散,二次聚合4.商品top:\t\t对sku_id进行打散,二次聚合
日志服务器springboot
webApp业务
dws
HIVE on spark
kafka集群负载均衡
业务服务器springboot
前端埋点业务数据NGINX反向代理负载均衡 轮询
离线数仓
ods
轮询
MR HQL spark sql
dwt
数据采集
Container
HDFS
元素据MySQL
参数\t\tsqoop \t\t\timport\t\t\turl\t\t\t用户名\t\t\t密码\t\t\t空值 \t\t\t目标路径\t\t\t如果目录存在,则删除目录\t\t\t切分字段\t\t\t设置map数量\t\t\tquery “sql and $Condition”
0 条评论
下一页