数据增长部数据来源
2019-05-24 15:07:40 0 举报
数据来源
作者其他创作
大纲/内容
定时任务:定时从HBase中拉取数据处理并存入HDFS
爬虫抓取
外部表:dw_tz_speed_user_behavior
外部表:dw_tz_speed_user_profile
M端或小程序端
从ES中获取画像模型
HBase存储用户画像结果
离线部分:从Kafka写入HBase
ConsumerGroup
实时获取producer的生产数据写入相同Topic
ElasticSearch
HDFS中建立外部表,映射数据在Hive表中
Redis
HDFS/Hive
帖子数据
实时部分:实时写入Redis
日志采集与Flume的Sink
Consumer Group接收Topic发来的消息
Kafka消息队列
结果写回ES
Nginx日志服务器Flume实时拉取
建立HBase与Hive的映射
Spark处理用户的点击行为(计算,衰减等)
App埋点数据
HBase消息暂存
数据暂存在HBase,利用HBase的列式存储与rowkey高速查询功能
Redis存储用户最近十条行为数据
各大网站
用户行为日志数据
0 条评论
下一页
为你推荐
查看更多