数据处理架构
2016-09-28 15:47:51 0 举报
推荐设计
作者其他创作
大纲/内容
HIVE1.资源表 2.浏览 3.点赞表 4.收藏表 5.推荐候选集表 6. 推荐反馈表
根据uid取得初期推荐列表
离线计算历史数据 1.用户特征=sum(各行为tags特征值*行为权重*时间衰减权重) ------------------------------ | uid | tags | score| ------------------------------- 2.图片特征 (清洗,分解tags) -------------------------- | tags | cid | pv | ----------------------- --
在线计算每5分钟计算1.用户特征=5分钟内的用户特征 ------------------------------ | uid | tags | score| ------------------------------- 2.图片特征(新增图片) -------------------------- | tags | cid | pv | ----------------------- --3.推荐反馈表 -------------------- | uid | cid | ---------------------
内存表5.推荐候选集表
内存表过滤后的推荐列表
内存表9.用户反馈表
排名 热门的物品进行降权
flume
1.资源表更新日志 2.浏览日志 3.点赞表更新日志 4.收藏表更新日志 5.推荐候选列表集 6. 推荐反馈日志
内存表用户特征表2图片特征表2
HIVE7.用户特征表 8.图片特征 9.用户反馈表
最终推荐列表
内存表初期推荐列表 -------------------------------------- | tags | cid | pv | score| ----------------------- -------------
kafka
内存表用户特征表1图片特征表1
SparkStreaming
过滤用户已经产生过行为物品候选物品以外的物品
将特征表2增量到特征表1上
0 条评论
下一页