数据处理架构2.0
2016-09-28 15:47:51 0 举报
推荐设计
作者其他创作
大纲/内容
内存表根据历史数据取得初期推荐列表------------------------ |cid | score | pv | ------------------------
添加推荐解释
根据uid+cid取得初期推荐列表
在线计算每5分钟计算 1.用户-物品=sum(各行为值*行为权重) ------------------------------ | uid | cid | score| ------------------------------- 2.新图片表 -------------------------------------- | cid | uid | tags | create_time| ---------------------------------------3.推荐反馈表 ---------------------------- | uid | cid | action| -----------------------------
内存表推荐的最新图片表------------------------ |cid | score | pv | ------------------------
内存表过滤后的推荐列表
排名 热门的物品进行降权物品权重降序排名 物品质量降序排名 多样性(根据tags分组选择前几名)
flume
1.资源表更新日志 2.浏览日志 3.点赞表更新日志 4.收藏表更新日志 5.推荐候选列表集 6. 推荐反馈日志
HIVE 7.用户特征表 8.图片特征 10.用户-物品表 11.图片相似表
UI
最终推荐列表
内存表根据5分钟内数据取得初期推荐列表------------------------ |cid | score | pv | ------------------------
内存表7.用户特征表 10.用户-物品表 11.图片相似表 12.新图片表
SparkStreaming
推荐日志
HIVE1.资源表 2.浏览 3.点赞表 4.收藏表 5.推荐候选集表 6. 推荐反馈表
内存表9.用户反馈表
离线计算(每天计算) 1.用户特征=sum(各行为tags特征值*行为权重*时间衰减权重) ------------------------------ | uid | tags | score| ------------------------------- 2.用户-物品=sum(各行为值*行为权重*时间衰减权重) ------------------------------ | uid | cid | score| ------------------------------- 3.物品相似度矩阵 --------------------------------------- | cid | cid | score | pv | ----------------------------------------
内存表5.推荐候选集表
统合根据历史行为得到的推荐+根据5分钟行为得到的推荐+新图片推荐
kafka
过滤用户已经产生过行为物品候选物品以外的物品
0 条评论
下一页