LR 流程图
2019-07-04 11:19:32 4 举报
LR 流程图
作者其他创作
大纲/内容
Kafka
用户候选集
9
样本特征
10.曝光去重,通知更新
蓝色
实时召回:用户浏览文章,用户播放视频,用户浏览车型
最新文章和用户特征id:x1
模型训练ModelW1+b
部分实时召回
2
结果输出
步骤说明:1、特征通过Log和DB数据得到特征原始数据,经过特征清洗,归一化,One Hot,特征对照,得到特征Id对应的权重,会记录每次更新特征历史。(历史特征存储 Hive)2、获取最近一段时间,所有用户的点击行为做正样本,只曝光的行为做负样本,正负样本比例1:3或者1:1,使用行为的历史特征,做模型训练。最终得到特征W1和b的值。(模型训练结果W1和b 存储Redis)3、离线计算包含所有召回策略4、实时特征通过接收Kafka数据,经过处理得到特征Id对应的权重5、实时召回通过接收Kafka数据,当用户触发某种行为,实时计算召回6、离线更新和实时更新的最新特征,保存给算法和排序使用。(存储 Redis)7、离线计算完召回覆盖用户待选候选集,实时计算召回合并到用户待选候选集。(存储 Redis)8、根据用户和文章特征,使用评分模型对已有候选集算分并排序9、排序后结果,每次取30条数据,经过曝光去重,覆盖更新到用户候选集10、API直接从用户候选集TOP数据,曝光数据更新用户浏览记录,待选候选集去重并通知重新更新排序更新用户候选集
1
离线所有召回:包含实时召回,计算完毕后覆盖用户待选候选集,大约保存2000条。
DB
部分实时特征
10.曝光记录
离线所有特征:定时保存的特征数据,历史特征给模型训练使用,防止特征穿越。
5
大红色
8
Log
API
颜色说明
3
ScoreRank
LR 流程图
实时
所有特征
实时特征:通过kafka实时更新,点击量,用户浏览等特征
曝光去重
青色
深绿色
召回(策略)介绍:1、用户车型收藏 (实时,离线)2、文章浏览3篇 (实时,离线)3、车型综述页浏览 (实时,离线)4、点击关注大V操作(实时,离线)5、用户视频播放 (实时,离线)6、标签推荐(实时,离线)7、CTR排名(离线)8、协同过滤 (离线)9、最新发布文章 (离线)10、车主认证(离线)11、竞品车型(离线)
正负样本1:31:1
6.Update
历史文章和用户特征id:x1
4
紫红色
数据处理
异常特征清洗归一化One Hot特征对照
输入数据
候选集排序
离线
7.Merge
TOP
模型训练:通过正负样本使用离线的历史特征,做LR模型训练得到W1+b的值。
所有召回
棕色
7.Overwrite
用户浏览记录
待选候选集大量数据
用户候选集:用户候选集大约30条数据,API每次TOP10条数据,去重待选候选集,从待选候选集使用最新特征重新排序,取最前面30条并覆盖用户候选集。
0 条评论
下一页