推荐系统实战
2016-12-17 10:23:15 17 举报
AI智能生成
推荐系统
作者其他创作
大纲/内容
好的推荐系统
试验方法
离线实验
生成标准的数据集
分成训练集和测试集
训练集上训练用户兴趣模型
测试集上进行预测
评测预测结果
在线实验
AB测试
用户调查
双盲测试
推荐系统测评
好的推荐系统
满足用户需求
用户感兴趣
自我完善
测评指标
用户满意度
调查问卷
预测准确度
评分预测
均方根误差RMSE
TOPN推荐
准确率precision
召回率recall
准确率召回率曲线precision/recall curve
覆盖率
长尾物品的发掘能力
所有物品均匀的出现在推荐列表中
信息熵
基尼系数
多样性
多样性和相似性是对应的
新颖性
推荐未听说过的物品
不牺牲精度的情况下提高新颖性和多样性
惊喜度
莫名其妙
喜欢
信任度
熟人推荐
权威推荐
实时性
用户新行为
新物品
健壮性
抗击作弊
商业目标
经济效益最大化
利用用户行为
用户行为数据
无上下文信息的隐性反馈数据集
用户ID、物品ID Book-Crossing
无上下文信息的显示反馈数据集
用户ID、物品ID、评分
有上下文信息的隐性反馈数据集
用户ID、物品ID、行为时间戳
有上下文信息的显性反馈数据集
用户ID、物品ID、评分、行为时间戳
用户行为分析
用户活跃度和物品流行度分布
PowerLaw分布也称长尾分布
用户活跃度和物品流行度的关系
活跃用户倾向浏览冷门物品
实验设计和算法评测
数据集
GroupLens提供的MovieLens数据集
实验设计
协同过滤算法
离线实验
数据集分成M份
M-1份作为训练集
1份作为测试集
防止过拟合
进行M次实验,每次用不同的测试集
评测指标
准确率
召回率
覆盖率
基于邻域的算法
基于用户协同过滤
找到和目标用户兴趣相似的用户集合
兴趣相似度
行为相似度计算兴趣相似度
Jaccard公式
余弦相似度
计算量大
判断分子非0
物品-用户倒排序列表
用户相似度矩阵
行为相似度计算兴趣相似度
Jaccard公式
余弦相似度
计算量大
判断分子非0
物品-用户倒排序列表
用户相似度矩阵
用户相似度计算改进
惩罚热门物品
找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户
基于物品协同过滤
计算物品之间的相似度。
根据物品的相似度和用户的历史行为给用户生成推荐列表
隐语义模型
通过隐含特征(latent factor)联系用户兴趣和物品。
自动聚类
LFM
用户兴趣和隐类个关系、物品和隐类的关系
最优理论或者机器学习
负样本
对每个用户,要保证正负样本的平衡
对每个用户采样负样本时,要选取那些很热门,而用户却没有行为的物品
重要参数
隐特征的个数F
学习速率alpha
正则化参数lambda
负样本/正样本比例 ratio
影响最大
在一定范围内随着负样本数目的增加,LFM的准确率和召回率有明显提高
随着负样本数目的增加,覆盖率不
断降低,而推荐结果的流行度不断增加
基于图的模型
用户行为数据的二分图表示
基于图的推荐算法
两个顶点的相关性
两个顶点之间的路径数
两个顶点之间路径的长度
两个顶点之间的路径经过的顶点
相关性高的特征
两个顶点之间有很多路径相连
连接两个顶点之间的路径长度都比较短
连接两个顶点之间的路径不会经过出度比较大的顶点
基于随机游走的PersonalRank算法
访问概率
时间复杂度高
减少迭代数
会影响精度
矩阵论出发,重新计算
收藏
收藏
0 条评论
下一页