基于内容的推荐方法
2021-03-29 14:24:21 55 举报
AI智能生成
基于内容的推荐方法
作者其他创作
大纲/内容
7.1 概述
基于物品和用户自身特征或属性的直接分析计算
优点
用户间独立性
可解释性
新物品冷启动
缺点
新用户的冷启动
物品特征的提取
非结构化数据(如:文档、文本、图片等)的特征提取会增加难度
对用户的兴趣挖掘
其他
实际应用中CB推荐方法的粗粒度、侧重点不同对结果会有很明显的影响,
需要根据具体情况进行调整
需要根据具体情况进行调整
7.2 CB推荐中的特征向量
视频推荐中的物品画像
用特征向量表示物品画像的固有属性
视频推荐中的用户画像
用特征向量表示用户画像的特定偏好
7.3 基于CB的推荐算法
概述
不考虑非结构化特征、不考虑反馈,单纯基于视频内容的固有属性来进
行相似度计算机视频推荐。
(如电影中的,导演、年代、地区、类型、演员等)
行相似度计算机视频推荐。
(如电影中的,导演、年代、地区、类型、演员等)
原理
利用视频的基本信息和用户偏好内容的相似性进行视频推荐。通过用户已观看的电影内容,
生成用户的偏好内容,然后推荐与用户感兴趣的电影内容相似度高的其他电影
生成用户的偏好内容,然后推荐与用户感兴趣的电影内容相似度高的其他电影
适用场景
适用于基础CB架构的搭建,尤其是对新上线视频会马上被推荐,推荐机会与旧视频相同
7.4 基于TF-IDF的CB推荐算法
概述
TF-IDF是词频(TF)与逆转文档频率(IDF)的乘积。是NLP领域里面计算文档中词或短语权值的方法。
用户的评论分为评分与文字评论两种,评分可直接反应用户反馈,文字领评论则需要提取关键信息,所以TF-IDF即被引入
重点考虑非结构化数据的处理
TF-IDF是词频(TF)与逆转文档频率(IDF)的乘积。是NLP领域里面计算文档中词或短语权值的方法。
名词解释
TF指的是某一个给定的词语在该文件中出现的次数。
IDF指的是一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含
该词语之文件的数目,再将得到的商值取对数得到。
该词语之文件的数目,再将得到的商值取对数得到。
原理
TF-IDF的假设:若一个词语在目标文档中出现的频率高而在其他文档中出现频率低,那么这
个词语就可以用来区分目标文档。
基于此假设,故此算法需要掌握两点:1、在本文档出现的频率高;2、在其他文档出现的频率低。
需要注意的是,文档中“是、的”等词,对于文档的中心思想表达没有意义的词,在计算时要先过滤掉,
再进行计算TF-IDF的值。
TF-IDF的假设:若一个词语在目标文档中出现的频率高而在其他文档中出现频率低,那么这
个词语就可以用来区分目标文档。
基于此假设,故此算法需要掌握两点:1、在本文档出现的频率高;2、在其他文档出现的频率低。
需要注意的是,文档中“是、的”等词,对于文档的中心思想表达没有意义的词,在计算时要先过滤掉,
再进行计算TF-IDF的值。
7.5 基于KNN的CB推荐算法
概述
K最近邻分类算法
该方法是一种接近无反馈的方法
优点
更适合交叉或重叠较多的待分类样本集的分类问题
缺点
当分类的各样本容量不平衡时,计算结果不准确(但可以采用赋权值的方法改进)
原理
KNN算法基于这样一个假设:如果在一个特征空间中,一个样本的k个最邻近样本中的大多数样本属于某一个类别,
则该样本也属于这个类别。
KNN算法基于这样一个假设:如果在一个特征空间中,一个样本的k个最邻近样本中的大多数样本属于某一个类别,
则该样本也属于这个类别。
参考资料链接https://blog.csdn.net/weixin_44356285/article/details/86431650
通过物品画像计算样本个体间的距离或相似度来确定最邻近,算法的时间复杂度跟样本的个数直接相关
在KNN算中,最核心的一点是怎么定义物品之间的距离,常规的计算物品距离的方法有:欧式距离、曼哈顿距离、切比雪夫距离、杰卡德系数、夹角余弦、皮尔逊系数。计算例子的参考链接:https://mp.weixin.qq.com/s/9F_BRgnhAxP-nALtBdIZpg
7.6 基于Rocchio的CB推荐算法
概述
一种侧重考虑反馈的方法
从用户观看历史中抽取用户喜欢的视频构建用户画像常用的一种算法,可以通过用户观看视频的反馈,
计算用户特征向量中的属性值
计算用户特征向量中的属性值
原理
根据用户的历史数据(用户历史行为)对用户的原始特征向量不断的进行修改,实时更新用户画像
Rocchio算法的假设:如果我们需要计算出最精准的用户特征向量,那么这个用户特征向量应该与用户喜欢的
视频特征最相似,与用户讨厌的视频特征最不同
视频特征最相似,与用户讨厌的视频特征最不同
7.7 基于决策树的CB推荐算法
概述
决策树是通过一系列规则(模型)对数据进行分类的过程,它提供一种在什么条件下会得到什么值的类似规则的方法。
决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。
决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。
原理
资料:https://www.cnblogs.com/sxron/p/5471078.html
7.8 基于线性分类的CB推荐算法
概述
用一个线性分类模型通过计算来区分用户的偏好程度
线性分类器(LC)尝试在高维空间找一个平面,使得这个平面尽量分开两类点。也就是说,一类点尽可能在
平面的某一边,而另一类点尽可能在平面的另一边。
平面的某一边,而另一类点尽可能在平面的另一边。
原理
通过物品特征的线性组合进行分类
资料
https://www.cnblogs.com/wangyaning/p/3719748.html
7.9 基于朴素贝叶斯的CB推荐算法
概述
贝叶斯定理描述一个随机事件发生的情况下另一个随机事件发生的条件概率的定理
朴素贝叶斯算法是将用户是否对某个物品的偏好转化为分类问题,如对视频的“喜欢和不喜欢”
假定给定目标值时属性之间相互条件独立,即每个目标属性之间没有互相影响
原理
先通过已给定的训练集,以特征属性之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入 给定的X,求出使得后验概率最大的输出Y
资料
https://www.cnblogs.com/lliuye/p/9178090.html
0 条评论
下一页