句子检测方法
2016-07-18 14:21:37 0 举报
AI智能生成
句子检索方法
作者其他创作
大纲/内容
向量空间模型
假设条件
假设特征之间相互独立,将文档或句子转化为向量
查询相关性计算
向量内积
夹角余弦公式
典型的余弦规格化方法比较适合句子的检索
距离计算函数
特征权重估计与规格化
权重计算
tf*idf
权重规格化
单一长度规格化
Cosine规格化
转轴文档长度规格化
查询扩展方法
语义扩展
子主题
效果
WordNet的语义衍生对句子检索没有明显的提高
伪相关反馈查询
基本思想
自动地选取查询相关度比较高的句子作为“相关”的检
索结果,将这些句子按照一定的加权比例对查询进行正向反馈,采用它们的向量进一步
修正查询向量,从而实现查询的扩展
索结果,将这些句子按照一定的加权比例对查询进行正向反馈,采用它们的向量进一步
修正查询向量,从而实现查询的扩展
效果
伪相关反馈是一种比较好的查询扩展方法,在不特别损失检索准确率的前提下,它极大地提高了检索的召回率,从而提高了整体性能
局部共现扩展
基本思想
利用高频共现的词对来实现查询向量与句子向量的进一步扩展
效果
局部共现扩展尽管缺乏很严格的理论依据,但是它可以通过统计的方法挖掘
出特征词语之间的内在关联性,并能够较好地改进查询的结果,在实验中性能最好
出特征词语之间的内在关联性,并能够较好地改进查询的结果,在实验中性能最好
Noovel系统句子查询扩展方法
利用伪相关反馈的思想,选取查询相关
度排名靠前的句子集合,在此基础上进行局部共现统计
度排名靠前的句子集合,在此基础上进行局部共现统计
概率模型
基本思想
通过估计用户查询Q与文
档D相关的概率来判定D是否与Q相关
档D相关的概率来判定D是否与Q相关
代表模型
OKAPI 系统
基于概率检索模型设计,使用著名的bm25公式及
其变形(bm2500、bm250)等计算特征词语的权值
其变形(bm2500、bm250)等计算特征词语的权值
语言模型
基本思想
它认为:每个文档对应一个统计语言模型,称为文
档的语言模型(Language Model)。它主要描述了该文档中各个单词的统计分布特征。因
此每个文档看作是由其语言模型抽样产生的一个样本。查询 q 也可以看作是由该文档的语言模型抽样产生的一个样本。因此,我们可以根据每个文档语言模型抽样生成查询
的概率来排序,概率值越大,则该文档就越满足查询要求,作为检索结果的可能性就越
大
档的语言模型(Language Model)。它主要描述了该文档中各个单词的统计分布特征。因
此每个文档看作是由其语言模型抽样产生的一个样本。查询 q 也可以看作是由该文档的语言模型抽样产生的一个样本。因此,我们可以根据每个文档语言模型抽样生成查询
的概率来排序,概率值越大,则该文档就越满足查询要求,作为检索结果的可能性就越
大
效果
实验表明,语言模型不适宜句子级别的检索
收藏
收藏
0 条评论
下一页