这就是搜索引擎:核心技术详解
2017-02-21 18:36:55 0 举报
AI智能生成
登录查看完整内容
搜索引擎是一种信息检索系统,它通过爬取互联网上的网页内容,建立索引并对其进行处理和排序,以便用户能够快速准确地找到所需信息。搜索引擎的核心技术包括网络爬虫、索引构建、查询处理和排名算法等。其中,网络爬虫负责从互联网上获取网页内容;索引构建则将获取到的网页内容转化为结构化数据,以便后续处理;查询处理则是根据用户输入的关键词,在索引库中查找相关网页;排名算法则根据一定的规则对搜索结果进行排序,以便用户更快地找到所需信息。
作者其他创作
大纲/内容
这就是搜索引擎:核心技术详解
5-检索模型与搜索排序
检索模型
布尔模型
缺点1:输出结果是二元的(相关或不相关),太粗糙,无法计算文档在多大程度上和用户查询相关。
向量空间模型
1、特征提取
单词
词组
N-gram
2、特征赋权
TF-IDF
TF
使用词频作为TF值
W(TF) = 1+log(TF)
W(TF) = a + (1 - a) * (TF / Max(TF))
IDF
IDF(k) = log(N/n(k))
Weight(word) = Tf * IDF
3、相关性计算
cosine相似性
缺点1:对长文档惩罚过重
概率检索模型
语言模型方法
机器学习排序
检索质量评价标准
9-用户查询意图分析
搜索意图分类
导航类
信息类
直接型
间接型
建议型
定位型
列表型
资源类
下载型
娱乐型
交互型
获取型
搜索日志挖掘
查询会话挖掘
挖掘点击图
构建查询图
用两个查询中重合的单词数来衡量,重合度越高,两个查询的相似性越大
如果两个查询属于同一个查询会话,则可以认为两者有语义关联
在点击图中,如果两个查询有共同的点击网址,则可以认为两者有语义关联
在点击图中,如果两个网址有连接关系,则其对应的查询可以建立语义关系
在点击图中,如果两个网址的页面内容主题相近,则其对应的查询可以建立语义关系
相关推荐
基于查询会话
缺点1:查询会话的准确切割有一定难度
缺点2:查询会话是基于同一用户的输入,所以挖掘结果里不能体现不同用户的查询之间的关联
基于点击图
缺点
1、点击图数据量非常庞大,一般聚类算法如何能够快速处理如此大量的数据是有挑战的
方法
1、构造点击图
2、对query进行聚类
3、将同类中的query作为查询推荐
查询改写
抽象化改写
具体化改写
同义重构改写
查询纠错
识别方法
词典纠错
纠正方法
编辑距离
噪声信道模型
0 条评论
回复 删除
下一页