首页  思维导图  详情

这就是搜索引擎：核心技术详解

2017-02-21 18:36:55   0  举报





仅支持查看

AI智能生成

为你推荐

查看更多



SEO搜索引擎优化框架分享

SEO搜索引擎优化

SEO 搜索引擎优化

搜索引擎是一种信息检索系统，它通过爬取互联网上的网页内容，建立索引并对其进行处理和排序，以便用户能够快速准确地找到所需信息。搜索引擎的核心技术包括网络爬虫、索引构建、查询处理和排名算法等。其中，网络爬虫负责从互联网上获取网页内容；索引构建则将获取到的网页内容转化为结构化数据，以便后续处理；查询处理则是根据用户输入的关键词，在索引库中查找相关网页；排名算法则根据一定的规则对搜索结果进行排序，以便用户更快地找到所需信息。

作者其他创作

大纲/内容

这就是搜索引擎：核心技术详解

5-检索模型与搜索排序

检索模型

布尔模型

缺点1：输出结果是二元的（相关或不相关），太粗糙，无法计算文档在多大程度上和用户查询相关。

向量空间模型

1、特征提取

单词

词组

N-gram

2、特征赋权

TF-IDF

使用词频作为TF值

W(TF) = 1+log(TF)

W(TF) = a + (1 - a) * (TF / Max(TF))

IDF

IDF(k) = log(N/n(k))

Weight(word) = Tf * IDF

3、相关性计算

cosine相似性

缺点1：对长文档惩罚过重

概率检索模型

语言模型方法

机器学习排序

检索质量评价标准

9-用户查询意图分析

搜索意图分类

导航类

信息类

直接型

间接型

建议型

定位型

列表型

资源类

下载型

娱乐型

交互型

获取型

搜索日志挖掘

查询会话挖掘

挖掘点击图

构建查询图

用两个查询中重合的单词数来衡量，重合度越高，两个查询的相似性越大

如果两个查询属于同一个查询会话，则可以认为两者有语义关联

在点击图中，如果两个查询有共同的点击网址，则可以认为两者有语义关联

在点击图中，如果两个网址有连接关系，则其对应的查询可以建立语义关系

在点击图中，如果两个网址的页面内容主题相近，则其对应的查询可以建立语义关系

相关推荐

基于查询会话

缺点1：查询会话的准确切割有一定难度

缺点2：查询会话是基于同一用户的输入，所以挖掘结果里不能体现不同用户的查询之间的关联

基于点击图

缺点

1、点击图数据量非常庞大，一般聚类算法如何能够快速处理如此大量的数据是有挑战的

方法

1、构造点击图

2、对query进行聚类

3、将同类中的query作为查询推荐

查询改写

抽象化改写

具体化改写

同义重构改写

查询纠错

识别方法

词典纠错

纠正方法

编辑距离

噪声信道模型

 收藏

立即使用

城市倾向processor

 收藏

立即使用

行政区划判断业务流程

 收藏

立即使用

proposer--词性标注

 收藏

立即使用

wordwrap--粘接

PO_3131c2

职业：RD

去主页





0 条评论

回复删除



取消

下一页