聚焦爬虫的分类

2016-03-20 21:09:54 6 举报
聚焦爬虫是一种按照一定的搜索策略,定向爬取某一特定网站或者网页的程序。根据其实现原理和功能特点,可以将其分为三类:基于索引的聚焦爬虫、基于队列的聚焦爬虫和基于策略的聚焦爬虫。基于索引的聚焦爬虫通过维护一个URL库来记录已爬取的网页,从而避免重复抓取;基于队列的聚焦爬虫则通过维护一个待抓取URL队列来实现对特定网站的定向爬取;而基于策略的聚焦爬虫则是根据一定的网页分析算法来确定需要抓取的网页。
作者其他创作
大纲/内容
评论
0 条评论
下一页