爬虫系统架构
2017-04-06 17:36:45 0 举报
爬虫系统架构通常包括调度器、URL管理器、网页下载器、网页解析器和数据存储器等模块。调度器负责管理URL管理器、网页下载器和网页解析器的协调工作,以实现对URL的抓取。URL管理器负责管理待抓取的URL队列和已抓取的URL集合,以及记录抓取过程中的异常情况。网页下载器负责根据调度器的指令下载网页内容,并将网页内容返回给网页解析器。网页解析器负责对网页内容进行解析,提取出需要的数据,并将数据存储到数据存储器中。数据存储器负责存储爬取到的数据,以便后续处理和分析。