分布式爬虫(进程总览)
2018-02-18 21:28:09 11 举报
从进程的角度,总览主从式分布式爬虫
作者其他创作
大纲/内容
分布式管理器(进程)
将Queue对象暴露在网络中。
解析出的URL
URL管理进程
从conn_q获取URL,去重,交付给url_q,从而传递给爬虫节点。
控制节点(主端)
数据存储进程
调用数据存储器进行数据存储。
store_q
解析出的数据
conn_q
result_q
数据提取进程
接受爬虫节点返回的内容,并分类输出(URL或数据)。
url_q
爬虫节点(从端)
(进程)连接上控制节点后,循环执行:1.从url_q获取URL2.下载并解析网页3.将获取的数据交给result_q
收藏
收藏
0 条评论
下一页