爬虫子节点流程图
2016-05-07 12:08:19 39 举报
爬虫子节点流程图(welkin)
作者其他创作
大纲/内容
将新规则更新到本地
sleep时间为node_inject_urls_sleep_time
规则库的规则是否更新?
第二队列是否为空?
随机选择搜索引擎
解析正常?
任务url中提取的host是否在规则库中
启用HttpClient抓取引擎
是
第一队列是否为空?
抽取出的url链接写入site文件下
解析抓取的网页
否
从Redis队列中获取任务
是否启用代理?
抓取引擎选择?
启用PhantomJS抓取引擎
IP代理
IP代理池
有效规则模板次数的统计放入template_useful的Redis哈希表中
抽取出舆情数据和新的url
元搜索
普通循环队列或者元搜索循环队列是否为空?
httpclient
网页URL
phantomjs
系统初始化
将解析结果放入ext_content_to_save_list_key待存储数据Redis队列
任务抓取类型?
抽取出舆情数据和对应的url
将解析结果放入ext_content_error_list_key错误数据Redis队列
0 条评论
下一页