爬虫主节点流程图
2016-05-12 10:26:32 44 举报
爬虫主节点流程图(welkin)
作者其他创作
大纲/内容
是否与Redis ext_content_rule_key中存储的规则一致?
任务抓取类型?
否
更新
缓存数据处理线程开启(DaemonThread4SaveCacheData)
URL种子文件或者临时URL任务
把circleVisitUrls队列的任务取出放入Redis的task_circle_todo或者task_circle_keyword_todo队列
规则库守护线程开启(DaemonThread4UpdateRuleKey)
key为:bloom_to_do_task_key和bloom_done_task_key
系统初始化
是
遍历List将所有的任务放入Redis task_todo第一队列
初始化布隆过滤器toDoTaskBloom和doneTaskBloom
初始化circleVisitUrls队列
打印日志信息,不存储
将解析结果从ext_content_to_save_list_key待存储数据Redis队列取出
将此任务的url放入toDoTaskBloom布隆中
该任务是否为循环任务?
网页URL
把toVisitUrls队列的任务取出放入Redis的task_todo_level_2第二队列
读取rules文件夹下规则内容
Redis服务(缓存和MQ)
更新Redis缓存中的规则
存储入库ES
元搜索
不存储
将此url添加到doneTaskBloom布隆过滤器
url是否在toDoTaskBloom或doneTaskBloom布隆中?
规则库中是否包含任务url的host?
key为:task_circle
将此url写入url_not_in_rulekey文件夹下
将解析出来待抓的url任务加入toVisitUrls队列
将要存储数据的url写入save_url文件夹下
规则库中是否包含解析出的url的host
将此任务添加到circleVisitUrls队列中
统计各种任务的数量
爬虫数据入库线程开启(DaemonThread4SaveCrawlData)
sleep时间为ext_content_load_seeds_sleep
IO工具类读取文件并转换为taskPojo的List
0 条评论
下一页