爬虫流程
2018-05-02 16:07:06 80 举报
分布式爬虫流程设计
作者其他创作
大纲/内容
获取任务
继续选择下一条url
将该任务的爬虫配置一起写入任务队列
调度中心
配置分页规则
批量导入url
网站信息配置
数据正常
获取爬虫配置
输入种子url
获取初始任务
根据布隆过滤器对url去重
分类统计
临时任务
报表
url任务队列
爬虫进程
将该url更新到布隆过滤器
对网页分类,打标签
应用前端
数据检索
对于特定栏目,如提案,需要完善某些字段的提取规则,如:提案人、标题、内容、承办单位、回复状态、提案类型、是否公开、浏览次数、评论次数、
根据种子url以及分页规则,获取每一页的url列表
返回数据队列
异常
布隆过滤器
根据该任务的爬虫配置抓取数据
将异常数据写入数据库,供后续分析
可视化管理页面
异常任务队列
是
对初始url格式化
根据解析规则解析内容
判断url是否已经采集
正常
网站内容解析规则配置
否
list url 解析规则
数据解析
数据清洗
爬虫配置
任务队列
存储
0 条评论
下一页