爬虫流程
2017-08-25 16:22:23 21 举报
爬虫编写的流程图,不涉及编程语言,静态下载
作者其他创作
大纲/内容
no
编写程序,对网页进行试爬取,找出并处理爬取过程中可能遇到的反爬虫策略,以及程序自身的稳定性问题
是否重试
结束
下载提交url后服务器返回的html页面
使用代理,伪造浏览器表头,提交登陆信息,破解反爬虫手段,多线程、分布式爬取方式
将url加入已爬url列表异常处理,告警,记录日志
将页面的有价值url加入url待爬列表
根据已爬列表更新待爬列表,从待爬取url列表中加载下一个url
对获取数据进行清洗和分析
分析目标网页的网页源码
检验是否通过
yes
待爬取列表是否为空
是否下载成功
对程序进行完善,从反爬策略突破(代理池),爬取速度(多线程,分布式),程序健壮性(异常处理机制),存储策略(文本,excel,数据库),以及爬虫程序的礼貌性(不对网站服务器造成过大压力)等方面进行优化
是否成功解码
开始
通过正则表达式等方式对页面数据筛选
根据数据格式解码
对数据进行格式化或标准化
数据有效性检验
文本
存入数据文档或数据库
是否到达数据页面
将url加入已爬列表,并处理页面文档
初始化带爬取url队列
搭建从网页源码中获取目标对象的筛选机制(常用正则匹配)
收藏
0 条评论
下一页