首页  流程图  详情

爬虫流程

2017-08-25 16:22:23   21  举报





爬虫编写的流程图，不涉及编程语言，静态下载

爬虫流程

作者其他创作

大纲/内容

编写程序，对网页进行试爬取，找出并处理爬取过程中可能遇到的反爬虫策略，以及程序自身的稳定性问题

是否重试

结束

下载提交url后服务器返回的html页面

使用代理，伪造浏览器表头，提交登陆信息，破解反爬虫手段，多线程、分布式爬取方式

将url加入已爬url列表异常处理，告警，记录日志

将页面的有价值url加入url待爬列表

根据已爬列表更新待爬列表，从待爬取url列表中加载下一个url

对获取数据进行清洗和分析

分析目标网页的网页源码

检验是否通过

yes

待爬取列表是否为空

是否下载成功

对程序进行完善，从反爬策略突破（代理池），爬取速度（多线程，分布式），程序健壮性（异常处理机制），存储策略（文本，excel，数据库），以及爬虫程序的礼貌性（不对网站服务器造成过大压力）等方面进行优化

是否成功解码

开始

通过正则表达式等方式对页面数据筛选

根据数据格式解码

对数据进行格式化或标准化

数据有效性检验

文本

存入数据文档或数据库

是否到达数据页面

将url加入已爬列表，并处理页面文档

初始化带爬取url队列

搭建从网页源码中获取目标对象的筛选机制（常用正则匹配）

 收藏

立即使用

爬虫流程

Peanut_Butter

职业：硕士

去主页





0 条评论

下一页

为你推荐

查看更多



反爬虫架构