列表页爬虫架构
2018-01-19 17:06:13 1 举报
列表页爬虫架构
作者其他创作
大纲/内容
是
simiAgent
验证格式是否正确
接收返回的数据
退出
将URL放入request中
保存失败的HTML文档
列表页爬虫
读取配置文件
本地文件系统
request队列是否为空
否
配置文件
启动
保存成功的HTML文档
列表页数据库表
向服务器发出request请求
提取需要的数据
0 条评论
下一页