爬虫
2018-08-19 18:01:55 35 举报
爬虫,是一种自动化程序,主要用于在互联网上收集信息。它可以模拟人类浏览网页的行为,自动访问网页,提取网页中的数据,并将其存储在本地或数据库中。爬虫的应用非常广泛,包括搜索引擎、数据分析、舆情监控等领域。然而,爬虫也可能被用于非法目的,如窃取个人信息、攻击网站等。因此,对爬虫的使用需要遵守相关法律法规和道德规范。
作者其他创作
大纲/内容
Item URL库
mogubase
监控中心
解析
获取
淘宝 VPS队列
文件
存储
我想象中的爬虫的主件图
获取链接
爬虫爬取
网页匹配规则(淘宝、tmall)
微店 VPS队列
网页提取规则
用户填写
抓取进程池
目前我们平台的爬虫主件图
反馈
VPS资源管理
反监控管理
VPS管理
异常
在存放到mogubase
反馈机制
去各种free的代理网站爬去各种代理IP
爬取模块
调用频率
先存放到文件
0 条评论
下一页