引擎生态系统
2018-08-17 15:35:30 1 举报
爬虫生态系统
作者其他创作
大纲/内容
缓存服务器
查询支持的城市
其它配置文件......
二种方式:1.推模式:消息发布与订阅 2.拉模式:根据版本号不同主动获取配置文件
配置中心
notifyurl或发消息进行数据回调
实时接口,如验证码,手机动态码,进行认证
http或redis获取
数据清洗,提取变量,数据存储
适配器
提供SDK方式集成
业务服务器
社保
代理IP服务器
电商
运营商
数据回流服务器
监控服务器
公积金
1.请求方式转化为引擎对应的接口2.要自由切换对应服务器
异步接口
先实时认证后异步爬虫
第三方接口
学历
redis或memcached
如已经开发的社保公积金运营商
1.页面下载,解析,代理IP切换,自带配置监控系统2.统一所有业务配置信息,集中管理
验证码识别服务器
获取登录要素
内部已实现爬虫服务器
网银
自定义插件
1.监控请求登录成功率2.监控数据是否已经爬取成功3.重新请求已失败的授权信息4.大数据分析.....................
roadster 爬虫引擎
0 条评论
下一页