Spider 项目基础架构
2017-11-14 08:19:21 0 举报
Spider 项目基础架构
作者其他创作
大纲/内容
Spider - UI控制界面
通过消息队列插入未验证的代理
【爬虫】从【代理服务器】获取有效代理
【控制界面】用于1. 控制 K8s 启动服务2. 启动爬虫任务3. 处理代理结果并继续发起任务4. 导入未验证的代理5. 命令代理获取器验证代理
通过消息队列控制爬虫抓取数据
Spider - API服务器
代理云
服务启动流程1. 【控制界面】请求【Spider - API】检索项目需要启动的容器名称2. 【控制界面】设置任务参数并命令Api启动服务3. 当任务结束时,通过【控制界面】的“服务列表”关闭容器
使用【代理获取器】获取到的代理发起请求
代理获取器
爬虫任务流程1. 【控制界面】发起任务2. 【Spider-Api】分配任务给爬虫云3. 【爬虫云】通过代理完成任务并回复Api
代理验证流程1. 【控制界面】插入未验证的代理2. 【Spider-Api】分配任务给代理获取器3. 【代理获取器】验证并保存有效的代理4. 当【爬虫云】需要代理时,选择较优的代理返回
爬虫云
Spider - CLI命令行控制界面
Spider 项目基础架构
0 条评论
下一页