采集架构
2023-06-09 11:05:07 3 举报
采集整体架构图
作者其他创作
大纲/内容
items
爬虫服务器B
Spiders
SpiderMiddlewares
调度器
部署平台
数据标准化:行政区域等
网站结构调整等异常对应调整采集策略
Responses
spiders
数据格式化:时间、日期、坐标
数据队列
git代码仓库
爬虫服务器A
应用
数据监控平台
提取数据
Internet
提取url
爬虫服务器Z
Downloader
Scheduler
业务清洗
mysql数据库
初步清洗
爬虫服务器Y
按分钟、小时、天、周等频率持续更新数据
发送请求
数据管道
持续导出
Item Pipline
DownloaderMiddlewares
存放url
爬虫脚本
爬虫服务器C
下载器
采集需求
评估、分析、开发
ScrapyEngine
mongo数据库
脚本调度平台
Requests
0 条评论
下一页