通用爬虫集群架构
2020-10-10 10:04:28 0 举报
通用爬虫架构(求赞)
作者其他创作
大纲/内容
状态
外部应用1
Kafka组件
爬虫D
JSON 数据
爬虫C
外部应用3
Redis组件
数据处理
数据交换主题
抓取队列
爬虫B
自定义插件
优先级 100
爬虫F
D
数据信息
B
数据抓取
Rest 网关
爬虫A
Kafka
C
内部调试
E
Rest网关
Redis存储
数据入站主题
启动/停止
debug主题
机器1
外部应用2
种子链接
响应请求
/poll
G
A
F
输出
优先级 90
请求
爬虫E
响应
机器3
验证请求合法性
机器2
优先级 70
超时过滤
数据导出主题
优先级 80
/feed
0 条评论
下一页