分布式爬虫设计 分布式 爬虫 redis
2021-02-02 20:23:19 71 举报
得到的
作者其他创作
大纲/内容
业务数据存储/近6个月
parsers页面内容解析器
搜索引擎数据检索
URL调度器
随机IP代理池
节点变化通知
store数据存储器
zookeeper
爬虫节点1(search-robot)
过滤器
爬虫种子仓库
爬虫节点2(search-robot)
语义分析
Zookeeper监控
spider ---node1 ---node2 ---nodeN
视频处理
HDFS存储文字/图片/音频/视频
监控告警系统,发现异常及时发送邮件通知
定时向URL仓库写入种子URL
spark/strom
音频处理
图片处理
URL定时器(独立进程)
监控报警器(独立进程)
Hadoop集群
爬虫节点n(search-tobot)
全文检索/全量数据
缓存数据
邮件/短信通知节点情况
页面检索
收藏
0 条评论
下一页