分布式爬虫设计
2018-12-25 12:03:46 0 举报
分布式爬虫设计
作者其他创作
大纲/内容
随机IP代理器
parsers页面内容解析器
分库分表算法
监控告警系统,发现异常及时发送邮件通知
搜索引擎数据检索
广度搜索队列
URL调度器
定时向URL仓库写入种子URL
store数据存储器
DEPTH_QUEUE_URL_REDIS_KEY
分词检索
节点变化通知
zookeeper
深度优先搜索redis的分布式锁过期时间key
DEPTH_REDIS_LOCK_TIMEOUT
URL定时器(独立进程)
监控报警器(独立进程)
爬虫节点1(search-robot)
SearchBlog对象队列
Zookeeper监控
去重算法
爬虫节点2(search-robot)
获取队列数据
爬虫节点3(search-tobot)
深度优先搜索redis的分布式锁
DEPTH_REDIS_LOCK
spider ---node1 ---node2 ---node3
页面检索
非重复数据持久化到MySQL
邮件通知节点情况
数据持久化及创建索引
QUEUE_SEARCHBLOG_REDIS_KEY
QUEUE_URL_REDIS_KEY
从结构化数据库获取检索结果
深度优先搜索队列url
0 条评论
下一页