JAVA 分布式 爬虫架构
2023-06-12 15:57:18 0 举报
JAVA分布式爬虫整体架构,可落地
作者其他创作
大纲/内容
Spider
Scraja-redisEngine
...
Internet
HTTP
Processor
Selector
Listener
SpiderMiddlewares
JSON
Push Datum
Push Item
Proxy
Scraja-redis 主要组件 1: Engine(引擎), 主要整合整个系统的模块组件,触发数据流处理流程 2: Scheduler(调度器),主要负责和队列进行交互,接受引擎发过来的数据请求,制定优先级把数据推送到队列中,接收通知消息根据优先级从队列取出数据进行数据处理 3: Downloader(下载器),主要负责从互联网下载网页(接口)内容, 对内容进行处理,将处理后内容信息交给转发器 4: Dispatcher(转发器),主要负责根据URL匹配出符合条件的蜘蛛进行内容解析, 并根据正则匹配出URL交由Scheduler(调度器)放入队列font color=\"#323232\
DispatcherMiddlewares
Dispatcher
SchedulerMiddlewares
Page
DownloaderMiddlewares
Item
XPath
Jsoup
Datum Requset
Scheduler
SOCKS
Push Datum/Item
Visitor Method
TimesLimitFilter
Downloader
DuplicationFilter
Page Response
Filter
DatumListener
Pull Datum/Item
Pipeline
ItemListener
0 条评论
下一页