WebMagic流程图
2021-11-04 09:53:22 0 举报
WebMagic流程图
作者其他创作
大纲/内容
Schedule管理待抓取的网站URL
系统业务查询
PageProcessor解析页面,抽取有用信息
Pipeline抽取元数据,持久化到数据库
输入行业网站根URL,触发定时任务
内容列表与详情查询、关键字搜索
MySQL
爬虫核心组件与流程
Downloader根据URL下载页面,以便后续解析处理
定时任务
定时任务调度管理,周期性触发爬虫任务
新发现的可用URL
收藏
0 条评论
下一页