爬虫(Scrapy)基本运行机制
2018-05-14 19:59:17 0 举报
Scrapy
作者其他创作
大纲/内容
连接远程服务器
调度器(Scheduler)
下载器(Downloader)
把Response拿给爬虫(Spiders)解析
启动爬虫
爬虫(Spiders)
Request
URL封装成Request
远程服务器
返回URL
项目管道(Pipline)
1. 启动爬虫 2. 爬虫向引擎发请求 3. 引擎向调度器发请求,调度器给引擎返回URL 4. 引擎把返回的URL封装成Request给下载器 5. 下载器连接远程服务器去下载资源,封装成Response 6. 爬虫从下载器拿到资源(Response),进行解析 7. 解析成URL,则交给调度器等待后续抓取 8. 解析成实体(item),则交给 Pipline 进行数据处理
解析为URL的话再交给Scheduler等待后续抓取
下载资源封装成Response
引擎(Scrapy Engine)
解析为实体(Item)的话把内容给Pipline
0 条评论
下一页