首页  流程图  详情

爬虫（Scrapy）基本运行机制

2018-05-14 19:59:17   0  举报





仅支持查看

Scrapy

爬虫基本运行机制（Scrapy）

作者其他创作

大纲/内容

连接远程服务器

调度器（Scheduler）

下载器（Downloader）

把Response拿给爬虫(Spiders)解析

启动爬虫

爬虫（Spiders）

Request

URL封装成Request

远程服务器

返回URL

项目管道（Pipline）

1. 启动爬虫 2. 爬虫向引擎发请求 3. 引擎向调度器发请求，调度器给引擎返回URL 4. 引擎把返回的URL封装成Request给下载器 5. 下载器连接远程服务器去下载资源，封装成Response 6. 爬虫从下载器拿到资源（Response），进行解析 7. 解析成URL，则交给调度器等待后续抓取 8. 解析成实体（item），则交给 Pipline 进行数据处理

解析为URL的话再交给Scheduler等待后续抓取

下载资源封装成Response

引擎（Scrapy Engine）

解析为实体(Item)的话把内容给Pipline