爬虫执行流程

2016-04-27 15:18:51   2  举报





爬虫执行流程通常包括以下步骤：首先，爬虫程序通过HTTP请求获取网页的HTML代码。接着，它解析HTML代码，提取出所需的数据和链接。然后，爬虫程序根据提取到的链接继续发起新的请求，重复上述过程。在爬取过程中，为了避免被网站封禁，爬虫程序需要设置一定的策略，如设置访问频率、使用代理IP等。最后，爬取到的数据可以存储到数据库或文件中，供后续分析和处理。总之，爬虫执行流程是一个循环往复的过程，通过不断地爬取网页并提取所需信息来实现对网络数据的抓取。

作者其他创作

大纲/内容

将商品下架

价格是否改变

遍历当前渠道系统内已有的商品页面

遍历渠道商网站的商品列表页

标记为近期发生价格改变

跳过

是否是已知商品

商品页面是否存在

爬取商品信息

入库并标记为待审核状态