登录免费注册

首页  流程图  详情

Amazon Spider

2015-10-25 16:00:00   2  举报





Amazon Spider，又称为亚马逊蜘蛛或亚马逊网络爬虫，是亚马逊网站用于自动搜索和索引网页内容的程序。它通过跟踪网页上的链接，不断发现新的网页并收集相关信息，以便为用户提供更准确、更丰富的搜索结果。Amazon Spider在互联网中广泛存在，它们帮助维护了整个亚马逊网站的内容更新和搜索引擎的高效运行。同时，由于其强大的爬取能力，Amazon Spider也被广泛应用于网络营销和数据挖掘等领域。

作者其他创作

大纲/内容

每5万条ID分为一组

是

否

输出到part?-result.txt

开始

发送成功？

结束

发现ItemTitle信息

读入part?-ok.txt

再次发送

输出不重复的产品ID列表到unique-pid.txt

读取unique-pid.txt

返回查询太频繁？

发送API请求到亚马逊服务器

输出产品ID到pid.txt

此pid加入invalidIDs

确定当前线程号，以?表示

保存invalidIDs到part?-invalid.txt

此pid加入successIDs

extract-pid.py

抽取所有产品ID

fetch-info.py

读取完毕?

读取pid.txt

解析返回XML

保存successIDs到part?-ok.txt

把所有pid加到successIDs集合中

多线程

读取part?.txt一行

remove-duplicate-pids.py

结束或重新开始

是，则跳过

静待2秒

对产品ID去重（放入set）

准备API请求

split-pid.py

请求结果正常？

读取movies.txt

读入part?-invalid.txt

当前pid是否出现在successIDs或invalidIDs中

把所有pid加入invalidIDs集合中

 收藏

立即使用

职业：暂无













评论

0 条评论

下一页

为你推荐

查看更多



Web Analytics of Amazon

Web Analytics of Amazon

网络赚钱Amazon Affiliate

网络赚钱Amazon Affiliate

spider 抓取流程

FarFetch&Amazon业务逻辑

FarFetch&Amazon业务逻辑