Amazon Spider
2015-10-25 16:00:00 2 举报
Amazon Spider,又称为亚马逊蜘蛛或亚马逊网络爬虫,是亚马逊网站用于自动搜索和索引网页内容的程序。它通过跟踪网页上的链接,不断发现新的网页并收集相关信息,以便为用户提供更准确、更丰富的搜索结果。Amazon Spider在互联网中广泛存在,它们帮助维护了整个亚马逊网站的内容更新和搜索引擎的高效运行。同时,由于其强大的爬取能力,Amazon Spider也被广泛应用于网络营销和数据挖掘等领域。
作者其他创作
大纲/内容
每5万条ID分为一组
是
否
输出到part?-result.txt
开始
发送成功?
结束
发现ItemTitle信息
读入part?-ok.txt
再次发送
输出不重复的产品ID列表到unique-pid.txt
读取unique-pid.txt
返回查询太频繁?
发送API请求到亚马逊服务器
输出产品ID到pid.txt
此pid加入invalidIDs
确定当前线程号,以?表示
保存invalidIDs到part?-invalid.txt
此pid加入successIDs
extract-pid.py
抽取所有产品ID
fetch-info.py
读取完毕?
读取pid.txt
解析返回XML
保存successIDs到part?-ok.txt
把所有pid加到successIDs集合中
多线程
读取part?.txt一行
remove-duplicate-pids.py
结束或重新开始
是,则跳过
静待2秒
对产品ID去重(放入set)
准备API请求
split-pid.py
请求结果正常?
读取movies.txt
读入part?-invalid.txt
当前pid是否出现在successIDs或invalidIDs中
把所有pid加入invalidIDs集合中
收藏
0 条评论
下一页