crawl

2015-09-11 14:40:37   9  举报





Crawl，这个词源自于爬行动物的移动方式，现在被广泛用于描述在互联网上自动或半自动地收集信息的过程。这个过程通常由一个被称为爬虫的程序完成，它会按照预设的规则和路径，访问网页并提取所需的数据。这些数据可以是文本、图片、链接等各种形式。网络爬虫在许多领域都有广泛的应用，如搜索引擎优化（SEO）、数据挖掘、网络监控等。它们可以帮助我们快速获取大量信息，提高工作效率。然而，如果没有合理的管理和控制，网络爬虫也可能对网站服务器造成过大的压力，甚至引发法律问题。因此，使用网络爬虫时需要遵守相关的法律法规和技术规范。

作者其他创作

大纲/内容

记录下该URL网页信息并写入数据库

放入undo_url队列

undo_url队列为空？

初始URL

放入error_url队列

超链接标签有效？

记录错误信息至本地日志文件

正文不为空

翻译正确

jsoup分析该URL网页段落标签正文