crawl
2015-09-11 14:40:37 7 举报
Crawl,这个词源自于爬行动物的移动方式,现在被广泛用于描述在互联网上自动或半自动地收集信息的过程。这个过程通常由一个被称为爬虫的程序完成,它会按照预设的规则和路径,访问网页并提取所需的数据。这些数据可以是文本、图片、链接等各种形式。 网络爬虫在许多领域都有广泛的应用,如搜索引擎优化(SEO)、数据挖掘、网络监控等。它们可以帮助我们快速获取大量信息,提高工作效率。然而,如果没有合理的管理和控制,网络爬虫也可能对网站服务器造成过大的压力,甚至引发法律问题。因此,使用网络爬虫时需要遵守相关的法律法规和技术规范。
作者其他创作
大纲/内容
Y
N
记录下该URL网页信息并写入数据库
放入undo_url队列
undo_url队列为空?
初始URL
放入error_url队列
超链接标签有效?
记录错误信息至本地日志文件
正文不为空
翻译正确
jsoup分析该URL网页段落标签正文
调用相应翻译接口测试翻译内容
结束
将所有超链接标签放入undo_url队列
取出队列第一个url
将已经分析完的这个url放入done_url队列
取出该URL页面内的所有超链接标签内容
0 条评论
下一页