爬虫

2017-04-16 12:54:23   0  举报





仅支持查看

爬虫，又称为网络爬虫或者网页蜘蛛，是一种自动访问互联网并从目标网站获取信息的程序。它通过模拟用户浏览行为，按照一定的规则和策略，在互联网上进行大规模的数据采集和整理。爬虫的主要任务是抓取网页内容，包括文本、图片、视频等多种形式的数据。通过对这些数据的分析，可以为搜索引擎、数据分析、舆情监控等领域提供有价值的信息。然而，爬虫在采集数据的过程中可能涉及到侵犯用户隐私、违反网站规定等问题，因此在使用爬虫技术时需要遵循相关法律法规和道德规范。

作者其他创作

大纲/内容

HMM

piABtrainSet

UserService

addUser(User u)validate(User u)

HtmlProcessor

processeHtml(String html)extrLinks(String html)

DataExtractor

extrData(String html)

IndexService

reIndex()query(String str)query(QueryParam param)