爬虫
2017-04-16 12:54:23 0 举报
爬虫,又称为网络爬虫或者网页蜘蛛,是一种自动访问互联网并从目标网站获取信息的程序。它通过模拟用户浏览行为,按照一定的规则和策略,在互联网上进行大规模的数据采集和整理。爬虫的主要任务是抓取网页内容,包括文本、图片、视频等多种形式的数据。通过对这些数据的分析,可以为搜索引擎、数据分析、舆情监控等领域提供有价值的信息。然而,爬虫在采集数据的过程中可能涉及到侵犯用户隐私、违反网站规定等问题,因此在使用爬虫技术时需要遵循相关法律法规和道德规范。
作者其他创作
大纲/内容
HMM
piABtrainSet
UserService
addUser(User u)validate(User u)
HtmlProcessor
processeHtml(String html)extrLinks(String html)
DataExtractor
extrData(String html)
IndexService
reIndex()query(String str)query(QueryParam param)
Downloader
downloadData(String url)
NlpHandler
preProcesse()splitWord()perNer()locNer()orgNer()lawNer()getRelation()
MyCrawer
Downloader downHtmlProcessor processor
craw()
0 条评论
下一页