登录免费注册

首页  流程图  详情

GSC爬虫流程图

2024-08-19 18:01:45   4  举报





GSC爬虫流程图

java

作者其他创作

大纲/内容

将失败爬取中的候选URL，种子集合，进行3次重复尝试爬取

成功后抽取新闻信息。通过正则来抽取新闻标题、摘要、发布时间。

成功

将已经成功爬取过的URL持久化到数据库中。

根据传入的参数，判断是否要存储网页源代码，需要就存入数据库中。

失败

将成功爬取并解析的，加入的已爬取的集合中，避免重复爬取。然后将爬取的内容数据转换成json，实例化到文件中

循环3次

新闻内容抽取，是通过org.htmlparser来对html分段，将分段的内容解析，抽取，过滤；然后根据分段抽取内容的大小来判定那个真正是内容。

将失败爬取中的候选URL、种子，持久化到数据库或者文件中

爬取失败添加到失败候选URL集合中

将URL生成MD5，然后根据URL生成的MD5，将新的新闻插入到数据库中。

判断是否爬取成功

新闻分析

爬取成功后，抽取种子链接中的url，加入候选URL集合中

遍历种子集合

结束

初始化种子文件中的种子链接，到种子集合中；从数据库初始化以爬取过的URL链接。

爬取失败添加到失败种子集合中

开始爬取候选URL

 收藏

立即使用

GSC爬虫流程图

职业：暂无













评论

0 条评论

下一页

为你推荐

查看更多



反爬虫架构

订货流程图

金马甲流程图

业务流程图

play()函数流程图