GSC爬虫流程图
2024-08-19 18:01:45 3 举报
GSC爬虫流程图
作者其他创作
大纲/内容
将失败爬取中的候选URL,种子集合,进行3次重复尝试爬取
成功后抽取新闻信息。通过正则来抽取新闻标题、摘要、发布时间。
成功
将已经成功爬取过的URL持久化到数据库中。
根据传入的参数,判断是否要存储网页源代码,需要就存入数据库中。
失败
将成功爬取并解析的,加入的已爬取的集合中,避免重复爬取。然后将爬取的内容数据转换成json,实例化到文件中
循环3次
新闻内容抽取,是通过org.htmlparser来对html分段, 将分段的内容解析,抽取,过滤;然后根据分段抽取内容的大小来判定那个真正是内容。
将失败爬取中的候选URL、种子,持久化到数据库或者文件中
爬取失败添加到失败候选URL集合中
将URL生成MD5,然后根据URL生成的MD5,将新的新闻插入到数据库中。
判断是否爬取成功
新闻分析
爬取成功后,抽取种子链接中的url,加入候选URL集合中
遍历种子集合
结束
初始化种子文件中的种子链接,到种子集合中;从数据库初始化以爬取过的URL链接。
爬取失败添加到失败种子集合中
开始爬取候选URL
0 条评论
下一页