爬虫爬取并处理网页的流程图
2022-04-13 12:50:46 2 举报
爬取大学排名
作者其他创作
大纲/内容
ulist.append
遍历列表,是否到了列表尾
Insert语句
将列表数据保存到CSV文件中
将td标签内容加入到tds列表中
内容页
URL属于内容页content_urls
存放到文件中
soup.find(\"tbody\").children
从网页中提取链接插入待爬URL队列中
是
否
结束
将列表数据保存到数据库中
列表数据
是否有异常
提交事务
取一个URL进行处理
查找tbody的子标签
中国大学排名定向爬虫
网页header
将爬取的信息放在列表中
html.parser解析器
中国大学排名网站
tr.find_all('td')
requests.get(url)
URL属于入口页scan_urls
获取URL对应的网页
开始爬取
URL属于列表页list_urls
列表页
解析网页信息
0 条评论
下一页