爬虫课
2020-04-26 16:50:38 0 举报
AI智能生成
爬虫课
作者其他创作
大纲/内容
软件安装和环境准备
安装软件
1、安装包:0代码爬虫课程资料-02安装文件
2、安装chrome浏览器
3、安装webscraper
打开浏览器
点击右上角“三个竖点”
找到【更多工具】--【扩展程序】
翻墙
右上角打开『开发者模式』
选择「加载已解压的扩展程序」
双击【插件安装包】,选择0.4.2这个文件夹
点击chrome应用商店
在搜索框查找“web scraper”
选择[蓝色的蜘蛛网]这个,添加至chrome
4、插件调出使用
快捷键调出
a、按F12
b、快捷键control+shift+i
c、空白处点击右键-选择检查
在屏幕的右侧显示的时候
需要将页面调整到下面
分支主题
分支主题
创建简单爬虫
使用【Create new sitemap】这个条件
点击Create sitemap
Sitemap name
给你的爬虫取个名字
Start URL
选择你要爬虫的网页地址(链接)
点击Create sitemap创建
创建好了之后,添加搜索条件【Add new selector】
id:给选择器起名字
type:默认test
selector
选择select
用鼠标去选择网页中的元素,比如说名字
选择【done seecting】,落下去
勾选: multple
该网页中同类型的全部获取
点击:save selector生成
开始爬
点击Sietmap下面的Scrape
数字栏
分支主题
嵌套与Element
type:选择【Element】
选择其中的一个框栏
分支主题
勾选multple
选择栏里面的内容的话
需要在这个里面创建new selector
这里面就不用勾选mulple了
实现爬取数据的完美排序
课程第10节,安装一个插件
再爬的时候就能实现和打开的网址内容顺序一样的内容了
多页面爬取方式
多页抓取和间隔设置
多页爬取
观察每页的链接变化
有规律了,就在root根目录下URL中添加page[1-n]的内容
间隔设置(每秒)
Request Interval
(ms)
请求延迟
Page load selay
(ms)
页面加载延迟--看自己的网速情况
每个网站都有反爬虫机制,设置爬虫间隔就是为了能够延迟浏览,像真人在看网页,而不是机器人在获取数据
特殊情况下的多页爬取
Element click
在爬取多个页面的时候选择这个功能:例,1 2 3 下一页(有页码)
click type
选择下方翻页的 2 3 4,直到选中全部
delay
翻下一页的时间
多页爬取的情况下,修改URL的多页爬取条件
没有页码的分页
【下一页】的情况
只有一个元素,这个元素要点击多次
【加载更多】的情况
神秘代码:『:nth-of-type(-n+X)』--- 强制停止代码
把神秘代码复制过来,修改X的值就可以了(爬多少条,改成多少条)
分支主题
滚动加载的页面如何爬取
Element scroll down
向下滚动功能
总结
方式一:
网址有变化
有规律:page[1-n]
寻找规律:【x-y,z】
豆瓣
方式二:
多换页按钮
使用:Element Click
在这个页面里面,把每个1 2 3 4都点一遍
分支主题
方式三:
单 换页按钮(加载更多)
使用:Element Click
分支主题
方式四:
向下滚动
分支主题
爬取数据-停止的方法
神秘代码:『:nth-of-type(-n+X)』--- 强制停止代码
适用于方法3、4 没有最后一页的情况
多种方法结合使用的方式
见课程8后半截
表格、图片和链接的爬取
表格爬取
type中选择table
选择表格
勾选multple
在爬取时会经常出现的问题
1、汉字有时候不能识别,需要改成英文或拼音的形式,下载下来后再改过来
2、表格有些数据不能完全爬下来
图片爬取
type中选择image
选择图片
勾选multple
图片爬取
1、图片不能被直接下载下来,生成的是图片的下载链接
2、用迅雷批量下载图片链接
链接爬取
type中选择link
二级页面的数据爬取
在一级页面下建立web scraper
选中内容
爬取多页面
点击进入二级页面
建立自子目录
添加爬取内容【Add new selector】
分支主题
0 条评论
下一页