首页  思维导图  详情

爬虫课

2020-04-26 16:50:38   0  举报





AI智能生成

爬虫课

学习笔记

作者其他创作

大纲/内容

软件安装和环境准备

安装软件

1、安装包：0代码爬虫课程资料-02安装文件

2、安装chrome浏览器

3、安装webscraper

打开浏览器

点击右上角“三个竖点”

找到【更多工具】--【扩展程序】

翻墙

右上角打开『开发者模式』

选择「加载已解压的扩展程序」

双击【插件安装包】，选择0.4.2这个文件夹

点击chrome应用商店

在搜索框查找“web scraper”

选择[蓝色的蜘蛛网]这个，添加至chrome

4、插件调出使用

快捷键调出

a、按F12

b、快捷键control+shift+i

c、空白处点击右键-选择检查

在屏幕的右侧显示的时候

需要将页面调整到下面

分支主题

创建简单爬虫

使用【Create new sitemap】这个条件

点击Create sitemap

Sitemap name

给你的爬虫取个名字

Start URL

选择你要爬虫的网页地址（链接）

点击Create sitemap创建

创建好了之后，添加搜索条件【Add new selector】

id：给选择器起名字

type：默认test

selector

选择select

用鼠标去选择网页中的元素，比如说名字

选择【done seecting】，落下去

勾选： multple

该网页中同类型的全部获取

点击：save selector生成

开始爬

点击Sietmap下面的Scrape

数字栏

分支主题

嵌套与Element

type：选择【Element】

选择其中的一个框栏

分支主题

勾选multple

选择栏里面的内容的话

需要在这个里面创建new selector

这里面就不用勾选mulple了

实现爬取数据的完美排序

课程第10节，安装一个插件

再爬的时候就能实现和打开的网址内容顺序一样的内容了

多页面爬取方式

多页抓取和间隔设置

多页爬取

观察每页的链接变化

有规律了，就在root根目录下URL中添加page[1-n]的内容

间隔设置（每秒）

Request Interval （ms）

请求延迟

Page load selay （ms）

页面加载延迟--看自己的网速情况

每个网站都有反爬虫机制，设置爬虫间隔就是为了能够延迟浏览，像真人在看网页，而不是机器人在获取数据

特殊情况下的多页爬取

Element click

在爬取多个页面的时候选择这个功能：例，1 2 3 下一页（有页码）

click type

选择下方翻页的 2 3 4，直到选中全部

delay

翻下一页的时间

多页爬取的情况下，修改URL的多页爬取条件

没有页码的分页

【下一页】的情况

只有一个元素，这个元素要点击多次

【加载更多】的情况

神秘代码：『：nth-of-type(-n+X)』--- 强制停止代码

把神秘代码复制过来，修改X的值就可以了（爬多少条，改成多少条）

分支主题

滚动加载的页面如何爬取

Element scroll down

向下滚动功能

总结

方式一：

网址有变化

有规律：page[1-n]

寻找规律：【x-y,z】

豆瓣

方式二：

多换页按钮

使用：Element Click

在这个页面里面，把每个1 2 3 4都点一遍

分支主题

方式三：

单换页按钮（加载更多）

使用：Element Click

分支主题

方式四：

向下滚动

分支主题

爬取数据-停止的方法

神秘代码：『：nth-of-type(-n+X)』--- 强制停止代码

适用于方法3、4 没有最后一页的情况

多种方法结合使用的方式

见课程8后半截

表格、图片和链接的爬取

表格爬取

type中选择table

选择表格

勾选multple

在爬取时会经常出现的问题

1、汉字有时候不能识别，需要改成英文或拼音的形式，下载下来后再改过来

2、表格有些数据不能完全爬下来

图片爬取

type中选择image

选择图片

勾选multple

图片爬取

1、图片不能被直接下载下来，生成的是图片的下载链接

2、用迅雷批量下载图片链接

链接爬取

type中选择link

二级页面的数据爬取

在一级页面下建立web scraper

选中内容

爬取多页面

点击进入二级页面

建立自子目录

添加爬取内容【Add new selector】

分支主题

 收藏

立即使用

五环策划表

 收藏

立即使用

商业思维

 收藏

立即使用

爬虫课

 收藏

立即使用

时间线时间轴鱼骨图进度图大事记

Tuesday🌾🌵

职业：本科

去主页





0 条评论

下一页

为你推荐

查看更多

