新手 爬虫 学习
2020-01-14 10:44:42 54 举报
AI智能生成
思维导图
作者其他创作
大纲/内容
新手爬虫学习
网络基础
网页浏览
流程
输入网址、发出HTTP请求
DNS服务器→服务器主机
DNS解析
将HTML、CSS、JS发送到用户浏览器
浏览器展示
网页
HTML
CSS
JavaScript
HTTP
超文本传输协议
资源请求方式
GET:请求获取资源信息
HEAD:请求获取资源头部信息
POST:请求附加新数据
PUT:请求上传数据并覆盖原资源
PATCH:请求局部更新资源
DELETE:请求删除资源
URL
统一资源定位符
格式
协议/服务形式
HTTP:超文本传输协议
HTTPS:安全超文本传输协议
域名/IP地址(端口号)
host[:port]
路径/具体地址
PATH
信息标记
XML(可拓展性好)
JSON(简洁,适合程序处理)
YAML(可读性好,信息比例高)
Robots协议
解析库
BeautifulSoup
对象
NavigableString
Tag
Comment
HTML解析库
解析、遍历、搜索文档树
正则表达式(re)
检验字符串是否匹配相应模式
常用方法
re.match()
re.search()
re.compile()
re.sub()
re.findall()
re.spilt()
修饰符
常用模式
Scrapy
爬虫框架,并非函数功能库
“5+2”结构
数据类型
Request对象
Response对象
Item对象
python基础知识
python基本语法
python环境配置
请求库
Requests
基本方法
.request()
衍生方法
.get()
.head()
.post()
.put()
.patch()
.delete()
构造Requests对象:向目标网站发送一个请求(和数据)
返回Response对象
异常处理
超时异常
Timeout:请求url超时
ConnectTimeout:连接远程服务器超时
重定向异常
TooManyRedirects:超过最大重定向次数
网络连接异常
ConnectionError
HTTP错误异常
HTTPError
URL缺失异常
URLRequired
urllib
HTTP请求库(标准库)
子模块
.request 请求模块
.error 异常处理模块
.parse url解析模块
.robotparser robots.txt解析模块
0 条评论
回复 删除
下一页