新手爬虫学习
2024-03-04 10:59:12 0 举报
AI智能生成
新手爬虫学习
作者其他创作
大纲/内容
输入网址、发出HTTP请求
DNS服务器→服务器主机
DNS解析
将HTML、CSS、JS发送到用户浏览器
浏览器展示
流程
HTML
CSS
JavaScript
网页
网页浏览
超文本传输协议
GET:请求获取资源信息
HEAD:请求获取资源头部信息
POST:请求附加新数据
PUT:请求上传数据并覆盖原资源
PATCH:请求局部更新资源
DELETE:请求删除资源
资源请求方式
HTTP
统一资源定位符
HTTP:超文本传输协议
HTTPS:安全超文本传输协议
协议/服务形式
host[:port]
域名/IP地址(端口号)
PATH
路径/具体地址
格式
URL
XML(可拓展性好)
JSON(简洁,适合程序处理)
YAML(可读性好,信息比例高)
信息标记
Robots协议
网络基础
BeautifulSoup
NavigableString
Tag
Comment
对象
解析、遍历、搜索文档树
HTML解析库
检验字符串是否匹配相应模式
re.match()
re.search()
re.compile()
re.sub()
re.findall()
re.spilt()
常用方法
修饰符
常用模式
正则表达式(re)
解析库
爬虫框架,并非函数功能库
“5+2”结构
Request对象
Response对象
Item对象
数据类型
Scrapy
python基本语法
python环境配置
python基础知识
.get()
.head()
.post()
.put()
.patch()
.delete()
衍生方法
.request()
构造Requests对象:向目标网站发送一个请求(和数据)
返回Response对象
基本方法
Timeout:请求url超时
ConnectTimeout:连接远程服务器超时
超时异常
TooManyRedirects:超过最大重定向次数
重定向异常
ConnectionError
网络连接异常
HTTPError
HTTP错误异常
URLRequired
URL缺失异常
异常处理
Requests
HTTP请求库(标准库)
.request 请求模块
.error 异常处理模块
.parse url解析模块
.robotparser robots.txt解析模块
子模块
urllib
请求库
新手爬虫学习
0 条评论
回复 删除
下一页