Python爬虫
2020-06-12 21:46:12 39 举报
AI智能生成
爬虫笔记
作者其他创作
大纲/内容
Request库
Response对象属性
r.status_code
r.text
r.encoding && r.apparent_encoding
r.content
爬取网页的通用代码框架
Requests库的异常
r.raise_for_status()
Http协议及Requests库的方法
http协议
http协议对资源的操作
Requests库的方法
7个主要方法
13个控制参数
params
data
json
headers
cookies && auth
file
timeout
proxies
其他高级参数
实战
京东商品页面爬取
亚马逊商品页面爬取
百度搜索
网络图片的爬取与存储
ip地址归属地的自动查询
Robots协议
Beautiful Soup
4种解析器
5种基本元素
HTML遍历方法
下行遍历
上行遍历
平行遍历
信息标记
xml
json
yaml
HTMl格式化和编码
prettrify
编码默认:utf_8
HTML内容查找方法
<>find_all()
实战
中国大学排名定向爬虫
正则表达式(re)
主要功能函数
serach
match
findall
split
finditer
sub
Match对象
贪婪匹配与最小匹配
实战
淘宝商品信息定向爬虫
股票数据定向爬虫
0 条评论
下一页