网络爬虫与信息提取
2017-11-28 20:58:58 23 举报
AI智能生成
为你推荐
查看更多
python spider 最最基础的参考,最简单,最快的走进爬虫世界!!!
作者其他创作
大纲/内容
网络爬虫与信息提取
简单使用requests库
r.status_code
验证是否连接成功
r.encoding
从HTTP header猜测文件的编码格式
r.apparent_encoding
从内容中分析出相应内容的编码方式
r.content
响应内容的二进制形式
r.text
返回网页内容
r.raise_for_status()
在方法内部获取r.status_code是否为200
简单使用BeautifulSoup库
demo= r.text
print(soup.prettify())或者print(<tag>.prettify))
<tag>.name 或者<tag>.parent.name
<tag>.attrs或者<tag>.attrs[\"class\"]
<tag>.sting和type(<tag>.sting)
Nav是一种非属性字符串,Comment是字符串的注释部分
for child in soup.body.chirdren or descendants:/nprint(chirdren)
for sibling in soup.a.next_siblings or previous_siblings:/nprint(sibling)
详解requests库
requsets.request()
支撑以下方法的基础方法
requsets.get()
获取HTML网页的主要方法
url:拟获取页面的url链接
params:url中的额外参数
**kwargs:12个控制访问参数(均为可选项)
params:字典字节序列,作为参数增加到url
data:字典、字节或文件对象,作为Request的内容
json:JSON数据,作为Request的内容
header:字典,HTTP定制头
auth:元组,支持HTTP认证功能
files:字典类型,传输文件
timeout:设定超时时间,单位为秒
proxies:字典类型,设定访问代理服务器,可以增加登陆认证
cert:本地SSL证书路径
requsets.head()
获取HTML网页头信息
requsets.post()
向HTML网页提交POST请求
requsets.put()
向HTML网页提交PUT请求
requsets.patch()
向HTML网页提交局部修改请求
requsets.delete()
向HTML网页提交删除请求
详解BeautifulSoup库
BeautifulSoup库解析器
BeautifulSoup类的基本元素
Tag:标签,最基本的信息组织单元,分别用<>和</>开头结尾
Attributes:标签属性,字典形式组织,格式:<tag>.attrs
NavigableString:标签内非属性字符串,<>...</>中字符串,格式:<tag>.string
Comment:标签内字符串的注释部分,一种特殊的Comment类型
基于bs4库的HTML内容的遍历方法
标签树的下行遍历
.contents:子节点列表,将<tag>所有的儿子节点存入列表
.chilrden:子节点的迭代类型,与。contents类似,用于循环遍历儿子节点
.descendants:子孙节点的迭代类型,包含所有子孙节点,用于遍历循环
标签树的上行遍历
.parent:节点的父亲标签
.parents:节点先辈标签的迭代类型,用于循环遍历先辈节点
标签树的平行遍历
.next_sibling:返回按照HTML文本顺序的下一个平行节点标签
.previous_sinling:返回按照HTML文本顺序的上一个平行节点标签
.next_siblings:迭代类型,返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings:迭代类型,返回按照HTML文本顺序的前续所有平行节点标签
基于bs4库的HTML格式输出
<tag>.prettify():为HTML文本<>及内容增加“\”
0 条评论
回复 删除
下一页