BeautfulSoup4
2017-12-18 00:25:18 0 举报
AI智能生成
BeautfulSoup4 知识点概括,欢迎大家学习分享
作者其他创作
大纲/内容
解析HTML、XML、提取内容
安装
bs4
pip install beautifulsoup
解析器
标准库 html.parser
内置、稍慢、宽容度高
lxml
快、宽容度高
安装最新 pip
pip install lxml
构造解析
导入
form bs4 import BeautifulSoup
构造
soup = BeautifulSoup(html, 'lxml')
soup = BeautifulSoup(open('page.html', encoding='utf8')
对象分类
标签:bs4.element.Tag
名称: name
属性:
tag['属性名']
tag.attrs
['key']
.get['key']
可导航字符串:NavigableString
导航DOM
内容
soup.body.contents
子级
soup.body.children
后代
soup.body.descendants
上级
title.parent
下一个
soup.a.next_element
soup.a.next_sibling
前一个
soup.a.previous_sibling
搜索树
soup.find_all()
'标签'
name参数,要查找的标签名
关键字
class_=''
id = 'id'
id = True
属性
多条件 attrs={'key':'value',....}
文本string
soup.find_all('p',string=re.compile(r'sit')
限制数据
limit=值
soup.find()
soup.select('css选择器')
soup.select('p.red')
0 条评论
下一页