S04_Python_爬虫总览
2022-02-23 10:36:22 21 举报
AI智能生成
部分不合理后期会继续更新
作者其他创作
大纲/内容
可参考视频讲解
常见验证码
滑块/欢滑块补全缺口
点选字体
验证码
redis
RabbitMQ
Kafaka
消息队列(IP池/cookie池)
Spider进阶
distribute_crawler
scrap-redis
Scrapy
更加简单、轻量级,且功能强大的爬虫框架
feapder
新闻类网站提取(青南-kingname)
GEN
解决requests无法直接执行JavaScript代码的
selenium
采集静态界面较为常用
requests
采集框架
excel/csv等本地文件
mysql
MongoDB
eg: url队列/cookies
redis(采集的中间结果)
数据存储
asyncio/twisted
多进程/多线程/协程
异步并发
puppeteer/pyppeteer
2020年微软开源新一代自动化测试工具
playwright
JS加密解密逆向
动态网站
《python3网络爬虫开发实战》
公众号:进击的Coder
崔庆才
《python爬虫开发从入门到实战》
公众号:未闻Coder
谢乾坤(青南)
学习资源
字符串--string
整型数字--Number
列表--List
元组--Tuple
集合--Set
数据类型
常用模块
常用三方库
python储备点
主要用get/post
请求方式
发送请求-处理请求--返回内容
request-->response
什么是url
url链接/队列
网络协议
http和https的区别
有数据
无数据
200:成功
子主题
HTTP状态码
请求行、请求头、请求体等
headers的一部分,服务区判断访问者身份
用户代理//身份
UA(user-agent)
cookie
告诉服务器从哪个页面链接过来的
Referer防盗链
构造请求,form表单提交
HTTP请求报文
异步 JavaScript 和 XML: Asynchronous JavaScript and XML
span style=\
对部分网页更新
Ajax
西瓜代理
免费代理
代理池
阿布云
代理云
付费代理
代理
检查返回数据/数据校验
数据投毒/蜜獾数据
HTTP/HTTPS
常用三件套如下:
HTML
CSS
Javascript
jQuery AJAX
web全端
chrome
firefox
Fridder
charles
抓包工具
urllib
httpie
aIohttp
hyper(HTTP/2)
tornado
请求库
BS4-BeautifulSoup
lxml-Xpath
re(正则表达式 )
解析库
Spider_数据采集
收藏
收藏
0 条评论
回复 删除
下一页