Python爬虫
2018-04-11 16:58:22 118 举报
AI智能生成
python爬虫知识点梳理
作者其他创作
大纲/内容
爬虫进阶
图片验证
Tensorflow
Tesseract(不推荐)
Bloom Filter
MQ(消息队列)
RabbitMQ
Reids
ZeroMQ
Kafka
任务调度
Celery
rq
huey
爬虫框架
Scrapy
distribute_crawler
scrapy-redis
Pyspider
brownant
you-get
存储
MongoDB
MySQL
Reids(爬取的中间结果)
SQLite
异步编程
asyncio
Twisted(optional)
Tomorrow
并发编程
多线程
多进程
进程池/线程池
concurrent.futures
动态网站
Selenium
Phantonmjs
HTTP
请求方式GET,POST,PUT...
HTTP状态码
HTTP请求头
cookie
身份验证
Ajax
代理
HTTPS
web服务器
RESTful API
json
web前端
HTML
CSS
javescript
jQuery
抓包工具
chrome
Firefox
Fiddler
charles
JSONView
请求库
requests
urllib
httpie
curl(不推荐)
alohttp
hyper(HTTP/2)
tornado
解析库
BeautifulSoup
lxml
Xpath
re(正则表达式)
0 条评论
下一页