爬虫基础知识
2018-12-11 11:16:37 0 举报
AI智能生成
爬虫基础知识架构图
作者其他创作
大纲/内容
定义: 爬虫又叫 网络爬虫 网页蜘蛛 网络机器人 等
搜索引擎,就是网络爬虫的应用者
分类: 通用爬虫 和 聚焦爬虫
通用爬虫:常见的搜索引擎,无差别的收集数据\存储,提取关键字,构造索引库,给用户提供搜索接口
爬去的一般流程:
聚焦爬虫
有针对性的编写特定领域数据的爬去程序,针对某些类别数据的采集的爬虫,是面向猪蹄的爬虫.
Robots协议
www.taobao.com/robots.txt
君子协定,"爬亦有道"
模拟人的行为(实质就是一种反爬的技术)
HTTP 和响应处理
Python概念-上下文管理协议中的__enter__和__exit__
所谓上下文管理协议,就是咱们打开文件时常用的一种方法:with
__enter__(self):当with开始运行的时候触发此方法的运行
__exit__(self, exc_type, exc_val, exc_tb):当with运行结束之后触发此方法的运行
__enter__(self):当with开始运行的时候触发此方法的运行
__exit__(self, exc_type, exc_val, exc_tb):当with运行结束之后触发此方法的运行
User_Agent
示例
parse解析模块
Method提交方法
HTTP证书相关
Urllib3
Requets
0 条评论
下一页