爬虫采集框架介绍
2022-02-18 14:30:41 41 举报
AI智能生成
爬虫文档整理
作者其他创作
大纲/内容
免费开源,更接近自然语言的语言
相对于C++/Java等更为容易上手
语言简单易学
Python自带,安装好Python即可使用
有大量标准库
pip install xxx(库名,安装完即可用)
庞大第三方库
B站/知乎/baidu等
社区氛围良好,学习资源多
如有兴趣
机器学习/深度学习/人工智能
未来发展趋势
Python初识
向网页发起请求,获取相应
获取网页
对返回的内容进行解析提取
解析网页
将数据保存到文件或数据库中
存储内容
爬虫流程介绍
百度、360、搜狐、谷歌
font color=\"#4d4d4d\" face=\
目标:尽可能采集互联网上所有数据
1、pagerank值:根据网站的流量(点击量/浏览量/人气)统计,流量越高,网站排名越靠前。
2、竞价排名:谁给的钱多,谁排名就高。
流程:爬取网页 存储数据 内容处理 提供检索/排名服务
注意事项:遵循robots.txt协议
通用网络爬虫
根据特定内容去采集
定义:面向主题、需求爬虫
子主题
积累式爬虫
只爬取新产生的
增量式爬虫
分类:
聚焦(垂直)网络爬虫
用户提交关键词,搜索表单后返回数据
Deep web爬虫
爬虫分类(使用场景)
采集详情内容
爬虫框架是实现爬虫功能的一个软件结构和功能组件集合
名词解释
定制灵活易上手
功能库
页面级爬虫
Requests三方库
框架成熟稳定
框架
网站及爬虫
Scrapy框架
本质是自动化测试工具
selenium
国人编写的强大的WebUI支持脚本编辑器
PySpider
span style=\
newspaper/GNE
爬虫常用框架
运行python代码基础
去官网下载安装并且配置环境变量
Python官网:https://www.python.org/
翻译官
python环境搭建
http://www.jetbrains.com/pycharm/download
pycharm
Jupyter Notebook
VS Code等
写代码
python编辑器
安装完python后需要执行piip install xxx即可
三方库安装
http://www.mysql.com
安装下载并配置环境变量
mysql
mangodb/redis
数据库安装
存放采集的数据
爬虫环境安装
采集框架介绍—开发语言
收藏
收藏
0 条评论
回复 删除
下一页