爬虫采集框架介绍
2022-02-18 14:30:41 42 举报
AI智能生成
爬虫文档整理
作者其他创作
大纲/内容
Python初识
语言简单易学
免费开源,更接近自然语言的语言
相对于C++/Java等更为容易上手
有大量标准库
Python自带,安装好Python即可使用
re,datetime,math,os,random等
庞大第三方库
pip install xxx(库名,安装完即可用)
scrapy,numpy,pandas,matplotlib等
未来发展趋势
社区氛围良好,学习资源多
B站/知乎/baidu等
机器学习/深度学习/人工智能
如有兴趣
采集详情内容
爬虫流程介绍
获取网页
向网页发起请求,获取相应
解析网页
对返回的内容进行解析提取
存储内容
将数据保存到文件或数据库中
爬虫分类(使用场景)
通用网络爬虫
定义:搜索引擎用的爬虫系统
百度、360、搜狐、谷歌
目标:尽可能采集互联网上所有数据
流程:爬取网页 存储数据 内容处理 提供检索/排名服务
1、pagerank值:根据网站的流量(点击量/浏览量/人气)统计,流量越高,网站排名越靠前。
2、竞价排名:谁给的钱多,谁排名就高。
注意事项:遵循robots.txt协议
聚焦(垂直)网络爬虫
定义:面向主题、需求爬虫
根据特定内容去采集
分类:
积累式爬虫
子主题
增量式爬虫
只爬取新产生的
Deep web爬虫
用户提交关键词,搜索表单后返回数据
爬虫常用框架
名词解释
爬虫框架是实现爬虫功能的一个软件结构和功能组件集合
Requests三方库
页面级爬虫
功能库
定制灵活易上手
Scrapy框架
网站及爬虫
框架
框架成熟稳定
selenium
本质是自动化测试工具
支持多种语言开发,比如Py,JS, Java,C等
PySpider
国人编写的强大的WebUI支持脚本编辑器
newspaper/GNE
用来提取新闻、文章和内容分析
爬虫环境安装
python环境搭建
翻译官
运行python代码基础
去官网下载安装并且配置环境变量
Python官网:https://www.python.org/
python编辑器
写代码
pycharm
http://www.jetbrains.com/pycharm/download
Jupyter Notebook
VS Code等
三方库安装
安装完python后需要执行piip install xxx即可
存放采集的数据
数据库安装
mysql
http://www.mysql.com
安装下载并配置环境变量
mangodb/redis
收藏
收藏
0 条评论
下一页