登录免费注册

首页  思维导图  详情

爬虫采集框架介绍

2022-02-18 14:30:41   43  举报





AI智能生成

爬虫文档整理

智能

作者其他创作

大纲/内容

Python初识

语言简单易学

免费开源，更接近自然语言的语言

相对于C++/Java等更为容易上手

有大量标准库

Python自带，安装好Python即可使用

re,datetime,math,os,random等

庞大第三方库

pip install xxx(库名，安装完即可用)

scrapy,numpy,pandas,matplotlib等

未来发展趋势

社区氛围良好，学习资源多

B站/知乎/baidu等

机器学习/深度学习/人工智能

如有兴趣

采集详情内容

爬虫流程介绍

获取网页

向网页发起请求，获取相应

解析网页

对返回的内容进行解析提取

存储内容

将数据保存到文件或数据库中

爬虫分类(使用场景)

通用网络爬虫

定义：搜索引擎用的爬虫系统

百度、360、搜狐、谷歌

目标：尽可能采集互联网上所有数据

流程：爬取网页存储数据内容处理提供检索/排名服务

1、pagerank值：根据网站的流量(点击量/浏览量/人气)统计，流量越高，网站排名越靠前。

2、竞价排名：谁给的钱多，谁排名就高。

注意事项：遵循robots.txt协议

聚焦(垂直)网络爬虫

定义：面向主题、需求爬虫

根据特定内容去采集

分类：

积累式爬虫

子主题

增量式爬虫

只爬取新产生的

Deep web爬虫

用户提交关键词，搜索表单后返回数据

爬虫常用框架

名词解释

爬虫框架是实现爬虫功能的一个软件结构和功能组件集合

Requests三方库

页面级爬虫

功能库

定制灵活易上手

Scrapy框架

网站及爬虫

框架

框架成熟稳定

selenium

本质是自动化测试工具

支持多种语言开发，比如Py,JS, Java，C等

PySpider

国人编写的强大的WebUI支持脚本编辑器

newspaper/GNE

用来提取新闻、文章和内容分析

爬虫环境安装

python环境搭建

翻译官

运行python代码基础

去官网下载安装并且配置环境变量

Python官网：https://www.python.org/

python编辑器

写代码

pycharm

http://www.jetbrains.com/pycharm/download

Jupyter Notebook

VS Code等

三方库安装

安装完python后需要执行piip install xxx即可

存放采集的数据

数据库安装

mysql

http://www.mysql.com

安装下载并配置环境变量

mangodb/redis

BZ_BOC_各事业部--数据采集工具培训(二)

 收藏

立即使用

BZ_BOC_各事业部--数据采集工具培训(二)

BZ_BOC_各事业部-数仓权限工具培训(一)

 收藏

立即使用

BZ_BOC_各事业部-数仓权限工具培训(一)

PM_003_数据分析之道--part1

 收藏

立即使用

PM_003_数据分析之道--part1

 收藏

立即使用

01_数仓分层架构梳理

职业：KFC













评论

0 条评论

下一页

为你推荐

查看更多



数据采集1.0

反爬虫架构

采集微服务

爬虫优化流程

Scrapy爬虫框架



图形选择

思维导图

主题

补充说明

AI生成





修改AI描述

去编辑

重新生成

提示 

关闭后当前内容将不会保存，是否继续？

取消

确定