网页爬虫(普通模式(页数设置))
2018-02-07 14:46:38 26 举报
快速爬虫Demo
作者其他创作
大纲/内容
http://www.SpiderQueen.com
爬取此元素
https://movie.douban.com/review/best/
点击页面下方的页码条
爬取内容列表
人工模式
获取当前页面此类元素链接
选择提交类型
点击当前页面
上传
示例1:百度新闻
选取抓取内容
是否打开和爬取所爬取的链接集
任务提交
选择普通模式
爬取路径
普通模式
输入需要爬取的网址,如:https://movie.douban.com/review/best/
爬取内容样例 1
空
表头可重命名
爬取内容样例 2
爬取内容样例 3
生活不同于电影
天堂电影院
“生活和电影不同,生活···苦多了。”这句被我们经常念叨的言语出现在了《天堂
(未爬取)
执行
爬取的网址集
本地浏览
http://news.xinhuanet.com/world/2017-07/03/c_1121254292.htm
把将要爬取的内容整理成列表
输入url
循环爬取页数
https://movie.douban.com/review/best/...
(未爬取)
点击则路径图结束
确定
点击则成功提交任务开始执行
循环爬取全部页数
Next
高阶模式
0 条评论
下一页