网页爬虫(普通模式1(百度新闻))
2018-02-11 15:31:38 7 举报
网页爬虫软件设计Demo
作者其他创作
大纲/内容
http://www.SpiderQueen.com
爬取此元素
http://news.baidu.com
点击“习近平对....”弹出对话框,并点击爬取此页面类似元素链接
爬取内容列表
人工模式
获取此元素
选择提交类型
点击当前页面
上传
示例1:百度新闻
选取抓取内容
爬取内容样例 1
爬取内容样例 2
http://news.xinhuanet.com/world/
空
(未爬取)
任务提交
选择普通模式
普通模式
输入需要爬取的网址,如:news.baidu.com
表头可重命名
爬取内容样例 3
习近平离京对俄罗斯、德国进行国事访问并出席G20峰会
2017年07月03日 12:11:06 来源: 新华社
新华社北京7月3日电 国家主席习近平3日上午乘专机离开北京,应俄罗
爬取路径
执行
爬取的网址集
获取当前页面此类元素链接
本地浏览
爬取此页面的类似元素所有链接
http://news.xinhuanet.com/world/2017-07/03/c_1121254292.htm
把将要爬取的内容整理成列表
输入url
点击此元素
点击则路径图结束
点击则成功提交任务开始执行
爬取此元素链接后的文本与图片
Next
爬取此元素的链接
高阶模式
是否打开和爬取所爬取的链接集
0 条评论
下一页