毕设_基于知乎用户的分布式网络爬虫及数据分析
2020-01-05 19:37:43 0 举报
分布式网络爬虫及数据分析系统 框架
作者其他创作
大纲/内容
Crawler架构
URL去重
G
{ id: '002' value: 300 status: '0'}
Crawler分布式架构
web系统
sort
MapReduce结构
从机1
从机信息
消息通信
+
数据分析系统
数据分析模型
获取关注人数
ur传递
..........
存储爬取结果数据
保存相关联的URL
主机/从机管理模块
主机
生成从机信息记录
MongoDB
调度算法
从机...
从机2
分布式网络爬虫系统框架
获取关注者人数
数据结果
数据分析系统结构
链出URL库
系统功能架构
数据分析示例展示
url
Slaver
爬取数据
数据持久化
制定分析规则
E
MapReduce
消息队列
{ id: '001' value: 400 status: '1'}
out
获取待爬URL
Redis
通用网络爬虫框架
网络模块
前台界面系统
构建初始爬取队列
储存爬取网页
种子URL集合
保存已爬取url
系统总体结构
持久化模块
保存爬取结果数据
Internet
配置模块
D
自定义数据分析模块
第二章 技术分析 图表
MySQL持久化
任务管理
消息通信机制
已爬取URL集合
Map
Redis数据库结构图
start_urlSet
MapReduce模型示例
初始化url种子集合
分布式网络爬虫系统
{ id: '001' value: 100 status: '0'}
异常处理
C
service
原始数据预处理
map
深度/广度优先遍历策略
爬取关注者列表
待爬取URL队列
数据库
Queue
解析结果库
query
提炼新url
线程1
自定义数据分析
创建线程池
注册登录
网页
生成数据解析结果
从机3
主机从机实时监控
Reduce
数据分析示例展示模块
待爬取队列List
MySQL
线程...
reduce
爬取知乎用户数据
结果展示
分布式网络爬虫系统数据同步
view
http连接
从机状态
获取待爬URL
Web系统结构
显示渲染
第二章 系统设计 图表
获取消息队列
数据解析
获取URL
注册登录模块
.......
解析数据分析命令
controller
获取种子URL
分布式网络爬虫及数据分析系统
性别维度
待爬取urlSet
........
{'002':[300]}
生成消息
生成待爬URL
crawler2
Web系统
系统总体架构
result
任务管理模块
URL调度模块
构建待爬队列
URL管理模块
dupefilter
数据库总体设计
Master
{ id: '001' value: 200 status: '0'}
B
抓取策略
www.zhihu.com
保存个人信息
Database
Mapreduce
设置已爬URL
分布式网络爬虫框架
生成图表数据
URL
解析规则
A
数据分析展示模块
数据分析服务
已爬取urlSet
操作交互
MongoDB持久化
scheduler
访问互联网
总览模块
Ajax数据交互
预处理网页库
limit
登录注册服务
网络爬虫结构
Mongon
collection
职业维度
AJax
登录注册模块
构建待爬url队列
从机
原始结果
网络爬虫
crawler1
{ _id: '002' value: 300}
数据同步
URL去重模块
解析爬取结果数据
Redis持久化
爬取网页
数据分析需求
教育维度
待爬取URL集合
系统信息总览
爬取个人信息
{ _id: '001' value: 300}
原始网页库
系统总览模块
Redis(List、Set)
F
数据交换模块
爬取关注列表
数据分析命令解析
crawler3
文件管理
按需求实时解析数据
dao
网络爬虫模块
URL队列库
0 条评论
回复 删除
下一页