毕设图
2021-05-09 15:43:37 6 举报
毕设图
作者其他创作
大纲/内容
网页
ResourceManager
Reduced
...
node01
3
MapReduce并行计算框架
1
ScrapyEngine
DataNode
Responses
Client
排序、合并
DownloadwerMiddlewares
ReduceTask
AppMaster
SpiderMiddlewares
到NM上启动Task任务
NodeManager
Web应用
NameNode
Redeced
(万维网)WWW
Mapm
Requests
Data03
Data01
写
Downloader
请求资源运行Task
核心资源
数据分片1
Scheduler
输出数据n
pet_data
MySQL数据库
专门部署数据库MySQL
Active
Write
数据库:MySQL
Map1
在NM中启动Container运行AppMaster
数据量很大
第一台机器
每个Task任务处理一部分数据
输出数据1
Block ops块操作
数据分片m
网站架构
提交运行MR程序
分词后的数据存储
Read
Map0
node02
url_idurltitlecontent
2
数据分片0
YARN分配资源时,将资源封装到ConTanier容器中,便于管理
ItemPipeline
Spider
专门部署Web应用
MapTask
爬虫爬取数据
硬盘Disk
宠物信息日志信息
HDFS文件系统
Standy
读
node03
第二台机器
存储爬取数据
Matadata ops元数据操作
内存Menory
Data02
Replication
分词操作
CPU Core核心
第三台机器
主动爬取数据
服务器
信息量增加
收藏
0 条评论
下一页