Hadoop
2020-11-26 19:17:06 0 举报
Hadoop架构流程图
作者其他创作
大纲/内容
ResourceManager
分布式计算
Node Manager
DataNode
split-1
split-3
MapReduce执行流程
NameNode
5
分布式存储
6
YARN架构图-资源管理和任务调度
索引服务器
Driver:驱动大管家
Hadoop2.x版本产生4大模块
Hadoop生态系统Hadoop:分布式存储(HDFS)、分布式计算(MapReduce)、资源调度与任务管理(YARN)、CommonLucene:索引检索工具包;Solr:索引服务器Nutch:开源的搜索引擎HBase/Cassandra:基于谷歌的BigTable开源的列式存储的非关系型数据库Hive:基于SQL的分布式计算引擎,同时是一个数据仓库;Pig:基于Pig Latin脚本的计算引擎Thrift/Avro:RPC框架,用于网络通讯BigTop:项目打包、测试、部署Oozie/Azakban:大数据的工作流框架Chukwa/Scribe/Flume:数据收集框架Whirr:部署为云服务的类库Sqoop:数据迁移工具Zookeeper:分布式协调服务框架HAMA:图计算框架Mahout:机器学习框架
Spark基于内存计算
Client
map-2
7
存储数据:1、文件名、创建时间、文件大小2、文件与block块对应关系3、block与机器对应关系
3.8
Container
split-2
Hadoop Common网络通讯(RPC框架)
Hadoop HDFS分布式存储
Map Task
Shuffle流程1、shuffle写入 mapper进程将输出数据到本地磁盘上2、shuffle读取 reduce进程从mapper磁盘上读取数据
机器B
B1
Hive写SQL转MapReduce
4
NodeManager
机器A
2
ApplicationsManager
NameServer
MR APPMstr
Storm实时计算
1、文件名、创建时间、大小2、文件与block块映射关系3、block与DataNode的对应关系
1、通过爬虫爬取网页数据
1、获取文件名称、文件与block关系、block与DataNode关系
2、往服务器上存储网页block
3、Shuffle流程
机器C
ResourceManager1、处理客户端请求2、启动/监控ApplicationMaster3、监控NodeManager4、资源分配与调度ApplicationMaster1、程序切片2、为应用程序申请资源并分配任务3、任务监控与容错
map-1
将输出数据写到HDFS上存储
App Mstr
2、Mapper进程处理各个切片
1、将输入文件切成多个分片
B2
YARN流程
HDFS存放的文件
reduce-2
YARN资源管理和任务调度
NodeManager1、单个节点上的资源管理2、处理来自ResourceManager的命令3、处理来自ApplicationMaster的命令Container对任务运行环境的抽象,封装了CPU内存等多维资源以及环境变量、启动命令等任务运行相关的信息。
网络爬虫
Reduce Task
HDFS架构图-分布式存储
1
B3
MapReduce
2、连接DN进程读写数据
ResourceScheduler
reduce-1
hadoop前世今生1、搜索引擎:网络爬虫+索引服务器(生成索引+检索)2、Doung Cutting写了lucene包(生成索引+检索)3、Nutch:网络爬虫+索引服务器(lucene封装) a.分布式存储? b.分布式计算?4、2002年开源GFS论文,Doung Cutting写了HDFS模块,解决了分布式存储5、2004年谷歌开源了MapReduce论文,Doung Cutting写了MapReduce模块6、Nutch0.9版本后将HDFS和MapReduce模块拆分出来,形成了一个大数据处理框架Hadoophadoop概述1、四大模块:common、hdfs、mapreduce、yarn2、hdfs(hadoop distributed file system):分布式文件系统 2.1、文件系统:文件管理+block块管理 单机文件系统:windows:FAT16,FAT32,NTFS(文件格式); linux:ext2/3/4,VFS2.2、分布式文件系统:多个服务器存储文件2.3、三大组件:NameNode,DataNode,SecondaryNameNode2.3.1、 NameNode:元数据:文件名、目录名、属性(生成时间、权限、副本);文件名与block列表映射关系;span style=\"font-size: inherit;\
3、索引服务器调用driver的存储数据去各个服务器上取网页block块数据进行分析
4、reduce进程进行数据的聚合操作
编程模型:Mapper和ReducerMap阶段:拆分Reduce阶段:聚合思想:分而治之
map-3
Flink基于内存计算
Hadoop MapReduce分布式计算(处理慢)
5、将Reduce阶段输出的数据写到HDFS上
0 条评论
下一页