Hadoop
2021-04-12 08:54:14 0 举报
AI智能生成
Hadoop笔记
作者其他创作
大纲/内容
Hadoop的介绍
发展历史
1. Hadoop最早起源于Nutch
2. 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。
分布式文件系统(GFS),可用于处理海量网页的存储
分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。
3. Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE
组件
狭义上包括
HDFS :分布式文件系统
MapReduce : 分布式计算系统
Yarn:分布式样集群资源管理
广义上
大数据生态圈
发行版及公司
免费开源版本apache hadoop
雅虎的HDP版本,免费开源
Cloudera的CDH版本,收费
Hadoop架构
1.x的版本架构
文件系统核心模块
NameNode:集群的主节点,管理元数据(文件的大小,文件的位置,文件的权限),主要用于管理集群当中的各种数据
secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据
数据计算核心模块
JobTracker:接收用户的计算请求任务,并分配任务给从节点
TaskTracker:负责执行主节点JobTracker分配的任务
2.x的版本架构
第一种:NameNode与ResourceManager单节点架构模型
文件系统核心模块
NameNode:集群的主节点,管理元数据(文件的大小,文件的位置,文件的权限),主要用于管理集群当中的各种数据
secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据
数据计算核心模块
ResourceManager:接收用户的计算请求任务,并负责集群的资源分配
NodeManager:负责执行主节点APPmaster分配的任务
第二种:NameNode单节点与ResourceManager高可用架构模型
第三种:NameNode高可用与ResourceManager单节点架构模型
第四种:NameNode与ResourceManager高可用架构模型
0 条评论
下一页