Hadoop架构
2024-08-21 14:10:51 0 举报
ZooKeeper-HDFS架构是一种大数据处理领域的分布式文件系统,由Apache ZooKeeper和HDFS(Hadoop Distributed FileSystem)两大组件组成。其中,ZooKeeper负责提供分布式协调服务,管理HDFS集群中的NameNode和DataNode节点,确保数据的高可用性和容错性。HDFS则是一种分布式文件系统,具有高吞吐量、高容错性等特点,适合存储海量数据。这种架构可应用于各种大数据处理场景,如数据挖掘、机器学习、数据分析等。
作者其他创作
大纲/内容
ReduceTask01
B
128B1
0分区 张1 张1 .....
B2-128MB
zookeeper如何帮别人选主----谁跑的快谁就是主(集群启动需要时间)
元数据:所属用户:王五文件和文件块的映射关系:c.mp4 B1 B2 B3文件块和DN节点的映射关系:B1 ->DN1 DN3 DN4 B2 ->DN2 DN3 DN6B3 -> DN1 DN4 DN5
edits:默认 2 分钟生成一个(默认上限 100W 个)
1.各个节点之间必须相互信任2.传输的消息不能被篡改
客户端
领导者L
MapTask
0分区 张1 张1 .....
ZooKeeper----监听机制
PID=6
火山小视频
DN01
议员1
300MB
DN6
HDFS
添加监听
元数据
后端
DN06
80%
0分区 张1 张1 ..... 66-张 1
44B3
a.jpg
DN3
解析去HDFS中找对应的映射文件
2分区 李1 李1.....
xxx.jar
Activ NameNode(主--降级)
128B2
张 1 KV
抢红包
1.1小时合并一次2.edits文件操作次数达到100W次的时候3.默认一分钟检查一次
ANN
100元
SNN
观察者OB
D
溢写、分区、排序
A
Paxos小岛----解决多节点问题
抖音
HDFS架构----LC网盘开发
2分区 李1 李1.....
杀死进程
议员3
B1-128MB
拉取
Shuffle----分布式计算的天敌
c.mp4
原有节点被删除,创建节点
PID=3
SELECT a.id FROM (SELECT a.id FROM A WHERE a.id >= 10) a JOIN B ON a.id=b.id WHERE a.id >= 10;
优化器逻辑执行计划基于规则的优化
内存
MapTask01
议员2
公平
SID=6
1.0 2.0
硬盘:文件和文件块的映射信息
集群
B3-44MB
PID=2
ZKFC
拿到锁
DN5
Paxos小岛----有主模型
元数据:所属用户:王五文件和文件块的映射关系:c.mp4 B1 B2 B3文件块和DN节点的映射关系:B1 ->DN1 DN3 DN4 B2 ->DN2 DN3 DN6B3 -> DN1 DN4 DN5
默认10个溢写文件合并一次
PID=1
分布式
zookeeper
Paxos小岛----基本模型
1.zookeeper怎么实现自己选主2.zookeeper怎么帮别人选主
B3-128MB
BS
DN1
YARN----资源调度
70%
读取到环形数据缓冲区
DN2
工作方式
判断有无节点/NO
Boss
SELECT name FROM A JOIN B USING(XXid)l;
DN1MapTask
MapTask1.给数据打标签2.分区、排序3.合并
溢写
组合器combiner
K V 形式读取K 偏移量V 实际的一行数据
张 1王 1张 1张 1
磁盘
DN4
100MB
拜占庭将军问题
C
1分区 王1 王1 .....
多个节点,在做相同的一件事
3
非公平
MySql
PC
议员5-3999
Paxos小岛
大部分公司
执行器
Standby NameNode(备)
xxx1
监听状态
1.是什么2.干什么用3.怎么用
创建节点
SID=4000
读取器
议员6
临时
MID=2
将电费设置为1元/度
初始化:创建fsimage
合并(Merge)归并
ReduceTask张 1+1+1+n = 张 n
内存:俩种映射关系都存
骑兵
1.所有的提议,必须由总统发起2.同一时间整个集群只能有一个总统3.奇数台服务器----合理避免统一时间出现俩个主的问题4.主的PID一定是最大的(是最全的数据)5.议员同步数据只需要从主节点同步6.无脑选最大----快速选主7.过半原则
App
DN
编译将 AST 编译生成逻辑执行计划
2班
判断有无节点/YES
删除节点
MR
逻辑切片 Split
64B3
减少传输次数,没有减少数据量
MapReduce 计算流程
集群与分布式
议员4
跟随者F
今日头条
0
2
百家姓.txt
议员4000(总统)
HDFS----联邦机制
64B1
资源充裕
1
议员5(总统)
HBase
1班NodeManager
xxx.jarMapTask
议员5
创建节点lc0000001lc0000002lc0000003
ReduceTask03
客户端C
ZooKeeper
ReduceTask02
ReduceTask
副本:3
DN04
NN
存储节点(从)DataNode
资源匮乏
临时顺序
1分区 王1 王1 .....
Container
NNResourceManagerApplicationMaster
MapTask02
DN02
SELECT a.id FROM A JOIN B ON a.id=b.id WHERE a.id >= 10;
DN03
DN05
不同节点,在做相同的一件事
QJM
64B2
0 条评论
回复 删除
下一页