HDFS重点总结
2023-03-03 14:12:34 0 举报
AI智能生成
架构图(详)
作者其他创作
大纲/内容
HDFS的块大小取决于磁盘的传输速度
为什么块的大小不能太小也不能太大?1.太小会增加寻址时间2.块设置太大会增加传输时间,造成效率低的问题
若文件寻址时间为传输时间的1%,则状态为最佳
HDFS块文件大小
写数据
读数据(以blk的顺序串行读)
HDFS的读写流程
先找到两台节点的共同祖先,然后从共同祖先出发找到另一台节点,这个过程的距离叫做节点距离
网络拓扑-节点距离计算
1.第一个副本在client所在的节点(如果客户端在集群外,则选择距离客户端最近的一个机架)2.第二个副本在另一个机架的随机节点3.第三个副本选择第二个副本所在节点的另一个随机节点*将第一个副本与第二个副本存在不同机架上确保了高可用性,将第二、三个副本存在同一个机架上,保证了数据的传输效率
机架感知-副本存储节点选择
NN和2NN工作机制
1.namenode被格式化之后,会在目录中产生fsimage文件
2.Fsimage文件:HDFS文件系统元数据的一个永久检查点,包含HDFS文件系统的所有目录和文件inode的序列化信息(oiv查看)
3.edits文件:存放HDFS的所有更新操作的路径,文件系统客户端执行的所有写操作会首先被记录到其中(oev命令查看)
*fsimage与edits的合并由2NN 1h请求合并一次(如果edits文件满了(内包含最大操作动作次数为100w次)也会触发合并,2nn每隔60s去检查一次nn中的edits文件大小),且edits文件只追加不修改,以及在集群开机的时候会合并一次
fsimage和edit解析
1.DN启动后主动向NN注册
2.注册成功,块信息写入数据的元数据
3.定期向NN(6h)汇报所有块信息(表示块完好)
4.心跳每3s一次(表示DN在线),心跳返回nn对dn的命令,超过10min+30s没有心跳则认为dn下线
DN工作机制
该方法缺陷太大,所以hadoop提出了新的校验方法crc校验位
1.奇偶校验位:原始数据封装->数二进制形式数据中1的个数,校验位:奇1偶02.网络传输后重新校验:通过传输后数据的1的个数与校验位进行比对,如一样则数据完整,反之则数据不可用
crc(32)校验位:对数据进行重新crc计算,和传输过来的crc校验位进行比较看是否一致
数据完整性
掉线时参数设置
HDFS重点总结
0 条评论
下一页