首页  思维导图  详情

HDFS重点总结

2023-03-03 14:12:34   0  举报





AI智能生成

架构图（详）

软件开发

大数据

hadoop

HDFS

学霸笔记

作者其他创作

大纲/内容

HDFS块文件大小

可配置参数来修改默认值（dfs.blocksize）
hadoop 2.x/3.x =128M , 1.x=64M

为什么块的大小不能太小也不能太大？
1.太小会增加寻址时间
2.块设置太大会增加传输时间，造成效率低的问题

HDFS的块大小取决于磁盘的传输速度

若文件寻址时间为传输时间的1%，则状态为最佳

HDFS的读写流程

写数据

读数据(以blk的顺序串行读)

网络拓扑-节点距离计算

先找到两台节点的共同祖先，然后从共同祖先出发找到另一台节点，这个过程的距离叫做节点距离

机架感知-副本存储节点选择

1.第一个副本在client所在的节点（如果客户端在集群外，则选择距离客户端最近的一个机架）
2.第二个副本在另一个机架的随机节点
3.第三个副本选择第二个副本所在节点的另一个随机节点
*将第一个副本与第二个副本存在不同机架上确保了高可用性，将第二、三个副本存在同一个机架上，保证了数据的传输效率

NN和2NN工作机制

fsimage和edit解析

1.namenode被格式化之后，会在目录中产生fsimage文件

2.Fsimage文件：HDFS文件系统元数据的一个永久检查点，包含HDFS文件系统的所有目录和文件inode的序列化信息（oiv查看）

3.edits文件：存放HDFS的所有更新操作的路径，文件系统客户端执行的所有写操作会首先被记录到其中（oev命令查看）

*fsimage与edits的合并由2NN 1h请求合并一次（如果edits文件满了（内包含最大操作动作次数为100w次）也会触发合并，2nn每隔60s去检查一次nn中的edits文件大小），且edits文件只追加不修改，以及在集群开机的时候会合并一次

DN工作机制

1.DN启动后主动向NN注册

2.注册成功，块信息写入数据的元数据

3.定期向NN（6h）汇报所有块信息（表示块完好）

4.心跳每3s一次（表示DN在线），心跳返回nn对dn的命令，超过10min+30s没有心跳则认为dn下线

数据完整性

1.奇偶校验位：原始数据封装->数二进制形式数据中1的个数，校验位：奇1偶0
2.网络传输后重新校验：通过传输后数据的1的个数与校验位进行比对，如一样则数据完整，反之则数据不可用

该方法缺陷太大，所以hadoop提出了新的校验方法crc校验位

crc（32）校验位：对数据进行重新crc计算，和传输过来的crc校验位进行比较看是否一致

掉线时参数设置

 收藏

立即使用

HDFS重点总结

195305_PO

职业：暂无

去主页





0 条评论

下一页

为你推荐

查看更多



HDFS

HDFS

HDFS