MapReduce分布式计算框架理解
2021-06-23 23:46:15 1 举报
MapReduce分布式计算框架理解
作者其他创作
大纲/内容
part0
sort
reduce
merge
输入分片1
map
输入分片2
Job
HDFS replication
output HDFS
输入分片0
input HDFS
注:上图是一个reduce任务的MapReduce数据流,其中虚线框表示节点,虚线箭头表示节点内的数据传输,而实线箭头表示节点之间的数据传输。思考:1.一个合理的分片大小应该趋向于HDFS的一个块的大小,默认是128MB;2.Hadoop在存储有输入数据(输入分片)的节点上运行map任务,可以获得最佳性能,因为它无需使用宝贵的集群带宽资源,这就是所谓的“数据本地化优化”3.map任务将其输出结果写入本地磁盘而非HDFS,因为该输出是中间结果;4.reduce 任务不具备数据本地化的优势,因为单个reduce的输入通常是来自多个map的输出,map输出结果通过网络传输发送到运行reduce任务的节点上,数据在reduce端合并,然后进行reduce处理,最后写入HDFS。5.reduce的输出结果第一个副本存储在本地节点上,其他副本出于可靠性考虑会存储在其他节点上,因此将reduce输出结果写入HDFS时需要占用网络带宽。
收藏
0 条评论
下一页