MapReduce工作机制详解
2020-04-17 16:56:26 0 举报
MapReduce工作机制详解
作者其他创作
大纲/内容
最终输出的结果文件分区且排序
溢出组件
20%
RecordReader(抽象类)
InputFormat
MapOutputCollect
调用组件
/wordCount/output/part-r-0000
WordCountReducer
MapReduce工作机制详解
partition0
key:行偏移量value:行内容
ReduceTask2
读取数据
ReduceTask1
partition2
partition1
split0
环型缓冲区默认100M
MrAppMaster
有序的文件,并且都是partition0的数据
溢出比80%
split1
有序的文件,并且都是partition2的数据
WordCountMapper
RecordWriter(抽象类)默认实现:TextRecordReader
有序的文件,并且都是partition1的数据
OutPutFormat
分区partition溢出到磁盘文件,分区且排序
Spiller
+ spill()
MapTask
HDFS
自己去maptask上的输出结果文件中拉取属于自己分区(分区0)的数(http下载)据
RecordReader(抽象类)默认实现:LIneRecordReader
split2
ReduceTask0
指挥reduceTask到哪个maptask获取数据
0 条评论
回复 删除
下一页