MapReduce
2023-05-29 21:52:40 0 举报
。。。。。
作者其他创作
大纲/内容
数据
HDFSDN
outputCollector
Merge
block2
split
RecordReader
打上分区标签partition默认为hash分区算法
环形数据缓冲区
索引
分区2溢写小文件
MapTaskMapper类
map函数
InputFormat
Combiner压缩
客户端
环形数据缓冲区80%(默认)溢写
InputSplit
合并后的文件
MapReduce
block1
默认10个合并1个,减少文件数量,降低io开销
压缩算法
FileInputFormatTextInputFormat(默认)CombinInputFormat
MapTask
block3
按分区溢写并排序
YARN计算任务所需资源
分区1溢写小文件
File
赤道
提交JOB
ReduceTask
Shuffle
分发JOB
分区0
分区0溢写小文件
0 条评论
下一页