spark shuffle 过程
2020-08-07 17:49:22 0 举报
spark shuffle
作者其他创作
大纲/内容
file3
file2
1)按key 进行分组,相同key 值的value 写入到一个文件中2) stage0 生成得file 数量得多少看stage1 中得task 有几个,有几个生成几个文件
file1
buffer 中,满了溢写到磁盘
reducetask1
reduce buffer的默认大小executor-memory 的20%spark.shuffle.memoryFraction=0.2
stage1
reducetask2
group by key算子过程默认不会在map端进行合并,如果有大量得map操作,new SparkConf().set(\"spark.shuffle.consolidateFiles\
buffer的默认大小32Kspark.shuffle.file.buffer =32,
task1
read
lgs: 注 这里如果是reduce bykey
stage0
file4
task2
收藏
收藏
0 条评论
下一页