首页  流程图  详情

spark shuffle 过程

2020-08-07 17:49:22   0  举报





spark shuffle

作者其他创作

大纲/内容

file3

file2

1)按key 进行分组，相同key 值的value 写入到一个文件中2) stage0 生成得file 数量得多少看stage1 中得task 有几个，有几个生成几个文件

file1

buffer 中，满了溢写到磁盘

reducetask1

reduce buffer的默认大小executor-memory 的20%spark.shuffle.memoryFraction=0.2

stage1

reducetask2

group by key算子过程默认不会在map端进行合并，如果有大量得map操作，new SparkConf().set(\"spark.shuffle.consolidateFiles\

buffer的默认大小32Kspark.shuffle.file.buffer =32，

task1

read

lgs: 注这里如果是reduce bykey

stage0

file4

task2

 收藏

立即使用

spark shuffle 过程

 收藏

立即使用

物联网子平台流程图

Lgs

职业：大数据架构师

去主页





0 条评论

下一页

为你推荐

查看更多



Spark stack

5-12Spark-Shuffle-Con