Spark Shuffle
2019-07-26 17:20:48 25 举报
Spark Shuffle
作者其他创作
大纲/内容
内存缓冲
排序
磁盘文件
blockfike
task
task1
task0
buffer 内存
excutor1 with one core
buffer
task3
merge
reduce memory
Task0
excutor num = 2excutor core =1task num =4per exutor task =2reduce task num =3all file=task num*reduce task num=12
task2
索引文件
未经优化的HashShuffleManager
分批落盘,每批1万个
Task1
合并汇总生成成 1个文件+索引文件
达到一定阀值
SortShuffleManager bypass 运行机制
内存Map or Array
生成和传输 上游task个数 个文件。
SortShuffleManager 普通运行机制
excutor0 with one core
经过优化以后的HashShufferManager
excutor num = 2excutor core =1task num =4per exutor task =2reduce task num =3all file=excutor num*reduce task num=2*3=6
0 条评论
下一页