spark 数据倾斜
2019-07-25 18:54:59 24 举报
spark
作者其他创作
大纲/内容
ShuffleMapStage
ResultTask
Job1
全局聚合
ShuffleMapTask
Job3
read from file
k1v2
RDD1
98亿
task0
Application
ShuffleMapTask1
TaskSet
1亿
task1
Job2
ResultStage
ShuffleMapTask2
局部聚合+全局聚合
Spark 计算抽象
随机添加前缀
shuffle join
ReduceJoin->MapJoin
局部聚合
task2
100亿记录
ShuffleMapTask3
数据倾斜
broadcast value
RDD2
去除前缀
0 条评论
下一页