缓解数据倾斜方案
2017-09-29 18:32:13 0 举报
AI智能生成
enjoy it, thank u for suggestion
作者其他创作
大纲/内容
估计数据量,数据的分布
0 方法论
eg:(take)
1.1 rdd
1.2 partitions
![image_changeparallelism](http://www.jasongj.com/img/spark/spark1_skew/changeparallelism.png)
原理示意图
1 提高并行度
常用:广播小表
示意图:![image_mapjoin](http://www.jasongj.com/img/spark/spark1_skew/mapjoin.png)
2.1 大表 join 小表
示意图:![image_randomprefix](http://www.jasongj.com/img/spark/spark1_skew/randomprefix.png)
2.2 大表A join 大表B,表A倾斜的键较少,表B分布较均匀
示意图:![image_randomprefixandenlargesmalltable](http://www.jasongj.com/img/spark/spark1_skew/randomprefixandenlargesmalltable.png)
2.3 大表A join 大表B,表A倾斜的键较多,表B分布较均匀
2 join场景
待补充
3 其他策略
缓解数据倾斜方案
0 条评论
回复 删除
下一页