data_skew
2017-10-09 09:11:07 0 举报
AI智能生成
test
作者其他创作
大纲/内容
缓解数据倾斜方案
0 方法论
估计数据量,数据的分布
1 提高并行度
1.1 rdd
eg:(take)
1.2 partitions
原理示意图
示意图
子主题
2 join场景
2.1 大表 join 小表
定义大表|小表
常用:广播小表,注意图中的read from shuffle(local read)
2.2 大表A join 大表B,表A倾斜的键较少,表B分布较均匀
关键词:分离,本质增加并行度
2.3 大表A join 大表B,表A倾斜的键较多,表B分布较均匀
示意图:
3 其他策略
待补充
自由主题
0 条评论
回复 删除
下一页