窄依赖、宽依赖和内存使用
2017-07-21 17:08:01 1 举报
Spark宽依赖和窄依赖架构图和Spark与Yarn Container的内存关系
作者其他创作
大纲/内容
Partition
一个NodeManager可用内存(yarn.nodemanager.resource.memory-mb)
子RDD
Spark On Yarn的内存构成
父RDD2
spark.shuffle.memoryfraction
join with inputs not co-partitioned
窄依赖:父RDD的一个分区最多只会被子RDD的一个分区使用
...
宽依赖:父RDD的一个分区会被子RDD的多个分区使用
Group By Key
一个Container的可用内存(下限由yarn.scheduler.minimum-allocation-mb确定,上限由yarn.scheduler.maximum-allocation-mb确定)
spark.storage.memoryfraction
父RDD
父RDD1
spark.executor.memory
Yarn中的所有NodeManager的可用内存之和
宽依赖
spark.yarn.executor.memoryOverhead
join with inputs co-partitioned
窄依赖
Union
收藏
0 条评论
下一页