登录免费注册

首页  流程图  详情

5-12Spark-Shuffle-Con

2015-10-22 15:06:10   2  举报





Spark-Shuffle-Con是Apache Spark中的一个关键组件，负责在数据处理过程中对数据进行重新分区和排序。当执行诸如groupByKey、reduceByKey等操作时，会触发Shuffle过程。这个过程涉及到数据的传输、排序和合并，以实现数据的重新分配。为了提高性能，Spark采用了一种名为“磁盘溢出”的策略，将中间结果存储在磁盘上，从而减少内存的使用。然而，这也可能导致大量的磁盘I/O操作，影响整体性能。因此，优化Shuffle过程对于提高Spark作业的执行效率至关重要。

作者其他创作

大纲/内容

bucket

MapTask

File

Shuffle Write

Shuffle Fetch

 收藏

立即使用

 收藏

立即使用

 收藏

立即使用

spark-on-yarn-table.png

 收藏

立即使用

职业：工程师













评论

0 条评论

下一页

为你推荐

查看更多



spark的shuffle过程

spark的shuffle过程

5-11Spark-Shuffle

5-11Spark-Shuffle

5-11Spark-shuffle

5-11Spark-shuffle