Spark 作业运行原理

2017-04-14 15:45:43   0  举报





仅支持查看

Spark作业运行原理基于分布式计算架构，将数据划分为多个分区进行处理。首先，Spark将输入数据存储在分布式文件系统（如HDFS）中，然后通过驱动程序将任务划分为多个阶段，每个阶段包含一组有依赖关系的操作。接下来，Spark将任务分配给集群中的不同节点进行并行处理，每个节点上的执行器负责执行其所分配的任务。在执行过程中，Spark会将数据缓存在内存中以提高处理速度，同时采用流水线化处理和优化技术减少中间结果的重复计算。最后，执行器将计算结果汇总并返回给驱动程序，完成整个作业的执行。

作者其他创作

大纲/内容

Executor CPU Core

Driver Process

task

Executor Process

Executor Memory

分配 task

YARN Resource Manager

分配资源

申请资源