spark的作业运行逻辑图
2016-04-04 16:52:06 37 举报
Spark作业运行逻辑图主要包括以下步骤:首先,用户通过提交一个Spark应用程序,该程序包含了一系列的转换和动作操作。然后,驱动程序将应用程序代码转化为任务,并将这些任务发送到集群中的Executor节点。每个Executor节点都有自己的内存,用于存储数据和计算结果。接着,Executor节点执行任务,将数据分区并行处理,并将结果返回给Driver节点。最后,Driver节点将结果合并并返回给用户。在这个过程中,Spark使用弹性分布式数据集(RDD)来管理数据,RDD是一个容错的、并行的数据结构,可以在集群中高效地进行处理。
作者其他创作
大纲/内容
Task
Cache
Driver
Worker
Cluster Manager
HDFS
Executor
SparkContext
RDD DAG
TaskScheduler
SparkEnv
DAGScheduler
client
0 条评论
下一页