Spark运行原理
2019-10-08 21:48:23 15 举报
Spark运行原理图
作者其他创作
大纲/内容
Task最佳位置计算算法
Scheduler调度的单位
Stage
Executor启动之后会向Driver进行反注册,这样Driver就知道这个Executor是为它进行服务的了。
Driver进程启动之后,会做一些初始化的操作,在这个过程中,会发送请求到Master上,进行Spark应用程序的注册,其实就是告诉Master,有一个新的Spark程序将要运行
这次Driver要运算的文件中的一个
请求
Master在收到Spark应用程序的注册申请后,会发送给Worker们,进行资源的调度和分配。资源的分配,其实也就是executor的分配
Driver会根据我们对RDD定义的操作,提交一大堆task去Executor上
task,线程
RDD的Partition
Driver注册了一些executor之后,就可以正式执行我们的Spark应用程序员了,首先第一个月,就是初始RDD,读取数据源
后面还有很多个节点,都一样,就没有画出来了
真正的执行者
Worker接收到Master的请求之后,会为Spark应用启动Executor
Task
task会对RDD的partition数据执行指定的算子操作,形成新的RDD的partition
MasterMaster是个进程,主要是负责资源的调度和分配,还有集群的监控等职责
Stage划分算法
HDFS
Job
taskSet
Executor收到task之后,会启动多个线程来执行task
节点/Spark集群中的一个计算机
Driver(进程)我们编写的Spark程序就在Driver上由Driver进程执行
WorkerWorker是一个进程,主要负责两方面:1.用自己的内存存储RDD的某些或者某个partition;2.启动其他进程和线程,对RDD上的partition进行模板的处理和计算
Spark集群的节点之一,你Spark程序提交的机器
Executor,进程,执行器
0 条评论
下一页