SparkContext内幕机制
2016-05-25 15:23:27 0 举报
SparkContext是Spark的入口,它代表与Spark集群的连接。它负责与Cluster Manager通信以及获取资源信息,同时也负责任务的调度和管理。当用户提交一个任务时,首先会创建一个SparkContext对象,然后通过这个对象来执行各种操作。 RDD(弹性分布式数据集)是Spark中最基本的数据结构,它提供了一种容错、并行的数据抽象。每个RDD都被分为多个分区,这些分区运行在集群的不同节点上。当用户对RDD进行转换或行动操作时,Spark会自动将计算任务分发到各个节点上执行。
作者其他创作
大纲/内容
Worker Node
Task
tryRegisterMaster
command
Executor
ExecutorRunner
分配App ID通过Schedule为App分配资源
start
SparkContext
Thread
AppClient
ClientEndpoint
发送RegisterExcutor
指定入口类名称
DAGScheduler
Master注册App
SparkDeployExecutorBackend
SparkDeploySchedulerBackend
JVM
DriverEndpoint
TaskSchedulerImpl
0 条评论
回复 删除
下一页