SparkContext内幕机制

2016-05-25 15:23:27 0 举报
仅支持查看
SparkContext是Spark的入口,它代表与Spark集群的连接。它负责与Cluster Manager通信以及获取资源信息,同时也负责任务的调度和管理。当用户提交一个任务时,首先会创建一个SparkContext对象,然后通过这个对象来执行各种操作。 RDD(弹性分布式数据集)是Spark中最基本的数据结构,它提供了一种容错、并行的数据抽象。每个RDD都被分为多个分区,这些分区运行在集群的不同节点上。当用户对RDD进行转换或行动操作时,Spark会自动将计算任务分发到各个节点上执行。
作者其他创作
大纲/内容
评论
0 条评论
下一页