首页  流程图  详情

RDD

2016-12-28 11:33:56   0  举报





仅支持查看

为你推荐

查看更多



5-8SparkStorage

spark-rdd-job-stage-task关系图

1-3 Spark RDD 编程指南

5-5JobScheduleDetail

5-1Spark

Spar - RDD-filter算子之数据倾斜

Spark 计算模型案例 - RDD

5-4JobSchedule

Rdd

Async Design - 3

RDD，全称Resilient Distributed Datasets，是Apache Spark中的一个基本概念。它是一个不可变的、分布式的对象集合，每个RDD都被分为多个分区，这些分区运行在集群的不同节点上。RDD可以执行各种运算，如map、filter、reduce等，并且这些运算都是惰性的，只有在遇到行动操作（如count、collect）时才会真正执行。这种设计使得RDD能够有效地处理大规模数据，并且具有很高的容错性。如果某个分区的数据丢失，Spark可以通过计算该分区的依赖分区的数据来恢复它。此外，RDD还支持并行操作和持久化，可以在多次计算中重复使用，从而提高了效率。

作者其他创作

大纲/内容

买家确认收货

支付成功

是否如约发货

创建发货单

卖家确认合同

资金到账

是否继续订单

卖家起草合同/上传PI合同

支付预付款

订单关闭