登录免费注册

首页  流程图  详情

Rdd

2015-03-20 09:53:42   3  举报





RDD（Resilient Distributed Datasets）是Apache Spark中的一个核心概念，它是一个不可变的、分布式的数据集合。RDD可以被切分并存储到集群的多个节点上，每个分区都是数据的独立副本。这使得RDD具有高度的容错性和并行处理能力。用户可以通过转化操作（如map、filter等）和行动操作（如count、collect等）对RDD进行操作。RDD支持粗粒度的并行化，适用于各种复杂的数据处理场景。此外，RDD还提供了持久化功能，可以将数据保存在磁盘上，以便在后续任务中重用。总之，RDD是Spark数据处理框架的核心组件，为大规模数据处理提供了强大的支持。

作者其他创作

大纲/内容

Map

P...

计算任务

Reduce

P1

P2

 收藏

立即使用

 收藏

立即使用

 收藏

立即使用

Package Diagram

 收藏

立即使用

Package Diagram

职业：暂无













评论

0 条评论

下一页

为你推荐

查看更多



Spark 计算模型案例 - RDD

Spark 计算模型案例 - RDD

Async Design - 3

Async Design - 3

spark-rdd-job-stage-task关系图

spark-rdd-job-stage-task关系图

Spark - RDD并行度与分区

Spark - RDD并行度与分区

Spar - RDD-filter算子之数据倾斜

Spar - RDD-filter算子之数据倾斜

5-8SparkStorage

5-8SparkStorage

1-3 Spark RDD 编程指南

1-3 Spark RDD 编程指南

5-5JobScheduleDetail

5-5JobScheduleDetail