RDD

2017-03-20 15:51:55 0 举报
仅支持查看
RDD
RDD(Resilient Distributed Datasets)是Apache Spark中的一个核心概念,它是一个不可变的、分布式的数据集合。每个RDD都被分为多个分区,这些分区运行在集群的不同节点上。RDD提供了两种操作:转换操作和行动操作。转换操作创建一个新的RDD,而行动操作对RDD进行计算并返回结果。RDD具有容错性,如果某个节点失败,Spark会自动重新计算该节点上的数据。此外,RDD还支持并行处理和内存计算,使得大规模数据处理变得高效和快速。
作者其他创作
大纲/内容
评论
0 条评论
回复 删除
取消
回复
下一页