RDD

2016-12-28 11:33:56 0 举报
仅支持查看
RDD
RDD,全称Resilient Distributed Datasets,是Apache Spark中的一个基本概念。它是一个不可变的、分布式的对象集合,每个RDD都被分为多个分区,这些分区运行在集群的不同节点上。RDD可以执行各种运算,如map、filter、reduce等,并且这些运算都是惰性的,只有在遇到行动操作(如count、collect)时才会真正执行。这种设计使得RDD能够有效地处理大规模数据,并且具有很高的容错性。如果某个分区的数据丢失,Spark可以通过计算该分区的依赖分区的数据来恢复它。此外,RDD还支持并行操作和持久化,可以在多次计算中重复使用,从而提高了效率。
作者其他创作
大纲/内容
评论
0 条评论
回复 删除
取消
回复
下一页