RDD操作
2017-02-06 16:30:15 0 举报
RDD(Resilient Distributed Datasets)是Apache Spark中的一个核心概念,它是一个不可变的、分布式的对象集合。每个RDD都被分为多个分区,这些分区运行在集群的不同节点上。RDD提供了两种操作:转换操作和行动操作。转换操作创建一个新的RDD,而行动操作对RDD进行计算并返回结果。例如,map()是一个转换操作,它接受一个函数作为参数,并将该函数应用于RDD中的每个元素,从而创建一个新的RDD。而reduce()是一个行动操作,它接受一个函数作为参数,并将该函数应用于RDD中的所有元素,从而返回一个单一的值。