rdd
2017-03-15 13:29:10 0 举报
RDD,全称Resilient Distributed Datasets,是Apache Spark中的一个核心概念。它是一个不可变的分布式对象集合,每个RDD都被分为多个分区,这些分区运行在集群的不同节点上。RDD提供了一种高度灵活的容错机制:数据被复制到多个节点上,所以即使某个节点失败,也可以从其他节点恢复数据。这使得RDD适合处理大数据任务。用户可以通过转换操作(如map、filter等)来创建新的RDD,通过行动操作(如count、collect等)来触发计算并获取结果。RDD支持粗粒度的并行操作,可以充分利用集群资源进行高效的数据处理。