Rdd
2015-03-20 09:53:42 3 举报
RDD(Resilient Distributed Datasets)是Apache Spark中的一个核心概念,它是一个不可变的、分布式的数据集合。RDD可以被切分并存储到集群的多个节点上,每个分区都是数据的独立副本。这使得RDD具有高度的容错性和并行处理能力。用户可以通过转化操作(如map、filter等)和行动操作(如count、collect等)对RDD进行操作。RDD支持粗粒度的并行化,适用于各种复杂的数据处理场景。此外,RDD还提供了持久化功能,可以将数据保存在磁盘上,以便在后续任务中重用。总之,RDD是Spark数据处理框架的核心组件,为大规模数据处理提供了强大的支持。
作者其他创作
大纲/内容
Map
P...
计算任务
Reduce
P1
P2
0 条评论
下一页