Spark 计算模型案例 - RDD
2015-11-28 12:47:19 4 举报
Apache Spark 是一个用于大规模数据处理的统一分析引擎。它提供了 Java,Scala,Python 和 R 中的高级 API,以及优化的引擎,支持计算图形和内存计算。Spark 的主要特点是其内存计算能力,因为它能在内存中执行循环操作,从而大幅提升了速度。RDD(弹性分布式数据集)是 Spark 的基本数据结构,它是一个不可变的、可分区、可并行操作的元素集合。RDD 可以让用户显式地将中间结果持久化到磁盘上,以便在需要时进行恢复。这使得 Spark 非常适合于迭代算法和交互式数据分析。总之,Spark 提供了一个快速、通用和易于使用的大数据处理框架,适用于各种应用场景。
作者其他创作
大纲/内容
5.迭代生成新的 RDD
7.迭代生成新的 RDD
7. 返回结果
4 .整个 RDD 在Block Manager 中管理
1. 导入 HDFS | HIVE | FIle
3 . RDD 的分区保存在 Block Manager 的\b块中
2 . 生成 RDD
同 6
6. 通过父 RDD 转换生成新的 RDD
0 条评论
下一页