1-1 Spark 概述
2024-01-04 10:40:42 1 举报
AI智能生成
不知道如何学习spark,就从spark官网的概述入手吧。
作者其他创作
大纲/内容
概述
Spark概述
Apache Spark 是一个快速、通用的集群计算系统。它提供 Java、Scala、Python 和 R 中的高级 API,以及支持通用执行图的优化引擎。它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的Spark SQL 、用于机器学习的MLlib 、用于图形处理的GraphX和Spark Streaming。
下载
下载页: https://archive.apache.org/dist/spark/spark-2.3.0/
从项目网站的下载页面获取 Spark 。本文档适用于 Spark 2.3.0版本。Spark 使用 Hadoop 的 HDFS 和 YARN 客户端库。下载已针对少数流行的 Hadoop 版本进行了预打包。用户还可以下载“Hadoop free”二进制文件,并 通过声明Spark 的类路径来使用任何 Hadoop 版本运行 Spark 。Scala 和 Java 用户可以使用 Spark 的 Maven 坐标将 Spark 包含在他们的项目中,将来 Python 用户还可以从 PyPI 安装 Spark。
如果您想从源代码构建 Spark,请访问构建 Spark。
Spark 可以在Windows 和类UNIX 系统(例如Linux、Mac OS)上运行。在一台机器上本地运行很容易 - 您所需要的只是java在您的系统上安装PATH,或者JAVA_HOME指向 Java 安装的环境变量。
Spark 在 Java 8+、Python 2.7+/3.4+ 和 R 3.1+ 上运行。对于 Scala API,Spark 2.3.0 使用 Scala 2.11。您将需要使用兼容的 Scala 版本 (2.11.x)。
请注意,从 Spark 2.2.0 开始,删除了对 Java 7、Python 2.6 和 2.6.5 之前的旧 Hadoop 版本的支持。从 2.3.0 开始,删除了对 Scala 2.10 的支持。
如果您想从源代码构建 Spark,请访问构建 Spark。
Spark 可以在Windows 和类UNIX 系统(例如Linux、Mac OS)上运行。在一台机器上本地运行很容易 - 您所需要的只是java在您的系统上安装PATH,或者JAVA_HOME指向 Java 安装的环境变量。
Spark 在 Java 8+、Python 2.7+/3.4+ 和 R 3.1+ 上运行。对于 Scala API,Spark 2.3.0 使用 Scala 2.11。您将需要使用兼容的 Scala 版本 (2.11.x)。
请注意,从 Spark 2.2.0 开始,删除了对 Java 7、Python 2.6 和 2.6.5 之前的旧 Hadoop 版本的支持。从 2.3.0 开始,删除了对 Scala 2.10 的支持。
运行示例和Shell
Spark 附带了几个示例程序。Scala、Java、Python 和 R 示例位于该 examples/src/main目录中。要运行 Java 或 Scala 示例程序之一,请 bin/run-example <class> [params]在顶级 Spark 目录中使用。(在幕后,这会调用更通用的 spark-submit脚本来启动应用程序)。例如,
./bin/run-example SparkPi 10
您还可以通过 Scala shell 的修改版本以交互方式运行 Spark。这是学习框架的好方法。
./bin/spark-shell --master local[2]
该--master选项指定 分布式集群的主 URL,或者local使用一个线程本地运行,或者local[N]使用 N 个线程本地运行。您应该从用于 local测试开始。有关选项的完整列表,请使用该--help选项运行 Spark shell。
Spark 还提供了 Python API。要在 Python 解释器中交互运行 Spark,请使用 bin/pyspark:
./bin/pyspark --master local[2]
还提供了 Python 版本的示例应用程序。例如,
./bin/spark-submit examples/src/main/python/pi.py 10
Spark 还从 1.4 开始提供实验性R API(仅包含 DataFrames API)。要在 R 解释器中交互运行 Spark,请使用bin/sparkR:
./bin/sparkR --master local[2]
R 中还提供了示例应用程序。例如,
./bin/spark-submit examples/src/main/r/dataframe.R
./bin/run-example SparkPi 10
您还可以通过 Scala shell 的修改版本以交互方式运行 Spark。这是学习框架的好方法。
./bin/spark-shell --master local[2]
该--master选项指定 分布式集群的主 URL,或者local使用一个线程本地运行,或者local[N]使用 N 个线程本地运行。您应该从用于 local测试开始。有关选项的完整列表,请使用该--help选项运行 Spark shell。
Spark 还提供了 Python API。要在 Python 解释器中交互运行 Spark,请使用 bin/pyspark:
./bin/pyspark --master local[2]
还提供了 Python 版本的示例应用程序。例如,
./bin/spark-submit examples/src/main/python/pi.py 10
Spark 还从 1.4 开始提供实验性R API(仅包含 DataFrames API)。要在 R 解释器中交互运行 Spark,请使用bin/sparkR:
./bin/sparkR --master local[2]
R 中还提供了示例应用程序。例如,
./bin/spark-submit examples/src/main/r/dataframe.R
在集群上运行
Spark集群模式概述解释了在集群上运行的关键概念。Spark 可以单独运行,也可以在多个现有集群管理器上运行。目前它提供了多种部署选项:
Standalone Deploy Mode: 在私有集群上部署 Spark 的最简单方法
Apache Mesos
Hadoop YARN
Kubernetes
Standalone Deploy Mode: 在私有集群上部署 Spark 的最简单方法
Apache Mesos
Hadoop YARN
Kubernetes
主要的相关文档
编程指南
快速入门:Spark API 的快速介绍;从这里开始!
RDD 编程指南:Spark 基础知识概述 - RDD(核心但旧的 API)、累加器和广播变量
Spark SQL、Datasets 和 DataFrames:使用关系查询处理结构化数据(比 RDD 更新的 API)
Structured Streaming:使用关系查询处理结构化数据流(使用数据集和数据帧,比 DStreams 更新的 API)
Spark Streaming:使用DStreams(旧API)处理数据流
MLlib:应用机器学习算法
GraphX:处理图表
API 文档:
Spark Scala API (Scaladoc)
Spark Java API(Javadoc)
Spark Python API (Sphinx)
Spark R API (Roxygen2)
Spark SQL,内置函数 (MkDocs)
部署指南
集群概述:在集群上运行时的概念和组件概述
提交应用程序:打包和部署应用程序
部署模式:
Amazon EC2:可让您在大约 5 分钟内在 EC2 上启动集群的脚本
Standalone Deploy Mode:无需第三方集群管理器即可快速启动独立集群
Mesos :使用Apache Mesos部署私有集群
YARN:在 Hadoop NextGen (YARN) 之上部署 Spark
Kubernetes:在 Kubernetes 之上部署 Spark
其他文档
配置:通过其配置系统自定义 Spark
监控:跟踪应用程序的行为
调优指南:优化性能和内存使用的最佳实践
作业调度:在 Spark 应用程序之间和内部调度资源
安全性:Spark安全支持
硬件配置:集群硬件建议
与其他存储系统集成:
云基础设施
OpenStack Swift
Building Spark:使用Maven系统构建Spark
为 Spark 做出贡献
第三方项目:相关第三方 Spark 项目
其余资源
Spark 社区资源,包括本地聚会
StackOverflow 标签apache-spark
邮件列表:在此处询问有关 Spark 的问题
AMP 训练营:加州大学伯克利分校的一系列训练营,其中包括有关 Spark、Spark Streaming、Mesos 等的讲座和练习。视频、 幻灯片和练习均可在线免费获取。
代码示例examples: Spark 子文件夹中还提供了更多代码示例( Scala、 Java、 Python、 R)
StackOverflow 标签apache-spark
邮件列表:在此处询问有关 Spark 的问题
AMP 训练营:加州大学伯克利分校的一系列训练营,其中包括有关 Spark、Spark Streaming、Mesos 等的讲座和练习。视频、 幻灯片和练习均可在线免费获取。
代码示例examples: Spark 子文件夹中还提供了更多代码示例( Scala、 Java、 Python、 R)
0 条评论
下一页