Spark快速大数据分析
2019-02-28 18:34:04 0 举报
AI智能生成
Spark快速大数据分析
作者其他创作
大纲/内容
第7章 在集群上运行 Spark
7.1 简介
7.2 Spark运行时架构
7.3 使用spark-submit部署应用
7.4 打包代码与依赖
7.5 Spark应用内与应用间调度
7.6 集群管理器
7.7 选择合适的集群管理器
第8章 Spark 调优与调试
8.1 使用SparkConf配置Spark
8.2 Spark执行的组成部分:作业、任务和步骤
8.3 查找信息
8.4 关键性能考量
第9章 Spark SQL
9.1 连接Spark SQL
9.2 在应用中使用Spark SQL
9.3 读取和存储数据
9.4 JDBC/ODBC服务器
9.5 用户自定义函数
9.6 Spark SQL性能
第10章 Spark Streaming
10.1 一个简单的例子
10.2 架构与抽象
10.3 转化操作
10.4 输出操作
10.5 输入源
10.6 24/7不间断运行
10.7 Streaming用户界面
10.8 性能考量
第11章 基于MLlib的机器学习
11.1 概述
11.2 系统要求
11.3 机器学习基础
11.4 数据类型
11.5 算法
11.6 一些提示与性能考量
11.7 流水线API
第1章 Spark 数据分析导论
1.1 Spark是什么
1.2 一个大一统的软件栈
1.3 Spark的用户和用途
1.4 Spark简史
1.5 Spark的版本和发布
1.6 Spark的存储层次
第2章 Spark 下载与入门
2.1 下载Spark
2.2 Spark中Python和Scala的shell
2.3 Spark核心概念简介
2.4 独立应用
第3章 RDD 编程
3.1 RDD基础
3.2 创建RDD
3.3 RDD操作
3.4 向Spark传递函数
3.5 常见的转化操作和行动操作
3.6 持久化(缓存)
第4章 键值对操作
4.1 动机
4.2 创建Pair RDD
4.3 Pair RDD的转化操作
4.4 Pair RDD的行动操作
4.5 数据分区(进阶)
第5章 数据读取与保存
5.1 动机
5.2 文件格式
5.3 文件系统
5.4 Spark SQL中的结构化数据
5.5 数据库
第6章 Spark 编程进阶
6.1 简介
6.2 累加器
6.3 广播变量
6.4 基于分区进行操作
6.5 与外部程序间的管道
6.6 数值RDD的操作
0 条评论
下一页
为你推荐
查看更多