基于Hadoop与Spark的大数据开发实战
2020-03-17 17:34:32 1 举报
AI智能生成
基于Hadoop与Spark的大数据开发实战
作者其他创作
大纲/内容
7 数据仓库Hive
任务1 Hive基础
7.1.1 认识Hive
7.1.2 Hive架构设计
7.1.3 Hive与Hadoop
7.1.4 Hive与传统关系型数据库
7.1.5 Hive数据存储模型
7.1.6 Hive部署
任务2 掌握Hive操作
7.2.1 Hive DDL
7.2.2 Hive DML
7.2.3 Hive shell
任务3 Hive高级应用
7.3.1 Hive函数
7.3.2 Hive调优策略
本章总结
本章练习
8 大数据离线处理辅助系统
任务1 认识并使用数据迁移框架Sqoop
8.1.1 Sqoop简介
8.1.2 使用Sqoop导入My SQL数据到HDFS
8.1.3 使用Sqoop导出HDFS数据到My SQL
8.1.4 使用Sqoop导入My SQL数据到Hive
8.1.5 Sqoop Job
任务2 使用Azkaban实现工作流调度
8.2.1 Azkaban概述
8.2.2 Azkaban环境部署
8.2.3 Azkaban应用实例
本章总结
本章练习
9 Spark基础
任务1 Spark入门
9.1.1 Spark简介
9.1.2 Spark优势
9.1.3 Spark生态圈
任务2 Scala基础
9.2.1 Scala简介
9.2.2 Scala函数定义
9.2.3 Scala面向对象操作
9.2.4 Scala集合的使用
9.2.5 Scala高阶函数
任务3 编译Spark
9.3.1 下载Spark源码
9.3.2 编译Spark源码
任务4 Spark初体验
9.4.1 Spark环境部署
9.4.2 spark-shell
本章总结
本章练习
10 Spark Core
任务1 Spark RDD
10.1.1 RDD介绍
10.1.2 RDD的创建
10.1.3 RDD的转换算子
10.1.4 RDD的动作算子
10.1.5 RDD的依赖关系
任务2 RDD高级应用
10.2.1 RDD缓存机制
10.2.2 共享变量
10.2.3 Spark架构设计
任务3 基于RDD的Spark应用程序开发
10.3.1 准备工作
10.3.2 词频计数实例
10.3.3 年龄统计实例
本章总结
本章练习
11 Spark SQL
任务1 认识Spark SQL
11.1.1 SQL
11.1.2 SQL on Hadoop框架
11.1.3 Spark SQL简介
任务2 Spark SQL编程基础
11.2.1 Spark SQL编程入口
11.2.2 Data Frame基础
11.2.3 Data Frame编程实例
任务3 Spark SQL编程进阶
11.3.1 Spark SQL操作外部数据源
11.3.2 Spark SQL函数
11.3.3 Spark SQL调优
本章总结
本章练习
12 Spark Streaming
任务1 流处理框架及Spark Streaming
12.1.1 流处理框架简介
12.1.2 Spark Streaming简介
任务2 使用Spark Streaming编程
12.2.1 Spark Streaming核心
12.2.2 Spark Streaming编程实例
任务3 Spark Streaming高级应用
12.3.1 使用Spark Streaming整合Flume
12.3.2 使用Spark Streaming整合Kafka
12.3.3 Spark Streaming优化策略
本章总结
本章练习
附录
关于引用作品的版权声明
1 Hadoop初体验
任务1 初识大数据
1.1.1 大数据基本概念
1.1.2 大数据带来的挑战
任务2 初识Hadoop
1.2.1 Hadoop概述
1.2.2 Hadoop生态圈
1.2.3 Hadoop应用案例
任务3 安装Hadoop平台
1.3.1 安装虚拟机
1.3.2 安装Linux系统
1.3.3 安装Hadoop伪分布式环境
本章总结
本章练习
2 Hadoop分布式文件系统
任务1 HDFS入门
2.1.1 认识HDFS
2.1.2 HDFS基础
2.1.3 HDFS架构
任务2 HDFS基本操作
2.2.1 使用HDFS shell访问
2.2.2 使用Java API访问
任务3 HDFS运行原理
2.3.1 HDFS读写流程
2.3.2 HDFS副本机制
2.3.3 HDFS负载均衡
2.3.4 HDFS机架感知
任务4 HDFS高级知识
2.4.1 Hadoop序列化机制
2.4.2 Sequence File
2.4.3 Map File
本章总结
本章练习
3 Hadoop分布式计算框架
任务1 认识Map Reduce编程模型
3.1.1 Map Reduce基础
3.1.2 Map Reduce编程模型
3.1.3 Map Reduce词频统计编程实例
任务2 Map Reduce应用开发
3.2.1 Map Reduce输入/输出类型
3.2.2 Map Reduce输入格式
3.2.3 Map Reduce输出格式
3.2.4 Combiner操作
3.2.5 Partitioner操作
3.2.6 自定义Record Reader
任务3 Map Reduce高级应用
3.3.1 使用Map Reduce实现join操作
3.3.2 使用Map Reduce实现排序
3.3.3 使用Map Reduce实现二次排序
3.3.4 使用Map Reduce合并小文件
本章总结
本章练习
4 Hadoop新特性
任务1 初识YARN
4.1.1 YARN产生背景
4.1.2 YARN简介
4.1.3 YARN架构设计
任务2 了解HDFS新特性
4.2.1 HDFS Name Node 高可用机制
4.2.2 HDFS Name Node Federation
4.2.3 HDFS Snapshots
4.2.4 HDFS REST API
4.2.5 Dist Cp工具
任务3 了解YARN新特性
4.3.1 Resource Manager自动重启
4.3.2 Resource Manager高可用机制
本章总结
本章练习
5 Hadoop分布式数据库
任务1 认识HBase
5.1.1 HBase简介
5.1.2 HBase体系结构
5.1.3 HBase数据模型
5.1.4 HBase的安装
任务2 HBase Shell操作
5.2.1 HBase Shell简介
5.2.2 HBase Shell的使用
任务3 HBase编程
5.3.1 开发HBase应用程序
5.3.2 HBase数据存储管理API
本章总结
本章练习
6 Hadoop综合实战——音乐排行榜
任务1 Map Reduce与HBase的集成
6.1.1 Map Reduce与HBase的集成环境
6.1.2 批量数据导入(Bulk Loading)
任务2 HBase Map Reduce API
6.2.1 HBase Map Reduce API 简介
6.2.2 Table Mapper的使用
6.2.3 Table Reducer的使用
任务3 实现音乐排行榜
6.3.1 程序的结构与实现
6.3.2 HBase数据库设计优化
6.3.3 Map Reduce全局共享数据
本章总结
本章练习
0 条评论
下一页