Hadoop从入门到精通
2021-05-17 08:46:38 1 举报
AI智能生成
Hadoop从入门到精通
作者其他创作
大纲/内容
Hadoop3.x从入门到精通
入门
一、概念
1、Haddoop是什么
2、Hadoop发展历史
3、Hadoop的三大发行版本
4、Hadoop的优势
5、Hadoop的组成
HDFS架构概述
YARN架构概述
MapReduce架构概述
HDFS、YARN、MapReduce三者关系
6、大数据技术生态体系
7、推荐系统案例
二、Hadoop运行环境搭建
模板虚拟机环境准备
克隆虚拟机
在hadoop102安装Hadoop
Hadoop目录结构
三、Hadoop运行模式
本地运行模式(官方WordCount)
完全分布式运行模式(开发重点)
虚拟机准备
编写集群分发脚本xsync
SSH无密登录配置
集群配置
群起集群
配置历史服务器
配置日志的聚集
集群启动/停止方式总结
编写Hadoop集群常用脚本
常用端口号说明
集群时间同步
四、常见错误的解决方案
HDFS
一、概述
HDFS产出背景及定义
HDFS优缺点
HDFS组成架构
HDFS文件块大小(面试重点)
二、HDFS的Shell相关操作
基本语法
命令大全
常用命令实操
准备工作
上传
下载
HDFS直接操作
三、HDFS的客户端API
客户端环境准备
HDFS的API案例实操
HDFS文件上传(测试参数优先级)
HDFS文件下载
HDFS文件更名和移动
HDFS删除文件和目录
HDFS文件详情查看
HDFS文件和文件夹判断
四、HDFS的读写流程\t
HDFS写数据流程
剖析文件写入
网络拓扑-节点距离计算
机架感知(副本存储节点选择)
HDFS读数据流程
五、NN和2NN
NN和2NN工作机制
Fsimage和Edits解析
CheckPoint时间设置
六、Datanode
DataNode工作机制
数据完整性
掉线时限参数设置
MapReduce
一、MapReduce概述
MapReduce定义
MapReduce优缺点
MapReduce核心思想
MapReduce进程
官方WordCount源码
常用数据序列化类型
MapReduce编程规范
WordCount案例实操
本地测试
提交到集群测试
二、序列化
序列化概述
自定义bean对象实现序列化接口
序列化案例实操\t
三、核心框架原理
InputFormat数据输入
切片与MapTask并行度决定机制
Job提交流程源码和切片源码详解
FileInputFormat切片机制
TextInputFormat
CombineTextInputFormat切片机制
CombineTextInputFormat案例实操
MapReduce工作流程
Shuffle机制
Partition分区
Partition分区案例实操
WritableComparable排序
WritableComparable排序案例实操(全排序)
WritableComparable排序案例实操(区内排序)
Combiner合并
Combiner合并案例实操
OutputFormat数据输出
OutputFormat接口实现类
自定义OutputFormat案例实操
MapTask工作机制
ReduceTask工作机制
ReduceTask并行度决定机制
MapTask & ReduceTask源码解析
MapReduce内核源码解析
Join应用
Reduce Join
Reduce Join案例实操
Map Join
Map Join案例实操
数据清洗(ETL)
MapReduce开发总结
四、压缩
概述
MR支持的压缩编码
压缩方式选择
Gzip压缩
Bzip2压缩
Lzo压缩
Snappy压缩
压缩位置选择
压缩参数配置
压缩实操案例
Map输出端采用压缩
Reduce输出端采用压缩
五、常见的问题及解决方案
Yarn
一、理论
1、Yarn基础架构
2、Yarn的工作机制
3、作业提交全过程
4、Yarn调度器和调度算法
FIFO
容量调度器
公平调度器
5、命令行操作Yarn
yarn application查看任务
yarn logs查看日志
yarn applicationattempt查看尝试运行的任务
yarn container查看容器
yarn node查看节点状态
yarn rmadmin更新配置
yarn queue查看队列
6、yarn生产环境核心参数
二、怎么玩
1、Yarn生产环境核心参数配置案例
2、容量调度器多队列提交案例
需求
配置多队列的容量调度器
向Hive队列提交任务
任务优先级
3、公平调度器案例
配置多队列的公平调度器
测试提交任务
4、Yarn的Tool接口案例
生产调优手册
一、HDFS—核心参数
NameNode内存生产配置
NameNode心跳并发配置
开启回收站配置
二、HDFS—集群压测
测试HDFS写性能
测试HDFS读性能
三、HDFS—多目录
NameNode多目录配置
DataNode多目录配置
集群数据均衡之磁盘间数据均衡
四、HDFS—集群扩容及缩容
添加白名单
服役新服务器
服务器间数据均衡
黑名单退役服务器
五、HDFS—存储优化
纠删码
纠删码原理
纠删码案例实操
异构存储(冷热数据分离)
异构存储Shell操作
测试环境准备
HOT存储策略案例
WARM存储策略测试
COLD策略测试
ONE_SSD策略测试
ALL_SSD策略测试
LAZY_PERSIST策略测试
六、HDFS—故障排除
NameNode故障处理
集群安全模式&磁盘修复
慢磁盘监控
小文件归档
七、HDFS—集群迁移
Apache和Apache集群间数据拷贝
Apache和CDH集群间数据拷贝
八、MapReduce生产经验
MapReduce跑的慢的原因
MapReduce常用调优参数
MapReduce数据倾斜问题
九、Hadoop-Yarn生产经验
常用的调优参数
容量调度器使用
公平调度器使用
十、Hadoop综合调优
Hadoop小文件优化方法
Hadoop小文件弊端
Hadoop小文件解决方案
测试MapReduce计算性能
企业开发场景案例
HDFS参数调优
MapReduce参数调优
Yarn参数调优
执行程序
Hadoop源码解析
一、RPC通信原理解析
二、NameNode启动源码解析
启动9870端口服务
加载镜像文件和编辑日志
初始化NN的RPC服务端
NN启动资源检查
NN对心跳超时判断
安全模式
三、DataNode启动源码解析
初始化DataXceiverServer
初始化HTTP服务
初始化DN的RPC服务端
DN向NN注册
向NN发送心跳
四、HDFS上传源码解析
create创建过程
DN向NN发起创建请求
NN处理DN的创建请求
DataStreamer启动流程
write上传过程
向DataStreamer的队列里面写数据
建立管道之机架感知(块存储位置)
建立管道之Socket发送
建立管道之Socket接收
客户端接收DN写数据应答Response
五、Yarn源码解析
Yarn客户端向RM提交作业
RM启动MRAppMaster
调度器任务执行(YarnChild)
六、MapReduce源码解析
七、Hadoop源码编译
前期准备工作
工具包安装
编译源码
收藏
0 条评论
回复 删除
下一页