首页  思维导图  详情

Hadoop从入门到精通

2021-05-17 08:46:38   1  举报





AI智能生成

Hadoop从入门到精通

入门指南

作者其他创作

大纲/内容

入门

一、概念

1、Haddoop是什么

2、Hadoop发展历史

3、Hadoop的三大发行版本

4、Hadoop的优势

5、Hadoop的组成

HDFS架构概述

YARN架构概述

MapReduce架构概述

HDFS、YARN、MapReduce三者关系

6、大数据技术生态体系

7、推荐系统案例

二、Hadoop运行环境搭建

模板虚拟机环境准备

克隆虚拟机

在hadoop102安装Hadoop

Hadoop目录结构

三、Hadoop运行模式

本地运行模式（官方WordCount）

完全分布式运行模式（开发重点）

虚拟机准备

编写集群分发脚本xsync

SSH无密登录配置

集群配置

群起集群

配置历史服务器

配置日志的聚集

集群启动/停止方式总结

编写Hadoop集群常用脚本

常用端口号说明

集群时间同步

四、常见错误的解决方案

HDFS

一、概述

HDFS产出背景及定义

HDFS优缺点

HDFS组成架构

HDFS文件块大小（面试重点）

二、HDFS的Shell相关操作

基本语法

命令大全

常用命令实操

准备工作

上传

下载

HDFS直接操作

三、HDFS的客户端API

客户端环境准备

HDFS的API案例实操

HDFS文件上传（测试参数优先级）

HDFS文件下载

HDFS文件更名和移动

HDFS删除文件和目录

HDFS文件详情查看

HDFS文件和文件夹判断

四、HDFS的读写流程

HDFS写数据流程

剖析文件写入

网络拓扑-节点距离计算

机架感知（副本存储节点选择）

HDFS读数据流程

五、NN和2NN

NN和2NN工作机制

Fsimage和Edits解析

CheckPoint时间设置

六、Datanode

DataNode工作机制

数据完整性

掉线时限参数设置

MapReduce

一、MapReduce概述

MapReduce定义

MapReduce优缺点

MapReduce核心思想

MapReduce进程

官方WordCount源码

常用数据序列化类型

MapReduce编程规范

WordCount案例实操

本地测试

提交到集群测试

二、序列化

序列化概述

自定义bean对象实现序列化接口

序列化案例实操

三、核心框架原理

InputFormat数据输入

切片与MapTask并行度决定机制

Job提交流程源码和切片源码详解

FileInputFormat切片机制

TextInputFormat

CombineTextInputFormat切片机制

CombineTextInputFormat案例实操

MapReduce工作流程

Shuffle机制

Partition分区

Partition分区案例实操

WritableComparable排序

WritableComparable排序案例实操（全排序）

WritableComparable排序案例实操（区内排序）

Combiner合并

Combiner合并案例实操

OutputFormat数据输出

OutputFormat接口实现类

自定义OutputFormat案例实操

MapTask工作机制

ReduceTask工作机制

ReduceTask并行度决定机制

MapTask & ReduceTask源码解析

MapReduce内核源码解析

Join应用

Reduce Join

Reduce Join案例实操

Map Join

Map Join案例实操

数据清洗（ETL）

MapReduce开发总结

四、压缩

概述

MR支持的压缩编码

压缩方式选择

Gzip压缩

Bzip2压缩

Lzo压缩

Snappy压缩

压缩位置选择

压缩参数配置

压缩实操案例

Map输出端采用压缩

Reduce输出端采用压缩

五、常见的问题及解决方案

Yarn

一、理论

1、Yarn基础架构

2、Yarn的工作机制

3、作业提交全过程

4、Yarn调度器和调度算法

FIFO

容量调度器

公平调度器

5、命令行操作Yarn

yarn application查看任务

yarn logs查看日志

yarn applicationattempt查看尝试运行的任务

yarn container查看容器

yarn node查看节点状态

yarn rmadmin更新配置

yarn queue查看队列

6、yarn生产环境核心参数

二、怎么玩

1、Yarn生产环境核心参数配置案例

2、容量调度器多队列提交案例

需求

配置多队列的容量调度器

向Hive队列提交任务

任务优先级

3、公平调度器案例

需求

配置多队列的公平调度器

测试提交任务

4、Yarn的Tool接口案例

生产调优手册

一、HDFS—核心参数

NameNode内存生产配置

NameNode心跳并发配置

开启回收站配置

二、HDFS—集群压测

测试HDFS写性能

测试HDFS读性能

三、HDFS—多目录

NameNode多目录配置

DataNode多目录配置

集群数据均衡之磁盘间数据均衡

四、HDFS—集群扩容及缩容

添加白名单

服役新服务器

服务器间数据均衡

黑名单退役服务器

五、HDFS—存储优化

纠删码

纠删码原理

纠删码案例实操

异构存储（冷热数据分离）

异构存储Shell操作

测试环境准备

HOT存储策略案例

WARM存储策略测试

COLD策略测试

ONE_SSD策略测试

ALL_SSD策略测试

LAZY_PERSIST策略测试

六、HDFS—故障排除

NameNode故障处理

集群安全模式&磁盘修复

慢磁盘监控

小文件归档

七、HDFS—集群迁移

Apache和Apache集群间数据拷贝

Apache和CDH集群间数据拷贝

八、MapReduce生产经验

MapReduce跑的慢的原因

MapReduce常用调优参数

MapReduce数据倾斜问题

九、Hadoop-Yarn生产经验

常用的调优参数

容量调度器使用

公平调度器使用

十、Hadoop综合调优

Hadoop小文件优化方法

Hadoop小文件弊端

Hadoop小文件解决方案

测试MapReduce计算性能

企业开发场景案例

需求

HDFS参数调优

MapReduce参数调优

Yarn参数调优

执行程序

Hadoop源码解析

一、RPC通信原理解析

二、NameNode启动源码解析

启动9870端口服务

加载镜像文件和编辑日志

初始化NN的RPC服务端

NN启动资源检查

NN对心跳超时判断

安全模式

三、DataNode启动源码解析

初始化DataXceiverServer

初始化HTTP服务

初始化DN的RPC服务端

DN向NN注册

向NN发送心跳

四、HDFS上传源码解析

create创建过程

DN向NN发起创建请求

NN处理DN的创建请求

DataStreamer启动流程

write上传过程

向DataStreamer的队列里面写数据

建立管道之机架感知（块存储位置）

建立管道之Socket发送

建立管道之Socket接收

客户端接收DN写数据应答Response

五、Yarn源码解析

Yarn客户端向RM提交作业

RM启动MRAppMaster

调度器任务执行（YarnChild）

六、MapReduce源码解析

Job提交流程源码和切片源码详解

MapTask & ReduceTask源码解析

七、Hadoop源码编译

前期准备工作

工具包安装

编译源码

 收藏

立即使用

Hadoop从入门到精通

我叫张梦来

职业：本科

去主页





0 条评论

下一页

为你推荐

查看更多



MySQL从入门到精通

Excel 2016从入门到精通

电路识图从入门到精通

Word 2003办公应用实战从入门到精通(实战从入门到精通系列)