首页  思维导图  详情

Hadoop技术详解

2020-03-19 18:57:14   0  举报





AI智能生成

Hadoop技术详解(“十二五”国家重点图书出版规划项目)

项目管理

作者其他创作

大纲/内容

6 用户标识、身份验证和授权

6.1 用户标识

6.2 Kerberos和Hadoop

6.2.1 Kerberos

6.2.2 Hadoop上的Kerberos支持

6.2.2.1 配置Hadoop的安全管理

关于加密算法

6.3 授权

6.3.1 HDFS

6.3.2 MapReduce

6.3.3 其他工具和系统

6.4 集成试试

7 资源管理

7.1 何谓资源管理

7.2 HDFS配额

7.3 MapReduce 调度器

7.3.1 先进先出（FIFO）调度器

7.3.2 公平调度器

配置

7.3.3 计算能力调度器（Capacity Scheduler）

配置

7.3.4 未来发展

8 集群维护

8.1 Hadoop流程管理

8.1.1 用初始化脚本管理进程

8.1.2 手动管理进程

8.2 HDFS维护任务

8.2.1 添加一个DataNode

8.2.2 卸载DataNode

8.2.3 用fsck来检查文件系统的一致性

8.2.4 HDFS块数据均衡

8.2.5 处理坏磁盘

8.3 MapReduce维护任务

8.3.1 添加tasktracker

8.3.2 卸载tasktracker

8.3.3 终结MapReduce 作业

8.3.4 终结MapReduce任务

8.3.5 处理列入黑名单的tasktracker

9 故障分析与排查

9.1 鉴别诊断（Differential Diagnosis）

9.2 故障和问题

9.2.1 人类（自己）

9.2.2 配置错误

9.2.3 硬件故障

9.2.4 资源枯竭

9.2.5 主机标识和命名

9.2.6 网络分区

9.3 “计算机插好了么？”

E-SPORE

9.4 治疗和护理

“重启”综合症

9.5 实战案例

9.5.1 神秘的瓶颈

9.5.2 127.0.0.1这个地址不存在

10 监控

10.1 概览

10.2 Hadoop度量(Metrics)

10.2.1 Apache Hadoop 0.20.0和CDH3 (metrics1)

10.2.2 Apache Hadoop 0.20.203及之后的版本、CDH4(metrics2)

10.2.3 SNMP

10.3 健康监控

10.3.1 主机级别的检查

建议：

10.3.2 所有Hadoop进程

建议：

10.3.3 HDFS检查

建议：

10.3.4 MapReduce检查

建议：

11 备份与恢复

11.1 数据备份

11.1.1 分布式拷贝（distcp）

11.1.2 并行提取数据

11.2 NameNode元数据

附录弃用的配置属性

书末说明

欢迎来到异步社区！

异步社区的来历

社区里都有什么？

购买图书

下载资源

与作译者互动

灵活优惠的购书

特别优惠

纸电图书组合购买

社区里还可以做什么？

写作

会议活动早知道

加入异步

本书采用的约定

警告

示例代码的使用

Safari® Books Online

如何联系我们

1 简介

Apache Hive

Apache Pig

Apache Sqoop

Apache Flume

Apache Oozie

Apache Whirr

Apache HBase

Apache ZooKeeper

Apache HCatalog

2 HDFS

2.1 目标和动机

2.2 设计

2.3 守护进程

2.4 读写数据

2.4.1 数据读取流程

2.4.2 数据写操作流程

2.5 管理文件系统元数据

2.6 NameNode的高可用性

为什么不使用某个HA包？

2.7 NameNode联盟

2.8 访问与集成

2.8.1 命令行工具

2.8.2 用户空间文件系统（FUSE）

2.8.3 表示状态传输（REST）的支持

3 MapReduce

3.1 MapReduce的若干阶段

3.2 Hadoop MapReduce简介

3.2.1 后台程序

3.2.1.1 Jobtracker

3.2.1.2 Tasktracker

3.2.2 出错处理

3.2.2.1 任务出错

3.2.2.2 Tasktracker/工作节点出错

3.2.2.3 Jobtracker出错

3.2.2.4 HDFS出错

3.3 YARN

4 规划一个Hadoop集群

4.1 挑选Hadoop的发行版本

4.1.1 Apache Hadoop

4.1.2 Cloudera的Apache Hadoop发行版本

4.1.3 版本和功能

4.1.4 我应该使用哪个版本

4.2 硬件选型

4.2.1 主节点硬件的选择

4.2.1.1 NameNode的考虑

4.2.1.2 Secondary NameNode 的硬件

4.2.1.3 Jobtracker硬件

4.2.2 工作节点的硬件选择

4.2.3 集群的大小

4.2.4 刀片服务器、存储区域网络（SAN）和虚拟化

4.3 操作系统的选择和准备

4.3.1 部署规划

4.3.2 软件

4.3.3 主机名、DNS和标识

4.3.4 用户、组和特权

4.4 内核调整

4.4.1 vm.swappiness

4.4.2 vm.overcommit_memory

4.5 磁盘配置

4.5.1 选择文件系统

4.5.1.1 ext3

4.5.1.2 ext4

4.5.1.3 xfs

4.5.2 挂载选项

4.6 网络设计

4.6.1 Hadoop中的网络使用：回顾

4.6.1.1 HDFS

纵向和横向的区别

4.6.1.2 MapReduce

4.6.2 1 Gb与10 Gb网络

4.6.3 典型的网络拓扑

4.6.3.1 传统树结构

4.6.3.2 Spine Fabric

5 安装和配置

5.1 安装Hadoop

安装Hadoop时候需要Root权限吗？

5.1.1 Apache Hadoop

5.1.1.1 tar压缩包安装

5.1.1.2 软件包的安装

5.1.2 CDH

5.2 配置概述

已废弃的属性名

Hadoop XML配置文件

5.3 环境变量和Shell脚本

$HADOOP_HOME和$HADOOP_PREFIX的遗留问题

5.4 日志配置

5.5 HDFS

5.5.1 识别和定位

5.5.2 优化与调整

5.5.3 格式化NameNode

5.5.4 创建/tmp目录

5.6 NameNode的高可靠性

NFS是一种（暂时的）痛苦

5.6.1 隔离（Fencing）选项

5.6.2 基本配置

5.6.3 自动失效备援配置

5.6.3.1 初始化ZooKeeper状态

5.6.4 格式化和引导NameNode启动

5.7 NameNode联盟（Federation）

5.8 MapReduce

5.8.1 识别和定位

5.8.2 优化和调整

为什么同时使用参数mapred.child.java.opts和mapred.child.ulimit？

5.9 机架拓扑

5.10 安全

 收藏

立即使用

如何避免滑入中等收入陷阱

 收藏

立即使用

spring framework

 收藏

立即使用

IT技术团队项目组团队管理项目管理流程

 收藏

立即使用

产品经理必懂的企业管理九大技法

思维导图达人

职业：文档创作者

去主页





0 条评论

下一页

为你推荐

查看更多



建筑施工安全技术与管理(工业和信息化高职高专“十二五”规划教材立项项目)

出版概论