首页  思维导图  详情

大数据生态圈组件详解图

2022-07-12 10:39:38   48  举报





AI智能生成

大数据生态圈各个组件详细介绍，包含各种运行机制及原理框架总结，详细内容在每个节点的备注当中，该思维导图还在定时更新补充，适合做大数据学习者入门升级版教程。

hadoop

spark

hive

hbase

kafka

作者其他创作

大纲/内容

Hadoop

是什么

Hadoop是Apache公司旗下的一套开源分布式计算软件

为什么产生

能做什么

它允许使用简单的编程模型去分布式地计算大数据集，用户可以利用Hadoop服务器集群，编写自己的业务逻辑代码，就可以对海量数据进行分布式处理

结构

Hadoop common

支持其他Hadoop模块的常用工具

HDFS

MapReduce

Yarn

怎么做

特点

高可靠

可扩展

运作机制

启动

运行中

运行异常

运行结束

HDFS

是什么

来源于谷歌发布的一篇论文GFS，是一个可扩展的分布式文件系统

提供容错性机制，允许使用廉价的计算机集群来为用户提供性能不错的文件存取服务

它是一个文件系统，用来存储文件，通过目录树来定位文件

为什么产生

能做什么

为分布式运算框架提供文件存取服务

结构

NameNode

响应客户端请求

管理元数据

元数据格式

监控DataNode状态

通过clusterid来判断DataNode是否归NameNode管理

心跳机制判断是否存活

若DataNode超过10分30秒未发送心跳，则判定DataNode宕机

保持block的副本数量

维护目录树

DataNode

管理用户的文件块

和NameNode保持心跳，定期向NameNode报告块的存储情况

SecondaryNameNode

帮助NameNode合并日志

特点

高可靠

文件完整性

块校验和

文件在建立时，会在每个block上计算校验和，并保存在.meta文件中

客户端在读取block时，会将计算的block校验和与.meta文件中的校验和作比较，若不匹配，则block损坏

若损坏，客户端可以读取其它副本，NameNode会标记该block已损坏，并复制block副本数目到预期设置的副本数

DataNode会在文件创建后三周验证其校验和

网络和机器失效预防

多副本机制

安全模式

机架感知（副本存放）

同一个节点

不同机架

同第二个副本同机架的不同节点

心跳感知

checkpoint机制

NameNode宕机

主备切换（HA）

是什么

为什么

做什么

怎么做

结构

共享存储系统

NameNode

DataNode

Zookeeper

ZKFC

特点

（多）磁盘存储fsimage和edits

失败的任务重新分配

其它

快照

回收站机制

高扩展

停机增删节点

增加节点

删除节点

动态扩展节点

动态增加节点

动态删除节点

高效

块均匀分布

负载均衡

移动计算而非移动数据

其它

适合大文件的批处理，不适合小文件存取及低延迟响应

一次写入，多次读取，不支持多用户写入，不支持修改，只支持append

运作机制

启动

NameNode的启动过程

安全模式

安全模式是什么

安全模式能做什么

如何离开安全模式

运行中

checkpoint

是什么

为什么产生

能做什么

怎么做

文件上传到HDFS

从HDFS下载文件

运行异常

NameNode高可用（HA）

MapReduce

是什么

为什么产生

能做什么

结构

ResouceManager

MR AppMaster

是什么

作用

NodeManager

MapTask

ReduceTask

运作机制

启动

MapReduce的Job提交运行流程

运行中

MapReduce工作流程详解（mapTask+shuffle+ReduceTask）

MapReduce中ReadLine读取切片规则

Yarn

是什么？

Yarn是作业调度和集群资源管理的一个框架

为什么产生？

Yarn解决了MRv1版本中资源管理器扩展性差，单点故障以及只能局限于MR计算框架等的问题

能做什么？

管理内存和CPU等资源

怎么做？

结构？

ResourceManager

作用？

NodeManager

作用？

ApplicationMaster

作用？

Container

作用？

容错性

ResourceManager

ApplicationMaster

NodeManager

运行在Yarn上的计算框架

MapReduce

Tez

Storm

Spark

...

运作机制

运行异常

Yarn的HA

Zookeeper

是什么

Zookeeper分布式应用程序协调服务是Hadoop的一个子项目，为分布式应用提供协调服务

为什么产生？

能做什么

分布式共享锁

统一命名服务

统一配置管理

集群管理

选举

服务器动态上下线

队列管理

数据发布订阅

负载均衡

怎么做？

为用户提交的数据节点提供监听功能

管理（存储，读取）用户提交的数据

结构

Leader

Follower

Session

是什么？

Session的四种状态

Znode

是什么？

分类

按照存活时间

Persistent

Ephemeral

按照有无顺序标识

Sequential

No Sequential

结构

Znode的数据

Znode的属性

Znode的版本号

Znode的事务ID

Znode时间戳

特点

特点？

简单的数据结构：共享的树形结构，类似文件系统，存储于内存

可以构建集群：避免单点故障，3-5台机器就可以组成集群，超过半数正常工作久能对外提供服务

顺序访问：对于每个读请求，zookeeper会分配一个全局唯一的递增编号，利用这个特性可以实现高级协调服务

高性能：基于内存操作，服务于非事务请求，适用于读操作为主的业务操作。3台zk集群能达到13W QPS

其它特点

运作机制

启动

选举机制

服务器初始化Leader选举

服务器运行中Leader选举

运行中

通知机制

ACL保障数据安全

Kafka

是什么

能做什么

结构

Producer

Consumer Group

Consumer

Broker

Topic

Partirion

Offset

特点

运作机制

启动

SparkStreaming连接Kafka的两种方式

Receiver-base

原理

并行度

Direct

原理

并行度

两种方式的优缺点比较

运行中

运行异常

运行结束

问题

1.不是同一个consumer group的consumer可以消费同一个topic下的partition吗

partition内的消息是有序的，partition之间有序吗

Spark

是什么

能做什么

结构

运作机制

启动

运行中

运行异常

运行结束

Spark Core

是什么

能做什么

结构

运作机制

启动

运行中

运行异常

运行结束

Spark Sql

是什么

能做什么

结构

运作机制

启动

运行中

运行异常

运行结束

Spark Streaming

是什么

能做什么

结构

运作机制

启动

运行中

运行异常

运行结束

Redis

是什么

能做什么

结构

运作机制

启动

运行中

运行异常

运行结束

Hbase

是什么

能做什么

结构

运作机制

启动

运行中

运行异常

运行结束

Hive

是什么

能做什么

结构

运作机制

启动

运行中

运行异常

运行结束

Kylin

是什么

能做什么

结构

运作机制

启动

运行中

运行异常

运行结束

Sqoop

是什么

能做什么

结构

运作机制

启动

运行中

运行异常

运行结束

Flume

是什么

能做什么

结构

运作机制

启动

运行中

运行异常

运行结束

Oozie

是什么

能做什么

结构

运作机制

启动

运行中

运行异常

运行结束

自由主题

 收藏

立即使用

大数据生态圈组件详解图

Mr_青青子衿

职业：大数据架构师

去主页





0 条评论

下一页

为你推荐

查看更多

