大数据生态圈组件详解图
2022-07-12 10:39:38 48 举报
AI智能生成
大数据生态圈各个组件详细介绍,包含各种运行机制及原理框架总结,详细内容在每个节点的备注当中,该思维导图还在定时更新补充,适合做大数据学习者入门升级版教程。
作者其他创作
大纲/内容
Hadoop
是什么
Hadoop是Apache公司旗下的一套开源分布式计算软件
为什么产生
能做什么
它允许使用简单的编程模型去分布式地计算大数据集,用户可以利用Hadoop服务器集群,编写自己的业务逻辑代码,就可以对海量数据进行分布式处理
结构
Hadoop common
支持其他Hadoop模块的常用工具
HDFS
MapReduce
Yarn
怎么做
特点
高可靠
可扩展
运作机制
启动
运行中
运行异常
运行结束
HDFS
是什么
来源于谷歌发布的一篇论文GFS,是一个可扩展的分布式文件系统
提供容错性机制,允许使用廉价的计算机集群来为用户提供性能不错的文件存取服务
它是一个文件系统,用来存储文件,通过目录树来定位文件
为什么产生
能做什么
为分布式运算框架提供文件存取服务
结构
NameNode
响应客户端请求
管理元数据
元数据格式
监控DataNode状态
通过clusterid来判断DataNode是否归NameNode管理
心跳机制判断是否存活
若DataNode超过10分30秒未发送心跳,则判定DataNode宕机
保持block的副本数量
维护目录树
DataNode
管理用户的文件块
和NameNode保持心跳,定期向NameNode报告块的存储情况
SecondaryNameNode
帮助NameNode合并日志
特点
高可靠
文件完整性
块校验和
文件在建立时,会在每个block上计算校验和,并保存在.meta文件中
客户端在读取block时,会将计算的block校验和与.meta文件中的校验和作比较,若不匹配,则block损坏
若损坏,客户端可以读取其它副本,NameNode会标记该block已损坏,并复制block副本数目到预期设置的副本数
DataNode会在文件创建后三周验证其校验和
网络和机器失效预防
多副本机制
安全模式
机架感知(副本存放)
同一个节点
不同机架
同第二个副本同机架的不同节点
心跳感知
checkpoint机制
NameNode宕机
主备切换(HA)
是什么
为什么
做什么
怎么做
结构
共享存储系统
NameNode
DataNode
Zookeeper
ZKFC
特点
(多)磁盘存储fsimage和edits
失败的任务重新分配
其它
快照
回收站机制
高扩展
停机增删节点
增加节点
删除节点
动态扩展节点
动态增加节点
动态删除节点
高效
块均匀分布
负载均衡
移动计算而非移动数据
其它
适合大文件的批处理,不适合小文件存取及低延迟响应
一次写入,多次读取,不支持多用户写入,不支持修改,只支持append
运作机制
启动
NameNode的启动过程
安全模式
安全模式是什么
安全模式能做什么
如何离开安全模式
运行中
checkpoint
是什么
为什么产生
能做什么
怎么做
文件上传到HDFS
从HDFS下载文件
运行异常
NameNode高可用(HA)
MapReduce
是什么
为什么产生
能做什么
结构
ResouceManager
MR AppMaster
是什么
作用
NodeManager
MapTask
ReduceTask
运作机制
启动
MapReduce的Job提交运行流程
运行中
MapReduce工作流程详解(mapTask+shuffle+ReduceTask)
MapReduce中ReadLine读取切片规则
Yarn
是什么?
Yarn是作业调度和集群资源管理的一个框架
为什么产生?
Yarn解决了MRv1版本中资源管理器扩展性差,单点故障以及只能局限于MR计算框架等的问题
能做什么?
管理内存和CPU等资源
怎么做?
结构?
ResourceManager
作用?
NodeManager
作用?
ApplicationMaster
作用?
Container
作用?
容错性
ResourceManager
ApplicationMaster
NodeManager
运行在Yarn上的计算框架
MapReduce
Tez
Storm
Spark
...
运作机制
运行异常
Yarn的HA
Zookeeper
是什么
Zookeeper分布式应用程序协调服务是Hadoop的一个子项目,为分布式应用提供协调服务
为什么产生?
能做什么
分布式共享锁
统一命名服务
统一配置管理
集群管理
选举
服务器动态上下线
队列管理
数据发布订阅
负载均衡
怎么做?
为用户提交的数据节点提供监听功能
管理(存储,读取)用户提交的数据
结构
Leader
Follower
Session
是什么?
Session的四种状态
Znode
是什么?
分类
按照存活时间
Persistent
Ephemeral
按照有无顺序标识
Sequential
No Sequential
结构
Znode的数据
Znode的属性
Znode的版本号
Znode的事务ID
Znode时间戳
特点
特点?
简单的数据结构:共享的树形结构,类似文件系统,存储于内存
可以构建集群:避免单点故障,3-5台机器就可以组成集群,超过半数正常工作久能对外提供服务
顺序访问:对于每个读请求,zookeeper会分配一个全局唯一的递增编号,利用这个特性可以实现高级协调服务
高性能:基于内存操作,服务于非事务请求,适用于读操作为主的业务操作。3台zk集群能达到13W QPS
其它特点
运作机制
启动
选举机制
服务器初始化Leader选举
服务器运行中Leader选举
运行中
通知机制
ACL保障数据安全
Kafka
是什么
能做什么
结构
Producer
Consumer Group
Consumer
Broker
Topic
Partirion
Offset
特点
运作机制
启动
SparkStreaming连接Kafka的两种方式
Receiver-base
原理
并行度
Direct
原理
并行度
两种方式的优缺点比较
运行中
运行异常
运行结束
问题
1.不是同一个consumer group的consumer可以消费同一个topic下的partition吗
partition内的消息是有序的,partition之间有序吗
Spark
是什么
能做什么
结构
运作机制
启动
运行中
运行异常
运行结束
Spark Core
是什么
能做什么
结构
运作机制
启动
运行中
运行异常
运行结束
Spark Sql
是什么
能做什么
结构
运作机制
启动
运行中
运行异常
运行结束
Spark Streaming
是什么
能做什么
结构
运作机制
启动
运行中
运行异常
运行结束
Redis
是什么
能做什么
结构
运作机制
启动
运行中
运行异常
运行结束
Hbase
是什么
能做什么
结构
运作机制
启动
运行中
运行异常
运行结束
Hive
是什么
能做什么
结构
运作机制
启动
运行中
运行异常
运行结束
Kylin
是什么
能做什么
结构
运作机制
启动
运行中
运行异常
运行结束
Sqoop
是什么
能做什么
结构
运作机制
启动
运行中
运行异常
运行结束
Flume
是什么
能做什么
结构
运作机制
启动
运行中
运行异常
运行结束
Oozie
是什么
能做什么
结构
运作机制
启动
运行中
运行异常
运行结束
自由主题
收藏
0 条评论
下一页