大数据生态圈组件详解图
2022-07-12 10:39:38 46 举报
AI智能生成
大数据生态圈各个组件详细介绍,包含各种运行机制及原理框架总结,详细内容在每个节点的备注当中,该思维导图还在定时更新补充,适合做大数据学习者入门升级版教程。
作者其他创作
大纲/内容
Hadoop是Apache公司旗下的一套开源分布式计算软件
是什么
为什么产生
它允许使用简单的编程模型去分布式地计算大数据集,用户可以利用Hadoop服务器集群,编写自己的业务逻辑代码,就可以对海量数据进行分布式处理
能做什么
支持其他Hadoop模块的常用工具
Hadoop common
HDFS
MapReduce
Yarn
结构
怎么做
高可靠
可扩展
特点
启动
运行中
运行异常
运行结束
运作机制
Hadoop
来源于谷歌发布的一篇论文GFS,是一个可扩展的分布式文件系统
提供容错性机制,允许使用廉价的计算机集群来为用户提供性能不错的文件存取服务
它是一个文件系统,用来存储文件,通过目录树来定位文件
为分布式运算框架提供文件存取服务
响应客户端请求
元数据格式
管理元数据
通过clusterid来判断DataNode是否归NameNode管理
若DataNode超过10分30秒未发送心跳,则判定DataNode宕机
心跳机制判断是否存活
保持block的副本数量
监控DataNode状态
维护目录树
NameNode
管理用户的文件块
和NameNode保持心跳,定期向NameNode报告块的存储情况
DataNode
帮助NameNode合并日志
SecondaryNameNode
文件在建立时,会在每个block上计算校验和,并保存在.meta文件中
客户端在读取block时,会将计算的block校验和与.meta文件中的校验和作比较,若不匹配,则block损坏
若损坏,客户端可以读取其它副本,NameNode会标记该block已损坏,并复制block副本数目到预期设置的副本数
DataNode会在文件创建后三周验证其校验和
块校验和
文件完整性
安全模式
多副本机制
同一个节点
不同机架
同第二个副本同机架的不同节点
机架感知(副本存放)
心跳感知
checkpoint机制
网络和机器失效预防
为什么
做什么
共享存储系统
Zookeeper
ZKFC
主备切换(HA)
(多)磁盘存储fsimage和edits
NameNode宕机
失败的任务重新分配
快照
回收站机制
其它
增加节点
删除节点
停机增删节点
动态增加节点
动态删除节点
动态扩展节点
高扩展
负载均衡
块均匀分布
移动计算而非移动数据
高效
适合大文件的批处理,不适合小文件存取及低延迟响应
一次写入,多次读取,不支持多用户写入,不支持修改,只支持append
NameNode的启动过程
安全模式是什么
安全模式能做什么
如何离开安全模式
checkpoint
文件上传到HDFS
从HDFS下载文件
NameNode高可用(HA)
ResouceManager
作用
MR AppMaster
NodeManager
MapTask
ReduceTask
MapReduce的Job提交运行流程
MapReduce工作流程详解(mapTask+shuffle+ReduceTask)
MapReduce中ReadLine读取切片规则
Yarn是作业调度和集群资源管理的一个框架
是什么?
Yarn解决了MRv1版本中资源管理器扩展性差,单点故障以及只能局限于MR计算框架等的问题
为什么产生?
管理内存和CPU等资源
能做什么?
怎么做?
作用?
ResourceManager
ApplicationMaster
Container
结构?
容错性
Tez
Storm
Spark
...
运行在Yarn上的计算框架
Yarn的HA
Zookeeper分布式应用程序协调服务是Hadoop的一个子项目,为分布式应用提供协调服务
分布式共享锁
统一命名服务
统一配置管理
选举
服务器动态上下线
集群管理
队列管理
数据发布订阅
为用户提交的数据节点提供监听功能
管理(存储,读取)用户提交的数据
Leader
Follower
Session的四种状态
Session
Persistent
Ephemeral
按照存活时间
Sequential
No Sequential
按照有无顺序标识
分类
Znode的数据
Znode的属性
Znode的版本号
Znode的事务ID
Znode时间戳
Znode
简单的数据结构:共享的树形结构,类似文件系统,存储于内存
可以构建集群:避免单点故障,3-5台机器就可以组成集群,超过半数正常工作久能对外提供服务
顺序访问:对于每个读请求,zookeeper会分配一个全局唯一的递增编号,利用这个特性可以实现高级协调服务
高性能:基于内存操作,服务于非事务请求,适用于读操作为主的业务操作。3台zk集群能达到13W QPS
其它特点
特点?
服务器初始化Leader选举
服务器运行中Leader选举
选举机制
通知机制
ACL保障数据安全
Producer
Consumer Group
Consumer
Broker
Topic
Partirion
Offset
原理
并行度
Receiver-base
Direct
两种方式的优缺点比较
SparkStreaming连接Kafka的两种方式
1.不是同一个consumer group的consumer可以消费同一个topic下的partition吗
partition内的消息是有序的,partition之间有序吗
问题
Kafka
Spark Core
Spark Sql
Spark Streaming
Redis
Hbase
Hive
Kylin
Sqoop
Flume
Oozie
自由主题
大数据生态圈组件思维导图
收藏
0 条评论
回复 删除
下一页