大数据常用工具总结
2021-05-15 19:33:36 0 举报
AI智能生成
学习大数据技术总结,含HBASE,HADOOP,SPARK,ZOOKPER
作者其他创作
大纲/内容
hadoop
结构
分布式存储hdfs
概念和基本结构
block
HDFS把文件分割成块进行存储
默认64M
节点
NameNode
管理节点,存放文件的元数据
文件与数据块的映射表
数据块与数据节点的映射表
DataNode
工作节点,存放数据块,通过NameNode找到
数据管理策略
数据块副本
每个数据块有三个副本,分别放在两个机架内的三个节点上
心跳检测
DataNode定期向NameNode发送消息
secordaryNameNode
定期同步元数据映像文件和修改日志,避免NameNode故障
map-reduce计算引擎
模型
将大文件进行拆分,分片文件由单独机器处理(Map),将个机器结果进行汇总获得最终结果(Reduce)
实现方式:yarn资源管理器
resourceManager
分配调度资源
监控另两个
ApplicationMaster
数据切分
容错
NodeManager
处理命令
配置
conf
core-site.xml(核心配置文件)
配置工作目录
dfs数据目录
服务器IP端口
hdfs-site.xml
dfs数据存放目录
子主题 2
mapred-site.xml
配置job.tracker任务调度器
hadoop-env.sh
设置java和hadoop环境变量
profile环境
应用场景
离线处理
对实时性要求不高的
HBase
nosql数据库
特点
面向列
多版本
稀疏性
空列不占存储空间
扩展性
架构体系
内部进程
HMaster
HRegionServer
外部依赖服务
Zookeeper
hadoop
表结构
子主题 1
分支主题
目录结构
bin
启动脚本
conf
spark
特点
map-reduce升级版
基于内存计算
时效性要求高
部署
运行环境
JDK1.7
目录介绍
bin
与spark交互的可执行文件脚本
core,streaming,python
源码
conf
配置
shell
bin/spark-shell
Zookeeper
内部服务
QuorumpeerMain
0 条评论
下一页