大数据
2016-05-14 16:06:19 196 举报
AI智能生成
大数据相关学习产品
作者其他创作
大纲/内容
Flume
Sqoop
与关系数据库交换数据
Kettle
ETL工具
Kafka
事实消息队列
Lucene
搜索引擎
Thrift
RPC
Hadoop
用户命令
Archive
创建一个hadoop档案文件
distcp
能从hadoop文件系统并行复制大量数据,一般用于在两个HDFS集群中传输数据
fsck
运行HDFS文件系统检查工具
jar
运行jar文件,向hadoop提交作业
HDFS
分布式文件系统
NameNode
主节点 :只有一个
接受用户操作请求
维护文件系统的目录结构
管理文件与block之间关系,block与datanode之间关系
DataNode
从节点
有很多个
存储文件
文件被分成block存储在磁盘上
文件有多个副本
MapReduce
分布式计算框架
JobTracker
主节点:只有一个
接受呼呼提交的技术按任务
把计算任务分配给TaskTrackers执行
监控TaskTracker的执行情况
TaskTracker
从节点:有很多个
执行JobTracker分配的计算任务
MR任务调度
FIFO批处理队列调度器
Capacity Scheduler 多用户容量调度器
FairScheduler 多用户公平调度器
特点
Scalable
Economical
Efficient
Reliable
Hbase
列式交互式数据库
Hive
MapReduce的SQL工具
Mahout
数据挖掘工具。
包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘
Zookeeper
集群管理
Redis
分布式缓存
收藏
收藏
0 条评论
下一页