首页  思维导图  详情

hadoop

2017-04-04 15:54:09   0  举报





仅支持查看

AI智能生成

为你推荐

查看更多



Hadoop是一个开源的分布式计算框架，它允许在集群中处理大量数据。它的设计目标是可靠、可扩展和容错，能够在成千上万的节点上运行。Hadoop的核心组件包括HDFS（Hadoop Distributed File System）和MapReduce。HDFS提供了一个高度容错的文件系统，能够将数据分布在多个节点上，而MapReduce则是一种编程模型，用于在集群上并行处理大量数据。Hadoop广泛应用于大数据存储和分析，如日志处理、数据挖掘、机器学习等领域。

作者其他创作

大纲/内容

优化

spark

storm

流程

数据put到hdfs

编写java程序

hadoop jar运行java程序

jobtracker进行任务分配

相应的tasktracker运行

tasktracker加载java程序，执行map部分，将结果写入hdfs

如果有reduce，tasktracker创建进程，通过RPC将map输出的hdfs文件拉到本地，开始reduce

Redecue结果写入hdfs

Join和group by

hadoop

map-reduce

jobtracker

资源分配

作业调度

重复执行

tasktracker

map

map端的过程

reduce

reduce端的过程

shuffle

combiner

partion

hadoop2.x

yarn

资源管理框架

ResourceManager

ApplicationMaster

NodeManager

hdfs

namenode

secondarynamenode

冗余

机架感知

事务日志和映射文件

datanode

写操作

管道复制

hbase

数据模型

行键

设计原则

长度

散列

唯一

时间戳

列族

物理存储

region

memstore

storefile

内部机制（WAL和Memstore）

hive

内部表与外部表

pig

自由主题

 收藏

立即使用

JavaIO

 收藏

立即使用

hadoop

seeshine

职业：暂无

去主页





0 条评论

回复删除



取消

下一页