Hadoop
2017-03-15 18:22:35 0 举报
Hadoop是一个开源的分布式计算框架,它允许用户在大量廉价硬件上进行分布式处理和存储。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS提供了高度容错性的数据存储,而MapReduce则是一种编程模型,用于并行处理大量数据。Hadoop的设计目标是能够在节点失败的情况下继续运行,并且能够自动将数据从失败的节点重新分布到其他节点上。这使得Hadoop非常适合处理大数据,因为它可以在数千台机器上同时运行,从而提供非常高的处理速度。
作者其他创作
大纲/内容
MapReduce
Shared FileSystem
6 retrieve input splits
7. returns task
JobTracker
JobClient
5. initalize job
9 launch
10 run
8 retrieve job resources
TaskTracker
Child
3 copy job resoures
1.run job
4.submit job
2.get new job id
MapTask
0 条评论
下一页