MapReduce框图
2017-03-09 20:12:22 0 举报
MapReduce是一种编程模型和处理大量数据相关的问题的解决方案。它由两个主要阶段组成:Map阶段和Reduce阶段。在Map阶段,输入数据被切分成多个小的块,并由不同的节点并行处理。每个节点执行Map函数,将输入数据转换为一组键值对。然后,这些键值对被排序并分组在一起,以便后续的Reduce操作。在Reduce阶段,具有相同键的值被收集到一起,并由单个节点进行处理。Reduce函数将这些值合并为一个输出结果。MapReduce框架可以自动进行数据的分发、并行处理和结果的收集,从而简化了大规模数据处理的过程。
作者其他创作
大纲/内容
Client Node
TakTracker
2:获得new job ID
1:run job
MapReduce Program
MapTask 或 ReduceTask
8:retrieve job resources
9:Launch
10:run
Jobtracker Node
3:copy job resources
HDFS数据或其它共享数据
6:retrieve input splits
JobClient
Child
7:心跳机制(hearbeat)
5:初始化 Job
child JVM
Tasktracker Node
JobTracker
4:提交Job
0 条评论
回复 删除
下一页