Mapreduce原理
2017-04-04 23:17:23 0 举报
登录查看完整内容
MapReduce是一种分布式计算框架,它的原理是将大规模数据集分解成多个小任务,然后并行处理这些任务。MapReduce的核心思想是分而治之,即将大问题拆分成多个小问题来解决。在Map阶段,输入数据被切分成多个独立的块,每个块由一个Mapper节点处理。Mapper节点将输入数据转换为一组键值对,并将这些键值对输出到中间文件系统。在Reduce阶段,所有具有相同键的值被收集到一起,并由一个Reducer节点进行处理。Reducer节点将这些值合并成一个单一的输出结果,并将其写入最终的输出文件系统。MapReduce框架通过自动调度和分配任务来确保整个计算过程高效、可扩展且容错性强。
作者其他创作
大纲/内容
Reduce
Map Task
merge
Reduce Task
partition sort and spill to disk
partitions
\"Sort\" Phase
Map
other maps
output
other reducers
buffer in memory
input split
Reduce Phase
merge on disk
Copy Phase
0 条评论
回复 删除
下一页