Mapreduce原理
2017-04-04 23:17:23 0 举报
MapReduce是一种分布式计算框架,它的原理是将大规模的数据集分解成若干个小任务并行处理。首先,输入的数据集被切分成多个小的数据块,然后这些数据块被分配到不同的计算节点上进行处理。在每个计算节点上,Map函数对数据块进行处理,将数据转换成一组键值对。接着,这些键值对被排序并划分成不同的分区。最后,Reduce函数对每个分区内的数据进行合并和汇总,生成最终的结果。这种分布式计算方式可以有效地提高数据处理的速度和效率。
作者其他创作
大纲/内容
Reduce
Map Task
merge
Reduce Task
partition sort and spill to disk
partitions
\"Sort\" Phase
Map
other maps
output
other reducers
buffer in memory
input split
Reduce Phase
merge on disk
Copy Phase
0 条评论
回复 删除
下一页