MapReduce
2016-08-17 17:04:04 0 举报
MapReduce是一种编程模型和数据处理方法,主要用于处理和生成大数据集。它通过将大规模数据集分解成许多小任务,然后将这些任务分布到集群中的多台计算机上并行处理,最后再将结果合并成一个最终结果。MapReduce的两个主要阶段是Map和Reduce。在Map阶段,输入数据被切分成多个部分,并由不同的节点并行处理,以生成一组中间的键值对。在Reduce阶段,这些中间的键值对被归并和缩减,以生成最终的输出结果。MapReduce的优点包括高度可扩展性、容错性和可靠性,以及简化了分布式计算的复杂性。它被广泛应用于大数据处理领域,如搜索引擎、日志分析、机器学习等。
作者其他创作
大纲/内容
block
输出
Reduce
输入压缩
其他各自对应的Map
Reduce端
输入分片
复制阶段
reduce输出格式压缩
合并
output
reduce输入压缩
reduceTask
map
Reduce阶段
其他各自对应的Reduce
inputsplit
MapReduce变成模型
map输出压缩
分区、排序和磁盘分割
maptask
排序阶段
复制
解压
Map端
环形内存缓冲区
0 条评论
回复 删除
下一页