mapreduce核心机制
2020-04-13 14:34:09 3 举报
大数据Hadoop分析MapReduce机制详解
作者其他创作
大纲/内容
运行在NodeManger提供的容器中
分区0归并
分区0合并
分区1输出
Combiner
环形缓冲区
Combiner为可选流程
YarnChild进程中
默认10个文件Merge一次
分区0压缩
分区0输出
内存缓冲
Reduce Task 1
HashPartitioner
第一次溢写
索引
一次读取一组
分区1(用快排排好序)
KVIndex
归并排序
压缩
分组(辅助排序)(可选的)
拷贝
写磁盘
Spark,3Kafka,3Flume,3
分区1磁盘数据
默认100M,达到80%溢写,然后反向
数据
map Task 2
分区1合并
分区1归并
分区0(用快排排好序)
合并文件进行归并排序
内存不够溢写到磁盘
一次读一行,返回一个KV
Part-r-000000
Shuffle过程,map方法到reduce方法之间
MapReduce核心机制示意图
Reduce Task 0
OutPutFormat
Merge合并
分区0磁盘数据
Part-r-000001
待处理文本Spark HadoopKafka FlumeHive HDFS
LineRecordReaderTextInputFormat
第二次溢写
Hadoop,3Hive,3HDFS,3
分区1压缩
默认是TextOutPutFormat
map Task 1
map Task 0
xXReducer
MRAppMaster 启动YarnChild 监控他们的运行状态
HDFS

收藏
0 条评论
下一页