MR process
2023-03-23 16:17:37 0 举报
MapReduce 处理流程
作者其他创作
大纲/内容
Merge 合并
Disk
溢写到磁盘
Map Task
Output
HDFS
... ... ...(Sorted 快速排序)
以 Kye、Value 形式读取数据到 Map 任务Key 是偏移量,Value 是一行数据
Memory
100M
partition 分区(Hash)
block2
写出
block3
partition 分区(Hash)
Reduce Task
有多少个 Reduce 就有多少个分区一个分区可以有若干组,相同key为一组
第一次溢写...第n次溢写
Merge 合并
向环型缓冲区写入KV数据
MySql
Keybuffer 环形数据缓冲区默认100M,达到80%开始溢写
split
默认 10 个小文件合并一次
block1
combiner 组合器(可选)
收藏
0 条评论
回复 删除
下一页