MR工作流程
2023-05-11 11:10:56 9 举报
大数据计算框架
作者其他创作
大纲/内容
归并排序
block1
我们在maptask写的逻辑,将一行数据按空格切分并每个数据以value 1的形式输出
baidu njd ntaobao n
disk
....
aaa nbbb nccc n
baidu 1...jd 1 ...taobao 1..
分区快排
ddd nfff neee n
merge
ddd 1 fff 1 eee 1
因为环形缓存区的溢写会产生很多小文件,小文件过多会产生元数据爆炸压垮namenode。所以combiner组合器会将小文件进行合并,默认10个文件合并一次,合并策略和reduceTask一样
HDFS
...
memony
baidu 1 jd 1 taobao 1
环形缓存区
aaa 1 bbb 1 ccc1
128M
溢写
ddd 1 fff 1 eee 1
ReduceTask
split数量对于maptask数量,如果集群资源充足可以更具改小切片让更多maptask参与计算
分区数是根据reduceTask决定的1:1
MapTask
Client
.....
split1 128Mbaidu.com jd.com taobao.com
split1 128Mbaidu.com jd.com taobao.com
baidu 1 jd 1 taobao 1
block3
aaa 1 bbb 1 ccc1
Fetch
baidu 1...jd 1 ...taobao 1..
321M
split
combiner组合器
环形缓存区达到百分之80会溢写,为了保证写出不卡顿
shuffle ————map方法到reduce方法之间
block2
0 条评论
下一页