首页  流程图  详情

MR工作流程

2023-05-11 11:10:56   9  举报





大数据计算框架

数据分析

作者其他创作

大纲/内容

归并排序

block1

我们在maptask写的逻辑，将一行数据按空格切分并每个数据以value 1的形式输出

baidu njd ntaobao n

disk

....

aaa nbbb nccc n

baidu 1...jd 1 ...taobao 1..

分区快排

ddd nfff neee n

merge

ddd 1 fff 1 eee 1

因为环形缓存区的溢写会产生很多小文件，小文件过多会产生元数据爆炸压垮namenode。所以combiner组合器会将小文件进行合并，默认10个文件合并一次，合并策略和reduceTask一样

HDFS

...

memony

baidu 1 jd 1 taobao 1

环形缓存区

aaa 1 bbb 1 ccc1

128M

溢写

ddd 1 fff 1 eee 1

ReduceTask

split数量对于maptask数量，如果集群资源充足可以更具改小切片让更多maptask参与计算

分区数是根据reduceTask决定的1：1

MapTask

Client

.....

split1 128Mbaidu.com jd.com taobao.com

baidu 1 jd 1 taobao 1

block3

aaa 1 bbb 1 ccc1

Fetch

baidu 1...jd 1 ...taobao 1..

321M

split

combiner组合器

环形缓存区达到百分之80会溢写，为了保证写出不卡顿

shuffle ————map方法到reduce方法之间

block2

 收藏

立即使用

Flink架构流程&RPC通信组件&Flink任务调度机制

 收藏

立即使用

离线实时数仓模型

 收藏

立即使用

Hbase架构流程图

 收藏

立即使用

Hive架构以及计算流程

Insist Every Day

职业：本科

去主页





0 条评论

下一页

为你推荐

查看更多

