首页  流程图  详情

分布式计算引擎核心设计思想

2020-07-14 11:08:16   0  举报





仅支持查看

为你推荐

查看更多



MapReduce 分布式计算引擎核心设计思想

大数据

分布式计算

作者其他创作

大纲/内容

hello 2a 1

排序

Mapper：第一阶段的业务逻辑处理代码

hello 2hello 2hello 2hello 2

Partitioner 分区器Sorter 排序器Combiner 聚合器

of 1of 1a 1of 1a 1a 1

hello 8

ReduceTask

HDFS

Reducer 阶段：执行汇总

不排序的话，只能全文件扫描

读取数据需要一个InputFormat 来从不同的数据源读取数据

第二阶段的业务处理

of 1of 1of 1a 1a 1a 1

单词计数：统计每个单词出现的次数

InputFormat

第一阶段的业务处理

聚合后再输出

hello 8of 3

hello 2of 1a 1

排序后

OutputFormat

of 3a 3

数据目的地

MapTask

hello 1of 1hello 1

负责写入数据

...

shuffle 阶段

数据源

规划总共有多少个task，再规划哪个task 执行哪一部分数据

文件总大小 / 每个数据块的大小 = 任务的个数默认的规则：每个数据块启动一个计算小任务

Split：逻辑划分，上传时就会划分好

MySQL

不管数据量多大：划分为多个数据块，运用多个task 来处理不管数据存储在哪里：通过InputFormat 规划task 读取的数据

 收藏

立即使用

分布式计算引擎核心设计思想

 收藏

立即使用

HDFS 架构设计思路

云中游的鱼

职业：本科

去主页





0 条评论

回复删除



取消

下一页