分布式计算引擎核心设计思想
2020-07-14 11:08:16 0 举报
MapReduce 分布式计算引擎核心设计思想
作者其他创作
大纲/内容
hello 2a 1
排序
Mapper:第一阶段的业务逻辑处理代码
hello 2hello 2hello 2hello 2
Partitioner 分区器Sorter 排序器Combiner 聚合器
of 1of 1a 1of 1a 1a 1
hello 8
ReduceTask
HDFS
Reducer 阶段:执行汇总
不排序的话,只能全文件扫描
读取数据需要一个InputFormat 来从不同的数据源读取数据
第二阶段的业务处理
of 1of 1of 1a 1a 1a 1
单词计数:统计每个单词出现的次数
InputFormat
第一阶段的业务处理
聚合后再输出
hello 8of 3
hello 2of 1a 1
排序后
OutputFormat
of 3a 3
数据目的地
MapTask
hello 1of 1hello 1
负责写入数据
...
shuffle 阶段
数据源
规划总共有多少个task,再规划哪个task 执行哪一部分数据
文件总大小 / 每个数据块的大小 = 任务的个数默认的规则:每个数据块启动一个计算小任务
Split:逻辑划分,上传时就会划分好
MySQL
不管数据量多大:划分为多个数据块,运用多个task 来处理不管数据存储在哪里:通过InputFormat 规划task 读取的数据
收藏
收藏
0 条评论
回复 删除
下一页