hadoop作业提交过程
2021-04-12 17:17:57 0 举报
陪你去旅行UML
作者其他创作
大纲/内容
这些文件在job.submit()后生成
YarnChild
将结果写入HDFS上保存
NodeManager
Task
Container
7 创建容器Container
2.合并后再Merge归并排序
ResourceManager
Capacity(调度器)
RecordWriter
cpu+ram+jar
0
10 领取到任务,创建容器
1.分区、排序后溢出到文件
MapTask
默认TextInputFormat
YarnRunner
cpu+ramMRAppmaster
5 将用户的请求初始化成一个Task
12 向RM申请2个容器,运行ReduceTask程序
14 程序运行完后,MR会向RM注销自己
1
HashPartitioner分区Key.compareTo排序Combiner合并
13 Reduce向Map获取相应分区的数据(reduce拉取map中的数据)
分区、排序、合并
6 领取到Task任务
11 发送程序启动脚本
hdfs://bigdata/wc.jar
Part-r-000000文件
hdfs://…./.staging/application_id
Job.split Job.xmlwc.jar
3 提交job运行所需资源
3.分组
ReduceTask0
main(){job.waitForCompletion();}
4 资源提交完毕,申请运行mrAppMaster
OutPutFormat
将Mr程序从HDFS上提交到客户端所在的节点
默认TextOutputFormat
hadoop作业提交过程(包含hdfs、yarn、mapreduce)
outputCollector
4.一次读取一组
InputFormat
分区、排序、合并简单说明:
Mapper
1.将数据下载到ReduceTask本地磁盘
1 申请一个Application
wc.jar
ReduceTask1
9 申请运行MapTask容器
2 Application资源提交路径hdfs://…./.staging以及application_id
2.合并文件,归并排序
8 下载job资源到本地
RecorderReader
收藏
0 条评论
下一页
为你推荐
查看更多