Spark中的WordCount源码分析图
2021-03-28 20:54:35 1 举报
WordCount都是大家入门级别的程序了,但是你们知道它在Spark中到底是怎样进行计算的吗?
作者其他创作
大纲/内容
compute()=shuffleManager.getReader
getDependencies
new MapPartitionsRDD
Iterator
MapPartitionsRDD
ShuffMapTask
shuffleManager
RDD
指向前面一个RDD
Block01
prev:1:1
父类构造deps:prev
textFile()
hadoopFile()
comput()
构造方法
sc.textFile()
Nil
ShuffledRDD
File.txt
WordCount的手写的代码逻辑
new HadoopRDD
HadoopRDD
Runjob
PipeLine
血统LineAge
父类构造deps
runTask
node07
flatMapRDD.map()
writer = manager.getWriter().write
combineByKeyWithClassTag()
SparkContext
File
数据是怎么流转的??
Flie.txt
reduceRDD.foreach()
ShuffleMapTask
如果reduce后面还有对应的操作的话,那就会形成一个链条一直往下去
PairRDD
批处理的弊端,一定要等到上一个Task运行完毕,下一个依赖的Task才能运行
mapRDD.reduceBykey()
node08
依赖关系??
通过new得到的方法一般要看它们的构造方法,我们只看重点的部分
fileRDD.flatMap()
Block00
dependencies=new OneToOneDependency(r)
0 条评论
下一页