spark流程概念知识相关图
2022-08-19 11:01:18 1 举报
spark运行流程图,RDD处理流程图,字符流图,字节流图,缓冲区图,wordcount处理流程图等等·
作者其他创作
大纲/内容
省份2,((广告,99),(广告,88),(广告,77))
数据源
数据流
XX
map
6
groupByKey
用省份分组
task
file
executor
A
spark SQL
DataFrame
B
action算子
2
flatMap
person
Job Scheduler
flatMMap
reduceByKey--ShuffledRDD
统计每个省份每个广告被点击数排行
缓冲流
C
time1
reduceByKey
spark处理
int
time3
sparkStreaming 整体构架图
data2
时间 省份 城市 用户 广告
省份,(广告,sum)
FileInputStream
RDD_reduceByKey
taskXX
ResultStage
贵
8
cache
wordcount
InputStream in = new BufferedInputStream(new FileInputStream\"path\")int i = 1while((i = in.read()) != 1){println(i);}
省份,((广告,sum),(广告,sum),(广告,sum))
string
driver
三者之间的转换关系
sparkStreaming
分组聚合统计
hello worldhello scala
name
数据保存
work node
executor启动
块ID
创建taskSet
数据
打印
RDD3依赖RDD2,RDD2依赖RDD1
spark GraphX
7
database
hello
data3
RDD
计时
Buff
map--MapPartitionsRDD
data1
集群管理
提取数据&格式转换
main函数
备份数据到另一·节点
(省份,广告),sum
age
scala
Master
spark核心模块
collect
textfile
RDD持久化
spark Driver
spark提交任务流程
RDD1
BufferedReader
sparkStreaming Driver
textFile
1
Twitter
字节流
spark core
textFlieread
提交任务
复制到另一个BM的块
sparkContext
fileXXXX
(省份,广告),1
输出结果
HDFS/S3
省份1,((广告,99),(广告,88),(广告,77))
cluster manager
RDD_map
kafka
streamingContext
4
stage划分
hello world
time2
BufferedInputStream
spark MLlib
DataSet
Reader in = new BufferedReader(new InputStreamReader(new FileInputStream(\"path\
TaskPool
DStream
textfile--HadoopRDD
字符流
Block Manager
hello scala
Executor
receiver
dashboards
spark streaming
RDD2
RDD依赖关系
InputStream in = new FileInputStream(\"path\")int i = 1while((i = in.read()) != 1){println(i);}
运行架构
flatMap--MapPartitionsRDD
runJob
getBlocksOrBatch
ShuffleMapStage
Receiver Tracker
JobSet
worker
省份3,((广告,99),(广告,88),(广告,77))
程序
3
获取原始数据
world
一般情况
flume
执行原理
HDFS
data blocks
9
RDD3
Receiver
SparkContext
sparkStreaming 构架图
5
格式转换
fllatMap
InputStreamReader
排序
kinesis
RDD的Lineage会记录RDD的元数据信息和转换行为
Job Generator
0 条评论
下一页