Spark大数据框架
2022-09-01 15:07:11 0 举报
AI智能生成
spark 分布式计算 大数据 框架
作者其他创作
大纲/内容
Spark源码分析
环境准备
Sparksubmit
Yarn提交应用
启动ApplicationMaster
启动Driver线程
启动Executor进程
创建Executor计算对象
通信环境
通信原理
通信组件
应用程序执行
上下文对象SparkContext
RDD依赖关系
阶段划分
任务切分
任务调度
任务执行
shuffle
shuffle原理
实现过程
写流程源码
归并排序和读流程
内存管理
性能优化
Spark Streaming
概念
原理
DStream创建
DStream转换
DStream输出
优雅关闭
Spark框架
Spark简介
Spark运行环境
创建Maven项目
Local模式
Standlone模式
Yarn模式
Spark运行架构
核心组件
Driver
Executor
核心概念
Executor
Core
并行度
有向无环图
提交流程
Yarn Client模式
Yarn Cluster模式
Spark SQL
数据读取
数据保存
Spark Core
RDD概念介绍
RDD实现原理
RDD执行原理
RDD创建
内存创建
外部存储文件
其他RDD创建
直接创建new
并行度与分区
RDD算子
转换算子
value 类型
map
mapPartitions
mapPartitionsWithIndex
flatMap
glom
groupBy
filter
sample
distinct
coalesce
repartition
sortBy
双value类型
intersection
union
subtract
zip
key value 类型
partitionBy
reduceByKey
groupByKey
aggregateByKey
foldByKey
combineByKey
sortByKey
join
leftOuterJoin
cogroup
行动算子
reduce
collect
count
first
take
takeOrdered
aggregate
fold
countByKey
save 相关
foreach
RDD序列化
闭包检查
序列化方法和属性
Kryo 序列化框架
RDD依赖关系
血缘关系
依赖关系
窄依赖
宽依赖
RDD持久化
Cache 缓存
CheckPoint 检查点
缓存和检查点区别
RDD分区器
数据结构
累加器
广播变量
架构模式
三层架构模式
数据模型
DataFrame
DataSet
RDD、DataFrame、DataSet互相转换
UDF函数、UDAF函数
0 条评论
下一页