登录免费注册

首页  思维导图  详情

Spark大数据框架

2022-09-01 15:07:11   0  举报





AI智能生成

spark 分布式计算大数据框架

spark

大数据

框架

分布式计算

作者其他创作

大纲/内容

Spark源码分析

环境准备

Sparksubmit

Yarn提交应用

启动ApplicationMaster

启动Driver线程

启动Executor进程

创建Executor计算对象

通信环境

通信原理

通信组件

应用程序执行

上下文对象SparkContext

RDD依赖关系

阶段划分

任务切分

任务调度

任务执行

shuffle

shuffle原理

实现过程

写流程源码

归并排序和读流程

内存管理

性能优化

Spark Streaming

概念

原理

DStream创建

DStream转换

DStream输出

优雅关闭

Spark框架

Spark简介

Spark运行环境

创建Maven项目

Local模式

Standlone模式

Yarn模式

Spark运行架构

核心组件

Driver

Executor

核心概念

Executor

Core

并行度

有向无环图

提交流程

Yarn Client模式

Yarn Cluster模式

Spark SQL

数据读取

数据保存

Spark Core

RDD概念介绍

RDD实现原理

RDD执行原理

RDD创建

内存创建

外部存储文件

其他RDD创建

直接创建new

并行度与分区

RDD算子

转换算子

value 类型

map

mapPartitions

mapPartitionsWithIndex

flatMap

glom

groupBy

filter

sample

distinct

coalesce

repartition

sortBy

双value类型

intersection

union

subtract

zip

key value 类型

partitionBy

reduceByKey

groupByKey

aggregateByKey

foldByKey

combineByKey

sortByKey

join

leftOuterJoin

cogroup

行动算子

reduce

collect

count

first

take

takeOrdered

aggregate

fold

countByKey

save 相关

foreach

RDD序列化

闭包检查

序列化方法和属性

Kryo 序列化框架

RDD依赖关系

血缘关系

依赖关系

窄依赖

宽依赖

RDD持久化

Cache 缓存

CheckPoint 检查点

缓存和检查点区别

RDD分区器

数据结构

累加器

广播变量

架构模式

三层架构模式

数据模型

DataFrame

DataSet

RDD、DataFrame、DataSet互相转换

UDF函数、UDAF函数

 收藏

立即使用

Spark大数据框架

 收藏

立即使用

智能推荐系统

 收藏

立即使用

甘特图-项目进度图

职业：硕士研究生













评论

0 条评论

下一页

为你推荐

查看更多



大数据架构图

大数据 - 数据中台技术架构

大数据混合分层架构

大数据架构图

大数据架构图

异构数据处理框架_大数据_AI_数据流转

异构数据处理框架_大数据_AI_数据流转

大数据联调流程



图形选择

思维导图

主题

补充说明

AI生成





修改AI描述

去编辑

重新生成

提示 

关闭后当前内容将不会保存，是否继续？

取消

确定