SPARK
2020-05-28 13:49:11 0 举报
AI智能生成
spark学习脑图
作者其他创作
大纲/内容
运行部署
pyspark
spark-submit
master:指定集群管理器
local:本地
spark://master
yarn
mesos
kubernetes
deploy-mode:指定发布方式
driver-memory:驱动器内存
executor-memory:执行器内存
executor-cores:执行器处理器个数
conf:运行参数,比如python版本
main函数入口
RDD
弹性分布式数据集
分布式元素集合
多个分区
创建RDD
读取外部数据集
本地文件
hdfs
其他分布式文件系统
集合序列化
parallelize()
lazy
类型操作
transformations(转化)
create a new dataset from an existing one
常用操作
map()
函数返回结果作为结果RDD中对应元素的值
filter()
函数该函数的元素放入新的RDD中
flatmap()
输入元素生成多个输出元素
使用比如,分句、分词
伪集合操作
distinct()
union()
intersection()
subtract()
actions(行动)
return a value to the driver program after running a computation on the dataset
常规操作
count()
first()
reduce()
操作两个相同元素返回一个同样类型的元素
collect()
获取整个RDD的数据
必须在本机的内存足够容纳才可以使用
每调用一个新的行动操作RDD会从头开始计算
需要避免这种低效行为
内存持久化
persist()
传递函数
不要传递带字段引用的函数
比如,self.xx
分区
减少节点间通信造成的损耗
将一起访问的数据放到同一个节点上
提供分区方式
HashPartitioner
RangeParititioner
自定义分区方式
partitionBy()
运行时架构
驱动器
执行main方法
1.创建SparkContext
2.创建RDD
3.RDD转化和行动的代码
把用户程序转化为任务
DAG:有向无环图
步骤1
任务1
spark最小的工作单元
任务2
任务...
步骤...
物理执行计划
为执行器节点调度任务
执行器
运行组成spark应用
要求缓存的RDD提供内存式存储
收藏
收藏
0 条评论
下一页