首页  思维导图  详情

sparkAPI、RDD总结

2019-11-27 10:08:12   0  举报





AI智能生成

spark结构化apijiRDD总结

spark

作者其他创作

大纲/内容

Spark RDD小结

1. 什么是RDD

介绍

弹性分布式数据集，一种容错的并行数据结构

一种数据抽象，只读的、分区记录集合
——在此之上，提供了丰富的操作用来处理RDD

Spark的基石，也是Spark的灵魂。
——RDD是Spark最核心最精髓的部分，Spark将所有数据都抽象成RDD。

5个特性

分区信息(Partition):
-- 数据集的基本组成单位

一系列的分区信息。
每一个分区都会被一个任务处理。 ---决定了并行度。
创建RDD时，可以指定RDD的分区数，如果没有指定，采用默认值。

RDD是一组分区，RDD由分区组成

分区个数默认与CPU核数个数有关

计算的函数 :
-- 对于给定的数据集，需要做哪些计算

由一个函数计算每一个分片。RDD的计算以分片为单位。

依赖关系 :
-- RDD的依赖关系，描述了RDD之间的Lineage

RDD每一次转换都生成一个新的RDD，多个RDD之间有前后依赖关系。
在某个分区数据丢失时，Spark可以通过这层依赖关系重新计算丢失的分区数据，
而不是重头对RDD的所有分区数据进行计算。→容错性

Partitioner
函数:
-- 对于计算出来的数据结果如何分发

Partitioner是RDD中的分区函数，数据按一定规则分配到指定的Reducer上去处理。
两种分区；Hash Partitioner、RangePartitioner
key-value的数据才有Partitioner，普通的数据Partitioner为None

优先位置列表 :
-- 对于data partition的位置偏好

HDFS -> Partitioner所在的Block的位置。

分配任务时，会尽量将任务分配给处理数据块的位置。

2. 创建RDD

基于parallelize创建

myCollection = "Spark The Definitive Guide : Big Data Processing Made Simple"\
.split(" ")

words = spark.sparkContext.parallelize(myCollection, 2)

parallelize函数可以传入分片个数参数，否则采用defaultParallelism。

基于外部数据源创建

distFile = sc.textFile("file:///home/camel/Repos/spark/README.md")
distFile.count()

textFile函数支持从多种源创建RDD，如hdfs://，s3n://

基于父RDD转换得来

rdd2 = rdd1.xxx()

入口：
spark.sparkContext # 或者直接调用 sc

3. RDD常用算子

转换（transformantion）

在一个已存在的 RDD上创建一个新的 RDD，
但实际的计算并没有执行，仅仅记录操作过程

在RDD上调用distinct方法，删除重复数据：
words.distinct().count() #9

对RDD进行过滤，保留以字母“ S”开头的单词：
def startsWithS(individual):
return individual.startswith("S")
words.filter(lambda word: startsWithS(word)).collect()

map: 将函数作用到数据集的每一个元素上，生成一个新的分布式的数据集(RDD)返回
words2 = words.map(lambda word: (word, word[0], word.startswith("S")))
words2.filter(lambda record: record[2]).take(5)

flatMap操作也是对RDD中每个元素进行操作的，但是它的操作结果是一对一或者是一对多的
words.flatMap(lambda word: list(word)).take(5)

按单词长度从最长到最短排序
words.sortBy(lambda word: len(word) * -1).take(2)

动作（action）

执行 RDD记录的所有运行transformations操作，
并计算结果，结果可返回到 driver程序

指定一函数将RDD中数据任意个数的数据值合并为一个值
spark.sparkContext.parallelize(range(1, 21)).reduce(lambda x, y: x + y) # 210

count
使用它计算RDD中的行数
words.count() #9

first
返回结果集的第一个值
words.first()

max and min
分别返回结果中最大、最小值
sc.parallelize(range(1, 20)).max()
sc.parallelize(range(1, 20)).min()

保存结果数据到文件
saveAsTextFile
words.saveAsTextFile(“file:/tmp/bookTitle”)

Spark结构化API总结

1.创建DataFrame和SQL临时表

创建Dataframe

从数据源创建

df = spark.read.format("json").load("/data/flight-data/json/2015-summary.json")

通过row转换

导包：
from pyspark.sql import Row
from pyspark.sql.types
import StructField, StructType, StringType, LongType

myManualSchema = StructType([ StructField("some", StringType(), True),
StructField("col", StringType(), True),
StructField("names", LongType(), False) ])

myRow = Row("Hello", None, 1)
myDf = spark.createDataFrame([myRow], myManualSchema)

从RDD

创建Sql临时表

df.createOrReplaceTempView("dfTable")

Schema

查看：df.printSchema()

创建：
myManualSchema = StructType([
StructField("DEST_COUNTRY_NAME", StringType(), True),
StructField("ORIGIN_COUNTRY_NAME", StringType(), True),
StructField("count", LongType(), False, metadata={"hello":"world"})
])

应用：df = spark.read.format("json").schema(myManualSchema)\
.load("/data/flight-data/json/2015-summary.json")

2.数据源对接

读模式

读取数据的核心结构：
DataFrameReader.format(...).option("key", "value").schema(...).load()

spark.read.format("csv")
.option("mode", "FAILFAST")
.option("inferSchema", "true")
.option("path", "path/to/file(s)")
.schema(someSchema)
.load()

写模式

写入数据的核心结构：
DataFrameWriter.format(...).option(...).partitionBy(...).bucketBy(...).sortBy(
...).save()

dataframe.write.format("csv")
.option("mode", "OVERWRITE")
.option("dateFormat", "yyyy-MM-dd")
.option("path", "path/to/file(s)")
.save()

可对接的六大核心数据源

CSV
JSON
Parquet
ORC
JDBC/ODBC connections
Plain-text files

3.dataframe基本操作

转换

字段选择

Python:
df.select("DEST_COUNTRY_NAME").show(2)

Spark SQL：
SELECT columnName * 10, otherColumn, someOtherCol as c FROM dataFrameTable

增加列

Python：
df.withColumn("numberOne", lit(1)).show(2)

Spark SQL：
SELECT *, 1 as numberOne FROM dfTable LIMIT 2

修改列

Python：
df.withColumnRenamed("DEST_COUNTRY_NAME", "dest").columns

删除列

Python:
df.drop("ORIGIN_COUNTRY_NAME").columns

修改类型

Python :
df.withColumn("count2", col("count").cast("long"))

条件过滤

Python :
df.filter(col("count") < 2).show(2)
df.where("count < 2").show(2)

Spark SQL：
SELECT * FROM dfTable WHERE count < 2 LIMIT 2

去重

Python:
df.select("id","sno").distinct().count()

Spark SQL：
SELECT COUNT(DISTINCT(id, sno)) FROM dfTable

排序

Python:
df.orderBy(col("count").desc(), col("DEST_COUNTRY_NAME").asc()).show(2)

Spark SQL：
SELECT * FROM dfTable ORDER BY count DESC, DEST_COUNTRY_NAME ASC LIMIT 2

有限选择

Python:
df.orderBy(expr("count desc")).limit(6).show()

Spark SQL：
SELECT * FROM dfTable ORDER BY count desc LIMIT 6

4.dataframe聚合操作

聚合算法

计数

Python:
df.select(count("StockCode")).show()

Spark SQL：
SELECT COUNT(*) FROM dfTable

去重计数

Python:
df.select(countDistinct("StockCode")).show()

Spark SQL：
SELECT COUNT(DISTINCT *) FROM DFTABLE

规定有效数字计数

Python:
df.select(approx_count_distinct("StockCode", 0.1)).show()

Spark SQL：
SELECT approx_count_distinct(StockCode, 0.1) FROM DFTABLE

第一个和最后一个

Python:
df.select(first("StockCode"), last("StockCode")).show()

Spark SQL：
SELECT first(StockCode), last(StockCode) FROM dfTable

最大最小值

Python:
df.select(min("Quantity"), max("Quantity")).show()

Spark SQL：
SELECT min(Quantity), max(Quantity) FROM dfTable

求和

Python:
df.select(sum("Quantity")).show()

Spark SQL：
SELECT sum(Quantity) FROM dfTable

区别求和

Python:
df.select(sumDistinct("Quantity")).show()

Spark SQL：
SELECT SUM(Quantity) FROM dfTable

......

分组聚合

from pyspark.sql.functions import count

df.groupBy("InvoiceNo").agg(
count("Quantity").alias("quan"),
expr("count(Quantity)")).show()

实现K-V映射

Python：
df.groupBy("InvoiceNo").agg(expr("avg(Quantity)"),expr("stddev_pop(Quantity)")).show()

Spark SQL：
SELECT avg(Quantity), stddev_pop(Quantity), InvoiceNo FROM dfTable
GROUP BY InvoiceNo

5. SparkSQL

创建表

CREATE TABLE flights (
DEST_COUNTRY_NAME STRING, ORIGIN_COUNTRY_NAME STRING, count LONG)
USING JSON OPTIONS (path '/data/flight-data/json/2015-summary.json')

删除表

DROP TABLE flights_csv;

DROP TABLE IF EXISTS flights_csv;

插入数据

INSERT INTO flights_from_select
SELECT DEST_COUNTRY_NAME, ORIGIN_COUNTRY_NAME, count FROM flights LIMIT 20