Spark - Streaming DStream 架构
2016-02-19 16:12:41 8 举报
Spark Streaming是一个用于实时数据流处理的开源库,它基于Spark核心引擎构建。DStream是Spark Streaming中的核心概念,它是一个连续的数据流,由多个RDD组成。每个RDD代表一个时间段内的数据,这些时间段可以是几秒钟、几分钟或几小时。DStream支持丰富的转换操作,如map、reduce、join等,以及输出操作,如print、save等。此外,DStream还支持窗口操作,如window、slide等,以便对数据进行聚合和统计。总之,Spark Streaming DStream架构提供了一个简单而强大的工具,用于实时数据处理和分析。
作者其他创作
大纲/内容
t1
时间线
RDD 序列 4从时间 3 到 时间 4 的数据
输入的数据流kafkaflumeHDFS 等等
4
DStream
3
RDD 序列 3从时间 2 到 时间 3 的数据
接收器
t2
Spark Streaming
t3
网络输入数据批次
窗口数据流窗口时长: 3窗口步长: 2
1
2
Spark
0
RDD 序列 2从时间 1 到 时间 2 的数据
t6
DStream 1. 是随着时间推移而收到的数据序列2. 每个时间区间收到的数据都作为 RDD 存在3. DStream 是由这这些 RDD 所组成的序列
t5
t4
被推向外部系统的结果HDFS 等
RDD 序列 1从时间 0 到 时间 1 的数据
窗口操作
0 条评论
下一页