SSspark
2021-02-20 07:57:08 0 举报
AI智能生成
spark
作者其他创作
大纲/内容
概述
基于Spark SQL引擎构建的可伸缩且容错的流处理引擎。
编程模型
基本概念
将输入数据流视为“输入表”。
流上到达的每个数据项都像是将新行附加到输入表中。
对输入的查询将生成“结果表”。
在每个触发间隔,新行将附加到输入表中,并最终更新结果表。
输出模式
Complete Mode
整个更新的结果表将被写入外部存储器。
Append Mode
仅将自上次触发以来追加在结果表中的新行写入外部存储器。
Update Mode
仅自上次触发以来在结果表中已更新的行将被写入外部存储
与完成模式的不同之处在于此模式仅输出自上次触发以来已更改的行
处理事件时间和延迟数据
容错语义
使用
创建
输入源
内置源
File source
Kafka source
Socket source
Rate source
操作
基本操作
事件时间窗口操作
处理后期数据和加水印
join操作
Stream-static Joins
Stream-stream Joins
流重复数据删除
处理多个水印的政策
任意状态作业
不支持的操作
全局水印的局限
流查询
输出方式
输出接收器
Triggers
管理流查询
监视流查询
交互阅读指标
使用异步API以编程方式报告指标
使用Dropwizard报告指标
通过检查点从故障中恢复
流查询中的更改后的恢复语义
连续加工
0 条评论
下一页