Spark Streaming时空解说

2016-05-02 06:20:25   1  举报





Spark Streaming是Apache Spark的一个扩展，它支持实时数据流处理。Spark Streaming可以从多种数据源（如Kafka、Flume、HDFS、Socket等）中接收数据，并将数据分成小批次进行处理。每个批次的数据都会被转换成RDD（弹性分布式数据集），然后对这些RDD进行各种操作，如map、reduce、join等。最后，Spark Streaming会将处理结果输出到文件系统、数据库或实时可视化平台。总之，Spark Streaming是一个强大的实时数据处理工具，它可以帮助我们快速分析大量实时数据，并做出及时决策。

作者其他创作

大纲/内容

思考点：1.需要RDD DAG的生成模板DStreamGraph；2.需要基于TimeLine的 Job控制器；3.inputStream和OutputStream代表数据输入和输出4.具体Job运行在Spark Cluster之上，此时系统容错就至关重要；5。事务性处理，在处理出现崩溃的情况下如何保证Exactly once的事物语义RDD是物理级别的，DStream是抽象出来的逻辑级别的，事实上根本没有流这回事RDD Graph也是物理级别的，而DStream Graph也是逻辑级别的

空间维度：代表是RDD依赖关系的构成的具体的处理逻辑的步骤，用DStreamGraph来表示的

随着时间的流程基于Dsteam Graph不断的生成以RDD Graph也就是DAG的方式产生Job并通过JobScheduler的线程池方式提交给SparkCluster不断的执行

时间维度：按照特定时间间隔不断生成Job的实例并在集群上运行