Spark Streaming时空解说
2016-05-02 06:20:25 1 举报
Spark Streaming是Apache Spark的一个扩展,它支持实时数据流处理。Spark Streaming可以从多种数据源(如Kafka、Flume、HDFS、Socket等)中接收数据,并将数据分成小批次进行处理。每个批次的数据都会被转换成RDD(弹性分布式数据集),然后对这些RDD进行各种操作,如map、reduce、join等。最后,Spark Streaming会将处理结果输出到文件系统、数据库或实时可视化平台。 总之,Spark Streaming是一个强大的实时数据处理工具,它可以帮助我们快速分析大量实时数据,并做出及时决策。
作者其他创作
大纲/内容
思考点:1.需要RDD DAG的生成模板DStreamGraph;2.需要基于TimeLine的 Job控制器;3.inputStream和OutputStream代表数据输入和输出4.具体Job运行在Spark Cluster之上,此时系统容错就至关重要;5。事务性处理,在处理出现崩溃的情况下如何保证Exactly once的事物语义RDD是物理级别的,DStream是抽象出来的逻辑级别的,事实上根本没有流这回事RDD Graph也是物理级别 的,而DStream Graph也是逻辑级别的
空间维度:代表是RDD依赖关系的构成的具体的处理逻辑的步骤,用DStreamGraph来表示的
随着时间的流程基于Dsteam Graph不断的生成以RDD Graph也就是DAG的方式产生Job并通过JobScheduler的线程池方式提交给SparkCluster不断的执行
时间维度:按照特定时间间隔不断生成Job的实例并在集群上运行
0 条评论
下一页