Flink01--环境/框架
2023-02-01 10:15:32 0 举报
Flink01--环境/框架
作者其他创作
大纲/内容
Storm
ExecutionGraph是JobGraph的并行化版本
代码
DataStreamSource<String> source = environment.socketTextStream(\"localhost\
设置并行度
操作链
数据
算子级别
执行环境级别
资源管理
离线数据
产生原因
//3.Sink sum.print(); //运行环境environment.execute();
MapReduce
配置文件
本次任务中所有的操作符,数据源和数据接收器的并行度。environment . setParallelism(2)
Flink
概念
Process Function代码量非常多,功能都是自己实现以ava和Scala代码为主
java类型推断
将多个符合条件的节点 chain 在一起作为一个节点.
事件日志
flink编程代码量功能实现
实时数据
通过设置${flink_home}/conf/flink-conf.yaml 配置文件中的parallelism.default`配置项来定义默认并行度。所有的文件均会收到影响.
根据ExecutionGraph在各个TaskManager 上部署Task 后形成的“图”
大数据
App
大数据技术跟新历史
使用
结果
HDFS
运行流程
作用
StreamGraph
数据类型
ExecutionEnvironment.getExecutionEnvironment()批处理
有界流
JobGraph
解决
一些概念
实时
手动关闭
并行度
Transformation数据的转换要计算的结果
运行环境首先获取集群运行环境
存储
// 当前环境关闭操作链..environment.disableOperatorChaining();//单个算子关闭操作链Stream.disableChaining()
Hive
计算
Flink: 计算引擎
数据存储
Spark Core(核心)Spark SQl(离线)SparkStreaming(实时)
Stream API 编写的代码生成的最初的图.
关于框架
StreamExecutionEnvironment.getExecutionEnvironment()
ExecutionGraph
分层API
通过调用其setParallelism()方法来定义单个运算符,数据源或数据接收器的并行度 。.sum(1).setPartallelism(3).print().setPartallelism(4);
离线
Stream & Batch Data Processing代码量开始增多以Java和Scala代码为主
无界流
物理执行图
Flink流批一体
Flink SQL & Flink Table代码量最少,能实现常见的功能以SQL语句为主将SQL和Table转成Stream和Batch的处理
0 条评论
下一页