大数据
2022-04-23 11:08:18 1 举报
大数据
作者其他创作
大纲/内容
git pull
Kafka
filebeat
StreamGraph
3、返回元数据,让Statestore分发给Impalad
JobManager(master)
event-4[id=4]
JobManager【master节点】hadoop-node1
SSH
event-3[id=3]
日志采集
满足
flume
Flink程序
Data Source
HDFS
Connector
Executor
elasticsearch
TrinoCLI
任务调度、资源管理
日志存储
impala-shell
Impala Daemon
git clone
http request
Kafka消息队列
Statestore
MetaDataMySQL
event-2[id=2]
HDFS DataNode
HBase
nginx
event-7[id=7]
http response
TrinoWorker
会触发2次告警
HIVE
QueryExecutor
JobClient
event-6[id=6]
Step1:生成逻辑查询计划
Step4:任务执行
生成ExecutionGraph这个过程已经开始将代码并行化,也就是移动计算
Client
交换中间结果shuffer/broadcast
日志过滤
DataStream Transformations
包括 Hue、ODBC 客户端、JDBC 客户端和 Impala Shell 在内的实体都可以与 Impala 交互。
DataSet Transformations
TrinoCoordinator
RDD Objects
代码
本地
Impalad
Catalog
puma
git push
JobGraph
执行
5、聚合数据存储到HBase
Data Sinks
日志展示
会触发7次告警
TaskScheduler
Step2:生成物理查询计划
Hive MetaData Service
JMX
执行任务
gitlab-shell
1) 负责收集分布在集群中各个impalad进程的资源信息、各节点健康状况,同步节点信息;2) 负责query的协调调度。
Step3:任务调度
ODBC/JDBC
1、提交查询
client
Transformation
QueryPlanner
event-5[id=5]
Driver
HDFSDataNode
客户端
分发任务
flink
FlinkYarn-session
MYSQL
gitlab-workhorse
Hue
Impala
规则
Jobmanager
0、注册与订阅
HDFSHBase
logstash
将Hive元数据信息变更广播给impalad (通过statestore)
返回状态
部署已经并行化的Task到TaskManager
5、聚合数据存储到HDFS
5、返回结果
DAGScheduler
1) 负责协调客户端提交的查询的执行;2) 与HDFS的DataNode运行在同一节点上;3 )给其他Impalad分配任务以及收集其他Impalad的执行结果进行汇总;4 ) Impalad也会执行其他Impalad给其分配的任务,主要就是对本地HDFS和HBase里的部分数据进行操作。
调用
存储元数据与具体数据
TaskManager【worker节点】hadoop-node3
....
输入
event-1[id=1]
Discovery Server
HiveMatestore
Hive元数据MYSQL
kibana
Yarn集群
2、请求元数据
4、分发查询任务
Query Coordinator
会触发3次告警
TaskManager(woker)
输出
TaskManager【worker节点】hadoop-node2
0 条评论
下一页