hive/kafka/zookeeper/flume概念流程图等等
2023-06-09 17:55:37 0 举报
hive/kafka/zookeeper/flume概念流程图,你想要的我都有,卡夫卡事务原理图,消息应用路径图,消息队列场景:解耦图,mapjoin工作机制图,同步异步概念流程图等等,你想要的我都有。
作者其他创作
大纲/内容
HDFS
3
segment(1G)
agent
column 2
event 3
partition-2
network client
hello
views处理数据
开始
0
broker 2
consumer
数据库映射
Hadoop02
1
topicA-partition2-leader
kafka cluster
topicA-partition0-leader
EwEgIBATAKBggqgRz
python爬虫数据
填写注册信息
group
putList
completedFetches(queue)
urls
changes
__consumer_offsets
springboot
sink 1
views
判断用户是否在黑名单中?
hive存储格式:orc
ack
doRollBack
-1(all):生产者发送过来的数据,Leader和ISR队列里面的所有节点收齐数据后应答。
MapJoin工作机制
first
5
00000000.index000000000.log000000000.timeindex
2
__consumer_offsets-partition1
doRollList
MR local tesk
达到batch.size或者linger.ms
加密
sink
channel 1
flume
delete_topics
topicA-partition0-follower
source
分区器
是
metadata streams
否
数据源
row index 2
加入列表
DQuene
topic 1
distribute cache
segment
query optimizer优化器
MTIz5ZWm5ZWm5ZWm
mapper
acks0:生产者发送过来的数据,不需要等数据落盘应答。 1:生产者发送过来的数据,Leader收到数据后应答。-1(all):生产者发送过来的数据,Leader和ISR队列里面的所有节点收齐数据后应答。-1和all等价。
seqid
load
Ajax
确认收到
向表中导入数据
MySQL存储
follower
解密
Hadoop03
2.controller谁先注册谁决定
send
web前端
transaction_state-分区-leader储存事务信息的特殊主题
重试?
7.后台发送commit请求
channel
channel 2
broker 1
topicA-partition1-leader
网络端口数据
task 2mapjoin task
数据可靠性
interceptor
2.返回producer id
offset
HDFS:存储数据文件
加入最终统计表
result
1.broker启动后在zk中注册
stripe 1
broker 0
a
admin
4
kafka集群
stripe footer
data
消息队列应用场景:解耦
判断用户是否超过阈值?
3.选举出的controller监控brokers节点变化
数据流向
main
client
producer
column 1
新的Leader不会收到Hello的信息,因为生产者已经认为发送成功了。
Hadoop01
retries
index data
转发事件
拦截器
.log
RecordAccumulator
base64编码
网络端口
金融股票网站
MapReduce架构计算
序列化器
5.controller将节点信息上传到ZK
request 1
__consumer_offsets-partition2
channel processor
9.持久化事务成功信息
parseRecord(反序列化)
topic2
应答消息
log
创建数据表
8.controller监听到节点变化
每一个消费者的offset由消费者提交到系统主题保存
c
partitioner
应答完成后,还没开始同步副本,Leader挂了
发送消息
爬虫
分区 2
结束
分区 3
output file 2
消费信息
点对点模式
queue1queue2queue3
6)Coordinator就把消费方案下发给各个consumer
state
ConsumerNetworkClient
java日志数据
onSuccess
4.controller决定leader选举
123啦啦啦
transactioncoordinator事务协调器
request 2
topicA-partition2
分区 1
判断是否加入黑名单
7)每个消费者都会和coordinator保持心跳(默认3s),一旦超时(session.timeout.ms=45s),该消费者会被移除,并触发再平衡;或者消费者处理消息的时间过长(max.poll.interval.ms5分钟),也会触发再平衡
同步
partition-1
数据输入端
subscribe
row data
kafka
MQ消息队列
5.返回写入事件channel列表
sender读取数据
producebatch默认16K
解析器
base64解码
5)把消费方案发给coordinator
views调用
row index 1
拉取事件
doCommit
接收了两份Hello数据,导致数据重复
driver
JDBC
zookeeper
其它
batch.size:只有数据积累到batch.size之后,sender才会发送数据。默认16k。linger.ms:如果数据迟迟未达到batch.size,sender等待linger.ms设置的时间到了之后就会发送数据。单位ms,默认值是0ms,表示没有延迟。
doTake
按照顺序写入消息队列
ids
clients
topics
…………
kafka基本构架
interceptors
发送短信
.index
broke 0
填写注册消息
JMS
4)leader会负责制定消费方案
web server
1.请求producer id
sink 3
interceptor(拦截器)
consumers
MySQL
b
处理器
MapReduce
leader
异步
file footer
成功?
4.发送commit请求
sink processor
output file 3
处理能力:1千万用户/s
一个消费者可以消费多个分区数据
topicA-partition1
hash table files
7.假设broker的leader挂了
注册消息写入到数据库
topicA-partitionleader
users
页面注册成功
controller
默认32M
cluster
config
partitions
execution优化器
output file 1
topicA-partition1-follower
Metastore记录相应的信息
消费者consumer
3)把要消费的topic情况发送给leader消费者
6.返回成功
ZK
topicA-partition0
1:生产者发送过来的数据,Leader收到数据后应答。
2)选出一个consumer作为leader
加入黑名单
11.更新leader及ISR
10亿用户
Meta store
数据输出端
partition-0
InFlightRequests,默认每个broker节点最多缓存5个请求
调用发送短信接口
sparkStreaming
completed fetch
7.sink processor有三种:Default Sink Processor、Load Balancing Sink Processor、Faliover Sink Processor
SQL parser解析器
message queue
如果Follower长时间未向Leader发送通信请求或同步数据,则该Follower将被踢出ISR。该时间阈值由replica.lag.time.max.ms参数设定,默认30s。这样就不用等长期联系不上或者已经故障的节点。
10.选举新的leader(在ISR中存活的且在AR中排在前面的)
3.将事件传给拦截器
kafka producer
秒杀系统
id
消费者组详细消费流程
对数据表进行数据分析
服务器本地磁盘文件
8.返回成功
event 1
topic
4.将每一个事件给channel选择器
physical plan编译器
5.持久化commit请求
transaction
应答acks:
Leader
coordinator
brokers
将SQL语言解析成为对应的MapReduce程序,生成相应的jar包
生产者producer
controller \"broker\" :0
1)每个consumer都发送JoinGroup请求
接收事件
/brokers/topics/first/partitions/0/state \"leader\
hive运行机制
data stream
channel 3
失败
flume agent内部原理
stripe 2
topicA-partition2-follower
serializer
0:生产者发送过来的数据,不需要等数据落盘应答
数据统计时间(天),用户,广告名,次数2022.08.20,Tom,AA,30
3.发送消息到topicA
发送
kafka事务原理
flume流式处理
event 2
消息应用曾经:缓存/消峰
发布/订阅模式
sink 2
postscript
更新每一天用户的点击次数
channel selector
6.其他的controller从ZK同步相关信息
hive表的元数据
2.处理事件
takeList
kafkaproducer
doPut
推送事件
selector
Hadoop
zookeeper中存储kafka的信息目录
big table a
生产者
task 1
9.获取ISR
发送信息请求写入消息队列
页面响应注册成功
6.根据channel选择器的选择结果,将事件写入相应的channel
jeffry
1.接收数据
small table b
sender线程
hive构架
CLI
fink
每一个分区的数据只可以由分区组中一个消费者消费
清理
__consumer_offsets-partition0
kafka broker总体工作流程
0 条评论
回复 删除
下一页