流程图
2021-09-08 16:11:32 2 举报
gfdgd
作者其他创作
大纲/内容
data-center-ns-1
使用组
kx-mysql
主站营销运营系统
集群名称
数据智能部-数据服务组
陈乐吉
Kafka集群
用途
48核 /251GB /6500GB
所属应用
服务器5分钟平均负载loadavg大于30
请求量突增
172.22.8.239
告警IP
数据中心-数据采集(主)
产品负责人
10.3.0.229
主机名
告警值
所属namespace
huntian-audit-topic
rabbitmq文件描述符小于1024
kexin-redis-1.xha.com 6379
域名端口
林惠
192.168.37.30
k8s-node节点
主库IP
服务器内存使用超过85%
集群列表
配置
慧择
响应时间
portal-activity-server
k8s_pod_5分钟内crash重启
使用人
redis连接数大于9000
172.22.13.1
所属业务线
kafka积压的LAG量大于50000
1:xxx2:xxx
/data
告警开发负责人
kexin-redis
主从延迟大于1000
rabbitmq-bsp
告警namespace
机器情况
服务器磁盘根目录使用超过90%
告警pod
研发负责人
94.36
后端应用
node_exporter
xmgldb-etl.ha.com 3306
portal-activity-server-gbxxv-85674f7789-5jh8x
所属系统
94.4
data目录inodes小于10%
Nginx
1:90922:90923:9092
172.22.8.171
网站访问慢?
结论先行:快速获取关键信息
集群类型
exporter客户端失联
响应慢URI
ops_alert_kafka
563
告警队列
89.95
故障pod
响应慢的URI
kafka_topic副本数小于2
9541
故障节点
do-ns-prod-k8s-node-172-22-13-1
用户
告警网卡
告警目录
125
数据库并发5分钟内大于100
DNS
IP
65
rabbitmq内存使用超过50%
刘广文
阿里云CDN
rabbitmq可用磁盘小于10G
告警Topic
告警事件
10.3.0.228
ip
服务器tcp-ESTABLISHED连接数大于10000
hz-prod
mysql宕机
32
5.3
业务开发二部
告警业务线
防火墙交换机
reids宕机
打不开URI
Kubernetes_Node_Unready
em1
用户信息
celery@dbms_worker.celery.pidbox
服务器阵列卡故障
2045
刘斌
1244
告警系统
告警产品负责人
94.3
告警应用
12234
rabbitmq_down
redis内存使用率大于90%
服务器网卡传入流量超过1000Mbps
2
redis_salve为0
服务器cpu使用率超过80%
Kubernetes_Pod_not_healthy
8.85
告警exporter
数据库慢查询数5分钟内大于500
kafka_brokers数量小于3
mysql连接数大于90%
网站
出口
网站打不开?
0 条评论
回复 删除
下一页