江苏中仑数字运维中心
2024-09-20 18:00:00 0 举报
AI智能生成
运维监控大盘
作者其他创作
大纲/内容
对内使用
运维指标采集
采集方式
现在支持
直接上报SLS
存储mysql
prometheus收集
云监控指标中心
暂定支持
SkyWalking
elasticsearch
ARMS
Zabbix
指标格式
自研埋点
后端HM埋点格式
后端ServiceHM埋点格式
前端HM埋点格式
开源埋点
暂定
已有指标
服务端
后端链路埋点
后端日志埋点
客户端
运维
运维监控大盘
主盘(核心的指标)
苏州中仑运维监控大盘
告警模块
告警提醒
告警恢复
基础网络
线路响应状况
天翼云中国电信线路
告警值-1000ms
等级-3级
天翼云BGP线路
告警值-1000ms
等级-3级
阿里云CDN线路
告警值-1000ms
等级-3级
阿里云源站线路
告警值-1000ms
等级-3级
CDN
CDN->入流量
告警值-100M/s
等级-3级
CDN->出流量
告警值-400M/s
等级-3级
CND->QPS
告警值-3000
等级-3级
MSE网关
MSE网关进出流量(v3+v5)
告警值-100M/s
等级-3级
MSE网关QPS(v3+v5)
告警值-100M/s
等级-3级
弹性IP
弹性公网IP利用率top10
告警值-入网带宽90%
等级-3级
告警值-出网带宽80%
NAT网关
访问Internet流量
告警值-入带宽100M/s
告警值-出带宽1000M/s
等级-3级
负载均衡
SLB监听推送流入带宽
告警值-100M/s
等级-6级
SLB监听前台流入带宽
告警值-100M/s
等级-6级
SLB监听中台流入带宽
告警值-100M/s
等级-6级
SLB监听基础流入带宽
告警值-100M/s
等级-6级
后端服务
核心接口
登录接口失败率过高top10
告警值-失败率30%
等级-p1级
三方接口失败率过高top10
告警值-失败率30%
等级-p1级
v3和v5收银机调用异常趋势
告警值-异常数超过2000
等级-p1级
整体状况
系统异常趋势图
告警值-异常数超过2000
等级-p1级
基础组件
Redis
Redis->内存使用率(%)
>=80%/分钟
等级-3级
Redis ->QPS(个)
告警值-10000
等级-3级
Redis->响应时间(us)
>=20000
等级-3级
Rocketmq
RocketMQ->消息堆积(GroupId&Topic)top10
>=8000/分钟
等级-3级
RocketMQ->死信数量(GroupId&Topic)top10
>=1000
等级-3级
polardb
polardb->活跃连接数(弄多种图表以便选择)
阈值
等级-3级
polardb->cpu监控
>=95%/分钟
等级-3级
polardb->慢查询个数
没有确定值以cpu负载为准
等级-3级
Zk
K8S集群
集群CPU
>=%85
等级3级
集群内存
>=%85
等级3级
POD CPU
>=%85
等级3级
POD内存
>=%95
等级3级
ECS
ESC CPU
业务系统
大数据系统
ESC 内存
业务系统
大数据系统
前端服务
收银机
js异常影响商户数量top10
告警值-影响商户数量超过1000
等级-6级
收银环比
环比->收款金额
环比->支付笔数
环比->支付tp90耗时
环比->收款设备数量
支付状况
支付耗时分布
支付方式分布
支付使用网络
分盘(对主盘指标图表的补充)
基础网络分盘
基础网络分盘
基础组件分盘
基础组件分盘
后端服务分盘
前端服务分盘
下钻盘(根据参数链接使用)
基础网络下钻盘
弹性IP下钻盘
基础组件下钻盘
RocketMQ实例ID下钻盘
Redis实例ID下钻盘
PortalDB实例ID下钻盘
V3 pod实例ID下钻
ECS实例ID下钻盘
POD实例ID下钻盘
RocketMq消息堆积more
V3节点cpu平铺
V3节点内存平铺
V3pod-more-cpu
V3pod-more-内存
v5节点cpu平铺
v5节点内存平铺
v5pod-more-cpu
v5pod-more-内存
大数据ecs主机内存利用率-more
大数据ecs主机cpu利用率-more
后端服务下钻盘
URL地址下钻盘
ExceptionCode下钻盘
AppCode下钻盘
TraceId下钻盘
POD名称下钻盘
各个业务系统分盘
t999耗时过高分盘
接口失败率分盘
前端服务下钻盘
影响设备数下钻盘
异常组合分析盘
URL异常组合分析分盘
运维监控告警
告警分类
基础网络
线路拨测
p3
cdn->入网流量
p3
cdn->出网流量
p3
cdn->qos
p3
....
基础组件
k8s->集群 POD CPU使用率
p3
k8s->集群 POD 内存使用率
p3
前端服务
设备影响数过高
p3
后端服务
系统异常过高
p2
业务异常过高
p3
登录异常过高
p1
同比异常过高
p3
tp999耗时过高
p3
同比异常增长超2000
p1
告警对象
架构群组
运维组
南京中台
商品组
订单组
库存组
营销组
会员组
结算组
苏州前台
收银组
微店组
个人
告警群组
公共群
基础网络
基础组件
前端服务
后端服务
紧急告警
数据库告警
个人群
可以自己创建
告警处理
查看告警
认领告警/屏蔽告警
分析告警
行动策略
调整阈值
运维中心架构
运维中心负责部门
指标接入人员
24小时监控值守人员
运维中心负责人
对外展示
应用驾驶舱
后期规划做
运营驾驶舱
后期规划做
缺少
0 条评论
下一页