线上问题协作排查流程
2021-04-16 11:43:55 0 举报
线上应急处理流程指导,适用于各种多模块多团队协作系统
作者其他创作
大纲/内容
日志查询
D3
异步任务情况消息队列
O1
D1
O2
定时任务情况
近期发版情况
分析代码
修复问题发布
回归测试+监控
K8sPod、事件、监控
内部大屏
微服务访问量、错误量、响应时长
Redis 访问命中率、大 key、热 key
其他云服务情况lb、cmq、nfs 等
Redis 状态CPU、内存、网络连接数、慢查询
异常模块企业、版本 分布客户IP 分布
DB 状态CPU、内存、网络连接数、慢查询
1. 立即专项会议和群沟通2. 建立线上协作文档 3. 异常信息记录到文档里面4. 事故解决后对关键问题做根源分析5. 事故后总结输出
异常接口企业、版本 分布客户IP 分布
运维人员
开发人员
各种告警信息确认
D2
业务接口访问量、错误量、响应时长
服务器CPU、内存、网络连接数、IO、负载
线上应急处理
0 条评论
下一页
为你推荐
查看更多