线上事故研发处理流程
2024-05-14 12:54:48 0 举报
线上事故研发处理流程主要包括以下几个步骤: 1. 事故发现:由用户或监测系统发现线上事故,通过邮件、电话或即时通讯工具通知相关人员。 2. 事故确认:相关人员收到事故通知后,立即进行事故确认,判断事故的严重程度和影响范围。 3. 事故处理:根据事故的严重程度和影响范围,制定相应的处理方案,快速响应并执行处理措施。可能包括重启服务、回滚代码、修复故障等。 4. 事故复盘:事故处理后,组织相关人员进行事故复盘,分析事故原因、处理过程及效果,总结经验教训,提出改进措施。 5. 跟进改进:根据复盘结果,制定相应的改进计划,跟进实施,以避免类似事故再次发生。 该流程旨在快速响应和处理线上事故,减少事故对业务的影响,同时通过复盘和改进,提高系统稳定性和研发团队的应对能力。
作者其他创作
大纲/内容
通知 QA leader&manager处理
QA判断是否为实时问题
End
技术优化
故障复盘
知识库中记录该故障
否
通过
专项小组解决
是
通知HOD处理
LIR:Live issue report system(线上问题上报系统,可以是系统,也可以是表格的形式)L1:业务负责人L2:测试负责人HOD:head of direction (决策人)
Live issue群&邮件通报问题并跟进进度
解决
修正后的内容:故障审查会议
获取第三方Incident Reports
规定时间内未解决
QA Close LIR提单
重大事故:影响核心业务指标的事故
QA记录故障分析报告,并在24小时内同步给业务。
Seatalk附LIR单找L2
修正「走版本迭代计划」,只返回修正后的内容,不返回多余的内容。
QA验收
问题是否升级
监控误报dev整体跟进
故障通报线
邮件发布故障过程报告:完善故障基础信息
Dev判断是否为incident
QA验证
邮件通知leader和manager
L2 assign task to Devdaily
邮件发布故障过程报告:故障基础信息
成立应急小组
未解决
critical
incident
故障处理
LIR提单给第三方
验证故障已解决
改进方案落地
调整告警策略
不通过
1.2
Start
方案验收
通知QA Leader/Manager
QA提交bug单给dev
normal
QA与提单人沟通验证结果
业务经LIR反馈
修正「dev问题定位和修复」,只返回修正后的内容,不返回多余的内容。
业务问题
通知HOD解决问题
QA/Dev判断Issue类型
第三方开发者问题定位和修复
业务&产品判断问题类型为 incident / critical / normal
邮件发送完整故障分析报告
第三方问题
监控发现的系统问题
1.1
Dev接收报警(日常报警&NOC群报警)
0 条评论
下一页