星河云故障处理流程
2024-05-24 14:20:01 3 举报
故障发现-故障处理-故障恢复-故障复盘
作者其他创作
大纲/内容
是
故障复盘:运维组织开发、测试参与云端负责人审核
否
验收
故障记录表
故障处理和恢复
客户方
通知产线、启动应急预案
是否同步给客户
提交故障报告
流程说明
反馈客户
合作商(第三方信源/科大讯飞等)
开发/运维/第三方提交故障报告
提交
故障复盘和整改优化阶段
故障分析并记录
云端模块负责人
同步故障恢复信息
执行整改方案
故障信息源
合作商启动应急预案
验证接口或服务
商务/项目组/质量管理/售后
持续观察
监控系统告警
故障结束
故障报告
内部人员反馈
运维是否能解决
故障发现阶段
审核故障报告复盘故障原因提交整改方案
审核故障报告
参考方案:回滚/修复扩容容灾切换
云端研发主管
通知客服启动已经方案
组织故障复盘
云+端测试模块负责人
飞书/微信/企微群电话通知
是否属于星河云故障
用户反馈
给出解决方案
故障分析
跟进故障等级,启动对应解决方案
执行解决方案恢复业务
故障是否恢复
同步故障信息
星河云故障处理流程
云端运维
客户/产线
是否需要审核
故障处理阶段
是否可行
客户方启动应急预案
是否完成
故障恢复阶段
并行执行运维经理同步故障信息运维组员跟踪解决故障测试人员验证服务研发人员协助介入处理
1、运维接到故障10分钟内响应:A.运维经理同步故障信息给相关人员知晓(需判断哪些故障需要同步、同步给哪些人);B.运维组员同步进行故障处理(详见《运维内部故障处理流程》)2、建立故障通知微信群,出现故障和故障恢复信息及时在微信群里同步,包含内容:故障现象、服务范围、影响范围、恢复时间、应急请求3、P1级故障响应时间10分钟;故障信息同步,每10分钟同步一次;故障报告发送时间1天内。
0 条评论
下一页