IT运维故障处理流程、机制
2018-05-17 17:51:52 6 举报
针对IT故障紧急事项启动流程和机制,主要解决问题:问题监控谁来负责、问题等级谁来判断、预防机制是什么
作者其他创作
大纲/内容
Y
详细列明问题
每日监控
硬件问题、下载慢
问题定位
检查系统问题
低于标准警报
上1小时同比昨日同一时间
高于标准警报
阿里云部署备份云存储
是否有新症状发生
检查机房问题
缩小问题泛围
网站瘫痪
1、数据库主从配置2、多准备一套服务器
处理人
打包慢
N
分析问题
性能被攻击bug
客户端
文件下载
系统监控:下载损坏率2%以内
IT故障处理流程与机制
完结
Y
预防机制
症状是否停止
打包器
解决问题
系统监控
系统监控:每5 min监控
复查问题是否被解决
级别:P3响应时间:1天内解决时间:3天内定义:核心业务重要功能可用,周边功能不可用,影响用户范围:打包速度
N
XXX
硬件网络被攻击
文件损坏
确认并测试问题起因
网站
级别:P1响应时间:1小时内解决时间:1天内定义:核心业务重要功能可用,但性能出问题影响用户,持续发展会大面积影响用户、收益范围:网站速度、下载速度、客户端打开速度慢
等级判定
级别:P2响应时间:半天内解决时间:1周内定义:核心业务重要功能可用,周边功能不可用,影响内部员工范围:数据后台无法查看、测试环境问题
跟进流程
写文档记录步骤
监控标准
级别:P0响应时间:立即解决时间:1小时内定义:核心业务重要功能不可用且影响用户、影响收益等问题范围:网站无法打开、客户端无法打开、微信公众号无法使用
系统监控:每1h打包100个
无法打开警报
0 条评论
下一页