故障处理-应用服务器故障
2016-02-26 15:26:49 8 举报
在应用服务器故障的情况下,首先需要迅速识别并确认问题。这可能涉及到监控系统的报警,或者用户报告的问题。一旦确认了问题,接下来需要评估问题的严重程度和影响范围,以确定应急响应的优先级。然后,需要尽快恢复服务,这可能涉及到重启服务器,修复软件bug,或者增加系统资源。在此过程中,需要保持与用户的沟通,及时更新问题的处理进度和预计恢复时间。最后,问题解决后,需要进行详细的故障分析,找出问题的根本原因,并采取措施防止类似问题的再次发生。同时,也需要对此次应急响应进行总结和反思,以提升未来的故障处理能力。
作者其他创作
大纲/内容
协调人手资源继续深入定位故障原因(20分钟内)
软件层面故障
将收集到的信息向上反馈(运维经理)
运维确认故障点:检测网络状况,监控系统告警情况,以及其他一些自动化排错工具(10分钟内)
通过VIPQQ群或者直线电话联系ucloud技术支持,同时联系商务
如出现官网app加载缓慢
汇总信息,确认云主机是否可以修复,确认是否还存在再次宕机的隐患,确认服务能否恢复
内网故障
确认云主机是否宕机
如果不可以短时间恢复,就进行紧急扩容,测试没问题之后加入到负载均衡去
联系UCloud技术支持进行网络问题的排查
云主机操作系统故障
检查错误日志,以及负载情况
如果个别应用服务器不可用
0 条评论
下一页