问题分析方法分享
2022-10-19 10:40:23 0 举报
AI智能生成
问题分析方法分享
作者其他创作
大纲/内容
系统
应用层
软件层
系统层
问题分析
问题来源收集
系统、业务监控报警
关联系统故障追溯
运营同事或者客服反馈
主动发现
范围
影响了多大范围的用户
在多大程度上影响用户的正常使用
如果是集群系统,那幺这个问题是全局性的还是只在单台机器上出现
不同的问题范围会直接影响到问题处理的优先级,一些极端情况下的个案,甚至可以不急于处理(至少不用过于焦虑)
处理方案
无法快速定位到问题根源
回滚:当最近有新版本上线时,多半首选这种方案
重启:CPU高,或者连接数飙升时,会采取这种方法
扩容,限流,降级: 线上访问压力大,重启也无法解决时需要扩容,<br>
可以定位到问题点
临时方案或者功能降级
方法论
先逐个模块排查,确认问题现象
再根据问题现象,定位问题进程
进一步分析线程以及内存情况
工具或命令
服务进程
堆内存download下
线程状态
保存堆内存信息现场
使用阿里神器 arthas 线上debug
0 条评论
下一页