服务超时解决方法论
2023-01-23 10:54:19 1 举报
服务超时解决方法论
作者其他创作
大纲/内容
测试环境构造大日志文件夜间0点可复现问题
logback隔天备份日志文件导致大量IO,且日志为同步输出,大量线程被迫等等
初步定位
通过线程池透传traceid定位到具体耗时环节
凌晨超时
快速失败降级增加缓存
请求量突增连接池堆积
IO突增超时较分散请求量变化不大cpu小幅波动
去除无用日志异步化日志输出每小时生成一个文件分片
可观测能力发现线索
偶发抖动超时
DI监控异常或ckv监控指标异常等
调整连接池、线程池大小以及队列长度
复现确认
无法复现单case
独立DI申请独立ckv申请主备ckv配置
优化解决
压测环境压测调整最佳连接池配置
业务高峰期超时
共用DI集群、ckv集群导致业务间互相影响
根据trace信息可分析出是客户中心接口偶尔响应过慢
0 条评论
回复 删除
下一页