稳定性建设
2022-11-02 15:14:43 12 举报
AI智能生成
服务稳定
作者其他创作
大纲/内容
遵循客观规律
黑天鹅
反脆弱
海恩法则&墨菲定律
方法论
可控输入指标及输出指标
如何找可控输入指标-增长飞轮
提升服务可靠性
减少故障次数
增加平均故障间隔时间
提升系统可用性
提高平均失效时间
故障预防
规避防故障发生
防上游打死
隔离设计
容量规划
限流设计
防自己作死
研发规范
上线规范
变更规范
防止下游拖死
柔性设计
可降级
可流控
依赖设计
消除依赖
弱化依赖
控制依赖
容灾部署
潜在故障发现
预案治理
风险巡检
故障演练
常态化压测
前车之鉴
降低故障恢复时间
故障发现及定位
监控告警
构建监控体系
监控分层体系
基础
CPU
JVM
Pass
公共设施成功率
公共设施耗时
应用
对外接口成功率
对外接口耗时
对外接口调用量
下游接口成功率
下游接口耗时
业务
曝光量
下单量
支付成功率
用户
解绑卡
客诉
埋点策略
接口及下游切面埋点
业务指标监控埋点
明确业务核心指标,拆解
结合case讲
历史故障查漏补缺
制定告警策略
告警调较
监控特征
分级告警
分时间段
告警防止腐化
配置项可维护性
配置阈值可维护性
精细化治理
根因分析
日志定位
请求日志
边界日志
系统日志
故障应急
回滚/禁用
降级处理
限流
扩容
0 条评论
下一页