稳定性建设
2022-11-02 15:14:43 12 举报
AI智能生成
服务稳定
作者其他创作
大纲/内容
黑天鹅
反脆弱
海恩法则&墨菲定律
遵循客观规律
可控输入指标及输出指标
如何找可控输入指标-增长飞轮
方法论
减少故障次数
增加平均故障间隔时间
提升服务可靠性
隔离设计
容量规划
限流设计
防上游打死
研发规范
上线规范
变更规范
防自己作死
可降级
可流控
柔性设计
消除依赖
弱化依赖
控制依赖
依赖设计
容灾部署
防止下游拖死
规避防故障发生
预案治理
风险巡检
故障演练
常态化压测
前车之鉴
潜在故障发现
故障预防
提高平均失效时间
CPU
JVM
基础
公共设施成功率
公共设施耗时
Pass
对外接口成功率
对外接口耗时
对外接口调用量
下游接口成功率
下游接口耗时
应用
曝光量
下单量
支付成功率
业务
解绑卡
客诉
用户
监控分层体系
接口及下游切面埋点
结合case讲
明确业务核心指标,拆解
历史故障查漏补缺
业务指标监控埋点
埋点策略
构建监控体系
监控特征
分级告警
分时间段
告警调较
配置项可维护性
配置阈值可维护性
告警防止腐化
制定告警策略
精细化治理
监控告警
根因分析
请求日志
边界日志
系统日志
日志定位
故障发现及定位
回滚/禁用
降级处理
限流
扩容
故障应急
降低故障恢复时间
提升系统可用性
稳定性建设
0 条评论
下一页