稳定向思路公开V0.1
2021-04-04 12:07:03 1 举报
AI智能生成
稳定性思考
作者其他创作
大纲/内容
衡量标准
服务可用时间占比
平均故障间隔时间MTBF
增大
平均修复时间MTTR
减小
故障间隔时间/(故障间隔时间+修复时间
MTBF/(MTBF+MTTR)
MTBF/(MTBF+MTTR)
4个9999
全年52分钟
全年52分钟
可用
服务
逻辑正常
响应时间短
服务无异常
故障来源
服务
代码
逻辑错误
异常处理
第三方库使用不当
开发规范
死循环
配置
超时时间不合理
限流阀值不合理
环境错误
系统设计
循环调用
服务雪崩
上下游影响
基础服务影响上游
流量激增
活动引发流量
高峰期流量
攻击流量
存储
数据库
慢查
无索引
查询结果量大
大表关联
数据倾斜
大事务
死锁
吞吐量低
共享存储
链接打满
缓存
命中率低
缓存溢出
中间件
集群单点
资源
CPU打满
死循环
大量计划
磁盘打满
日志未清理
错误日志栈
线程耗尽
线程池不合理
核心与非核心未隔离
高耗时操作
内存不足
OOM
泄露
溢出
硬件
网络
线路故障
路由器故障
网线被拔
服务器
宕机
机房停电
第三方服务
第三方服务故障
微信支付
坐席通话
云服务
服务欠费
被拉黑
处理原则
服务自身稳定
应用服务层
服务质量
规范
项目复盘
发现问题
总结经验
上线规范
灰度
新接口压测
固定时间窗口
测试规范
业务场景覆盖率
测试用例
正向&逆向
压测
提测标准
自测
冒烟
测试数据准备
历史数据刷新
联调
代码规范
理论
Alibaba规范
规范考试
标准意识
宣讲
定期考试
设计评审
技术方案评审
测试用例评审
项目结构
分层
入口
controller
mq
service
dao
事务
dao
标准项目结构
数据库规范
第三方库使用规范
代码质量
静态检查
blocker
critical
代码检查插件
千行代码bug率
<0.15
CODE REVIEW
提测前提交
关键点校验
缓存
慢查询
命名
死循环
性能压测
服务容量
服务划分与边界
服务拆分解耦
接入层根据业务、产品拆分服务
交易与非交易拆分服务
公共逻辑沉淀公共服务
资源独立
数据库拆分
拆库拆表
redis拆分
服务(功能拆分)
核心链路MVP
核心链路
路径
梳理
抽离单独服务
外部服务数量
中间件
一致性
事务避免耗时
最终一致性
幂等
补偿
兜底
设计方案
缓存预热
多级缓存
中间件
选型
业务场景对比
性能对比
参数
默认参数
应用参数
mq中间件
发送
避免事务中发放
快速失败
容灾兜底数据
消费
不依赖消息顺序
重复数据处理
快速扩容
缓存
大key,热key
一次请求多次获取
缓存降级
计数incr
超时时间
避免事务中调用
配置中心
apollo
zk
config
负载均衡
存储
设计
核心业务分离
主从模式
主从延迟
敏感数据走主库
选型
稳定
验证过的
容量
考虑分表
水平
垂直
缓存容量
性能
慢查
大事务
基础设施
单点
双机房
容量
目标量3倍
多个pod
单机房支持所有
容灾等级
多机房
单故障自动迁移
上下游影响
核心与非核心依赖
核心链路梳理
非核心链路
下游
熟悉下游服务特性
重试机制
接口超时
幂等
回调
异步接口
最大调用量
防护
降级
熔断
单点
避免单点问题
适度缓存
故障范围控制
非核心依赖
熔断降级
快速失败&重试
核心依赖
可用性监控报警
耗时监控报警
降级熔断,友好提示
去依赖
适度缓存
有损降级
上线限流
限流,避免被上游打死
资源隔离
业务
流量
线程隔离
进程隔离
机房隔离
多机房部署
集群隔离
一个集群不可用,整个服务可用
禁止依赖闭环
第三方依赖
避免单点
多通道接入
监控与故障处理
监控报警全方位
业务全方位监控
类型
提醒
告警
级别
P0
P1
内容
指标
怎么le
责任人
责任人
leader
升级
系统报警
性能指标报警
物理指标
cpu
thread
jvm
net_io
性能报警
核心接口可用
强依赖RT
TP99
QPS
业务异常告警
业务成功率
通道成功率
异常数告警
中间件报警
kafka报警
消费速度
发放耗时
推挤数量
mq
消费速度
耗时
堆积数量
redis
可用性
TP99
异常数
CPU
数据库报警
总链接数
空闲链接数
活跃链接数
慢查
大事务
事前:预防
静态梳理
关键链路梳理
核心节点掌握中
关键链路方法梳理
专项梳理
大表
慢查
大事务
容量
指标巡检
性能
尖刺
业务大盘
定心丸
故障大盘
快速定位
压测
故障降级演练
全链路压测
核心链路压测
定期常规压测
事中:快速处理
快速恢复为主
业务降级
代码自动熔断
代码回滚
服务扩容
自动
手动
禁用服务节点
同步进度
群周知
RD负责人处理
故障同步
第一时间通知RD
事后:总结提高
故障善后
数据修复
故障原因
故障范围
casestudy
影响范围
模块
时间
损失
定级
原因分析
5w2h方法论
根本原因
改进
TODO
smart原则
定期总结
月度
季度
完成情况
收藏
收藏
0 条评论
下一页