稳定性建设大纲
2021-10-03 22:05:23 4 举报
AI智能生成
稳定性建设大纲
作者其他创作
大纲/内容
概念:保证在团队变动的时候能够快速接手
不可用时间:(1-99.9%)*365*24=8.76小时
1个9
不可用时间:(1-99.99%)*365*24*60=52.56分钟
2个9
不可用时间:(1-99.999%)*365*24*60=5.256分钟
3个9
几个9
1分钟发现,5分钟定位,10分钟恢复
1,5,10
衡量标准
CPU使用率
load
内存
线程数
磁盘
机器健康
QPS每秒查询率(Query Per Second)
响应时间(RT)
慢链路调用诊断
集群健康
有哪些常见的慢SQL例子?
慢sql
存储空间
qps
tps
响应时间
连接数
CPU使用情况
运行性能
DB健康
出发点
了解业务归属
快速定位问题范围
协调相关人投入排查
评估影响面
决策恢复手段
职责
稳定性定义&建设&保障
代码逻辑
异常处理不合理
二方库
死循环
编码
超时时间不合理
限流阈值不合理
配置和环境
配置
系统间循环依赖
服务雪崩
活动引发流量
高峰期引发流量
DDoS攻击
流量突增
系统设计
慢查询
大事务
共享存储
连接打满
数据库
缓存
存储
磁盘打满
CPU打满
内存不足
线程耗尽
资源不足
内部因素
通讯线路问题
网络问题
宕机
服务器问题
三方服务
外部因素
系统不稳定的原因
复盘
恢复
排查
发现
预防
核心架构
流程
容量评估,目标明确
链路梳理,强弱依赖
报警配置,日志监控
全链压测,水位摸底
紧急预案,一键执行
限流降级,保护系统
系统优化,性能提升
事前:梳理摸底
大盘监控,一目了然
突发情况,预案执行
触发限流,平稳运行
事中:监控处理
问题总结,落实执行
遗点分析,全方思考
事后:复盘优化
方法论
稳定性保障方法分类
日常问题排查&优化
紧急故障&问题处理
链路&业务监控定义&配置
项目&业务协助
问题答疑&链路支持
日常稳定性
链路优化
模型升级
稳定性专项
既定平台级稳定性
临时业务稳定性
作战地图
大促稳定性
方向
性能压测&优化
RPC
缓存
流量调度
开关平台
配置推送
限流
预案平台
业务对账BCP
DB运维
机器&应用发布管理
业务运维
扩容
应用下线
机器置换
发布管理
无人值守
测试资源
度量管理
云账号管理
变更管理
必知框架&系统
问题定位Arthas
监控&告警
系统监控。主要监控系统层面,也就是虚拟机信息,例如 CPU负载,内存,磁盘,网络
应用监控。主要监控整个应用信息,例如 JVM 的 GC,线程,应用异常,慢 SQL 等
RPC调用情况
qps
rt
链路监控EAGLEEYE
调用链路
系统信息
内存
CPU
负载
网络
JVM
RPC服务信息
一些运维命令
问题排查&定位系统
全链路&白加黑压测
服务归组&路由服务规则
流量隔离
故障演练&注入实现
单元化、异地容灾
一些基础&原理
开启同机房策略
中美双注册
前提
中切美
配置预案
应用级别中美容灾
切流
一些必会的操作
降级
需要扩容哪个机房,扩容多少台?
扩容
置换机器
机器上下线
预案配置
变更查询
功能模块
场景
团队
应用
应用owner
依赖应用
依赖业务及影响
依赖关系
相关接口
相关表
压测目标QPS
压测计划
压测计划
手段
压测
运维常用的命令
系统&工具&知识
按照重要性划分业务和应用链路
开始治理,核心链路上不能够依赖非核心的接口、db,非核心链路上的降级不能够影响核心业务
禁止在修改非核心功能的时候需要发布核心应用
心链路和非核心链路,要有2套发布等级,2种监控等级。
黄金链路识别治理机制
值班机制
复盘机制
日常资源(机器、中间件)管控和记账机制
日常风险和问题报备机制
团队权限管控机制
日常演练机制
日常稳定性机制
稳定性建设大纲https://damaoguo.github.io/
0 条评论
下一页
为你推荐
查看更多