稳定性建设大纲
2021-10-03 22:05:23 4 举报
AI智能生成
稳定性建设大纲
作者其他创作
大纲/内容
稳定性定义&建设&保障
概念:保证在团队变动的时候能够快速接手
衡量标准
几个9
1个9
不可用时间:(1-99.9%)*365*24=8.76小时
2个9
不可用时间:(1-99.99%)*365*24*60=52.56分钟
3个9
不可用时间:(1-99.999%)*365*24*60=5.256分钟
1,5,10
1分钟发现,5分钟定位,10分钟恢复
出发点
机器健康
CPU使用率
load
内存
线程数
磁盘
集群健康
QPS每秒查询率(Query Per Second)
响应时间(RT)
慢链路调用诊断
DB健康
慢sql
有哪些常见的慢SQL例子?
存储空间
运行性能
qps
tps
响应时间
连接数
CPU使用情况
职责
了解业务归属
快速定位问题范围
协调相关人投入排查
评估影响面
决策恢复手段
系统不稳定的原因
内部因素
编码
代码逻辑
异常处理不合理
二方库
死循环
配置
超时时间不合理
限流阈值不合理
配置和环境
系统设计
系统间循环依赖
服务雪崩
流量突增
活动引发流量
高峰期引发流量
DDoS攻击
存储
数据库
慢查询
大事务
共享存储
连接打满
缓存
资源不足
磁盘打满
CPU打满
内存不足
线程耗尽
外部因素
网络问题
通讯线路问题
服务器问题
宕机
三方服务
稳定性保障方法分类
流程
核心架构
发现
恢复
复盘
排查
预防
方法论
事前:梳理摸底
容量评估,目标明确
链路梳理,强弱依赖
报警配置,日志监控
全链压测,水位摸底
紧急预案,一键执行
限流降级,保护系统
系统优化,性能提升
事中:监控处理
大盘监控,一目了然
突发情况,预案执行
触发限流,平稳运行
事后:复盘优化
问题总结,落实执行
遗点分析,全方思考
方向
日常稳定性
日常问题排查&优化
紧急故障&问题处理
链路&业务监控定义&配置
项目&业务协助
问题答疑&链路支持
稳定性专项
链路优化
模型升级
大促稳定性
既定平台级稳定性
临时业务稳定性
作战地图
系统&工具&知识
性能压测&优化
问题排查&定位系统
必知框架&系统
RPC
缓存
流量调度
开关平台
配置推送
限流
预案平台
业务对账BCP
DB运维
机器&应用发布管理
业务运维
扩容
应用下线
机器置换
发布管理
无人值守
测试资源
度量管理
云账号管理
变更管理
问题定位Arthas
监控&告警
系统监控。主要监控系统层面,也就是虚拟机信息,例如 CPU负载,内存,磁盘,网络
应用监控。主要监控整个应用信息,例如 JVM 的 GC,线程,应用异常,慢 SQL 等
RPC调用情况
qps
rt
链路监控EAGLEEYE
调用链路
系统信息
内存
CPU
负载
网络
JVM
RPC服务信息
一些运维命令
一些基础&原理
全链路&白加黑压测
服务归组&路由服务规则
流量隔离
故障演练&注入实现
单元化、异地容灾
一些必会的操作
切流
应用级别中美容灾
前提
开启同机房策略
中美双注册
中切美
配置预案
限流
降级
扩容
需要扩容哪个机房,扩容多少台?
置换机器
机器上下线
预案配置
变更查询
压测
压测计划
功能模块
场景
依赖关系
团队
应用
应用owner
依赖应用
依赖业务及影响
相关接口
相关表
压测目标QPS
压测计划
手段
运维常用的命令
日常稳定性机制
黄金链路识别治理机制
按照重要性划分业务和应用链路
开始治理,核心链路上不能够依赖非核心的接口、db,非核心链路上的降级不能够影响核心业务
禁止在修改非核心功能的时候需要发布核心应用
心链路和非核心链路,要有2套发布等级,2种监控等级。
值班机制
复盘机制
日常资源(机器、中间件)管控和记账机制
日常风险和问题报备机制
团队权限管控机制
日常演练机制
0 条评论
下一页
为你推荐
查看更多