稳定性保障方法
2021-10-03 22:04:36 4 举报
AI智能生成
稳定性保障方法
作者其他创作
大纲/内容
核心架构
冗余备份
主备&双机房
同城&异地
隔离
业务隔离
服务隔离
资源隔离
核心库和非核心库
系统架构设计
容量评估
应用容量评估
QPS每秒查询率(Query Per Second)
响应时间(RT)
吞吐量(TPS):在单位时间内处理请求的数量
扩容、缩容
接口调用成功率
水位
容量水位 = 当前的集群服务能力 / (单机极限服务能力 *服务器数量)
中间件容量评估
缓存
DB
消息
下游依赖评估
依赖服务不稳定
超时时间阈值设置
服务治理
整体调用链路梳理
依赖梳理
强依赖
合理性判断
弱依赖
降级
限流
下游依赖
超时时间
性能优化
慢sql
缓存改造
分组
按照业务重要程度划分
异步化
解耦
削峰填谷
容灾
预防
研发流程控制
反熵增
日常维护
风险治理
变更
可灰度
可监控
可回滚
攻防演练
资损防控
数据对账
发现
监控&预警
梳理每个模块的报警列表(文档化、标准化)及处理的action,分组、分责任人落实
系统监控拆分为单机维度和集群维度报警,避免单机波动造成很多误报,并且建立了监控大盘,方便上下游定位问题
上游监控下游超时、error等异常,对于达到一定阈值的直接电话报警,防止漏掉或处理不及时
重要渠道消耗报警,接入平台,异常时电话通知相关值班同学,确保有问题时第一时间介入排查
监控的组成
系统监控
目标
保障系统没有问题
内存、cpu、磁盘、load、hsf成功率、rt、缓存总体成功率
服务监控
目标
保障对外服务没有问题
四大指标
qps
显著上涨,显著下降,同比或者环比上涨/下跌
rt
偶尔抖动,一般不处理
长时间增加,突然增加,同比增加,需要关注
成功率
流量小的时候成功率不准,流量大的时候看成功率
异常率
流量小的时候,看异常率
错误码
可能是数据上的问题,要特殊关注
服务
对外服务4大指标
下游依赖服务4大指标
中间件、缓存服务4大指标
业务监控
目标
保障业务自身没有问题
基于日志
业务日志(json格式)
监控日志
分类
按照业务划分的流量监控
异常监控
特殊业务定制
重视错误码top的监控
数据监控
数据监控
保障数据没有问题
基于sql查询
履约
资损监控
咨询场景梳理
资损对账
BCP对账
对履约
巡检通知
系统巡检
功能巡检
排查
日志
全息排查
日志上云
变更轨迹
业务变更轨迹
数据变更轨迹
场景回放
恢复
预案
为什么要有预案
常用的预案种类
回滚
流量路由
复盘
0 条评论
下一页