稳定性保障方法
2021-10-03 22:04:36 4 举报
AI智能生成
为你推荐
查看更多
稳定性保障方法
作者其他创作
大纲/内容
主备&双机房
同城&异地
冗余备份
业务隔离
服务隔离
核心库和非核心库
资源隔离
隔离
QPS每秒查询率(Query Per Second)
响应时间(RT)
吞吐量(TPS):在单位时间内处理请求的数量
扩容、缩容
接口调用成功率
容量水位 = 当前的集群服务能力 / (单机极限服务能力 *服务器数量)
水位
应用容量评估
缓存
DB
消息
中间件容量评估
依赖服务不稳定
超时时间阈值设置
下游依赖评估
容量评估
整体调用链路梳理
合理性判断
强依赖
降级
限流
弱依赖
超时时间
下游依赖
依赖梳理
慢sql
缓存改造
性能优化
按照业务重要程度划分
分组
解耦
削峰填谷
异步化
服务治理
容灾
系统架构设计
核心架构
研发流程控制
日常维护
风险治理
反熵增
可灰度
可监控
可回滚
变更
攻防演练
资损防控
数据对账
预防
梳理每个模块的报警列表(文档化、标准化)及处理的action,分组、分责任人落实
系统监控拆分为单机维度和集群维度报警,避免单机波动造成很多误报,并且建立了监控大盘,方便上下游定位问题
上游监控下游超时、error等异常,对于达到一定阈值的直接电话报警,防止漏掉或处理不及时
重要渠道消耗报警,接入平台,异常时电话通知相关值班同学,确保有问题时第一时间介入排查
监控&预警
保障系统没有问题
目标
内存、cpu、磁盘、load、hsf成功率、rt、缓存总体成功率
系统监控
保障对外服务没有问题
显著上涨,显著下降,同比或者环比上涨/下跌
qps
偶尔抖动,一般不处理
长时间增加,突然增加,同比增加,需要关注
rt
流量小的时候成功率不准,流量大的时候看成功率
成功率
流量小的时候,看异常率
异常率
四大指标
可能是数据上的问题,要特殊关注
错误码
对外服务4大指标
下游依赖服务4大指标
中间件、缓存服务4大指标
服务
服务监控
保障业务自身没有问题
业务日志(json格式)
监控日志
基于日志
按照业务划分的流量监控
异常监控
分类
特殊业务定制
重视错误码top的监控
业务监控
保障数据没有问题
数据监控
基于sql查询
履约
数据监控
咨询场景梳理
资损对账
BCP对账
对履约
资损监控
监控的组成
系统巡检
功能巡检
巡检通知
发现
全息排查
日志上云
日志
业务变更轨迹
数据变更轨迹
变更轨迹
场景回放
排查
为什么要有预案
常用的预案种类
预案
回滚
流量路由
恢复
复盘
稳定性保障方法https://damaoguo.github.io/
0 条评论
回复 删除
下一页