故障场景
2023-06-14 09:07:13 2 举报
AI智能生成
信息系统(互联网金融)常见故障场景分类
作者其他创作
大纲/内容
小概率引发故障
黑天鹅事件
意外性
影响重大
不可预测
面临不可抗力
可能由于一些不可抗力导致,此类故障不对人定级,大家同舟共济渡过难关
面临基础性影响
基础性影响范围大,这种故障下考虑通过多套基础设施共用,多机房备份等,来进行基础设施容灾,故障发生时也通过预案进行切换
解决
故障逃逸能力
多套备案能力
多样化应急方式
人为误操作
资损
资损分类
实际资损
因故障导致少收了客户的钱
因故障导致多给客户的钱
因故障导致客户亏损的钱
因故障公司直接亏损的钱
潜在资损
因故障导致公司应该挣没挣到的钱
因故障导致客户应该挣没挣到的钱
资损的产生
直接产生
罚款
数据错误
赔偿
优惠失控
连带产生
交易流程问题
合作链路问题
逻辑漏洞问题
资损发现
连带发现
处置故障的时候,发现有资损
对账
巡检
对整体链路的上下游的执行情况,数据情况进行巡检
结算发现
用户反馈
定级维度
资损金额
客诉情况
舆论情况
设计缺陷
产品在最初设计时由于未考虑全面,而使产品在使用中存在的一些潜在的缺陷
产生
客观因素
业务多面性
场景复杂
人员能力
主观因素
局部调整
局部功能调整,忽略对其他部分的影响
设计视角
专业偏差
理解偏差
思考全面性
发现
功能回归
业务监控
用户反馈
解决
SOP引导
引导用户绕过异常功能
功能关闭
降级
开关
发版/回滚
定级
流量故障
产生
未预期的流量
未达预期的处理能力
系统瓶颈
热点崩溃
资源争抢
发现
监控告警
流量监控
流量水位
流量成功率
资源监控
资源指标
异常偏离
热点监控
热点梳理
热点性能
慢SQL
QT
用户反馈
解决
限流
熔断
降级
重启
扩容
环境故障
基础环境,包括服务器,中间件,存储,计算等非业务相关的服务出现故障
产生
运维变更
运维变更中因升级、配置变更、代码bug等导致的基础服务本身故障
不合理使用
中间件需要合理使用,以不合理的方式使用会导致实际性能/效果存在严重问题,比如慢SOL
代码过度消耗
在代码中存在问题,比如死循环,对基础资源进行过度消耗,直到资源耗尽
压力过大
发现
监控
环境监控
使用监控
业务监控
解决
置换
重启
限流
备份服务
修改代码
应用故障
概述
应用本身问题
应用配置错误
应用假死
应用部署问题
应用之间问题
提供能力问题
调用关系错误
部署拓扑不合理
产生
配置
部署设计
链路调整
代码问题
发现
应用监控
中间件无法连接
应用地址不存在
RPC目标方法不存在
Connection Reset
基础监控
机器指标
JVM指标
解决
重启
拓扑调整
配置更正
修改代码
数据故障
产生
代码问题要
链路上下游数据问题
该写的没写
不该写的写了
序列化问题
数据过长
数据变更
数据导入
数据变更
数据删除
数据映射
数据编码
发现
业务监控
数据展示
数据行为
数据结果
巡检对账
一致性巡检
多维度对账
报表偏离
用户反馈
解决
数据订正
数据清洗
修改代码
发布故障
产生
代码问题
配置问题
顺序问题
兼容问题
发现
业务监控
业务波动
业务失败
应用监控
异常错误
性能指标
环境监控
机器指标
JVM指标
解决
回滚
安全故障
研发故障
类型
研发过程
代码错误
研发操作
线上调整
数据变更
解决
功能降级
降级
开关
变更回滚
流程规避
主要是针对内部用户
迭代解决
历史遗留问题故障
故障原因
历史的一些问题,之前因为某些原因没有发现( 可能也产生影响了),在当前阶段被发现了。
故障定责
历史人员可能已经离职,所以基本就是现任维护者背责
解决
止血
历史问题可能没有相关预案,所以要根据问题情况来分析情况紧急程度,进行相关功能或者流程的止中
修复
大概率要进行功能设计与发版,所以修复是一个工程。历史一直以来的问题,相对容忍度要高
重要程度
核心功能
如CIF、开放平台等,会造成严重影响
辅助功能
会造成影响,但影响相对可控
边缘功能
功能本身影响不大,甚至可直接降级
影响范围
功能范围
用户范围
TOC
TOB
连带范围
影响程度
特殊影响
公众舆论
监管风险
影响量级
影响严重
场景分类
代码问题
基础设施
数据问题
产品功能
流量故障
资金损失
数据故障
数据产生
数据变更
数据消费
定级的基本维度
影响定级
资损定级
客诉定级
舆情定级
0 条评论
下一页