故障场景
2023-06-14 09:07:13 2 举报
AI智能生成
信息系统(互联网金融)常见故障场景分类
作者其他创作
大纲/内容
意外性
影响重大
不可预测
黑天鹅事件
可能由于一些不可抗力导致,此类故障不对人定级,大家同舟共济渡过难关
面临不可抗力
基础性影响范围大,这种故障下考虑通过多套基础设施共用,多机房备份等,来进行基础设施容灾,故障发生时也通过预案进行切换
面临基础性影响
故障逃逸能力
多套备案能力
多样化应急方式
解决
小概率引发故障
产生故障
影响系统
人为误操作
因故障导致少收了客户的钱
因故障导致多给客户的钱
因故障导致客户亏损的钱
因故障公司直接亏损的钱
实际资损
因故障导致公司应该挣没挣到的钱
因故障导致客户应该挣没挣到的钱
潜在资损
资损分类
罚款
数据错误
赔偿
优惠失控
直接产生
交易流程问题
合作链路问题
逻辑漏洞问题
连带产生
资损的产生
处置故障的时候,发现有资损
连带发现
对账
对整体链路的上下游的执行情况,数据情况进行巡检
巡检
结算发现
用户反馈
资损发现
资损金额
客诉情况
舆论情况
定级维度
资损
产品在最初设计时由于未考虑全面,而使产品在使用中存在的一些潜在的缺陷
业务多面性
场景复杂
人员能力
客观因素
局部功能调整,忽略对其他部分的影响
局部调整
专业偏差
理解偏差
设计视角
思考全面性
主观因素
产生
功能回归
业务监控
发现
引导用户绕过异常功能
SOP引导
降级
开关
功能关闭
发版/回滚
定级
设计缺陷
未预期的流量
系统瓶颈
热点崩溃
资源争抢
未达预期的处理能力
流量水位
流量成功率
流量监控
资源指标
异常偏离
资源监控
热点梳理
慢SQL
QT
热点性能
热点监控
监控告警
限流
熔断
重启
扩容
流量故障
基础环境,包括服务器,中间件,存储,计算等非业务相关的服务出现故障
运维变更中因升级、配置变更、代码bug等导致的基础服务本身故障
运维变更
中间件需要合理使用,以不合理的方式使用会导致实际性能/效果存在严重问题,比如慢SOL
不合理使用
在代码中存在问题,比如死循环,对基础资源进行过度消耗,直到资源耗尽
代码过度消耗
压力过大
环境监控
使用监控
监控
置换
备份服务
修改代码
环境故障
应用配置错误
应用假死
应用部署问题
应用本身问题
提供能力问题
调用关系错误
部署拓扑不合理
应用之间问题
概述
配置
部署设计
链路调整
代码问题
中间件无法连接
应用地址不存在
RPC目标方法不存在
Connection Reset
应用监控
机器指标
JVM指标
基础监控
拓扑调整
配置更正
应用故障
链路上下游数据问题
该写的没写
不该写的写了
序列化问题
数据过长
代码问题要
数据导入
数据变更
数据删除
数据映射
数据编码
数据展示
数据行为
数据结果
一致性巡检
多维度对账
报表偏离
巡检对账
数据订正
数据清洗
数据故障
配置问题
顺序问题
兼容问题
业务波动
业务失败
异常错误
性能指标
回滚
发布故障
目前的发布故障,如果在发布时间内发现,回滚我们是不当做故障记录的
安全故障
代码错误
研发过程
线上调整
研发操作
类型
功能降级
变更回滚
主要是针对内部用户
流程规避
迭代解决
研发故障
历史的一些问题,之前因为某些原因没有发现( 可能也产生影响了),在当前阶段被发现了。
故障原因
历史人员可能已经离职,所以基本就是现任维护者背责
故障定责
历史问题可能没有相关预案,所以要根据问题情况来分析情况紧急程度,进行相关功能或者流程的止中
止血
大概率要进行功能设计与发版,所以修复是一个工程。历史一直以来的问题,相对容忍度要高
修复
历史遗留问题故障
如CIF、开放平台等,会造成严重影响
核心功能
会造成影响,但影响相对可控
辅助功能
功能本身影响不大,甚至可直接降级
边缘功能
重要程度
功能范围
TOC
TOB
用户范围
连带范围
影响范围
公众舆论
监管风险
特殊影响
影响量级
影响严重
影响程度
基础设施
数据问题
产品功能
资金损失
场景分类
数据产生
数据消费
数据缺失
脏数据
数据一致性问题
数据匹配度问题
主要场景
影响定级
资损定级
客诉定级
舆情定级
定级的基本维度
故障场景
0 条评论
回复 删除
下一页