快速识别 SLI 指标的方法:VALET
2022-08-24 09:13:41 9 举报
AI智能生成
快速识别 SLI 指标的方法
作者其他创作
大纲/内容
Volume- 容量
Volume(容量)是指服务承载的最大容量是多少。比如,一个应用集群的 QPS、TPS、会话数以及连接数等等,对于业务接口,我们要看它的吞吐能力,比如每小时/能处理的记录数或任务数。
Availablity- 可用性
Availablity(可用性)代表服务是否正常。比如,请求调用的非 5xx 状态码成功率,就可以归于可用性。对于业务接口,我们就看接口的调用成功情况,这个也可以根据不同的返回码码来归类。
Latency- 时延
Latency(时延)是说响应是否足够快。这是一个会直接影响用户访问体验的指标。通常对于时延这个指标,一般不会直接做所有请求时延的平均,因为整个时延的分布也符合正态分布,所以通常会以类似“90% 请求的时延 <= 80ms,或者 95% 请求的时延 <=120ms ”这样的方式来设定时延 SLO
Errors- 错误率
错误率有多少?这里除了 5xx 之外,我们还可以把 4xx 列进来,因为前面是从可用性角度,但是从业务和体验角度,4xx 太多,用户也是不能接受的。或者可以增加一些自定义的状态码,看哪些状态是可定义为业务失败的。
Tickets- 人工介入
是否需要人工介入?如果一项工作或任务需要人工介入,那说明一定是低效或有问题的。举一个我们常见的场景,定时任务跑失败了,但是无法自动恢复,这时就要人工介入恢复;或者超时了,也需要人工介入,来中断任务、重启拉起来跑等等。
0 条评论
下一页