服务质量总分
2022-06-17 15:01:35 22 举报
AI智能生成
描绘服务质量画像的一些参数,以及评分
作者其他创作
大纲/内容
服务健康评分
请求
service_apdex应用性能指数
数据来源:es
需要验证数据准确性
满意请求数 + ( 容忍请求数 / 2 )
Apdex 得分 = ------------------------------------------------------
总请求数
Apdex 得分 = ------------------------------------------------------
总请求数
在两分钟的采样时间内,主机处理200个请求,500ms为apdex的阈值
1、170个请求在500ms内被处理完成,它们被分类为满意型。
2、20个请求在500ms和2秒间被处理,它们被分类为容忍型。
3、剩余的10个请求没有被正确处理或者处理时间超过了2秒,所以它们被分类为失望型
2、20个请求在500ms和2秒间被处理,它们被分类为容忍型。
3、剩余的10个请求没有被正确处理或者处理时间超过了2秒,所以它们被分类为失望型
最终的Apdex得分是0.9,即(170 + (20 / 2))/ 200。
slo指标:大于0.85
得分分为优秀(0.94 - 1.00)、良好(0.85 - 0.93)、一般(0.70 - 0.84)、差(0.50 - 0.69)和不可接受(0.00 - 0.49)
服务稳定度评分
请求
请求成功率评分
slo指标:99%作为满意样本,98%作为可容忍样本
参数依据:根据请求状态码来判断,成功的状态码200的样本数占总请求的百分比
得分= (满意样本数+(可容忍样本数)/2)/总样本数
得分分为优秀(0.94 - 1.00)、良好(0.85 - 0.93)、一般(0.70 - 0.84)、差(0.50 - 0.69)和不可接受(0.00 - 0.49)
单位:百分比
当前实例调用成功比率评分
参数依据:每个服务实例请求成功率,根据请求状态码来判断,成功的状态码200的样本数占总请求的百分比
slo指标:99%,可容忍98%
数据来源:取skywalking,3分钟一次采集
得分= (满意样本数+(可容忍样本数)/2)/总样本数
得分分为优秀(0.94 - 1.00)、良好(0.85 - 0.93)、一般(0.70 - 0.84)、差(0.50 - 0.69)和不可接受(0.00 - 0.49)
单位:百分比
jvm
CG运行情况
GC耗时评分
slo指标:小于3s,作为满意样本
数据来源:取skywalking,3分钟一次采集,
参数依据:每个服务实例发生GC,包括full gc 和young gc
得分= (满意样本数+(可容忍样本数)/2)/总样本数
得分分为优秀(0.94 - 1.00)、良好(0.85 - 0.93)、一般(0.70 - 0.84)、差(0.50 - 0.69)和不可接受(0.00 - 0.49)
GC发生次数评分
slo指标:小于10次作为满意样本
数据来源:取skywalking,3分钟一次采集,
参数依据:每个服务实例发生GC,包括full gc 和young gc
得分= (满意样本数+(可容忍样本数)/2)/总样本数
得分分为优秀(0.94 - 1.00)、良好(0.85 - 0.93)、一般(0.70 - 0.84)、差(0.50 - 0.69)和不可接受(0.00 - 0.49)
服务容量评分
CPU使用率
slo指标:小于90%次作为满意样本,小于100%可容忍样本
数据来源:取skywalking,3分钟一次采集,
参数依据:CPU使用率
得分= (满意样本数+(可容忍样本数)/2)/总样本数
得分分为优秀(0.94 - 1.00)、良好(0.85 - 0.93)、一般(0.70 - 0.84)、差(0.50 - 0.69)和不可接受(0.00 - 0.49)
jvm_Memory
slo指标:堆内存/最大堆内存 小于90%作为满意样本,小于95%可容忍样本。非堆同理
数据来源:取skywalking,3分钟一次采集,
参数依据:每个实例下的jvm堆内存和最大堆内存,jvm非堆内存和最大jvm非堆内存
得分= (满意样本数+(可容忍样本数)/2)/总样本数
得分分为优秀(0.94 - 1.00)、良好(0.85 - 0.93)、一般(0.70 - 0.84)、差(0.50 - 0.69)和不可接受(0.00 - 0.49)
qps
slo指标:95th小于压测数值为满意样本。
数据来源:取sentinual,3分钟一次采集,
参数依据:每个服务下的QPS
得分= (满意样本数+(可容忍样本数)/2)/总样本数
得分分为优秀(0.94 - 1.00)、良好(0.85 - 0.93)、一般(0.70 - 0.84)、差(0.50 - 0.69)和不可接受(0.00 - 0.49)
服务调用评分
RT
slo指标:小于3s次作为满意样本,小于12s可容忍样本
数据来源:取es,3分钟一次采集,
参数依据:请求平均响应时间
得分= (满意样本数+(可容忍样本数)/2)/总样本数
得分分为优秀(0.94 - 1.00)、良好(0.85 - 0.93)、一般(0.70 - 0.84)、差(0.50 - 0.69)和不可接受(0.00 - 0.49)
调用链路
slo指标:小于链路长度5作为满意样本,小于链路长度12可容忍样本
调用链路长度
得分= (满意样本数+(可容忍样本数)/2)/总样本数
得分分为优秀(0.94 - 1.00)、良好(0.85 - 0.93)、一般(0.70 - 0.84)、差(0.50 - 0.69)和不可接受(0.00 - 0.49)
数据来源:取es,3分钟一次采集,
图和详情需要展示链路被调用的次数
服务上下游依赖情况
slo指标:接口数量小于15次作为满意样本,接口数量小于20可容忍样本
服务接口依赖上下游情况
得分= (满意样本数+(可容忍样本数)/2)/总样本数
得分分为优秀(0.94 - 1.00)、良好(0.85 - 0.93)、一般(0.70 - 0.84)、差(0.50 - 0.69)和不可接受(0.00 - 0.49)
数据来源:取es,3分钟一次采集,
图和详情需要展示链路被调用的次数
总览
服务sla(服务等级协议)
数据来源:取skywalking,3分钟一次采集,
参数依据:1年 = 365天 = 8760小时,99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟,全年停机52.6分钟才能做到99.99%,即4个9
0 条评论
下一页