服务治理全景图
2021-05-26 17:38:11 0 举报
服务治理全景图 待进一步完善
作者其他创作
大纲/内容
服务治理全流程
外框
运维治理
应用基础信息
应用ID
应用名称
负责人
应用描述
服务数量
服务列表
服务基础信息
基础信息
服务ID
服务名称
服务接口列表
服务版本
所属应用
应用ID应用名称(例如:用户中心)
所属部门
服务级别
线上版本
服务状态
待上线在线待下线下线
部署模式
单机集群
负载均衡
轮询随机等
SLA 服务级别协议 service-level agreement提供者消费者(调用它的服务)关联应用配置变更路由访问规则
维护历史
服务上线信息
申请人申请时间申请执行内容审批人审批时间执行人执行时间上线版本执行结果
服务维护信息(列表)
申请人申请时间申请执行内容审批人审批时间执行人执行时间执行结果
服务下线信息
monitor度量指标
系统度量指标
CPU内存系统负载磁盘IO线程数
服务度量指标
服务之间调用
单次调用指标
调用者
服务ID服务名称
被调用者
调用接口
调用时间
调用动作
getpost
调用结果
成功失败 错误信息 错误码
调用耗时
一分钟汇总
服务维度
调用量
成功次数失败次数合计
总耗时(ms)
平均耗时(ms)
95分位耗时(ms)
99分位耗时(ms)
接口维度
小时、天、月、季度、年汇总
服务与资源之间调用
JVM指标
GC类型
新生代收集次数
新生代收集时间
老年代收集次数
老年代收集时间
内存使用
新生代老年代survivor元数据区永久代CodeCache
tracing治理维度
服务关系
治理目标
避免循环调用梳理集中调用避免深度调用梳理冗余服务优化资源配置根据服务的重要性,进行分级运维
单服务调用关系视图
调用的服务
成功次数失败次数合计次数
错误率
总耗时(ms)平均耗时(ms)95分位耗时(ms)99分位耗时(ms)
被哪些服务调用
服务名称调用量错误率调用耗时
整体服务调用拓扑视图
最长调用深度检测
集中调用检测
服务性能
梳理资源占用,降低单点负载梳理集中调用,避免调用瓶颈优化调用性能提高线上服务的健康度及稳定性
治理手段
调用耗时分区分布统计(接口)
调用耗时分时分布统计(接口)
调用量/并发量分时分布统计(接口)
性能横比(接口)
性能排序TopN横比图表
性能最差TopN
分钟级别
总调用量平均延时(ms)最大延时(ms)
小时级别
天级别
调用量排序TopN横比图表
调用次数最多TopN
总调用量成功次数失败次数
计算资源排序TopN横比图表
CPU暂用时间最多TopN
成功次数平均延时(ms)
性能纵比(接口)
基于时间序列的串联比较
连续指标段的指标突变分析
每分钟调用次数变化最多TopN
现值(次)
旧值(次)
变化率
每分钟调用耗时变化最多TopN
现值(ms)旧值(ms)变化率
综合性能分析
动态阈值
趋势预测
服务异常
故障定界定位,解决线上问题
故障根因分析,消除系统隐患
通过业务异常排查用户痛点,改进业务设计质量
通过业务异常排查系统业务漏洞,防范灰产攻击
实时异常报表
系统错误最多TopN
最近1个月、1天、1小时系统错误最多TopN
成功量
失败量
异常分布报表
整体错误分布(错误类型的饼图)
总量最多TopN错误在服务中的分布
错误类名
接口名
错误总量
异常列表查询
查询条件
时间段
traceId
异常信息
主机IP
接口名称
异常级别
用户标识(手机,用户名等)
查询结果
时间
traceId异常信息主机IP异常级别接口名称用户标识(手机,用户名等)
业务异常分析
业务质量监控
核心业务接口异常列表
用户标识
错误信息
错误码
异常行为监控
高危用户TopN
用户标识最新异常码最新异常信息最新异常触发时间最新异常触发地点
服务资源
基于应用视角的网络性能度量
基于应用视角的资源性能及容量优化
网络资源
odin
数据库资源
SQL
SQL分类统计
insert
select
update
delete
SQL执行时长TopN
SQL语句
平均执行时长(ms)
慢SQL耗时分布(散点图)(x=时间序列,y=时长(s))
慢SQL分布统计(x=慢SQL次数, y=时间序列)
nosql
时序
和运维确定最优化实践
响应时长
其他资源
服务健康度
性能监控指标
服务负载水位
请求成功率
服务调用延时
告警率
基础资源监控指标
CPU负载
内存使用率
网络负载
磁盘使用率
治理事件监控指标
限流
sentinel
熔断
降级
架构合理性指标
外部服务依赖度
内部代码冗余度
服务依赖
服务分布
服务容量
服务管控
鲁棒性架构保障
服务节点冗余
弹性伸缩
单点无状态
不可变基础设施
故障传导阻断
切换流量
服务降级
服务限流
服务熔断
超时控制
重试阻尼
幂等操作
服务上下线
服务路由
单点限流
集群限流
屏蔽降级
容错降级
静态返回值降级
备用服务降级
Mock降级
熔断降级
服务授权
自主授权
注册中心授权
第三方授权
集群容错
快速失败
失败安全
失败转移
防止级联重试
重试降级
失败重试
聚合调用
广播调用
业务治理
构建完整、成体系的业务指标采集和度量框架
基于系统指标的聚合分析开展风控
业务指标采集框架
业务指标实时监控与分析
指标展示
指标聚合
指标对比
风控
一致性风险
跨域一致性
跨域幂等性
跨环境一致性
总量平衡
并发
控制性风险
业务边界失控
时间边界失控
参与实体失控
流程失控
阈值失控
配置风险
切换风险
算法异常风险
监控系统设计
参考
0 条评论
回复 删除
下一页