服务治理全景图v1
2021-01-11 11:49:03 7 举报
AI智能生成
服务治理全景
作者其他创作
大纲/内容
研发治理
开发质量
治理目标
开发质量的度量手段和优化策略
测试质量的度量手段和优化策略
构建行之有效的开发调测的支撑能力
代码复杂度的度量与治理
圈复杂度
继承深度
类耦合度
代码行数
可维护性
代码规范性的度量与治理
跨方法级别的代码质量检测
全局变量密度过大
类文件过大
方法过大
方法过于复杂
方法调用深度过深
方法间循环调用
循环体内进行重度资源(数据库、文件等)调用操作
注释密度与完备性检测
设计评审与代码审核
设计评审
代码评审
研发团队开发质量评估
开发产出质量
研发流程质量
线上运行质量
接口契约治理
接口文档电子化
版本管理
接口测试
导出文档
数据导入
架构治理
治理目标
分析单个微服务的架构设计的合理性
梳理整体架构短板,优化架构体系
控制服务变更的影响范围
微观架构治理
检测服务架构对“迪米特”法则的遵循程度
通过动、静调用链的结合清除冗余代码
服务变更影响度量与治理
宏观架构治理
服务分层
二层服务分层(前台服务、通用服务)
三层服务分层(聚合服务层、业务服务层、通用服务层)
服务拆分
业务因素
成本因素
组织因素
功能因素
安全因素
性能因素
架构标准化
分布式服务框架
分布式数据库中间件
分布式缓存
其他需要一致性的技术
测试质量治理
单元测试
冒烟测试
集成测试
测试覆盖度
需求覆盖度
代码覆盖度
页面覆盖度
运维治理
应用基础信息
应用ID
应用名称
负责人
应用描述
服务数量
服务列表
服务基础信息
基础信息
服务ID
服务名称
服务接口列表
服务版本
所属应用
应用ID
应用名称(例如:用户中心)
所属部门
服务级别
线上版本
服务状态
待上线
在线
待下线
下线
部署模式
单机
集群
负责人
负载均衡
轮询
随机等
SLA
提供者
消费者(调用它的服务)
关联应用
配置变更
路由访问规则
维护历史
服务上线信息
申请人
申请时间
申请执行内容
审批人
审批时间
执行人
执行时间
上线版本
执行结果
服务维护信息(列表)
申请人
申请时间
申请执行内容
审批人
审批时间
执行人
执行时间
执行结果
服务下线信息
申请人
申请时间
申请执行内容
审批人
审批时间
执行人
执行时间
执行结果
度量指标
系统度量指标
CPU
内存
系统负载
磁盘IO
线程数
服务度量指标
服务之间调用
单次调用指标
调用者
服务ID
服务名称
被调用者
服务ID
服务名称
调用接口
调用时间
调用动作
get
post
调用结果
成功
失败
错误信息
错误码
调用耗时
一分钟汇总
服务维度
服务ID
服务名称
调用量
成功次数
失败次数
合计
总耗时(ms)
平均耗时(ms)
95分位耗时(ms)
99分位耗时(ms)
接口维度
调用接口
服务名称
调用量
成功次数
失败次数
合计
总耗时(ms)
平均耗时(ms)
95分位耗时(ms)
99分位耗时(ms)
小时、天、月、季度、年汇总
服务与资源之间调用
单次调用指标
数据库
调用者
服务ID
服务名称
调用接口
数据库名
数据库IP
数据表名
操作类型
insert
update
select
delete
调用时间
调用结果
成功
失败
错误信息
错误码
调用耗时
Redis
调用者
服务ID
服务名称
调用接口
Redis实例
操作类型
get
set
hget
setnx
其他
调用时间
调用结果
成功
失败
错误信息
错误码
调用耗时
其他
一分钟汇总
数据库
服务维度
服务ID
服务名称
数据库名
数据库IP
调用量
成功次数
失败次数
合计
总耗时(ms)
平均耗时(ms)
95分位耗时(ms)
99分位耗时(ms)
数据库维度
数据库名
数据库IP
调用量
成功次数
失败次数
合计
总耗时(ms)
平均耗时(ms)
95分位耗时(ms)
99分位耗时(ms)
Redis
服务维度
服务ID
服务名称
Redis实例
操作类型
get
set
hget
setnx
其他
调用量
成功次数
失败次数
合计
总耗时(ms)
平均耗时(ms)
95分位耗时(ms)
99分位耗时(ms)
Redis维度
Redis实例
操作类型
get
set
hget
setnx
其他
调用量
成功次数
失败次数
合计
总耗时(ms)
平均耗时(ms)
95分位耗时(ms)
99分位耗时(ms)
其他
小时、天、月、季度、年汇总
JVM指标
GC类型
新生代收集次数
新生代收集时间
老年代收集次数
老年代收集时间
内存使用
新生代
老年代
survivor
元数据区
永久代
CodeCache
治理维度
服务关系
治理目标
避免循环调用
梳理集中调用
避免深度调用
梳理冗余服务
优化资源配置
根据服务的重要性,进行分级运维
单服务调用关系视图
调用的服务
服务名称
调用量
成功次数
失败次数
合计次数
错误率
调用耗时
总耗时(ms)
平均耗时(ms)
95分位耗时(ms)
99分位耗时(ms)
被哪些服务调用
服务名称
调用量
成功次数
失败次数
合计次数
错误率
调用耗时
总耗时(ms)
平均耗时(ms)
95分位耗时(ms)
99分位耗时(ms)
整体服务调用拓扑视图
闭环检测
是否是有向无环图(DAG)
是否有服务分层
最长调用深度检测
集中调用检测
清除冗余服务
应用关系
治理目标
梳理应用调用关系
梳理应用重要性,运维分级保障
清理冗余应用
勾画微服务架构下以应用为中心的运维统一视图
单应用调用关系视图
调用的应用
应用名称
调用量
成功次数
失败次数
合计次数
错误率
被哪些应用调用
应用名称
调用量
成功次数
失败次数
合计次数
错误率
整体应用调用拓扑视图
服务性能
治理目标
梳理资源占用,降低单点负载
梳理集中调用,避免调用瓶颈
优化调用性能
提高线上服务的健康度及稳定性
治理手段
调用耗时分区分布统计(接口)
调用耗时分时分布统计(接口)
调用量/并发量分时分布统计(接口)
性能横比(接口)
性能排序TopN横比图表
性能最差TopN
分钟级别
总调用量
平均延时(ms)
最大延时(ms)
小时级别
总调用量
平均延时(ms)
最大延时(ms)
天级别
总调用量
平均延时(ms)
最大延时(ms)
调用量排序TopN横比图表
调用次数最多TopN
分钟级别
总调用量
成功次数
失败次数
小时级别
总调用量
成功次数
失败次数
天级别
总调用量
成功次数
失败次数
计算资源排序TopN横比图表
CPU暂用时间最多TopN
成功次数
平均延时(ms)
性能纵比(接口)
基于时间序列的串联比较
连续指标段的指标突变分析
每分钟调用次数变化最多TopN
现值(次)
旧值(次)
变化率
每分钟调用耗时变化最多TopN
现值(ms)
旧值(ms)
变化率
综合性能分析
动态阈值
趋势预测
服务异常
治理目标
故障定界定位,解决线上问题
故障根因分析,消除系统隐患
通过业务异常排查用户痛点,改进业务设计质量
通过业务异常排查系统业务漏洞,防范灰产攻击
治理手段
实时异常报表
系统错误最多TopN
最近1个月、1天、1小时系统错误最多TopN
成功量
失败量
异常分布报表
整体错误分布(错误类型的饼图)
总量最多TopN错误在服务中的分布
错误类名
接口名
错误总量
异常列表查询
查询条件
traceId
异常信息
主机IP
接口名称
时间段
异常级别
用户标识(手机,用户名等)
查询结果
时间
traceId
异常信息
主机IP
异常级别
接口名称
异常信息
用户标识(手机,用户名等)
业务异常分析
业务质量监控
核心业务接口异常列表
时间
用户标识
接口名称
错误信息
错误码
异常行为监控
高危用户TopN
用户标识
最新异常码
最新异常信息
最新异常触发时间
最新异常触发地点
服务资源
治理目标
基于应用视角的网络性能度量
基于应用视角的资源性能及容量优化
治理手段
网络资源
数据库资源
SQL分类统计
insert
select
update
delete
SQL执行时长TopN
接口名称
SQL语句
平均执行时长(ms)
慢SQL耗时分布(散点图)(x=时间序列,y=时长(s))
慢SQL分布统计(x=慢SQL次数, y=时间序列)
其他资源
服务健康度
性能监控指标
服务负载水位
请求成功率
服务调用延时
告警率
基础资源监控指标
CPU负载
内存使用率
网络负载
磁盘使用率
治理事件监控指标
限流
熔断
降级
架构合理性指标
外部服务依赖度
内部代码冗余度
服务依赖
服务分布
服务容量
服务管控
鲁棒性架构保障
服务节点冗余
弹性伸缩
单点无状态
不可变基础设施
故障传导阻断
切换流量
服务降级
服务限流
服务熔断
超时控制
重试阻尼
幂等操作
服务上下线
服务路由
服务限流
单点限流
集群限流
服务降级
屏蔽降级
容错降级
静态返回值降级
备用服务降级
Mock降级
熔断降级
服务熔断
服务授权
自主授权
注册中心授权
第三方授权
集群容错
快速失败
失败安全
失败转移
重试阻尼
防止级联重试
重试降级
失败重试
聚合调用
广播调用
管理治理
DevOps
治理目标
通过本地、开发、测试、预生产环境的建设和环境间的有序协同来解决抢占问题
研发流水线为研发的协同效率提升提供工程能力保障,减少运维的重复工作
过程度量
指标体系
局部指标
效率指标
需求
需求数量
待处理
处理中
待验收
验收通过
需求状态分布
需求颗粒度
开发
代码库数量
代码提交量
圈复杂度
继承深度
类耦合度
代码重复度
代码提交频率
代码合并频率
测试
测试用例数量
新增缺陷数量
缺陷解决时长
缺陷关闭时长
自动化测试执行时长
Block缺陷修复时长
发布/部署
构建频率
构建时长
部署次数
部署回滚率
部署时长
运维
资源利用率
应用性能
质量指标
需求
需求评审通过率
需求变更率
需求价值达成率
开发
代码评审次数
代码评审通过率
单元测试覆盖率
代码扫描问题数
代码提测成功率
构建成功率
测试
自动化测试覆盖率
线下缺陷数量
状态
类型
引入阶段
严重程度
线下缺陷密度
缺陷解决率
缺陷逃逸率
缺陷Reopen率
发布部署
部署频率
运维
系统可用性
线上缺陷密度
故障恢复时间(MTTR)
故障检测时间(MTTD)
故障间隔时间(MTBF)
请求成功率
整体指标
效率指标
平均需求交付周期
平均开发交付周期
交付吞吐率
发布频率
发布前置时间
质量指标
线上缺陷密度
时间维度
团队维度
部署版本维度
平均故障恢复时间(秒)
请求成功率
部署成功率
流程架构
协同管理
治理目标
通过敏捷模式构建以“周”为单位的研发周期,优化研发团队之间的配合,减少等待时间,形成良好的“节奏感”,加快价值交付速度
引入精益看板方法,对敏捷迭代周期进行全面度量。通过梳理发现研发管道中的阻塞点,通过价值流的改进实现需求的快速流动
小步快跑,高频发布
通过数据驱动的精益看板优化协同管理
敏捷模式
业务治理
治理目标
构建完整、成体系的业务指标采集和度量框架
基于系统指标的聚合分析开展风控与反欺诈活动
业务指标采集框架
业务指标实时监控与分析
指标展示
指标聚合
指标对比
风控与反欺诈
一致性风险
跨域一致性
跨域幂等性
跨环境一致性
总量平衡
并发
控制性风险
业务边界失控
时间边界失控
参与实体失控
流程失控
阈值失控
配置风险
切换风险
算法异常风险
0 条评论
下一页