系统稳定性
2021-01-13 09:49:46 4 举报
AI智能生成
系统稳定性思考
作者其他创作
大纲/内容
4、稳定性建设
容量规划
混沌工程
通过不断给系统找麻烦来验证并完善系统能力
流量调度
容灾&异地多活
容错
分布式
故障机制
日志
链路
快速恢复
5、异地多活
成本
网络
过程思考
阶段性过程工作
主动与被动
0、衡量标准SLB
SLA (服务等级协议,全称:service level agreement)来衡量系统的稳定性
比如99.99%为标准,停机时间52.6分钟,平均到每周也就是差不多1分钟
1、规范
1、研发流程规范
2、开发规约
3、代码及文档管理
4、部署
2、单服务稳定性(业务层面)
开关可控
功能开关,快速下线局部功能,以保证整体服务的可用性
单一职责
核心功能的接口,不应该过多的耦合不属于它的功能
服务隔离
核心业务能够做到熔断和降级
异常兜底
核心业务场景的兜底方法
监控发现
每个服务应该做好对应的监控工作,如有异常应及时响应,不应累积
3、集群稳定性(架构层面)
系统架构
避免单节点
部署发布
分批或蓝绿发布
限流熔断
某个节点故障时,down掉
监控体系
业务监控
系统监控
链路监控
apm监控
压测机制
高并发,容量预估
0 条评论
下一页