云音乐贵州机房迁移总体方案回顾
2024-08-19 18:54:44 2 举报
AI智能生成
思维导图式回顾该方案
作者其他创作
大纲/内容
稳定性保障&治理
全域的稳定性风险
信息梳理&摸查
机器资源盘点
长传带宽盘点
迁移期间服务可用性要求
服务间跨区域调用RT摸查
新增系统风险
因公网质量问题,带来迁移后用户体验差的风险
因跨机房延迟30ms,带来的业务侧面应用雪崩风险
因跨机房传输网络不稳定,带来的整体系统性风险
因杭州和贵州机房同时部署,带来的服务节点数量、API数量、RPC数量翻倍风险
因大规模数据变更,带来的系统性能风险
因新机房建设、搬迁带来的底层基础设施风险
因全域团队协作、大范围变更&发布,带来的人因操作、协作风险
历史技术债务处理
ZK强依赖问题
在线业务Kafka迁移Nydus
配置硬编码
服务间依赖改造
资源优化&控制
心遇依赖拆分
元信息不准确
组件版本过于陈旧问题
测试环境自动部署成功率低
租户多集群拆分为多应用
标准化接入
监控告警
应急预案
业务技术侧方案
杭州集群下线
测试&演练
测试环境演练
准备事项
执行步骤
线上环境演练
演练原则
演练目标
演练终止条件
独立App迁移验证
系统沉淀
SOP平台
自动升级平台
不足反思
元信息建设仍然不足
各项元信息的创建、更新、销毁标准化、系统化
应用配置标准化
批处理能力需再进一步增强
ZK稳定性、可维护性优化
公技侧稳定性保障长效机制和系统化建设
组件生产、发布、治理能力增强
北京
项目难点
重点限制及要求
分批方案
分批原则
团队/l领域间解耦
服务端流量自闭换
C端优先
在可用范围内
最终分批方案
切流方案
切流原则
可灰度
可回滚
控制长传宽带
切流方案
切流点选择
存储层迁移策略
切流步骤
回滚方案
0 条评论
下一页