运维季度重点工作
2023-05-16 13:52:07 2 举报
AI智能生成
运维某个季度或年度重点工作分解
作者其他创作
大纲/内容
运维监控体系
工作目标概述
升级全站的监控体系,包括系统监控及业务监控
当前现状说明
目前已有APM监控xxx
目前已经有基础监控(zabbix、prometheus、阿里云)
目前已经有日志监控告警
标准及统一性有待完善
缺少业务监控
具体工作内容
将基础监控及APM监控标准再完善
增加关键系统业务监控框架/指标
形成业务系统监控大盘
形成服务的监控健康大盘
计划时间安排
生产应用日志统一接入SLS中,并形成日志告警
添加业务监控
添加业务监控报表
其他事项
安全体系建设
工作目标概述
基于安全规范及巡检制度将安全检查制度化。
交付安全检查清单、安全巡检及常规运维(数据备份、故障转移)等SOP
当前现状说明
有App 的安全扫描、有web漏洞扫描、有SQL注入扫描、同时做了部分waf防护、主机安全防护等
有sonarqube扫描工具,但未较好的接入持续CI中
有数据安全制度、有数据安全SOP、缺少服务上线安全管理制度
安全管理相关工作及流程未形成标准化流程及动作
具体工作内容
制定并落实服务上线安全基础流程
形成每周固定安全扫描巡检流程
形成每月安全报告
强化关键系统基础安全防护要求
计划时间安排
安全周报从x月xx号开始
关键系统基础安全+服务上线基础流程+月安全报告制度在x月xx号前完成
NOC制度体系
工作目标概述
建立虚拟NOC机制,提高团队的质量意识及Troubleshooting能力
NOC运行机制及故障Troubleshooting流程,各关键系统的Troubleshooting预案
当前现状说明
目前已经有每日及节假日故障运维值级故障相应机制
已经有完整的故障处理流程
故障问题处理能力+问题判断+故障处理流程落地有待加强
故障处理升级同步机制及故障问题排查能力有待加强
具体工作内容
加强值班人员Onwer意识+故障级别判断+流程落地能力
加强开发/测试/运维等角色合理或基础的Troubleshooting流程与能力
形成关键系统的Troubleshooting预案
提供运维/开发/测试基本的Troubleshooting手册/框架/思维
计划时间安排
x月xx日前进行一场基础问题排障分享
x月前识别关键系统并基于关键系统提供一套Troubleshooting基础预案
Qx持续进行运维测进行知识分享拉平运维端全员排障能力
x月底前开发/测试/运维形成框架类型的Troubleshooting基础手册
其他事项
基础平台升级
工作目标概述
云端服务器进行容器化迁移,提升服务的运维能力
确保服务异常时可自动修复,自动重启,自动重调度
当前现状说明
目前测试/开发环境已接入k8s
生产环境目前x个服务接入k8s、x个服务为常规容器未接入k8s系统
原有的部分服务扩容、升级、发布、等需要手动操作存在一定的延迟
k8s自动扩容、无损发布等部分已实现
具体工作内容
新服务的k8s容器化、老服务的k8s迁移
无损上下线功能、弹性伸缩、容器调度打散功能
容器服务日志统一收集、查看、排障
统一监控告警模块框架落地
计划时间安排
x月底完成全大部分服务迁移到k8s系统中
x月底之前完成全服务接入sls中
x月份实现服务弹性伸缩、容器调度打散功能、同时实现服务服务无损上下线功能
x月底实现k8s基础监控接入
其他事项
0 条评论
下一页