首页  思维导图  详情

运维季度重点工作

2023-05-16 13:52:07   2  举报





AI智能生成

运维某个季度或年度重点工作分解

运维

运维体系

运维目标分解

目标分解

作者其他创作

大纲/内容

运维监控体系

工作目标概述

升级全站的监控体系，包括系统监控及业务监控

当前现状说明

目前已有APM监控xxx

目前已经有基础监控（zabbix、prometheus、阿里云）

目前已经有日志监控告警

标准及统一性有待完善

缺少业务监控

具体工作内容

将基础监控及APM监控标准再完善

增加关键系统业务监控框架/指标

形成业务系统监控大盘

形成服务的监控健康大盘

计划时间安排

生产应用日志统一接入SLS中，并形成日志告警

添加业务监控

添加业务监控报表

其他事项

安全体系建设

工作目标概述

基于安全规范及巡检制度将安全检查制度化。

交付安全检查清单、安全巡检及常规运维（数据备份、故障转移）等SOP

当前现状说明

有App 的安全扫描、有web漏洞扫描、有SQL注入扫描、同时做了部分waf防护、主机安全防护等

有sonarqube扫描工具，但未较好的接入持续CI中

有数据安全制度、有数据安全SOP、缺少服务上线安全管理制度

安全管理相关工作及流程未形成标准化流程及动作

具体工作内容

制定并落实服务上线安全基础流程

形成每周固定安全扫描巡检流程

形成每月安全报告

强化关键系统基础安全防护要求

计划时间安排

安全周报从x月xx号开始

关键系统基础安全+服务上线基础流程+月安全报告制度在x月xx号前完成

NOC制度体系

工作目标概述

建立虚拟NOC机制，提高团队的质量意识及Troubleshooting能力

NOC运行机制及故障Troubleshooting流程，各关键系统的Troubleshooting预案

当前现状说明

目前已经有每日及节假日故障运维值级故障相应机制

已经有完整的故障处理流程

故障问题处理能力+问题判断+故障处理流程落地有待加强

故障处理升级同步机制及故障问题排查能力有待加强

具体工作内容

加强值班人员Onwer意识+故障级别判断+流程落地能力

加强开发/测试/运维等角色合理或基础的Troubleshooting流程与能力

形成关键系统的Troubleshooting预案

提供运维/开发/测试基本的Troubleshooting手册/框架/思维

计划时间安排

x月xx日前进行一场基础问题排障分享

x月前识别关键系统并基于关键系统提供一套Troubleshooting基础预案

Qx持续进行运维测进行知识分享拉平运维端全员排障能力

x月底前开发/测试/运维形成框架类型的Troubleshooting基础手册

其他事项

基础平台升级

工作目标概述

云端服务器进行容器化迁移，提升服务的运维能力

确保服务异常时可自动修复，自动重启，自动重调度

当前现状说明

目前测试/开发环境已接入k8s

生产环境目前x个服务接入k8s、x个服务为常规容器未接入k8s系统

原有的部分服务扩容、升级、发布、等需要手动操作存在一定的延迟

k8s自动扩容、无损发布等部分已实现

具体工作内容

新服务的k8s容器化、老服务的k8s迁移

无损上下线功能、弹性伸缩、容器调度打散功能

容器服务日志统一收集、查看、排障

统一监控告警模块框架落地

计划时间安排

x月底完成全大部分服务迁移到k8s系统中

x月底之前完成全服务接入sls中

x月份实现服务弹性伸缩、容器调度打散功能、同时实现服务服务无损上下线功能

x月底实现k8s基础监控接入

其他事项

 收藏

立即使用

安全事件应急演练实操流程

 收藏

立即使用

国新办新闻发布会重点

 收藏

立即使用

高考志愿怎么报？

 收藏

立即使用

代理访问请求

Logan

职业：本科

去主页





0 条评论

下一页

为你推荐

查看更多

