OCC工作总结
2024-11-14 20:58:25 8 举报
AI智能生成
OCC日常工作内容
作者其他创作
大纲/内容
故障处理
前期工作
1:拉群沟通
第一时间和对应团队电话沟通进行通知并了解故障的基本信息:故障原因、故障影响范围、故障时间。同时将相关团队和负责人拉群沟通。
2:事件升级
将故障基本信息整理完成后升级至OCC项目经理
3:编辑新建公告
按照故障的类型使用相应模版,确认标题、收发件人、公告内容、时间、影响范围准确无误后再发截图至群中审核,经OCC项目经理审核后发送
中期工作
1:跟进进展
每隔半小时跟进一次故障处理人进展,将进展及时同步至OCC项目经理,并在此过程整理事件脉络,将脉络同步到群中
2:协调工作
在故障处理中期,OCC需主动推动处理环节,通知并协调各部门进行相应处理
3:编辑进展公告
根据时间脉络,将关键节点写于公告中,再次确认标题、收发件人、公告内容、时间、影响范围准确无误后再发截图至群中审核,经OCC项目经理审核后发送
后期工作
1:故障恢复确认
在故障确认恢复后,同步至OCC项目经理。半小时内持续观察是否仍有异常告警或反馈。
2:编辑结束公告
在确认故障恢复后半小时内将结束公告编辑完成,确认标题、收发件人、公告内容、时间、影响范围准确无误后再发截图至群中审核,经OCC项目经理审核后发送
3: 分派工单
在故障恢复后,于itsm平台提交it生产事件流程,填写事件脉络(邮件中的),提交认领后分派至故障处理人,后续关注工单处理进度
4: 故障复盘
故障结束后,在confluence上进行复盘,写明本次故障OCC出现的问题和解决方案
监控需求
监控纳入
单个或少量设备纳入
与需求方沟通确认后,将纳入设备进行分组,使用发现规则和动作将设备纳管,纳管后记录于表中。
批量设备纳入
若需求纳入设备过多,需要和需求方沟通,让其发送相应的需求邮件和列表后再进行纳管,后续步骤与前面一致。
监控修改
1. 告警优先级的调整
有优先级调整时,需要把需求方、需求方领导、培基、庆哥等拉群沟通,经各方确认无误后才可调整优先级
监控删除
1. 单个或少量设备纳删除
有监控删除需求时,需要确认删除原因和需求方,将信息记录于表中后,再进行禁用操作,交接观察一周后无异常再删除
2. 批量设备删除
若需求删除设备过多,需要和需求方沟通,让其发送相应的需求邮件和列表后再进行纳管,后续步骤与前面一致。
值班监控
1. 告警通知规则
告警等级
1)低级:告警出现后15分钟内通知,1小时后未恢复电话通知处理人处理告警
2)中级:告警出现后15分钟内通知,30分钟后未恢复电话通知处理人处理告警
3)高级:告警出现后15分钟内通知,15分钟后未恢复电话通知处理人处理告警
4)紧急:告警出现后5分钟内通知,15分钟后未恢复电话通知处理人处理告警
动环告警
告警出现后立即通知相应机房处理人,目前告警未接入实业统一监控平台,需同时观察集团统一监控平台
可观测平台告警
可观测平台告警即APM告警,告警出现后会发送相应邮件至实业OCC邮箱可观测平台文件夹中,点击查看详情跳转至相应页面查看告警信息,根据告警信息对相应系统负责人进行通知(系统负责人可于CMDB中查看)
scm告警
告警出现后按照告警详情信息去通知当日值班人,第一时间通知群中并电话通知
2. 告警通知规范
规范1
告警类别
系统组
网络组、安全组
DB组
规范2
告警确认
1. 无备注告警:正常通知并在15分钟内进行确认,15分钟内自愈无需确认
2. 有备注告警:若告警有忽略条件或调整备注,可于15分钟内无工单确认
工作交接
值班打卡
交接工作事项
1. 本班未完成工作内容
2. 新增忽略项
3. 本班出现的故障细节、需要注意或推动的工作项
贴图至值班群中
0 条评论
下一页