运维告警系统流程
2021-06-22 17:06:49 17 举报
运维告警系统流程主要包括以下几个步骤:首先,系统通过各种监控工具对服务器、网络设备等进行实时监控,收集各项性能指标数据。其次,当监控到的数据超过预设的阈值时,系统会立即产生告警信息。然后,告警信息会被发送给运维人员,可以通过邮件、短信、电话等方式通知。运维人员收到告警后,需要及时查看告警内容,分析可能的问题原因。最后,根据问题原因,运维人员需要采取相应的解决措施,如重启服务、调整配置等,以确保系统的正常运行。同时,运维人员还需要对处理过程和结果进行记录,以便于后续的故障分析和改进。
作者其他创作
大纲/内容
告警
网关检测
主机检测
获取所有规则
是否告警
redis
否
发送告警到告警中心
多线程执行
是否超过上一次告警间隔
通过类型去标记每个告警规则属于哪个资源类型redis、mongodb、host、gateway
类型:redis
是
恢复告警
当某个服务触发告警,可调用对应的模块执行流程化判断
mongodb
主线程
gateway
调用对应类型的模块
以redis为例1)匹配到类型为redis的告警规则,判断发现监控数据超过指定的阈值2)触发告警3)调用redis流程处理模块 1. 检测对应主机的资源情况(主机检测模块) 2. 检测主机对应网关的情况(网关检测模块)4)做告警信息聚合,并发送告警到告警中心
上一次是否告警
host
执行流程判断
根据规则匹配阈值
所有的模块/类/方法都在一个系统中
类型:主机
收藏
0 条评论
下一页