监控方法论
2020-07-28 16:53:21 0 举报
AI智能生成
监控方法论
作者其他创作
大纲/内容
主机监控
系统资源
使用率(Utilization)
资源忙于工作的平均时间。它通常用随时间变化的百分比表示
饱和度(Saturation)
资源排队工作的指标,无法再处理额外的工作。通常用队列长度表示
错误(Error)
资源错误事件的计数
应用程序级监控
面向用户
流量
针对系统,例如,每秒 HTTP 请求数,或者数据库系统的事务
通讯量
监控当前系统的流量,用于衡量服务的容量需求
错误
请求失败的速率,要么是 HTTP 500 错误等显式失败(Nginx抓取),
要么是返回错误内容或无效内容等隐式失败(服务钩子),或者基于策略原因导致的失败
饱和度
应用程序有多“满”,或者受限的资源,如内存或 IO。
这还包括即将饱和的部分,例如磁盘是否可能在1小时内就满了
告警和通知
哪些问题需要通知
通知简洁、清晰、准确,易于理解并且可操作,杜绝告警风暴,添加上下文
例如:磁盘监控超80%,剩余的20%可以支持多久?增长速度?凌晨2点收到需要起来处理吗?
谁需要被告知
告警负责人
如何告知他们
通知方式:短信,邮件,微信,钉钉。。。
何时停止告知以及何时升级到其他人
故障自愈通知,问题无法解决升级?
0 条评论
下一页