运维监控体系
2024-06-06 15:02:03 28 举报
长链路全方位感知监控系统
作者其他创作
大纲/内容
文件服务
// 定义一个指标类型var cpuUsage = prometheus.NewGaugeVec( prometheus.GaugeOpts{ Name: \"cpu_usage\
告警自愈脚本,对于可识别的告警配置自愈规则
日志收集
可视化界面
配置metrics信息
编辑告警规则文件
通过Agent收集EndPoint信息
结构化存储
存储展示metrics
metrics
档案服务
消息统一化
展示
链路追踪1
搜索引擎
公文服务
文档型数据库
长链路感知技术
信息系统全链路全方位实时监控跟踪引擎
告警发送
异常业务消息
结构化数据
开始化
采集信息
集群
会议服务
异常日志统计信息
groups:- name: example rules: - alert: InstanceDown expr: up == 0 for: 1m labels: severity: critical annotations: summary: \"Instance {{ $labels.instance }} of job {{ $labels.job }} is down\" description: \"Instance {{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minute.\"
服务器
其他中间件
邮件、消息提示、电话告警
链路追踪2
国产结构化数据库
链路追踪集群
存储、展示
监控服务集群
//创建scrap配置scrape_configs: - job_name: 'my-service' static_configs: - targets: ['<IP-ADDRESS-OF-SERVICE>:<PORT>']rule_files: - \"rules/my-service.rules/.yml\"//定义记录规则groups:- name: my-service-rules rules: - record: my_service:load5m expr: avg_over_time(my_service:load1m[5m])
服务监控
应用系统容器
监控数据存储
冷热数据隔离
缓存
异常超时链路信息
业务系统与中间件
收藏
收藏
0 条评论
下一页