首页  流程图  详情

运维监控体系

2024-06-06 15:02:03   32  举报





长链路全方位感知监控系统

项目管理

作者其他创作

大纲/内容

文件服务

// 定义一个指标类型var cpuUsage = prometheus.NewGaugeVec( prometheus.GaugeOpts{ Name: \"cpu_usage\

告警自愈脚本，对于可识别的告警配置自愈规则

日志收集

可视化界面

配置metrics信息

编辑告警规则文件

通过Agent收集EndPoint信息

结构化存储

存储展示metrics

metrics

档案服务

消息统一化

展示

链路追踪1

搜索引擎

公文服务

文档型数据库

长链路感知技术

信息系统全链路全方位实时监控跟踪引擎

告警发送

异常业务消息

结构化数据

开始化

采集信息

集群

会议服务

异常日志统计信息

groups:- name: example rules: - alert: InstanceDown expr: up == 0 for: 1m labels: severity: critical annotations: summary: \"Instance {{ $labels.instance }} of job {{ $labels.job }} is down\" description: \"Instance {{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minute.\"

服务器

其他中间件

邮件、消息提示、电话告警

链路追踪2

国产结构化数据库

链路追踪集群

存储、展示

监控服务集群

//创建scrap配置scrape_configs: - job_name: 'my-service' static_configs: - targets: ['<IP-ADDRESS-OF-SERVICE>:<PORT>']rule_files: - \"rules/my-service.rules/.yml\"//定义记录规则groups:- name: my-service-rules rules: - record: my_service:load5m expr: avg_over_time(my_service:load1m[5m])

服务监控

应用系统容器

监控数据存储

冷热数据隔离

缓存

异常超时链路信息

业务系统与中间件