监控大屏
2020-02-11 11:14:26 3 举报
AI智能生成
为了建设系统监控大屏对系统监控进行梳理
作者其他创作
大纲/内容
监控大屏
意义
全面的监控与分析
掌握IT资源运行状态
掌握故障信息
提高企业IT资源的稳定性和使用效率
提升企业运维效率和水平
提升用户体验
增强公司运营能力
目的
通过直观视图呈现复杂抽象的IT运维数据。
IT运维对于领导和业务部门看不懂但又必须关注的“数据黑匣子”
IT运维部门核心价值保障业务系统的正常运行
监控指标
IT资源健康
企业IT架构日益复杂使IT运维的难度越来越大,对企业的IT系统实现全面监控日益重要。
从多个维度进行分类监控
硬件资源
数据中心健康状态:绿色、黄色和红色
数据中心各类设备资源综合指数
服务器指数
CPU使用率
内存使用率
IO
磁盘
网络设备指数
连接数
成功率
失败率
时延
吞吐率
占用带宽
存储设备指数
数据库指数
数据中心规模
服务数量、CPU总核数、内存大小、存储数量
网络质量
听云
自动化拨测
插码
反向监测,数据中心服务器到网络部DNS和CDN、各省掌厅时延,等
IPv4和IPv6
各个出口域名
DMZ到DCN
各个负载均衡
各个数据中心互联网络
数据库
CDN服务质量
并发量
应用指标
用户体验
按照地市维度,按照渠道统计,按照安卓和iOS,按照IPv4和IPv6,按照域名
并发请求量
错误率
502、504、400、401等错误占比
响应超时
登录请求数量
登录成功率
一键登录成功率
重点客户访问监控
客户端启动次数
客户端ANR
客户端崩溃
客户端数据库升级失败率
客户端热补丁失败率
重点业务和页面并发请求数量和成功率
重点业务办理成功数量和成功率
平均响应时长
用户TOP N的活动(营销活动、模板化和卡券)
中间件指标
接口
最前端接口并发数和成功率
模块之间并发请求数量和成功率
电渠到各个外围系统的并发量和成功率以及响应时长
电渠重点接口监控
失败率TOP接口
延时率TOP接口
中间件
nginx
varnish
redis
weblogic
dubbo
zookeeper
问题事件
系统告警数量和等级
问题事件数量和等级(待处理、处理中、已完成)
平均故障恢复时间
系统本月停机时长、年停机时长
投诉预警
安全态势感知
盗刷
奖品库存
撞库
系统拓扑
类似于全链路监控
影响用户最多的TOP和主因
系统关键技术
动态基线
异常检测
智能故障预测
根因分析
智能合并
知识工程
收藏
0 条评论
下一页