运维工作
2023-03-28 09:01:09 1 举报
AI智能生成
定期巡检、专家巡检、调整优化、故障排除、补丁升级、
作者其他创作
大纲/内容
信创环境
操作系统
虚拟主机运行监控
虚拟主机XX台
定期巡检
性能分析
系统负载
指标:Cpu利用率小于85%,运行队列小于CPU个数的4倍,阻塞队列小于运行队列,交换队列为0
top
cat /proc/loadavg
内存使用
指标:使用率低于90%,页面调出不持续增加,不存在页面扫描活动
free -h
磁盘空间
lsblk
df -h
可用容量>20%
设备日志检查
开启日志、告知查看方法
systemctl status rsyslog Active: active (running)代表启动,非running为未启动
systemctl status rsyslog Active: active (running)代表启动,非running为未启动
日志检查
登陆情况检查 last
登陆失败检查 lastb
安全日志检查 cat /var/log/secure.log | egrep 'failed | Invalid | disabled | not | warning | err'
启动日志检查 cat /var/log/boot.log | egrep 'failed | Invalid | disabled | not | warning | err'
系统日志检查 cat /var/log/messages | egrep 'failed | Invalid | disabled | not | warning | err'
硬件日志检查 dmesg | egrep 'failed | Invalid | disabled | not | warning | err'
专家巡检
巡检内容
登录测试 使用远程连接工具登录
主机型号巡检
dmidecode | grep "Product Name"
dmidecode | grep "Product Name"
CPU数量巡检:
###CPU个数
cat /proc/cpuinfo | grep 'physical id' | sort | uniq | wc -l
###cpu核数
cat /proc/cpuinfo | grep 'process' | sort | uniq | wc -l
###CPU个数
cat /proc/cpuinfo | grep 'physical id' | sort | uniq | wc -l
###cpu核数
cat /proc/cpuinfo | grep 'process' | sort | uniq | wc -l
CPU主频巡检
cat /proc/cpuinfo |grep MHz|uniq
cat /proc/cpuinfo |grep MHz|uniq
内存测量
free -h
free -h
硬盘数量、容量测量
###数量
fdisk -l | grep "Disk /dev/*"
###数量
fdisk -l | grep "Disk /dev/*"
网卡功能巡检
网卡状态
ip addr
ip addr
主机名称
hostname
hostname
网络连接状态
查看网关 route -n
ping网关
检查主机系统时间
date
检查主机系统时间时区
cat /etc/timezone
Asia/Shanghai
检查操作系统版本号
cat /etc/*-release | grep NAME
cat /etc/*-release | grep NAME
巡检人员1次/季度
调整优化()
操作系统配置优化
明确优化内容
性能调优
垃圾数据清理
明确垃圾数据目录
系统日志清理
cd /var/log目录下 查看是否有超过一年未清理的日志,eg:yum.log-20200512
cd /var/log目录下 查看是否有超过一年未清理的日志,eg:yum.log-20200512
系统安装包清理
find / -name '*.deb'
是否有类似安装之后不使用的安装包 eg:/home/uos/audit/auditd_1%253a2.8.4.1-1+eagle_arm64.deb 这种
垃圾清理
清理旧版本的软件缓存
sudo apt-get autoclean
清理所有软件缓存
sudo apt-get clean
故障排除
基本故障
特殊故障(支撑)
记录
重大故障填报工单
所有故障EXCEL留存
补丁升级
统信安全应急响应中心(https://src.uniontech.com/index.php?m=&c=page&a=index)
国家信息安全漏洞共享平台(https://www.cnvd.org.cn/patchInfo/list)
国家信息安全漏洞库(http://www.cnnvd.org.cn/web/vulnerability/querylist.tag?isArea=0&repairLd=)
uname -a 查看系统内核版本
每季度,需出季度安全报告,与开发协商补丁升级时间
安全加固
虚拟主机安全组防护
安全加固内容检查
资产管理
配置管理
数据库、中间件
运行监控
KADB数据库
实例监控
gpstate
gpstate -f
gpstate -f
主从监控
MySQL数据库
实例监控
ps -ef | grep mysql
端口
netstat -nltp | grep mysql
Oracle数据库
实例监控
ps -ef | grep oracle
监听
su - oracle
lsnrctl status
lsnrctl status
连接监控
sqlplus / as sysdba
kingbase
单机
ps -ef | grep kingbase | grep -w "D" | awk 'NR==1'
netstat -nltp | grep kingbase | grep -w "tcp"
集群
/cluster/kdb_cluster_poc/db/bin$ ksql -USYSTEM -p9999 -dTEST -W123456 -c "show pool_nodes;"
集群主备切换监控
tail -f /home/kingbase/cluster/cluster/log/recovery.log
tail -f /home/kingbase/cluster/cluster/log/cluster_restart.log
tail -f /home/kingbase/cluster/cluster/log/recovery.log
tail -f /home/kingbase/cluster/cluster/log/cluster_restart.log
定期巡检
巡检指标
数据库巡检
实例状况、服务进程
###检查数据库实例服务的状态
select status from v$instance;
###检查数据库实例服务的状态
select status from v$instance;
错误日志
数据库日志
kingbase集群
###查看集群是否有错误日志
cat cluster.log | grep error
cat $KINGBASE_DATA/sys_log
###查看集群是否有错误日志
cat cluster.log | grep error
cat $KINGBASE_DATA/sys_log
KADB
cat $MASTER_DATA_DIRECTORY/pg_log下的日志,筛选有哪些错误日志
eg:cat gpdb-2021-12-17_000000.csv | grep error
cat $MASTER_DATA_DIRECTORY/pg_log下的日志,筛选有哪些错误日志
eg:cat gpdb-2021-12-17_000000.csv | grep error
MySQL
cat /etc/my.cnf | grep .log
查看里边的日志文件,查看是否有错误日志
eg:cat /usr/local/mysql/logs/error.log | grep error
cat /etc/my.cnf | grep .log
查看里边的日志文件,查看是否有错误日志
eg:cat /usr/local/mysql/logs/error.log | grep error
Oracle
su - oracle
cd $ORACLE_BASE/diag/rdbms/smsdb/smsdb/trace
cat alert_smsdb.log | grep error
su - oracle
cd $ORACLE_BASE/diag/rdbms/smsdb/smsdb/trace
cat alert_smsdb.log | grep error
数据库所用空间需>20%
把数据目录添加到zabbix监控
数据库备份文件、备份日志情况
中间件
tomcat
实例状况、服务进程ps -ef|grep tomcat
错误日志
查看tomcat目录logs下的日志
查看tomcat目录logs下的日志
apusic
实例状况、服务进程ps -ef|grep apusic
程序产生的日志位于applications同级目录下的logs目录domains\mydomain\logs
中间件三个帐号密码
nginx
实例状况、服务进程ps -ef|grep nginx
access.log日志大小,是否自动切割
error.log查看
查看Nginx并发进程数ps -ef | grep nginx | wc -l
redis
实例状况、服务进程ps -ef|grep redis
巡检人员1次/季度
专家巡检
数据库
license过期时间
中间件
nginx
根据访问IP统计UV
查询访问最频繁的IP(前10)
查看某一时间段的IP访问量(1-8点)
查看访问100次以上的IP
查看指定ip访问过的url和访问次数
根据访问URL统计PV
查询访问最频繁的URL(前10)
查看访问最频的URL([排除/api/appid])(前10)
查看页面访问次数超过100次的页面
查看最近1000条记录,访问量最高的页面
统计每小时的请求数,top10的时间点(精确到小时)
统计每分钟的请求数,top10的时间点(精确到分钟)
统计每秒的请求数,top10的时间点(精确到秒)
查找指定时间段的日志
列出传输时间超过 0.6 秒的url,显示前10条
列出/api/appid请求时间超过0.6秒的时间点
获取前10条最耗时的请求时间、url、耗时
tomcat
apusic
redis
性能分析
中间件性能
数据库性能
调整优化
配置优化
性能调优
垃圾数据清理
数据库
中间件
故障排除
基本故障
特殊故障(支撑)
记录
重大故障填报工单
所有故障EXCEL留存
补丁升级
数据库
中间件
nginx
http://nginx.org/en/security_advisories.html
redis
数据备份和恢复
数据库备份
备份检查
数据库恢复
恢复测试
数据迁移
五证合一
资产管理
配置管理
应用
运行监控
定期巡检
日志检查分析
系统登录日志
系统操作日志
调整优化
使用支持—— 一般支持
解答使用问题
指导用户操作
帐号、权限的创建、分配、 调整
使用支持—— 数据查询
数据查询
统计、修改、校正
故障排除
基本故障
特殊故障(支撑)
记录
重大故障填报工单
所有故障EXCEL留存
需求管理
应用系统需求响应、分析整理
反馈和确认
整理软件需求清单
系统备份和恢复
制定和改进备份策略和方案
脚本
备份可用性测试
备份数据恢复
上传附件等
系统迁移
资产管理
配置管理
0 条评论
下一页