CPU性能问题分析
2022-10-21 15:14:57 13 举报
AI智能生成
CPU性能问题通常表现为程序运行缓慢、卡顿或崩溃。这可能是由于多种原因导致的,如硬件老化、过热、超频不当、驱动程序不兼容或损坏等。为了解决这些问题,可以尝试升级硬件、优化系统设置、更新驱动程序或使用第三方优化工具。此外,还可以通过监控CPU使用率、内存占用和磁盘读写速度等指标来定位问题所在。总之,解决CPU性能问题需要综合考虑硬件、软件和系统环境等多个方面,以确保程序能够高效稳定地运行。
作者其他创作
大纲/内容
性能优化思路
性能优化方法论
首先,既然要做性能优化,那要怎么判断它是不是有效呢?特别是优化后,到底能提升多少性能呢?
确定性能的量化指标。
测试优化前的性能指标。
测试优化后的性能指标。
第二,性能问题通常不是独立的,如果有多个性能问题同时发生,你应该先优化哪一个呢?
第三,提升性能的方法并不是唯一的,当有多种方法可以选择时,你会选用哪一种呢?是不是总选那个最大程度提升性能的方法就行了呢?
概念理解
负载(uptime展示)
平均负载是指单位时间内,系统处于可运行状态和不可中断状态的平均进程数,也就是平均活跃进程数
它和 CPU 使用率并没有直接关系。
它和 CPU 使用率并没有直接关系。
所谓可运行状态的进程
是指正在使用 CPU 或者正在等待 CPU 的进程,也就是我们常用 ps 命令看到的,处于 R 状态(Running 或 Runnable)的进程。
是指正在使用 CPU 或者正在等待 CPU 的进程,也就是我们常用 ps 命令看到的,处于 R 状态(Running 或 Runnable)的进程。
不可中断状态的进程
则是正处于内核态关键流程中的进程,并且这些流程是不可打断的,比如最常见的是等待硬件设备的 I/O 响应,也就是我们在 ps 命令中看到的 D 状态(Uninterruptible Sleep,也称为 Disk Sleep)的进程。
则是正处于内核态关键流程中的进程,并且这些流程是不可打断的,比如最常见的是等待硬件设备的 I/O 响应,也就是我们在 ps 命令中看到的 D 状态(Uninterruptible Sleep,也称为 Disk Sleep)的进程。
当平均负载高于 CPU 数量 70% 的时候,就需要考虑负载问题
和cpu使用率的关系
负载不仅包括了正在使用 CPU 的进程,还包括等待 CPU 和等待 I/O 的进程。
CPU 使用率,是单位时间内 CPU 繁忙情况的统计,跟平均负载并不一定完全对应
CPU 密集型进程,使用大量 CPU 会导致平均负载升高,此时这两者是一致的;
I/O 密集型进程,等待 I/O 也会导致平均负载升高,但 CPU 使用率不一定很高;
大量等待 CPU 的进程调度也会导致平均负载升高,此时的 CPU 使用率也会比较高。
CPU上下文切换
CPU上下文
CPU 寄存器
是 CPU 内置的容量小、但速度极快的内存
程序计数器
是用来存储 CPU 正在执行的指令位置、或者即将执行的下一条指令位置
CPU 上下文切换含义
就是先把前一个任务的 CPU 上下文(也就是 CPU 寄存器和程序计数器)保存起来
然后加载新任务的上下文到这些寄存器和程序计数器
最后再跳转到程序计数器所指的新位置,运行新任务。
然后加载新任务的上下文到这些寄存器和程序计数器
最后再跳转到程序计数器所指的新位置,运行新任务。
而这些保存下来的上下文,会存储在系统内核中,并在任务重新调度执行时再次加载进来。
上下文切换分类
进程上下文切换
切换的问题
用户态到内核态的切换(系统调用)
内核空间:内核的堆栈、寄存器
用户空间:虚拟内存、栈、变量、正文、数据
内核态到用户态的切换
每次上下文切换都需要几十纳秒到数微秒的 CPU 时间。
这个时间还是相当可观的,特别是在进程上下文切换次数较多的情况下
很容易导致 CPU 将大量时间耗费在寄存器、内核栈以及虚拟内存等资源的保存和恢复上,进而大大缩短了真正运行进程的时间。
这个时间还是相当可观的,特别是在进程上下文切换次数较多的情况下
很容易导致 CPU 将大量时间耗费在寄存器、内核栈以及虚拟内存等资源的保存和恢复上,进而大大缩短了真正运行进程的时间。
什么时候出现切换
进程切换时才需要切换上下文
只有在进程调度的时候,才需要切换上下文。
Linux 为每个 CPU 都维护了一个就绪队列,将活跃进程(即正在运行和正在等待 CPU 的进程)按照优先级和等待 CPU 的时间排序
然后选择最需要 CPU 的进程,也就是优先级最高和等待 CPU 时间最长的进程来运行。
Linux 为每个 CPU 都维护了一个就绪队列,将活跃进程(即正在运行和正在等待 CPU 的进程)按照优先级和等待 CPU 的时间排序
然后选择最需要 CPU 的进程,也就是优先级最高和等待 CPU 时间最长的进程来运行。
进程在什么时候才会被调度到 CPU 上运行呢
其一,为了保证所有进程可以得到公平调度,CPU 时间被划分为一段段的时间片,这些时间片再被轮流分配给各个进程。这样,当某个进程的时间片耗尽了,就会被系统挂起,切换到其它正在等待 CPU 的进程运行。
其二,进程在系统资源不足(比如内存不足)时,要等到资源满足后才可以运行,这个时候进程也会被挂起,并由系统调度其他进程运行。
其三,当进程通过睡眠函数 sleep 这样的方法将自己主动挂起时,自然也会重新调度。
其四,当有优先级更高的进程运行时,为了保证高优先级进程的运行,当前进程会被挂起,由高优先级进程来运行。
线程上下文切换
(进程、线程的区别)线程是调度的基本单位,而进程则是资源拥有的基本单位
当进程只有一个线程时,可以认为进程就等于线程。
当进程拥有多个线程时,这些线程会共享相同的虚拟内存和全局变量等资源。这些资源在上下文切换时是不需要修改的。
另外,线程也有自己的私有数据,比如栈和寄存器等,这些在上下文切换时也是需要保存的。
切换的情况
第一种, 前后两个线程属于不同进程。此时,因为资源不共享,所以切换过程就跟进程上下文切换是一样。
第二种,前后两个线程属于同一个进程。此时,因为虚拟内存是共享的,所以在切换时,虚拟内存这些资源就保持不动,只需要切换线程的私有数据、寄存器等不共享的数据。
中断上下文切换
为了快速响应硬件的事件,中断处理会打断进程的正常调度和执行
跟进程上下文不同,中断上下文切换并不涉及到进程的用户态。
所以,即便中断过程打断了一个正处在用户态的进程,也不需要保存和恢复这个进程的虚拟内存、全局变量等用户态资源。
中断上下文,其实只包括内核态中断服务程序执行所必需的状态,包括 CPU 寄存器、内核堆栈、硬件中断参数等。
所以,即便中断过程打断了一个正处在用户态的进程,也不需要保存和恢复这个进程的虚拟内存、全局变量等用户态资源。
中断上下文,其实只包括内核态中断服务程序执行所必需的状态,包括 CPU 寄存器、内核堆栈、硬件中断参数等。
对同一个 CPU 来说,中断处理比进程拥有更高的优先级
cpu使用率
节拍率 HZ
/proc/stat 提供的就是系统的 CPU 和任务统计信息。
CPU 使用率,就是除了空闲时间外的其他时间占总 CPU 时间的百分比。使用proc/stat下的计算是从开机以来的cpu使用率
平均cpu使用率
进程状态
R 是 Running 或 Runnable 的缩写,表示进程在 CPU 的就绪队列中,正在运行或者正在等待运行。
D 是 Disk Sleep 的缩写,也就是不可中断状态睡眠(Uninterruptible Sleep),一般表示进程正在跟硬件交互,并且交互过程不允许被其他进程或中断打断。(进程长时间处于不可中断状态,通常表示系统有 I/O 性能问题。)
Z 是 Zombie 的缩写,如果你玩过“植物大战僵尸”这款游戏,应该知道它的意思。它表示僵尸进程,也就是进程实际上已经结束了,但是父进程还没有回收它的资源(比如进程的描述符、PID 等)。
S 是 Interruptible Sleep 的缩写,也就是可中断状态睡眠,表示进程因为等待某个事件而被系统挂起。当进程等待的事件发生时,它会被唤醒并进入 R 状态。
I 是 Idle 的缩写,也就是空闲状态,用在不可中断睡眠的内核线程上。前面说了,硬件交互导致的不可中断进程用 D 表示,但对某些内核线程来说,它们有可能实际上并没有任何负载,用 Idle 正是为了区分这种情况。要注意,D 状态的进程会导致平均负载升高, I 状态的进程却不会。
第一个是 T 或者 t,也就是 Stopped 或 Traced 的缩写,表示进程处于暂停或者跟踪状态。
软中断
中断处理
上半部(硬中断)
上半部用来快速处理中断,它在中断禁止模式下运行,主要处理跟硬件紧密相关的或时间敏感的工作。
下半部(软中断)
下半部用来延迟处理上半部未完成的工作,通常以内核线程的方式运行。
中断文件
/proc/softirqs 提供了软中断的运行情况
软中断内核线程就叫做 ksoftirqd/CPU 编号
/proc/interrupts 提供了硬中断的运行情况。
分析
工具
uptime
mpstat(多核 CPU 性能分析工具)
stress(模拟cpu、IO使用)
vmstat(查看上下文切换、中断、等待队列、cpu使用)
pidstat(cpu、进程性能分析工具)
所谓自愿上下文切换,是指进程无法获取所需资源,导致的上下文切换。比如说, I/O、内存等系统资源不足时,就会发生自愿上下文切换。
非自愿上下文切换,则是指进程由于时间片已到等原因,被系统强制调度,进而发生的上下文切换。比如说,大量进程都在争抢 CPU 时,就容易发生非自愿上下文切换。
iostat
/proc/interrupts(中断信息查看)
perf(分析cpu问题工具)
perf top(占用 CPU 时钟最多的函数或者指令)
perf top -g -p pid
perf record(可保存数据)
perf report(数据的解析)
pstree(一些临时进程,启动时间短,不好检测)
execsnoop
dstat(系统的 CPU、磁盘 I/O、网络以及内存使用)
sar
中断文件
/proc/softirqs 提供了软中断的运行情况
软中断内核线程就叫做 ksoftirqd/CPU 编号
/proc/interrupts 提供了硬中断的运行情况。
top
pidstat 中, %wait 表示进程等待 CPU 的时间百分比。
top 中 ,iowait% 则表示等待 I/O 的 CPU 时间百分比。
指标
上下文切换的指标是多少
如果系统的上下文切换次数比较稳定,那么从数百到一万以内,都应该算是正常的。但当上下文切换次数超过一万次,或者切换次数出现数量级的增长时,就很可能已经出现了性能问题。
这时,你还需要根据上下文切换的类型,再做具体分析。比方说
自愿上下文切换变多了,说明进程都在等待资源,有可能发生了 I/O 等其他问题;
非自愿上下文切换变多了,说明进程都在被强制调度,也就是都在争抢 CPU,说明 CPU 的确成了瓶颈;
中断次数变多了,说明 CPU 被中断处理程序占用,还需要通过查看 /proc/interrupts 文件来分析具体的中断类型。
性能指标
cpu使用率
平均负载
进程上下文切换
CPU 缓存的命中率
思路
工具图解
分析思路
0 条评论
下一页