首页  流程图  详情

零拷贝Zero Copy

2022-05-05 01:15:35   2  举报





深入剖析零拷贝

零拷贝

zero copy

作者其他创作

大纲/内容

可以得知，这个过程之中，只进行了 2 次数据拷贝这就是所谓的零拷贝（Zero-copy）技术，因为我们没有在内存层面去拷贝数据，也就是说全程没有通过 CPU 来搬运数据，所有的数据都是通过 DMA 来进行传输的。

优化文件传输性能思路

等内核完成任务后，再从内核态切换回用户态

---如何减少「上下文切换」和「数据拷贝」的次数

SG-DMA

两次系统调用，一次是 read() ，一次是 write() ，每次系统调用都得先从用户态切换到内核态

在 Linux 内核版本 2.1 中，提供了一个专门发送文件的系统调用函数 font color=\"#ff0000\

要想提高文件传输的性能，就需要减少「用户态与内核态的上下文切换」和「内存拷贝」的次数

没有 DMA 技术前，I/O 的过程

传统文件传输过程分析

1. CPU 发出对应的指令给磁盘控制器，然后返回；2. 磁盘控制器收到指令后，于是就开始准备数据，会把数据放入到磁盘控制器的内部缓冲区中，然后产生一个中断；3. CPU 收到中断信号后，停下手头的工作，接着把磁盘控制器的缓冲区的数据一次一个字节地读进自己的寄存器，然后再把寄存器里的数据写入到内存，而在数据传输的期间 CPU 是无法执行其他任务的。整个数据的传输过程，都要需要 CPU 亲自参与搬运数据的过程，而且这个过程，CPU 是不能做其他事情的。传输大量数据的时候，都用 CPU 来搬运的话，那肯定是不可取的。

实现零拷贝的两种方式

Nginx

1. 应用进程调用了 mmap() 后，DMA 会把磁盘的数据拷贝到内核的缓冲区里。接着，应用进程跟操作系统内核「共享」这个缓冲区；2. 应用进程再调用 write()，操作系统直接将内核缓冲区的数据拷贝到 socket 缓冲区中，这一切都发生在内核态，由 CPU 来搬运数据；3. 最后，把内核的 socket 缓冲区里的数据，拷贝到网卡的缓冲区里，这个过程是由 DMA 搬运的。

Kafka

第一次拷贝，把磁盘上的数据拷贝到操作系统内核的缓冲区里，这个拷贝的过程是通过 DMA 搬运的

梳理下上述过程存在的问题：只是搬运一份数据，结果却搬运了 4 次，冗余的上文切换和数据拷贝会消耗 CPU 资源，高并发系统中会大大降低了系统性能

传统 I/O 的工作方式是，数据读取和写入是从用户空间到内核空间来回复制，而内核空间的数据是通过操作系统层面的 I/O 接口从磁盘读取或写入

DMA (Direct Memory Access，直接存储器访问)

传统的文件传输方式会历经 4 次数据拷贝，「从内核的读缓冲区拷贝到用户的缓冲区里，再从用户的缓冲区里拷贝到 socket 的缓冲区里」，是没有必要的，这里可以去掉。因为文件传输的应用场景中，用户空间并不会对数据「再加工」，所以数据实际上可以不用搬运到用户空间。

read() 系统调用的过程中会把内核缓冲区的数据拷贝到用户的缓冲区里，于是为了减少这一步开销，我们可以用 mmap() 替换 read() 系统调用函数。 mmap() 系统调用函数会直接把内核缓冲区里的数据「映射」到用户空间，这样，操作系统内核与用户空间就不需要再进行任何的数据拷贝操作。

服务端要提供文件传输的功能，最简单的：将磁盘上的文件读取出来，然后通过网络协议发送给客户端。

第三次拷贝，把刚才拷贝到用户的缓冲区里的数据，再拷贝到内核的 socket 的缓冲区里，这个过程依然还是由 CPU 搬运的。

两次DMA 的拷贝

DMA: 在进行 I/O 设备和内存的数据传输的时候，数据搬运的工作全部交给 DMA 控制器，而 CPU 不再参与任何与数据搬运相关的事情，这样 CPU 就可以去处理别的事务

两次 CPU 拷贝的

减少系统调用的次数

零拷贝开源项目中的应用

零拷贝总结零拷贝技术的文件传输方式 VS 传统文件传输的方式1. 减少了 2 次上下文切换和数据拷贝次数 (只需要 2 次上下文切换和数据拷贝次数，就可以完成文件的传输 ) 2. 而且 2 次的数据拷贝过程，都不需要通过 CPU，2 次都是由 DMA 来搬运

第四次拷贝，把内核的 socket 缓冲区里的数据，拷贝到网卡的缓冲区里，这个过程又是由 DMA 搬运的。

方式二： sendfile

1. 通过 DMA 将磁盘上的数据拷贝到内核缓冲区里；2. 缓冲区描述符和数据长度传到 socket 缓冲区，这样网卡的 SG-DMA 控制器就可以直接将内核缓存中的数据拷贝到网卡的缓冲区里，此过程不需要将数据从操作系统内核缓冲区拷贝到 socket 缓冲区中，这样就减少了一次数据拷贝

从 Linux 内核 2.4 版本开始起，对于支持网卡支持 SG-DMA 技术的情况下， sendfile() 系统调用的过程发生了点变化。查看网卡是否支持 scatter-gather 特性$ ethtool -k eth0 | grep scatter-gatherscatter-gather: on

探究零拷贝Zero Copy

减少「用户态与内核态的上下文切换」次数

方式一： mmap + write

读取磁盘数据的时候，之所以发生上下文切换，这是因为用户空间无权限操作磁盘或网卡，这些操作设备的过程需要交由操作系统内核来完成-------->>调用操作系统提供的系统函数。一次系统调用必然会发生 2 次上下文切换：首先从用户态切换到内核态，当内核执行完任务后，再切换回用户态交由进程代码执行。

分析

不经过用户缓冲区

减少「数据拷贝」次数

第二次拷贝，把内核缓冲区的数据拷贝到用户的缓冲区里，于是我们应用程序就可以使用这部分数据了，这个拷贝到过程是由 CPU 完成的。

真正的零拷贝 SG-DMA（The Scatter-Gather Direct Memory Access）

上下文切换到成本并不小，一次切换需要耗时几十纳秒到几微秒，虽然时间看上去很短，但是在高并发的场景下，这类时间容易被累积和放大，从而影响系统的性能

DMA 控制器进行数据传输的过程

1. 用户进程调用 read 方法，向操作系统发出 I/O 请求，请求读取数据到自己的内存缓冲区中，进程进入阻塞状态；2. 操作系统收到请求后，进一步将 I/O 请求发送 DMA，然后让 CPU 执行其他任务；3. DMA 进一步将 I/O 请求发送给磁盘；4. 磁盘收到 DMA 的 I/O 请求，把数据从磁盘读取到磁盘控制器的缓冲区中，当磁盘控制器的缓冲区被读满后，向 DMA 发起中断信号，告知自己缓冲区已满；5. DMA 收到磁盘的信号，将磁盘控制器缓冲区中的数据拷贝到内核缓冲区中，此时不占用 CPU，CPU 可以执行其他任务；6. 当 DMA 读取了足够多的数据，就会发送中断信号给 CPU；7.CPU 收到 DMA 的信号，知道数据已经准备好，于是将数据从内核拷贝到用户空间，系统调用返回整个数据传输的过程，CPU 不再参与数据搬运的工作，而是全程由 DMA 完成，但是 CPU 在这个过程中也是必不可少的，因为传输什么数据，从哪里传输到哪里，都需要 CPU 来告诉 DMA 控制器

期间共发生了 4 次数据拷贝

磁盘可以说是计算机系统最慢的硬件之一，针对优化磁盘的技术非常的多，比如零拷贝、直接 I/O、异步 I/O 等等，目的就是为了提高系统的吞吐量。使用操作系统内核中的磁盘高速缓存区，可以有效的减少磁盘的访问次数，提高性能。

Nginx 也支持零拷贝技术，一般默认是开启零拷贝技术，这样有利于提高文件传输的效率. 是否开启零拷贝技术的配置：http {... sendfile on...}- 设置为 on 表示，使用零拷贝技术来传输文件：sendfile ，这样只需要 2 次上下文切换，和 2 次数据拷贝。- 设置为 off 表示，使用传统的文件传输技术：read + write，这时就需要 4 次上下文切换，和 4 次数据拷贝

可以得知，使用sendfile只有 2 次上下文切换，和 3 次数据拷贝但是这还不是真正的零拷贝技术，如果网卡支持 SG-DMA（The Scatter-Gather Direct Memory Access）技术（和普通的 DMA 有所不同），我们可以进一步减少通过 CPU 把内核缓冲区里的数据拷贝到 socket 缓冲区的过程

1. 它可以替代前面的 read() 和 write() 这两个系统调用，这样就可以减少一次系统调用，也就减少了 2 次上下文切换的开销。2. 该系统调用可以直接把内核缓冲区里的数据拷贝到 socket 缓冲区里，不再拷贝到用户态，这样就只有 2 次上下文切换，和 3 次数据拷贝

期间共发生了 4 次用户态与内核态的上下文切换

要使用 sendfile，Linux 内核版本必须要 2.1 以上的版本。

可以得知，通过使用 mmap() 来代替 read()，可以减少一次数据拷贝的过程。但这还不是最理想的零拷贝，因为仍然需要通过 CPU 把内核缓冲区的数据拷贝到 socket 缓冲区里，而且仍然需要 4 次上下文切换，因为系统调用还是 2 次。