首页  流程图  详情

CPU(cache & cache line)

2021-06-29 21:17:55   0  举报





CPU工作原理

CPU

缓存行

Cache

CacheLine

Java

作者其他创作

大纲/内容

L1 D

Core4

PCIe

L1 I

Wireless

SATA

Core2

Core5

DMI

Hard drive

典型的情况是，内核把全部内存都视为\"回写\"类型（write-back），从而获得最好的性能。在回写模式下，内存的最小访问单元为一个缓存线（cache line），在Core 2中是64字节。当程序想读取内存中的一个字节时，处理器会从L1/L2 cache读取包含此字节的整条缓存线的内容。当程序做写入内存操作时，处理器只是修改cache中的对应缓存线，而不会更新主存中的信息。之后，当真的需要更新主存时，处理器会把那个被修改了的缓存线整体放到总线上，一次性写入内存。所以大部分的请求事务，其数据长度字段都是11（REQ[1:0]），对应64 字节。下图展示了当cache中没有对应数据时，内存读取访问的过程：

Ethernet

cache line

front side bus(FSB)

当CPU运转起来以后，它便会通过L1 cache和L2 cache对系统中的主存进行读写访问。cache使用的是静态存储器(SRAM)。相对于系统主存中使用的动态存储器（DRAM），cache读写速度快得多、造价也高昂得多。cache一般被放置在CPU芯片的内部，加之使用昂贵高速的存储器，使其给CPU带来的延迟非常低。在指令层次上的优化（instruction-level optimization），其效果是与优化后代码的大小息息相关。由于使用了高速缓存技术（caching），那些能够整体放入L1/L2 cache中的代码，和那些在运行时需要不断调入/调出（marshall into/out of）cache的代码，在性能上会产生非常明显的差异。正常情况下，当CPU操作一块内存区域时，其中的信息要么已经保存在L1/L2 cache，要么就需要将之从系统主存中调入cache，然后再处理。如果是后一种情况，我们就碰到了第一个瓶颈，一个大约250个时钟周期的延迟。在此期间如果CPU没有其他事情要做，则往往是处在停机状态的（stall）。为了给大家一个直观的印象，我们把CPU的一个时钟周期看作一秒。那么，从L1 cache读取信息就好像是拿起桌上的一张草稿纸（3秒）；从L2 cache读取信息则是从身边的书架上取出一本书（14秒）；而从主存中读取信息则相当于走到办公楼下去买个零食（4分钟）。

北桥收到物理内存访问请求之后

Core3

Core6

1、如果应用程序想要尽可能高的运行速度，就应该把会被一起访问的数据尽量组织在同一条缓存线中。一旦这条缓存线被载入，之后的读取操作就会加快很多，不再需要额外的内存访问了。2、对于回写式内存访问，作用于一条缓存线的任何内存操作都一定是原子的（atomic）。这种能力是由处理器的L1 cache提供的，所有数据被同时读写，中途不会被其他处理器或线程打断。特别的，32位和64位的内存操作，只要不跨越缓存线的边界，就都是原子操作。3、前端总线是被所有的agent所共享的。这些agent在开启一个事务之前，必须先进行总线使用权的仲裁。而且，每一个agent都需要侦听总线上所有的事务，以便维持cache的一致性。因此，随着部署更多的、多核的处理器到Intel计算机，总线竞争问题会变得越来越严重。为解决这个问题，Core i7将处理器直接连接于内存，并以点对点的方式通信，取代之前的广播方式，从而减少总线竞争。

DMI: 连接南北桥

内存

Internet

Southbridge chip

Northbridge chip

Core1

内存映射表