找回密码
 注册
关于网站域名变更的通知
12
返回列表 发新帖
楼主: House
打印 上一主题 下一主题

转——每个程序员都应该了解的内存知识 第2节: CPU的高速缓存

[复制链接]

该用户从未签到

16#
 楼主| 发表于 2019-4-10 17:02 | 只看该作者
% M+ e; ?# i% [, B& F  X! j+ |
再来看图3.25,它来自同一颗处理器,只是运行双线程,每个线程分别运行在处理器的一个超线程上。9 p6 _4 D3 q! v

' O4 E( J8 f6 _3 H图3.25: P4开启两个超线程时的带宽表现
: H5 |6 O  R3 t  g图3.25采用了与图3.24相同的刻度,以方便比较两者的差异。图3.25中的曲线抖动更多,是由于采用双线程的缘故。结果正如我们预期,由于超线程共享着几乎所有资源(仅除寄存器外),所以每个超线程只能得到一半的缓存和带宽。所以,即使每个线程都要花上许多时间等待内存,从而把执行时间让给另一个线程,也是无济于事——因为另一个线程也同样需要等待。这里恰恰展示了使用超线程时可能出现的最坏情况。
; K# L7 q; p$ ^! ?! }' W
* b( O- G7 v# d; d* T/ O图3.26: Core 2的带宽表现) x  X0 Q. \7 R9 D6 s/ C0 P
再来看Core 2处理器的情况。看看图3.26和图3.27,再对比下P4的图3.24和3.25,可以看出不小的差异。Core 2是一颗双核处理器,有着共享的L2,容量是P4 L2的4倍。但更大的L2只能解释写操作的性能下降出现较晚的现象。 9 e8 o( s" a. D* Q
  当然还有更大的不同。可以看到,读操作的性能在整个工作集范围内一直稳定在16字节/周期左右,在220处的下降同样是由于DTLB的耗尽引起。能够达到这么高的数字,不但表明处理器能够预取数据,并且按时完成传输,而且还意味着,预取的数据是被装入L1d的。
7 H$ I/ \1 ~# e! F: }7 a; c: d) @+ _: ?5 R, F; ^
写/复制操作的性能与P4相比,也有很大差异。处理器没有采用写通策略,写入的数据留在L1d中,只在必要时才逐出。这使得写操作的速度可以逼近16字节/周期。一旦工作集超过L1d,性能即飞速下降。由于Core 2读操作的性能非常好,所以两者的差值显得特别大。当工作集超过L2时,两者的差值甚至超过20倍!但这并不表示Core 2的性能不好,相反,Core 2永远都比Netburst强。 . E6 k3 l" ~0 L; M, K% i, p

* E& I5 C5 W% p+ y4 ] + v4 K7 E5 s2 J: O+ w
图3.27: Core 2运行双线程时的带宽表现( o& Q. q% ?9 f

2 G0 r( P  \$ r+ n* S在图3.27中,启动双线程,各自运行在Core 2的一个核心上。它们访问相同的内存,但不需要完美同步。从结果上看,读操作的性能与单线程并无区别,只是多了一些多线程情况下常见的抖动。
5 h; S3 U' ^, D6 ~0 B, ]
0 v) s( Z" w- l3 D* s" \7 t3 Y有趣的地方来了——当工作集小于L1d时,写操作与复制操作的性能很差,就好像数据需要从内存读取一样。两个线程彼此竞争着同一个内存位置,于是不得不频频发送RFO消息。问题的根源在于,虽然两个核心共享着L2,但无法以L2的速度处理RFO请求。而当工作集超过L1d后,性能出现了迅猛提升。这是因为,由于L1d容量不足,于是将被修改的条目刷新到共享的L2。由于L1d的未命中可以由L2满足,只有那些尚未刷新的数据才需要RFO,所以出现了这样的现象。这也是这些工作集情况下速度下降一半的原因。这种渐进式的行为也与我们期待的一致: 由于每个核心共享着同一条FSB,每个核心只能得到一半的FSB带宽,因此对于较大的工作集来说,每个线程的性能大致相当于单线程时的一半。' I9 d& ^3 L& J' A/ A
由于同一个厂商的不同处理器之间都存在着巨大差异,我们没有理由不去研究一下其它厂商处理器的性能。图3.28展示了AMD家族10h Opteron处理器的性能。这颗处理器有64kB的L1d、512kB的L2和2MB的L3,其中L3缓存由所有核心所共享。 $ g4 w7 [; w8 W) G' q0 e- g( O6 S0 @

, W: v. v* G2 T) J- W6 C , H6 n$ Y  L& e1 X/ q
图3.28: AMD家族10h Opteron的带宽表现  C6 v' l" y+ }) Q4 ?" l

* H/ C, y1 h6 b! i8 J$ ]大家首先应该会注意到,在L1d缓存足够的情况下,这个处理器每个周期能处理两条指令。读操作的性能超过了32字节/周期,写操作也达到了18.7字节/周期。但是,不久,读操作的曲线就急速下降,跌到2.3字节/周期,非常差。处理器在这个测试中并没有预取数据,或者说,没有有效地预取数据。
" Z3 G, ]' }# \! L3 _5 f
) M5 v1 i- I$ w" F. o另一方面,写操作的曲线随几级缓存的容量而流转。在L1d阶段达到最高性能,随后在L2阶段下降到6字节/周期,在L3阶段进一步下降到2.8字节/周期,最后,在工作集超过L3后,降到0.5字节/周期。它在L1d阶段超过了Core 2,在L2阶段基本相当(Core 2的L2更大一些),在L3及主存阶段比Core 2慢。 . G5 Q* ]- H+ Q* D. z6 z7 y& n9 S
  复制的性能既无法超越读操作的性能,也无法超越写操作的性能。因此,它的曲线先是被读性能压制,随后又被写性能压制。
6 Q# X- e$ W1 A0 \, O3 p5 @6 O
0 h+ B- ?2 R7 \# s$ s7 l' S图3.29显示的是Opteron处理器在多线程时的性能表现。
) X+ b1 a" D: `4 ] : {. _6 l# [: s: ~7 i
图3.29: AMD Fam 10h在双线程时的带宽表现: Q5 A' |* H, _9 D
  V# P/ \% Q0 z" u3 d
读操作的性能没有受到很大的影响。每个线程的L1d和L2表现与单线程下相仿,L3的预取也依然表现不佳。两个线程并没有过渡争抢L3。问题比较大的是写操作的性能。两个线程共享的所有数据都需要经过L3,而这种共享看起来却效率很差。即使是在L3足够容纳整个工作集的情况下,所需要的开销仍然远高于L3的访问时间。再来看图3.27,可以发现,在一定的工作集范围内,Core 2处理器能以共享的L2缓存的速度进行处理。而Opteron处理器只能在很小的一个范围内实现相似的性能,而且,它仅仅只能达到L3的速度,无法与Core 2的L2相比。

) P7 B# C) O5 Y% B5 k" ~% k4 o0 B

该用户从未签到

17#
 楼主| 发表于 2019-4-10 17:03 | 只看该作者
# S. o% n3 T( Z5 w4 G+ O1 F
3.5.2 关键字加载
6 c/ k9 L( z) [5 a  T# C7 r, S# a- W  内存以比缓存线还小的块从主存储器向缓存传送。如今64位可一次性传送,缓存线的大小为64或128比特。这意味着每个缓存线需要8或16次传送。 8 I; p  ^! V  w
  DRAM芯片可以以触发模式传送这些64位的块。这使得不需要内存控制器的进一步指令和可能伴随的延迟,就可以将缓存线充满。如果处理器预取了缓存,这有可能是最好的操作方式。
% c; O2 }, q8 S, F! t' n' _' ^" X# ~0 \5 H. q/ k/ s" i0 }2 Q
如果程序在访问数据或指令缓存时没有命中(这可能是强制性未命中或容量性未命中,前者是由于数据第一次被使用,后者是由于容量限制而将缓存线逐出),情况就不一样了。程序需要的并不总是缓存线中的第一个字,而数据块的到达是有先后顺序的,即使是在突发模式和双倍传输率下,也会有明显的时间差,一半在4个CPU周期以上。举例来说,如果程序需要缓存线中的第8个字,那么在首字抵达后它还需要额外等待30个周期以上。
6 |$ g( I2 \% C0 c9 M0 c
5 [, G4 t, W1 F当然,这样的等待并不是必需的。事实上,内存控制器可以按不同顺序去请求缓存线中的字。当处理器告诉它,程序需要缓存中具体某个字,即「关键字(critical word)」时,内存控制器就会先请求这个字。一旦请求的字抵达,虽然缓存线的剩余部分还在传输中,缓存的状态还没有达成一致,但程序已经可以继续运行。这种技术叫做关键字优先及较早重启(Critical Word First & Early Restart)。 ( k3 o& X& ?2 x0 d0 b

8 z3 T. z% b3 X# b) Y现在的处理器都已经实现了这一技术,但有时无法运用。比如,预取操作的时候,并不知道哪个是关键字。如果在预取的中途请求某条缓存线,处理器只能等待,并不能更改请求的顺序。 - I& Q+ h* v* U; Z+ O% T7 L
) ]2 D% g, l4 @9 \9 w. m+ y6 A

3 Q& b+ r3 a3 L! u2 f) S图3.30: 关键字位于缓存线尾时的表现
  E$ |9 a( ?5 J1 o6 _/ Q/ F. u4 s6 }( a: p0 u& r* s9 P
在关键字优先技术生效的情况下,关键字的位置也会影响结果。图3.30展示了下一个测试的结果,图中表示的是关键字分别在线首和线尾时的性能对比情况。元素大小为64字节,等于缓存线的长度。图中的噪声比较多,但仍然可以看出,当工作集超过L2后,关键字处于线尾情况下的性能要比线首情况下低0.7%左右。而顺序访问时受到的影响更大一些。这与我们前面提到的预取下条线时可能遇到的问题是相符的。
: g, a2 w6 B& P' j

该用户从未签到

18#
 楼主| 发表于 2019-4-10 17:03 | 只看该作者

/ C& S, U8 b3 }, `8 r: P3 `7 G
3.5.3 缓存设定
5 d3 E4 h+ Y; P9 w9 G7 V- U4 j  缓存放置的位置与超线程,内核和处理器之间的关系,不在程序员的控制范围之内。但是程序员可以决定线程执行的位置,接着高速缓存与使用的CPU的关系将变得非常重要。
# t8 h$ p, `% x0 v' y# r  这里我们将不会深入(探讨)什么时候选择什么样的内核以运行线程的细节。我们仅仅描述了在设置关联线程的时候,程序员需要考虑的系统结构的细节。
+ P- a6 g  G% Q! f$ p
6 Z7 ^: h" f: s$ p/ E, f6 G, f超线程,通过定义,共享除去寄存器集以外的所有数据。包括 L1 缓存。这里没有什么可以多说的。多核处理器的独立核心带来了一些乐趣。每个核心都至少拥有自己的 L1 缓存。除此之外,下面列出了一些不同的特性:
& n" ]1 |6 T% y  p" B
  • 早期多核心处理器有独立的 L2 缓存且没有更高层级的缓存。
  • 之后英特尔的双核心处理器模型拥有共享的L2 缓存。对四核处理器,则分对拥有独立的L2 缓存,且没有更高层级的缓存。
  • AMD 家族的 10h 处理器有独立的 L2 缓存以及一个统一的L3 缓存。7 J9 K* ?/ c% i2 R  ?  m% m: @
1 \+ U5 Q% e- s$ ]. U
关于各种处理器模型的优点,已经在它们各自的宣传手册里写得够多了。在每个核心的工作集互不重叠的情况下,独立的L2拥有一定的优势,单线程的程序可以表现优良。考虑到目前实际环境中仍然存在大量类似的情况,这种方法的表现并不会太差。不过,不管怎样,我们总会遇到工作集重叠的情况。如果每个缓存都保存着某些通用运行库的常用部分,那么很显然是一种浪费。 6 M# y$ i7 Y4 p& H% ?- y
  如果像Intel的双核处理器那样,共享除L1外的所有缓存,则会有一个很大的优点。如果两个核心的工作集重叠的部分较多,那么综合起来的可用缓存容量会变大,从而允许容纳更大的工作集而不导致性能的下降。如果两者的工作集并不重叠,那么则是由Intel的高级智能缓存管理(Advanced Smart Cache management)发挥功用,防止其中一个核心垄断整个缓存。
2 \$ n" C. v% o+ f6 O3 l$ g( Q2 z/ v; r$ }% @; v: `
即使每个核心只使用一半的缓存,也会有一些摩擦。缓存需要不断衡量每个核心的用量,在进行逐出操作时可能会作出一些比较差的决定。我们来看另一个测试程序的结果。
4 }. l# Z1 M  z) H, W6 q3 g# _$ Q$ _- W$ P8 B
5 V) g5 l8 r  f: d6 a( F
图3.31: 两个进程的带宽表现% G( t) e2 o& z4 Z4 G% T8 K" {
! O( V. F' z: L5 b4 P
这次,测试程序两个进程,第一个进程不断用SSE指令读/写2MB的内存数据块,选择2MB,是因为它正好是Core 2处理器L2缓存的一半,第二个进程则是读/写大小变化的内存区域,我们把这两个进程分别固定在处理器的两个核心上。图中显示的是每个周期读/写的字节数,共有4条曲线,分别表示不同的读写搭配情况。例如,标记为读/写(read/write)的曲线代表的是后台进程进行写操作(固定2MB工作集),而被测量进程进行读操作(工作集从小到大)。 5 x- N0 e4 E% @$ W# L' T- p/ m

& E! v$ ^8 x% e" i3 U* @图中最有趣的是220到223之间的部分。如果两个核心的L2是完全独立的,那么所有4种情况下的性能下降均应发生在221到222之间,也就是L2缓存耗尽的时候。但从图上来看,实际情况并不是这样,特别是背景进程进行写操作时尤为明显。当工作集达到1MB(220)时,性能即出现恶化,两个进程并没有共享内存,因此并不会产生RFO消息。所以,完全是缓存逐出操作引起的问题。目前这种智能的缓存处理机制有一个问题,每个核心能实际用到的缓存更接近1MB,而不是理论上的2MB。如果未来的处理器仍然保留这种多核共享缓存模式的话,我们唯有希望厂商会把这个问题解决掉。
1 D' I* b8 W7 Q- S$ ~$ n+ v推出拥有双L2缓存的4核处理器仅仅只是一种临时措施,是开发更高级缓存之前的替代方案。与独立插槽及双核处理器相比,这种设计并没有带来多少性能提升。两个核心是通过同一条总线(被外界看作FSB)进行通信,并没有什么特别快的数据交换通道。 ' v6 ?/ y% @( k  ]. I
  未来,针对多核处理器的缓存将会包含更多层次。AMD的10h家族是一个开始,至于会不会有更低级共享缓存的出现,还需要我们拭目以待。我们有必要引入更多级别的缓存,因为频繁使用的高速缓存不可能被许多核心共用,否则会对性能造成很大的影响。我们也需要更大的高关联性缓存,它们的数量、容量和关联性都应该随着共享核心数的增长而增长。巨大的L3和适度的L2应该是一种比较合理的选择。L3虽然速度较慢,但也较少使用。 ( I8 l4 A6 a' |
  对于程序员来说,不同的缓存设计就意味着调度决策时的复杂性。为了达到最高的性能,我们必须掌握工作负载的情况,必须了解机器架构的细节。好在我们在判断机器架构时还是有一些支援力量的,我们会在后面的章节介绍这些接口。

1 w9 v: Y1 V- w: S

该用户从未签到

19#
 楼主| 发表于 2019-4-10 17:04 | 只看该作者
- R  {+ f0 ]$ [
3.5.4 FSB的影响   FSB在性能中扮演了核心角色。缓存数据的存取速度受制于内存通道的速度。我们做一个测试,在两台机器上分别跑同一个程序,这两台机器除了内存模块的速度有所差异,其它完全相同。图3.32展示了Addnext0测试(将下一个元素的pad[0]加到当前元素的pad[0]上)在这两台机器上的结果(NPAD=7,64位机器)。两台机器都采用Core 2处理器,一台使用667MHz的DDR2内存,另一台使用800MHz的DDR2内存(比前一台增长20%)。 * P6 U* U  H, @9 n+ K) U8 U9 I1 R' U% K

2 ^: c7 @0 i  S6 e) B9 d( w  T% I 9 g5 O8 q" {* K2 i
图3.32: FSB速度的影响
, }, }* N+ R: X$ q/ v3 D" P! T5 ~0 v0 K
图上的数字表明,当工作集大到对FSB造成压力的程度时,高速FSB确实会带来巨大的优势。在我们的测试中,性能的提升达到了18.5%,接近理论上的极限。而当工作集比较小,可以完全纳入缓存时,FSB的作用并不大。当然,这里我们只测试了一个程序的情况,在实际环境中,系统往往运行多个进程,工作集是很容易超过缓存容量的。 9 ~9 N2 P) L0 x  F) p: ?! D' K

& x( B$ E& E# Y  ^# X, ?3 L1 _) b如今,一些英特尔的处理器,支持前端总线(FSB)的速度高达1,333 MHz,这意味着速度有另外60%的提升。将来还会出现更高的速度。速度是很重要的,工作集会更大,快速的RAM和高FSB速度的内存肯定是值得投资的。我们必须小心使用它,因为即使处理器可以支持更高的前端总线速度,但是主板的北桥芯片可能不会。使用时,检查它的规范是至关重要的。
% u9 J' H" E4 @. T
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

EDA365公众号

关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

GMT+8, 2025-8-3 16:57 , Processed in 0.109375 second(s), 18 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表