《存储层次》PPT课件.ppt

上传人:小飞机 文档编号:5491737 上传时间:2023-07-12 格式:PPT 页数:84 大小:281.50KB
返回 下载 相关 举报
《存储层次》PPT课件.ppt_第1页
第1页 / 共84页
《存储层次》PPT课件.ppt_第2页
第2页 / 共84页
《存储层次》PPT课件.ppt_第3页
第3页 / 共84页
《存储层次》PPT课件.ppt_第4页
第4页 / 共84页
《存储层次》PPT课件.ppt_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《《存储层次》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《存储层次》PPT课件.ppt(84页珍藏版)》请在三一办公上搜索。

1、第11章 存储层次张晨曦 刘依www.GotoS,11.1存储系统的层次结构11.2Cache基本知识11.3降低Cache不命中率11.4减少Cache不命中开销11.5减少命中时间,计算机系统结构设计中关键的问题之一:如何以合理的价格,设计容量和速度都满足计算机系统要求的存储器系统?人们对这三个指标的要求 容量大、速度快、价格低三个要求是相互矛盾的速度越快,每位价格就越高;容量越大,每位价格就越低;容量越大,速度越慢。,11.1 存储系统的层次结构,11.1.1 存储系统的层次结构,11.1 存储系统的层次结构,解决方法:采用多种存储器技术,构成多级存储层次结构。程序访问的局部性原理:对于

2、绝大多数程序来说,程序所访问的指令和数据在地址上不是均匀分布的,而是相对簇聚的。程序访问的局部性包含两个方面 时间局部性:程序马上将要用到的信息很可能就是现在正在使用的信息。空间局部性:程序马上将要用到的信息很可能与现在正在使用的信息在存储空间上是相邻的。,11.1 存储系统的层次结构,存储系统的多级层次结构,多级存储层次,11.1 存储系统的层次结构,假设第i个存储器Mi的访问时间为Ti,容量为Si,平均每位价格为Ci,则访问时间:T1 C2 Cn 整个存储系统要达到的目标:从CPU来看,该存储系统的速度接近于M1的,而容量和每位价格都接近于Mn的。存储器越靠近CPU,则CPU对它的访问频度

3、越高,而且最好大多数的访问都能在M1完成。,11.1 存储系统的层次结构,在存储层次中,各存储器之间一般满足包容关系,即任何一层存储器中的内容都是其下一层(离CPU更远的一层)存储器中内容的子集。CPU与M1之间传送信息一般是以字为单位,M1以外(含M1)的相邻存储器之间一般以块或页面为单位传送信息。,11.1 存储系统的层次结构,下面仅考虑由M1和M2构成的两级存储层次:M1的参数:S1,T1,C1M2的参数:S2,T2,C2,11.1.2 存储系统的性能参数,11.1 存储系统的层次结构,存储容量S一般来说,整个存储系统的容量即是第二级存储器M2的容量,即S=S2。每位价格C当S1S2时,

4、CC2。,11.1 存储系统的层次结构,命中率H 命中率:CPU访问存储系统时,在M1中找到所需信息的概率。N1 访问M1的次数N2 访问M2的次数 不命中率:F1H,11.1 存储系统的层次结构,平均访问时间TA TA HT1(1H)(T1TM)T1(1H)TM 或 TA T1FTM分两种情况来考虑CPU的一次访存:当命中时,访问时间即为T1(命中时间)当不命中时,情况比较复杂。不命中时的访问时间为:T2TBT1T1TM TM T2TB不命中开销TM:从向M2发出访问请求到把整个数据块调入M1中所需的时间。传送一个信息块所需的时间为TB。,11.1 存储系统的层次结构,三级存储系统Cache

5、(高速缓冲存储器)主存储器磁盘存储器(辅存)可以看成是由“Cache主存”层次和“主存辅存”层次构成的系统。,11.1.3 三级存储系统,11.1 存储系统的层次结构,从主存的角度来看“Cache主存”层次:弥补主存速度的不足“主存辅存”层次:弥补主存容量的不足“Cache主存”层次主存与CPU的速度差距“Cache-主存”层次“主存辅存”层次两者的比较,11.1 存储系统的层次结构,1980年以来存储器和CPU性能随时间而提高的情况(以1980年时的性能作为基准),11.1 存储系统的层次结构,两种存储层次,11.1 存储系统的层次结构,存储层次,CPU对第二级的访问方式,比较项目,目的,存

6、储管理实现,访问速度的比值(第一级和第二级),典型的块(页)大小,不命中时CPU是否切换,“Cache 主存”层次,“主存辅存”层次,为了弥补主存速度的不足,为了弥补主存容量的不足,主要由专用硬件实现,主要由软件实现,几比一,几万比一,几十个字节,几百到几千个字节,可直接访问,均通过第一级,不切换,切换到其他进程,“Cache主存”与“主存辅存”层次的区别,11.1 存储系统的层次结构,当把一个块调入高一层(靠近CPU)存储器时,可以放在哪些位置上?(映象规则)当所要访问的块在高一层存储器中时,如何找到该块?(查找算法)当发生不命中时,应替换哪一块?(替换算法)当进行写访问时,应进行哪些操作?

7、(写策略),11.1.4 存储层次的四个问题,Cache和主存分块Cache是按块进行管理的。Cache和主存均被分割成大小相同的块。信息以块为单位调入Cache。主存块地址(块号)用于查找该块在Cache中的位置。块内位移用于确定所访问的数据在该块中的位置。,11.2 Cache基本知识,基本结构和原理,Cache的基本工作原理示意图,映象规则,全相联映象 全相联:主存中的任一块可以被放置到Cache中的任意一个位置。对比:阅览室位置 随便坐直接映象 直接映象:主存中的每一块只能被放置到Cache中唯一的一个位置。(循环分配),11.2 Cache基本知识,11.2 Cache基本知识,11

8、.2 Cache基本知识,对比:阅览室位置 只有一个位置可以坐对于主存的第i 块,若它映象到Cache的第j 块,则:ji mod(M)(M为Cache的块数)设M=2m,则当表示为二进制数时,j实际上就是i的低m位:,j,i:,m位,11.2 Cache基本知识,组相联映象 组相联:主存中的每一块可以被放置到Cache中唯一的一个组中的任何一个位置。组相联是直接映象和全相联的一种折衷,11.2 Cache基本知识,组的选择常采用位选择算法若主存第i 块映象到第k 组,则:ki mod(G)(G为Cache的组数)设G2g,则当表示为二进制数时,k 实际上就是i 的低 g 位:低g位以及直接映

9、象中的低m位通常称为索引。,k,i:,g位,11.2 Cache基本知识,n 路组相联:每组中有n个块(nM/G)。n 称为相联度。相联度越高,Cache空间的利用率就越高,块冲突概率就越低,不命中率也就越低。绝大多数计算机的Cache:n 4想一想:相联度一定是越大越好?,全相联,直接映象,组相联,n(路数),G(组数),M,M,1,1,1nM,1GM,11.2 Cache基本知识,当CPU访问Cache时,如何确定Cache中是否有所要访问的块?若有的话,如何确定其位置?通过查找目录表来实现目录表的结构主存块的块地址的高位部分,称为标识。每个主存块能唯一地由其标识来确定,11.2.3 查找

10、算法,11.2 Cache基本知识,Cache中设有一个目录表,每一个Cache块在该表中都有唯一的一项,用于指出当前该块中存放的信息是哪个主存块的。目录表中存放标识,所以存放目录表的存储器又称为标识存储器。目录表中给每一项设置一个有效位,用于指出Cache中的块是否包含有效信息。只需查找候选位置所对应的目录表项候选位置:根据映象规则不同,一个主存块可能映象到Cache中的一个或多个Cache块的位置。直接映象Cache的候选位置最少,只有一个;全相联Cache的候选位置最多,为M个;,11.2 Cache基本知识,n路组相联则介于两者之间,为n个。并行查找为了保证速度,对各候选位置的标识的检

11、查应并行进行。并行查找的实现方法相联存储器目录由2g个相联存储区构成,每个相联存储区的大小为n(h+log2n)位。根据所查找到的组内块地址,从Cache存储体中读出的多个信息字中选一个,发送给CPU。,11.2 Cache基本知识,7.2 Cache基本知识,单体多字存储器比较器 举例:路组相联并行标识比较(比较器的个数及位数)路组相联Cache的查找过程优缺点不必采用相联存储器,而是用按地址访问的存储器来实现。所需要的硬件为:大小为2g nh位的存储器和n个h位的比较器。当相联度n增加时,不仅比较器的个数会增加,而且比较器的位数也会增加。,11.2 Cache基本知识,11.2 Cache

12、基本知识,例子:DEC的Alpha AXP21064中的内部数据Cache简介容量:8KB块大小:32B块数:256映象方法:直接映象写缓冲器大小:4个块,11.2.4 Cache的工作过程,11.2 Cache基本知识,结构图,11.2 Cache基本知识,工作过程“读”访问命中(完成4步需要2个时钟周期)Cache的容量与索引index、相联度、块大小之间的关系 Cache的容量=2index相联度块大小 把容量为8192、相联度为1、块大小为32(字节)代入:索引index:8位 标识:29821位“写”访问命中,11.2 Cache基本知识,设置了一个写缓冲器(提高“写”访问的速度)按

13、字寻址的,它含有4个块,每块大小为4个字。当要进行写入操作时,如果写缓冲器不满,那么就把数据和完整的地址写入缓冲器。对CPU而言,本次“写”访问已完成,CPU可以继续往下执行。由写缓冲器负责把该数据写入主存。在写入缓冲器时,要进行写合并检查。即检查本次写入数据的地址是否与缓冲器内某个有效块的地址匹配。如果匹配,就把新数据与该块合并。,11.2 Cache基本知识,发生读不命中与写不命中时的操作读不命中:向CPU发出一个暂停信号,通知它等待,并从下一级存储器中新调入一个数据块(32字节)。写不命中:将使数据“绕过”Cache,直接写入主存。对比:Alpha AXP 21264的数据Cache结构

14、容量:64KB 块大小:64字节 LRU替换策略 主要区别采用2路组相联采用写回法 没有写缓冲器,11.2 Cache基本知识,所要解决的问题:当新调入一块,而Cache又已被占满时,替换哪一块?直接映象Cache中的替换很简单 因为只有一个块,别无选择。在组相联和全相联Cache中,则有多个块供选择。主要的替换算法有三种随机法随机地选择被替换的块 优点:实现简单,11.2.5 替换算法,11.2 Cache基本知识,先进先出法FIFO选择最早调入的块作为被替换的块。优点:容易实现。最近最少使用法LRU选择近期最少被访问的块作为被替换的块。(实现比较困难)实际上:选择最久没有被访问过的块作为被

15、替换的块。优点:命中率较高LRU和随机法分别因其不命中率低和实现简单而被广泛采用。模拟数据表明,对于容量很大的Cache,LRU和随机法的命中率差别不大。,11.2 Cache基本知识,“写”在所有访存操作中所占的比例 统计结果表明,对于一组给定的程序:load指令:26store指令:9“写”在所有访存操作中所占的比例:9/(100269)7“写”在访问Cache操作中所占的比例:9/(269)25,11.2.6 写策略,11.2 Cache基本知识,“写”操作必须在确认是命中后才可进行“写”访问有可能导致Cache和主存内容的不一致两种写策略写策略是区分不同Cache设计方案的一个重要标志

16、。写直达法(也称为存直达法)执行“写”操作时,不仅写入Cache,而且也写入下一级存储器。写回法(也称为拷回法)执行“写”操作时,只写入Cache。仅当Cache中相应的块被替换时,才写回主存。(设置“修改位”),11.2 Cache基本知识,两种写策略的比较写回法的优点:速度快,所使用的存储器带宽较低。写直达法的优点:易于实现,一致性好。采用写直达法时,若在进行“写”操作的过程中CPU必须等待,直到“写”操作结束,则称CPU写停顿。减少写停顿的一种常用的优化技术:采用写缓冲器,11.2 Cache基本知识,“写”操作时的调块按写分配(写时取)写不命中时,先把所写单元所在的块调入Cache,再

17、行写入。不按写分配(绕写法)写不命中时,直接写入下一级存储器而不调块。写策略与调块写回法 按写分配写直达法 不按写分配,11.2 Cache基本知识,不命中率与硬件速度无关容易产生一些误导平均访存时间平均访存时间 命中时间不命中率不命中开销,11.2.7 Cache的性能分析,程序执行时间CPU时间(CPU执行周期数+存储器停顿周期数)时钟周期时间其中:存储器停顿时钟周期数“读”的次数读不命中率读不命中开销“写”的次数写不命中率写不命中开销存储器停顿时钟周期数访存次数不命中率不命中开销,CPU时间(CPU执行周期数+访存次数不命中率不命中开销)时钟周期时间,=IC(CPIexecution每条

18、指令的平均访存次数不命中率 不命中开销)时钟周期时间,11.2 Cache基本知识,例11.1 用一个和Alpha AXP类似的机器作为第一个例子。假设Cache不命中开销为50个时钟周期,当不考虑存储器停顿时,所有指令的执行时间都是2.0个时钟周期,访问Cache不命中率为2%,平均每条指令访存1.33次。试分析Cache对性能的影响。解 CPU时间有cacheIC(CPIexecution每条指令的平均访存次数 不命中率不命中开销)时钟周期时间 IC(2.01.332%50)时钟周期时间 IC 3.33 时钟周期时间,11.2 Cache基本知识,考虑Cache的不命中后,性能为:CPU时

19、间有cacheIC(2.01.332%50)时钟周期时间 IC3.33时钟周期时间实际CPI:3.333.33/2.0=1.67(倍)CPU时间也增加为原来的1.67倍。但若不采用Cache,则:CPI2.0501.3368.5,例11.2 考虑两种不同组织结构的Cache:直接映象Cache和两路组相联Cache,试问它们对CPU的性能有何影响?先求平均访存时间,然后再计算CPU性能。分析时请用以下假设:(1)理想Cache(命中率为100%)情况下的CPI为2.0,时钟周期为2ns,平均每条指令访存1.3次。(2)两种Cache容量均为64KB,块大小都是32字节。(3)在组相联Cache

20、中,由于多路选择器的存在而使CPU的时钟周期增加到原来的1.10倍。这是因为对Cache的访问总是处于关键路径上,对CPU的时钟周期有直接的影响。,(4)这两种结构Cache的不命中开销都是70ns。(在实际应用中,应取整为整数个时钟周期)(5)命中时间为1个时钟周期,64KB直接映象Cache的不命中率为1.4%,相同容量的两路组相联Cache的不命中率为1.0%。,11.2 Cache基本知识,解 平均访存时间为:平均访存时间命中时间不命中率不命中开销 因此,两种结构的平均访存时间分别是:平均访存时间1路2.0(0.01470)2.98ns 平均访存时间2路2.01.10(0.01070)

21、2.90ns 两路组相联Cache的平均访存时间比较低。CPU时间IC(CPIexecution每条指令的平均访存次数 不命中率不命中开销)时钟周期时间 IC(CPIexecution 时钟周期时间每条指令的 平均访存次数不命中率不命中开销时钟周期时间),11.2 Cache基本知识,因此:CPU时间1路 IC(2.02(1.30.01470)5.27ICCPU时间2路 IC(2.021.10(1.30.01070)5.31IC,5.31IC,CPU时间1路,1.01,5.27IC,CPU时间2路,直接映象Cache的平均性能好一些。,11.2 Cache基本知识,平均访存时间命中时间不命中率

22、不命中开销可以从三个方面改进Cache的性能:降低不命中率减少不命中开销减少Cache命中时间下面介绍17种Cache优化技术8种用于降低不命中率5种用于减少不命中开销4种用于减少命中时间,11.2.8 改进Cache的性能,许多降低不命中率的方法会增加命中时间或不命中开销。增加Cache块大小不命中率与块大小的关系对于给定的Cache容量,当块大小增加时,不命中率开始是下降,后来反而上升了。Cache容量越大,使不命中率达到最低的块大小就越大。增加块大小会增加不命中开销,11.3 降低Cache不命中率,11.3 降低Cache不命中率,不命中率随块大小变化的曲线,11.3 降低Cache不

23、命中率,增加Cache的容量缺点:增加成本可能增加命中时间这种方法在片外Cache中用得比较多 提高相联度采用相联度超过8的方案的实际意义不大。2:1 Cache经验规则 容量为N的直接映象Cache的不命中率和容量为N/2的两路组相联Cache的不命中率差不多相同。,11.3 降低Cache不命中率,提高相联度是以增加命中时间为代价。伪相联 Cache(列相联 Cache)多路组相联的低不命中率和直接映象的命中速度基本思想在逻辑上把直接映象Cache的空间上下平分为两个区。对于任何一次访问,伪相联Cache先按直接映象Cache的方式去处理。若命中,则其访问过程与直接映象Cache的情况一样

24、。若不命中,则再到另一区相应的位置去查找。确定这个“另一块”的一种简单的方法:将索引字段的最高位取反。,11.3 降低Cache不命中率,缺点:多种命中时间会使CPU流水线的设计复杂化。伪相联技术往往是应用在离处理器比较远的Cache上。硬件预取指令和数据都可以预取预取内容既可放入Cache,也可放在外缓冲器中。指令预取通常由Cache之外的硬件完成预取应利用存储器的空闲带宽,不能影响对正常不命中的处理,否则可能会降低性能。,11.3 降低Cache不命中率,在编译时加入预取指令,在数据被用到之前发出预取请求。按照预取数据所放的位置,可把预取分为两种类型:寄存器预取:把数据取到寄存器中。Cac

25、he预取:只将数据取到Cache中。按照预取的处理方式不同,可把预取分为:故障性预取:在预取时,若出现虚地址故障或违反保护权限,就会发生异常。,11.3.1 编译器控制的预取,11.3 降低Cache不命中率,非故障性预取:在遇到这种情况时则不会发生异常,因为这时它会放弃预取,转变为空操作。本节假定Cache预取都是非故障性的,也叫做非绑定预取。在预取数据的同时,处理器应能继续执行。只有这样,预取才有意义。非阻塞Cache(非锁定Cache)编译器控制预取的目的 使执行指令和读取数据能重叠执行。循环是预取优化的主要对象,11.3 降低Cache不命中率,不命中开销小时:循环体展开12次不命中开

26、销大时:循环体展开许多次每次预取需要花费一条指令的开销保证这种开销不超过预取所带来的收益编译器可以通过把重点放在那些可能会导致不命中的访问上,使程序避免不必要的预取,从而较大程度地减少平均访存时间。,11.3 降低Cache不命中率,基本思想:通过对软件进行优化来降低不命中率。(特色:无需对硬件做任何改动)程序代码和数据重组可以重新组织程序而不影响程序的正确性例如:把一个程序中的过程重新排序,就可能降低指令 不命中率。如果编译器知道一个分支指令很可能会成功转移,那么它就可以通过以下两步来改善空间局部性:,11.3.2 编译器优化,11.3 降低Cache不命中率,将转移目标处的基本块和紧跟着该

27、分支指令后的基本块进行对调;把该分支指令换为操作语义相反的分支指令。数据对存储位置的限制更少,更便于调整顺序。编译优化技术包括数组合并将本来相互独立的多个数组合并成为一个复合数组,以提高访问它们的局部性。循环融合,11.3 降低Cache不命中率,将若干个独立的循环融合为单个的循环。这些循环访问同样的数组,对相同的数据作不同的运算。这样能使得读入Cache的数据在被替换出去之前,能得到反复的使用。内外循环交换分块通过提高时间局部性来减少不命中。分块算法不是对数组的整行或整列进行访问,而是对子矩阵或块进行操作。其目的仍然是使一个Cache块在被替换之前最大限度地利用它。,11.3 降低Cache

28、不命中率,一种能减少冲突不命中次数而又不影响时钟频率的方法。基本思想在Cache和它从下一级存储器调数据的通路之间设置一个全相联的小Cache,称为“牺牲”Cache(Victim Cache)。用于存放被替换出去的块(称为牺牲者),以备重用。工作过程,11.3.3“牺牲”Cache,应把Cache做得更快?还是更大?答案:二者兼顾,再增加一级Cache第一级Cache(L1)小而快第二级Cache(L2)容量大性能分析 平均访存时间 命中时间L1不命中率L1不命中开销L1不命中开销L1 命中时间L2不命中率L2不命中开销L2,11.4.1 采用两级Cache,11.4 减少Cache不命中开

29、销,11.4 减少Cache不命中开销,平均访存时间 命中时间L1不命中率L1(命中时间L2不命中率L2不命中开销L2),局部不命中率与全局不命中率局部不命中率该级Cache的不命中次数/到达该 级Cache的访问次数 例如:上述式子中的不命中率L2全局不命中率该级Cache的不命中次数/CPU发 出的访存的总次数,11.4 减少Cache不命中开销,全局不命中率L2不命中率L1不命中率L2 评价第二级Cache时,应使用全局不命中率这个指标。它指出了在CPU发出的访存中,究竟有多大比例是穿过各级Cache,最终到达存储器的。采用两级Cache时,每条指令的平均访存停顿时间:每条指令的平均访存

30、停顿时间 每条指令的平均不命中次数L1命中时间L2 每条指令的平均不命中次数L2不命中开销L2,11.4 减少Cache不命中开销,对于第二级Cache,我们有以下结论:在第二级Cache比第一级 Cache大得多的情况下,两级Cache的全局不命中率和容量与第二级Cache相同的单级Cache的不命中率非常接近。局部不命中率不是衡量第二级Cache的一个好指标,因此,在评价第二级Cache时,应用全局不命中率这个指标。第二级Cache不会影响CPU的时钟频率,因此其设计有更大的考虑空间。两个问题:,11.4 减少Cache不命中开销,它能否降低CPI中的平均访存时间部分?它的成本是多少?第二

31、级Cache的参数容量第二级Cache的容量一般比第一级的大许多。相联度第二级Cache可采用较高的相联度或伪相联方法。块大小,Cache中的写缓冲器导致对存储器访问的复杂化 在读不命中时,所读单元的最新值有可能还在写缓冲器中,尚未写入主存。,11.4.2 让读不命中优先于写,11.4 减少Cache不命中开销,解决问题的方法(读不命中的处理)推迟对读不命中的处理(缺点:读不命中的开销增加)检查写缓冲器中的内容在写回法Cache中,也可采用写缓冲器。,11.4 减少Cache不命中开销,11.4.3 写缓冲合并,提高写缓冲器的效率写直达Cache依靠写缓冲来减少对下一级存储器写操作的时间。如果

32、写缓冲器为空,就把数据和相应地址写入该缓冲器。从CPU的角度来看,该写操作就算是完成了。如果写缓冲器中已经有了待写入的数据,就要把这次的写入地址与写缓冲器中已有的所有地址进行比较,看是否有匹配的项。如果有地址匹配而,11.4 减少Cache不命中开销,对应的位置又是空闲的,就把这次要写入的数据与该项合并。这就叫写缓冲合并。如果写缓冲器满且又没有能进行写合并的项,就必须等待。提高了写缓冲器的空间利用率,而且还能减少因写缓冲器满而要进行的等待时间。,11.4 减少Cache不命中开销,请求字 从下一级存储器调入Cache的块中,只有一个字是立即需要的。这个字称为请求字。应尽早把请求字发送给CPU尽

33、早重启动:调块时,从块的起始位置开始读起。一旦请求字到达,就立即发送给CPU,让CPU继续执行。请求字优先:调块时,从请求字所在的位置读起。这样,第一个读出的字便是请求字。将之立即发送给CPU。,11.4.4 请求字处理技术,11.4 减少Cache不命中开销,这种技术在以下情况下效果不大:Cache块较小下一条指令正好访问同一Cache块的另一部分,11.4 减少Cache不命中开销,非阻塞Cache:Cache不命中时仍允许CPU进行其它的命中访问。即允许“不命中下命中”。增加了Cache控制器的复杂度。,11.4.5 非阻塞Cache技术,命中时间直接影响到处理器的时钟频率。在当今的许多

34、计算机中,往往是Cache的访问时间限制了处理器的时钟频率。,11.5 减少命中时间,11.5.1 容量小、结构简单的Cache,硬件越简单,速度就越快;应使Cache足够小,以便可以与CPU一起放在同一块芯片上。,11.5 减少命中时间,某些设计采用了一种折衷方案:把Cache的标识放在片内,而把Cache的数据存储器放在片外。,11.5.2 虚拟Cache,物理Cache使用物理地址进行访问的传统Cache。标识存储器中存放的是物理地址,进行地址检测也是用物理地址。,11.5 减少命中时间,缺点:地址转换和访问Cache串行进行,访问速度很慢。,物理Cache存储系统,11.5 减少命中时

35、间,虚拟Cache可以直接用虚拟地址进行访问的Cache。标识存储器中存放的是虚拟地址,进行地址检测用的也是虚拟地址。优点:在命中时不需要地址转换,省去了地址转换的时间。即使不命中,地址转换和访问Cache也是并行进行的,其速度比物理Cache快很多。,11.5 减少命中时间,并非都采用虚拟Cache(为什么?)每当进行进程切换时需要清空Cache。由于新进程的虚拟地址有可能与原进程的相同,但它们所指向的物理空间却是不同的。同义和别名操作系统和用户程序对于同一个物理地址可能采用两种以上不同形式的虚拟地址来访问。导致同一个数据在虚拟Cache中存在两个副本,11.5 减少命中时间,虚拟索引物理标

36、识直接用虚地址中的页内位移(页内位移在“虚实”地址的转换中保持不变)作为访问Cache的索引,但标识却是物理地址。CPU发出访存请求后,在进行虚实地址转换的同时,可并行进行标识的读取。在完成地址转换之后,再把得到的物理地址与标识进行比较。优点:兼得虚拟Cache和物理Cache的好处局限性:Cache容量受到限制(页内位移)Cache容量页大小相联度,11.5 减少命中时间,11.5.3 Cache访问流水化,对第一级Cache的访问按流水方式组织访问Cache需要多个时钟周期才可以完成例如Pentium访问指令Cache需要一个时钟周期Pentium Pro到Pentium 需要两个时钟周期Pentium 4 则需要4个时钟周期,11.5 减少命中时间,开发指令级并行性所遇到的一个挑战是:当要每个时钟周期流出超过4条指令时,要提供足够多条彼此互不相关的指令是很困难的。一个解决方法:采用踪迹 Cache 存放CPU所执行的动态指令序列 包含了由分支预测展开的指令,该分支预测是否正确需要在取到该指令时进行确认。,11.5.4 踪迹 Cache,11.5 减少命中时间,优缺点地址映象机制复杂,相同的指令序列有可能被当作条件分支的不同选择而重复存放,能够提高指令Cache的空间利用率。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号