算机体系结构习.ppt

上传人:小飞机 文档编号:6151963 上传时间:2023-09-29 格式:PPT 页数:139 大小:882.50KB
返回 下载 相关 举报
算机体系结构习.ppt_第1页
第1页 / 共139页
算机体系结构习.ppt_第2页
第2页 / 共139页
算机体系结构习.ppt_第3页
第3页 / 共139页
算机体系结构习.ppt_第4页
第4页 / 共139页
算机体系结构习.ppt_第5页
第5页 / 共139页
点击查看更多>>
资源描述

《算机体系结构习.ppt》由会员分享,可在线阅读,更多相关《算机体系结构习.ppt(139页珍藏版)》请在三一办公上搜索。

1、1,计算机体系结构,习题解答,2,第1章 基础知识,翻译先用转换程序将高一级机器级上的程序整个地变换成低一级机器级上可运行的等效程序,然后再在低一级机器级上去实现的技术,3,第1章 基础知识,解释在低一级机器级上用它的一串语句或指令来仿真高一级机器上的一条语句或指令的功能,通过对高一级机器语言程序中的每条语句或指令逐条解释来实现的技术,4,第1章 基础知识,计算机系统结构程序员所看到的计算机的属性,即程序员为编写出能在机器上正确运行的程序所必须了解到的机器的概念性结构和功能特性。从层次结构出发,计算机系统结构指层次结构中传统机器级的系统结构,研究的是软、硬件之间的功能分配,以及对传统机器级界面

2、的定义,5,第1章 基础知识,透明性 本来存在的事物或属性,从某个角度看却好象不存在软件兼容程序可以不加修改地运行在各档机器上,区别仅在于运行时间不同它分为向上兼容和向下兼容,以及向前兼容和向后兼容,6,第1章 基础知识,模拟用一种机器(A)的机器语言解释实现另一种机器(B)的指令系统,使A具有B的指令系统,从而实现软件移植的方法。被模拟的机器称为虚拟机,模拟用的机器称为宿主机,解释程序称为模拟程序,7,第1章 基础知识,仿真用一种机器(A)的微程序直接解释实现另一种机器(B)的指令系统,从而实现软件移植的方法被仿真的机器称为目标机,进行仿真的机器称为宿主机,解释微程序机器称为仿真微程序,8,

3、第1章 基础知识,并行性指可以同时进行运算或操作的特性,它有两重含义:同时性:同一时刻发生并发性:同一时间间隔内发生,9,第1章 基础知识,系列机同一厂家生产的具有相同系统结构、但有不同组成和实现的一系列不同型号的机器兼容机不同厂家生产的具有相同系统结构、但有不同组成和实现的一系列不同型号的机器,10,第1章 基础知识,紧耦合系统多台计算机之间通过总线或高速开关互连,共享主存,并有较高的信息传输速率的多机系统时间重叠引入时间概念,让多个处理过程轮流使用同一套硬件设备的各部分,基本上不需要重复设置硬件设备,11,第1章 基础知识,1-1,12,第1章 基础知识,1-6透明的是:指令缓冲器时标发生

4、器乘法器主存地址寄存器 先行进位链移位器,13,第1章 基础知识,1-8(1)可以。因为它虽然是属于计算机系统结构的内容。新增加的数据类型和指令,不会影响到已有指令所写的程序正确运行,只是现在用新增加的指令来写程序,会使计算机的性能和效率变得更好。,14,第1章 基础知识,(2)不可以。中断的分级和中断的响应次序等中断机构都属于计算机系统结构的内容。中断分级由原来的4级增加到5级应当还是允许的,关键是重新调整了中断响应的优先次序,这就使原有程序的中断响应次序发生了改变,会影响原有程序工作的正确性。,15,第1章 基础知识,(3)可以。Cache存储器属于计算机组成,它不会改变原有的系统程序和应

5、用程序,不会影响到它们的正确性。只是有了它之后,系统的性能会显著的提高。(4)可以。浮点数尾数的下溢处理不属于计算机系统结构,而是计算机组成设计所需要考虑的内容。,16,第1章 基础知识,(5)不可以。指令的操作码、字段格式、寻址方式等都是计算机系统结构的内容。如果将它们改变,就会直接影响以前编写的程序不能正确运行。(6)可以。数据通路宽度是计算机组成的内容。,17,第1章 基础知识,(7)可以。单总线改为多总线是计算机组成的内容。(8)不可以。通用寄存器的使用是属于计算机系统结构的内容。0号通用寄存器改为堆栈指示器,将使原先程序中0号寄存器中的内容改变直接影响到堆栈指针的位置发生变化,造成程

6、序无法正常工作。,18,1-9 如果某一计算任务用向量方式求解比用标量方式求解要快20倍,称可用向量方式求解部分所花费时间占总的百分比为可向量化百分比。请写出加速比与可向量化比例两者的关系曲线。解:,19,在习题1-9中,为达到加速比2,可向量化的百分比应为多少?解:,20,1-10 用一台40MHz处理机执行标准测试程序,它含的混合指令数和相应所需的时钟周期数如下:指令类型 指令数时钟周期数整数运算 450001数据传送 320002浮点 150002控制传送 80002求有效CPI、MIPS速率和程序的执行时间。,21,解答CPI=(45000*1+32000*2+15000*2+8000

7、*2)/(45000+32000+15000+8000)=1.55周期/指令,22,1-11 假设在一台40MHz处理机上运行200,000条指令的目标代码,程序主要由四种指令组成。根据程序跟踪实验结果,已知指令混合比和每种指令所需的指令数如下:指令类型 CPI 指令混合比算术和逻辑 160%高速缓存命中的加载/存储 218%转移 412%高速存储缺失的存储器访问 810%(a)计算在单处理机上用上述跟踪数据运行程序的平均CPI。(b)根据(a)所得的CPI,计算相应的MIPS速率。,23,解答(a)=2.24(b),第一章,24,第2章 指令系统,数据表示由硬件直接识别和引用的数据类型,25

8、,第2章 指令系统,动态再定位动态再定位采用基址寻址方法。当把程序装入主存时,对程序不做任何修改(变换),直接装入主存,同时将程序在主存中的起始地址a存入对应该道程序的基址寄存器。在执行指令时,通过地址加法器将逻辑地址加上基址寄存器的内容(程序基点地址),形成物理地址,然后访存,26,第2章 指令系统,功能型指令真正执行数据变换的指令,如加、减、乘、除等哈夫曼压缩概念当各种事件发生的概率不均等时,使用概率高的事件用短代码表示,使用概率低的事件用长代码表示,就会使平均位数缩短。哈夫曼编码是最优化的编码方法,27,第2章 指令系统,CISC增强原有指令的功能,设置更为复杂、但功能更强的新指令以取代

9、原先由软件子程序完成的功能,实现软件功能的硬化。按这种途径和方向发展,会使机器的指令系统越来越庞大和复杂,因此称采用这种途径设计而成的CPU的计算机为复杂指令集计算机CISC,28,第2章 指令系统,RISC减少指令总数,简化指令功能,以降低硬件设计的复杂度,提高指令的执行速度。按这种途径和方向发展,会使机器的指令系统精炼简单,因此称采用这种途径设计而成的CPU的计算机为精简指令集计算机RISC,29,第2章 指令系统,2-1数据表示是指由硬件直接识别和引用的数据类型数据结构反映的是各种数据元素或信息单元之间的结构关系,30,第2章 指令系统,数据结构是通过软件映像成机器所具有的各种数据表示实

10、现的数据表示是数据结构的组成元素数据表示为数据结构提供不同程度的支持,反映在效率和方便程度的不同因此,数据结构与数据表示是软、硬交界面,31,第2章 指令系统,习题2-41、等长二进制编码平均码长为 log214+1=42、Huffman编码首先构造Huffman树,32,第2章 指令系统,33,第2章 指令系统,平均码长为Pi*Li=(0.01+0.01)6+(0.02+0.02+0.03+0.03+0.04)5+0.044+(0.11+0.12+0.13+0.14+0.15+0.15)3=3.38,34,第2章 指令系统,3、只有两种码长的扩展操作码编码使用频度高的用短代码表示。根据Huf

11、fman编码和指令使用频度,可以设计出具有3位和6位码长的操作码。操作码编码如下:,35,第2章 指令系统,36,第2章 指令系统,平均码长为Pi*Li=(0.15+0.15+0.14+0.13+0.12+0.11+0.04)3+(0.04+0.03+0.03+0.02+0.02+0.01+0.01)6=3.48,37,3-5位操作码编码如下:,38,第2章 指令系统,平均码长为Pi*Li=(0.15+0.15+0.14+0.13+0.12+0.11)3+(0.04+0.04+0.03+0.03+0.02+0.02+0.01+0.01)5=3.40,39,2-5 一个处理机共有10条指令,各指

12、令在程序中出现的概率如下:指令 概率 Huffman 2/8扩展 3/7扩展 I1 0.25 I2 0.20 I3 0.15 I4 0.10 I5 0.08 I6 0.08 I7 0.05 I8 0.04 I9 0.03 I10 0.02,40,(1)计算这10条的操作码最短平均长度。(2)采用Huffman编码法编写这10条指令的操作码,并计算操作码的平均长度和信息冗余量。(3)采用2/8扩展编码法编写这10条指令的操作码,并计算操作码的平均长度和信息冗余量。(4)采用3/7扩展编码法编写这10条指令的操作码,并计算操作码的平均长度和信息冗余量。,41,第2章,(1)最优Huffman H=

13、-Pilog2Pi=0.252+0.202.322+0.152.737+=2.96,42,0.15,1.00,0.43,0.57,0.03,0.02,0.08,0.05,0.04,0.23,0.17,0.32,0.13,0.09,0.05,0.08,0.25,0.20,0.10,0,1,I1,I2,I3,I4,I5,I6,I7,I8,I9,I10,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,43,(2)采用最小概率合并法H=PiLi=0.252+0.202+0.153+0.103+0.084+0.084+0.055+0.045+0.035+0.025=2.99信息冗余=1-

14、2.96/2.99=1%,44,指令 概率 Huffman I1 0.25 00 I2 0.20 10 I3 0.15 010 I4 0.10 110 I5 0.08 0110 I6 0.08 1110 I7 0.05 01110 I8 0.04 01111 I9 0.03 11110 I10 0.02 11111,45,0.15,1.00,0.43,0.57,0.03,0.02,0.08,0.05,0.04,0.23,0.17,0.32,0.13,0.09,0.05,0.08,0.25,0.20,0.10,0,1,I1,I2,I3,I4,I5,I6,I7,I8,I9,I10,46,(2)采用

15、最小概率合并法H=PiLi=0.252+0.202+0.153+0.103+0.084+0.084+0.054+0.045+0.036+0.026=2.99信息冗余=1-2.96/2.99=1%,47,指令 概率 Huffman I1 0.25 00 I2 0.20 10 I3 0.15 010 I4 0.10 110 I5 0.08 0110 I6 0.08 1111 I7 0.05 1110 I8 0.04 01110 I9 0.03 011111 I10 0.02 011110,48,(3)采用2/8扩展法 H=PiLi=(0.25+0.20)2+(0.15+0.10+0.08+0.08

16、+0.05+0.04+0.03+0.02)4=3.1 信息冗余=1-2.96/3.1=4.5%,49,指令 概率 2/8扩展 I1 0.25 00 I2 0.20 01 I3 0.15 1000 I4 0.10 1001 I5 0.08 1010 I6 0.08 1011 I7 0.05 1100 I8 0.04 1101 I9 0.03 1110 I10 0.02 1111,50,(4)采用3/7扩展法 H=PiLi=(0.25+0.20+0.15)2+(0.10+0.08+0.08+0.05+0.04+0.03+0.02)5=3.2 信息冗余=1-2.96/3.2=7.5%,51,指令 概

17、率 3/7扩展 I1 0.25 00 I2 0.20 01 I3 0.15 10 I4 0.10 11000 I5 0.08 11001 I6 0.08 11010 I7 0.05 11011 I8 0.04 11100 I9 0.03 11101 I10 0.02 11110,52,指令 概率 Huffman 2/8扩展 3/7扩展 I1 0.25 00 00 00 00 I2 0.20 10 10 01 01 I3 0.15 010 010 1000 10 I4 0.10 110 110 1001 11000 I5 0.08 0110 0110 1010 11001 I6 0.08 111

18、0 1111 1011 11010 I7 0.05 01110 1110 1100 11011 I8 0.04 01111 01110 1101 11100 I9 0.03 11110 011111 1110 11101 I10 0.02 11111 011110 1111 11110,53,第2章 指令系统,习题2-6已知指令字长为12位,地址码长为3位则三地址指令的操作码码长为3位,单地址指令的操作码码长为9位,零地址指令的操作码码长为12位因此,只要按3-9-12扩展操作码进行编码,看是否能容纳所有指令即可。一种可能的编码方案如下:,54,第2章 指令系统,4条,254条,8条,8条,1

19、6条,55,第2章 指令系统,可以看出,三地址指令和零地址指令不存在问题,但无法容纳255条单地址指令。但能容纳254条单地址指令,56,第3章 总线、中断、输入输出系统,3-3 根据题意,TS=9.8s,TD=0.2 s因此,该通道的极限流量为1/TS+TD=1/9.8+0.2=100KBps低速设备每隔500 s发送一个字节数据传送请求,因此,每个设备的实际流量为1/500=2KBps,单位,57,第3章 总线、中断、输入输出系统,根据 fmax=f实际,该通道最多可以连接100/2=50台这样的低速设备,58,第3章 总线、中断、输入输出系统,根据题意,该通道的极限流量为fmax=102

20、4/9.8+1024*0.2=1/0.2096对比给出的数据传送请求的时间间隔,可以确定:B、C、E、F 可以挂在此通道上,A、D 不可以(比0.2096快),59,3-8 一个字节多路通道连接有5台设备,它们的数据传输率如下表:,60,(1)计算这个字节多路通道的实际工作流量。(2)为了使通道能够正常工作,请设计通道的最大流量和工作周期。(3)当这个字节多路通道工作在最大流量时,5台设备都在0时刻同时向通道发出第一次传送数据的请求,并在以后的时间里按照各自的数据传输速率连续工作。画出通道分时为各台设备服务的时间关系图,并计算这个字节多路通道处理完各台设备的第一次数据服务请求的时刻。,61,解

21、:(1)实际工作流量fBYTE=100+33.3+33.3+20+10=196.6KB/s(2)最大流量=200 KB/s 工作周期 t=1/fBYTE=1/200K=5s,第3章,62,(3),第3章,通道处理完各台设备的第一次数据服务请求的时刻分别为:5s,10s,20s,30s,90s。,63,3-9 一个字节多路通道连接有4台设备,每台设备发出输入输出服务请求的时间间隔、它们的服务优先级和发出第一次服务请求的时刻如下表:,64,(1)计算这个字节多路通道的实际流量和工作周期。(2)在数据传送期间,如果通道选择一次设备的时间为3s,传送一个字节的时间为2s,画出这个字节多路通道响应各设备

22、请求和为设备服务的时间关系图。(3)从(2)时间关系图中,计算通道处理完成各设备第一次服务请求的时刻。(4)从(2)时间关系图中看,这个字节多路通道能否正常工作?(5)在设计一个字节多路通道的工作流量时,可以采用哪些措施来保证通道能够正常工作?,65,解:(1)数据传输率D1=1/10=100KB/sD2=1/75=13.3KB/sD3=1/15=66.7KB/sD4=1/50=20KB/s实际工作流量fBYTE=100+13.3+66.7+20=200KB/s 工作周期 t=1/fBYTE=1/200K=5s,66,(2),第3章,(3)通道处理完各台设备的第一次数据服务请求的时刻分别为:5

23、s,160s,20s,40s。,67,(4)此字节多路通道不能正常工作,因为D2的第一次服务请求被响应之前,设备已经发出第二次服务请求,这就可能导致丢失数据。(5)可以采用3种措施来保证通道能够正常工作:增加通道的最大流量。动态改变设备的优先级。增加一定的数据缓冲器。,68,第4章 存储体系,地址的变换程序按某种地址映象关系装入主存后,运行时如何把多用户虚地址变换成实地址,69,第4章 存储体系,存储层次(体系)利用多种不同的存储器,形成M1至Mn的不同层次的存储器系统。并利用I/O处理机和操作系统、硬件等技术,由增设的辅助软、硬件自动完成地址变换、程序定位等工作,使这些存储器形成一个整体。,

24、70,第4章 存储体系,存储层次(体系)从整体上看,速度接近M1,容量是Mn的,位价格接近廉价的Mn。将这样的存储器系统称为存储体系。,71,第4章 存储体系,程序局部性程序在执行时所用到的指令和数据的分布不是随机的,而是相对地簇聚成块或页。它包括时间局部性和空间局部性。,72,第4章 存储体系,时间局部性是指最近的未来要用到的信息可能就是当前正在使用的信息这是由程序的循环造成的空间局部性是指最近的未来要用到的信息可能就是当前信息的相邻信息这是由程序的顺序执行造成的,73,第4章 存储体系,4-1在页式虚拟存储器中,若所要访问的虚页不在主存,我们称此现象为页面失效。把两个或两个以上的虚页想进入

25、主存中的同一页面位置的现象称为页面争用或实页冲突。,74,第4章 存储体系,当所要访问的虚页不在主存,而所要进入主存中的页面又未被占用时,两者不会同时发生若所要进入主存中的页面已经被占用,则两者会同时发生。对全相联映象,只有主存全被占满时才会同时发生,75,4-2 对于一个由两个存储器M1和M2构成的存储系统,设M1的命中率为h,两个存储器的存储容量分别为s1和s2,访问速度分别为t1和t2,每千字节的价格分别为c1和c2?(1)在什么条件下,整个存储系统的每千字节平均价格会接近于c2?(2)写出这个存储系统的等效访问时间ta的表达式。(3)假设存储系统的访问效率e=t1/ta,两个存储器的速

26、度比r=t2/t1。试以速度比r和命中率h来表示访问效率e。,76,(4)如果r=100,为了使访问效率e0.95,要求命中率h是多少?(5)对于(4)所要求的命中率实际上很难达到。假设实际的命中率只能达到0.96。现采用一种缓冲技术来解决这个问题。当访问M1不命中时,把包括被访问数据在内的一个数据块都从M2取到M1中,并假设被取到M1中的每个数据平均可以被重复访问5次。请设计缓冲深度(即每次从M2取到M1中的数据块的大小)。,77,S2S1时,CC2,4-2 解:(1),(2),ta=ht1+(1-h)t2,78,(3),(4),r=100时,,第4章,0.95=1/(100-99h)h=0

27、.99947,79,n=75.475m=n m=15.1,(5),重复访问必考,80,4-3 在页式虚拟存储器中,一个程序由P1P5共5个页面组成。在程序执行过程中依次访问到的页面如下:P2,P3,P2,P1,P5,P2,P4,P5,P3,P2,P5,P2假设系统分配给这个程序的主存有3个页面,分别采用FIFO、LRU和OPT三种页面替换算法对这3页主存进行调度。(1)画出主存页面调入、替换和命中的情况表。(2)统计三种页面替换算法的页命中率。,81,4-3 解:(1)FIFO,1 2 3 4 5 6 7 8 9 10 11 12 2 3 2 1 5 2 4 5 3 2 5 2,中*中*中*,

28、第4章,82,(2)LRU,1 2 3 4 5 6 7 8 9 10 11 12 2 3 2 1 5 2 4 5 3 2 5 2,中*中*中*中 中,第4章,83,(2)LRU堆栈法,1 2 3 4 5 6 7 8 9 10 11 12 2 3 2 1 5 2 4 5 3 2 5 2,中*中*中*中 中,84,(3)OPT,1 2 3 4 5 6 7 8 9 10 11 12 2 3 2 1 5 2 4 5 3 2 5 2,中*中*中 中*中 中,第4章,85,(2)FIFO算法页 H=3/12=25%LRU算法页 H=5/12=41.7%OPT算法页 H=6/12=50%,第4章,86,4-

29、4 假设在一个采用组相联映象方式的Cache中,主存由B0B7共8块组成,Cache有两组,每组两块,每块的大小为16个字节,采用LRU块替换算法。在一个程序执行过程中依次访问这个Cache的块地址流如下:B6,B2,B4,B1,B4,B6,B3,B0,B4,B5,B7,B3(1)写出主存地址的格式,并标出各字段的长度。(2)写出Cache地址的格式,并标出各字段的长度。必须用书上的算法,87,(3)画出主存与Cache之间各个块的映象对应关系。(4)采用LRU替换算法,计算Cache的块命中率。(5)如果改为全相联映象方式,再做(4),可以得出什么结论?(6)如果在程序执行过程中,每从主存装

30、入一块到Cache,则平均要对这个块访问16次。请计算在这种情况下的Cache命中率。,88,第4章,4-4 解:,标记 组号 块内地址,组号 组内块号 块内地址,(1)主存地址格式,2,1,1,1,(2)Cache地址格式,4,4,先写cache地址,89,(3),组0,组1,组间直接映象组内全相联映象,Cache,主存,标记00,标记01,标记10,标记11,90,1 2 3 4 5 6 7 8 9 10 11 12 6 2 4 1 4 6 3 0 4 5 7 3,*中*,(4)LRU利用堆栈法,块命中率 H=1/12=8.3%,91,1 2 3 4 5 6 7 8 9 10 11 12

31、6 2 4 1 4 6 3 0 4 5 7 3,中 中*中*,(5)LRU,块命中率 H=3/12=25%,92,1 2 3 4 5 6 7 8 9 10 11 12 6 2 4 1 4 6 3 0 4 5 7 3,中 中*中*,(5)LRU利用堆栈法,块命中率 H=3/12=25%,93,(6)=1-(1-0.25)/(16*16)=0.997,命中率的两个公式必考对应不同的情况一个是“重环”?注意n的含义,94,第4章 存储体系,4-5页式虚拟存储器采用全相联地址映象与变换会发生页面失效的虚页号有:2,3,5,7,95,第4章 存储体系,装入位为1才可以变,96,第4章 存储体系,4-6,

32、97,第4章 存储体系,4-7地址字段及其对应关系,1,1,1,2,1,cache地址,主存地址,98,第4章 存储体系,组0,组1,组间直接映象组内全相联映象,Cache,主存,99,第4章 存储体系,时刻,地址流,命中,替换,替换,替换,替换,替换,命中,替换,替换,替换,替换,100,第4章 存储体系,块失效同时又发生块争用的时刻是:(条件必考,什么情况下才发生)6,7,8,9,10,11,12,14,15Cache的命中率为2/15=13.3%,101,第5章 重叠、流水、向量处理机,流水线吞吐率指流水线单位时间内能处理的指令条数或能输出的结果数流水线效率指流水线中的设备实际使用时间占

33、整个运行时间之比,也称为流水线的设备时间利用率,102,第5章 重叠、流水、向量处理机,全局性相关由转移指令引起的相关,会影响后续指令和指缓中的指令。它对流水线的影响是全局的,指缓中的指令可能要全部作废,流水线会断流,使吞吐率和效率下降等。我们把由转移造成的指令之间关联称为全局性相关,103,第5章 重叠、流水、向量处理机,局部性相关指令相关、主存操作数相关、通用寄存器组操作数相关和通用寄存器组基址或变址值相关等只影响相关的两条或几条指令,并不会改变已经预取到指令缓冲器中指令,其影响是局部的,因此称之为局部性相关,104,第5章 重叠、流水、向量处理机,先写后读相关机器同时解释执行多条指令时,

34、这些指令对同一存储单元要求先写入而后读出的关联,105,第5章 重叠、流水、向量处理机,向量处理机向量适合于流水处理。一般将向量数据表示与流水处理方式结合在一起,构成向量流水处理机,也称其为向量处理机,以提高主要面向向量数组计算类应用的计算机的速度性能,106,5-1 假设一条指令的执行过程分为“取指令”、“分析”和“执行”三段,每一段的时间分别为t、2 t 和3 t。在以下各种情况下,分别写出连续执行n条指令所需要的时间表达式。(1)顺序执行方式。(2)仅“取指令”和“执行”重叠。(3)“取指令”、“分析”和“执行”重叠。必考觉得难的话先画图,107,5-1 解:,第5章,108,(1)(t

35、取指+t分析+t执行)n T=(t+2 t+3 t)n=6nt(2)t取指+nt分析+(n-1)maxt取指,t执行+t执行 T=t+(2 t+3 t)n=(1+5n)t(3)t取指+maxt取指,t分析+(n-2)maxt取指,t分析,t执行+maxt分析,t执行+t执行 T=t+2 t+3 t n=(3+3n)t,第5章,109,第5章 重叠、流水、向量处理机,5-2假设指令的解释分取指、分析和执行3步,每步的时间相应为t取指、t分析、t执行,(1)分别计算下列几种情况下,执行完100条指令所需时间的一般关系式:顺序方式;仅“执行k”与“取指k+1”重叠;仅“执行k”、“分析k+1”、“取

36、指k+2”重叠。(2)分别在t取指=t分析=2、t执行=1及t取指=t执行=5、t分析=2两种情况下,计算出上述各结果。,110,第5章 重叠、流水、向量处理机,111,第5章 重叠、流水、向量处理机,(1)执行100条指令所需的时间:100(t取指+t分析+t执行)t取指+100t分析+99maxt取指,t执行+t执行 t取指+maxt取指,t分析+98maxt取指,t分析,t执行+maxt分析,t执行+t执行(2)当t取指=t分析=2、t执行=1时,可求得执行100条指令所需时间:500 401 203t取指=t执行=5、t分析=2时,可求得执行100条指令所需时间:1200 705 51

37、0,112,第5章 重叠、流水、向量处理机,5-3 流水线由4个功能部件组成,每个功能部件的延迟时间为t。当输入10个数据后,间歇5t,又输入10个数据,如此周期性地工作,求此时流水线的吞吐率,并画出时空图。,113,第5章 重叠、流水、向量处理机,TP=10/14 t=5/7 t,注意从哪里开始停,10的哪个位置,114,第5章 重叠、流水、向量处理机,5-4,115,第5章 重叠、流水、向量处理机,实际吞吐率TP=4/22t=2/11t效率=(342t+44t)/422t=40t/88t=5/11=45.5%,这一章必须会画图会计算,116,第5章 重叠、流水、向量处理机,为加快流水,使流

38、水线每隔2t 流出一个结果,应减少段的经过时间至t。此时,流水线的实际吞吐率和效率为:(瓶颈的解决办法)TP=4/14t=2/7t=(342t+81t)/414t=32t/56t=4/7=57%,117,5-5一条线性流水线由4个流水段组成,每个流水段的延迟时间都相等,都为t。开始5个t,每隔一个t 向流水线输入一个任务,然后停顿2个t,如此重复。求流水线的实际吞吐率、加速比和效率。注意 间隔。停顿。2个,118,5-5 解:,第5章,119,TP=5/(7t)=0.714/t S=(54t+2t)/7t=22t/(7t)=3.14 E=45t/(47t)=0.714=71.4%,第5章,12

39、0,第5章 重叠、流水、向量处理机,5-6为提高流水线效率可采用哪两种主要途径来克服速度瓶颈?现有3段流水线,各段经过时间依次为t、3t、t。(1)分别计算在连续输入3条指令时和30条指令时的吞吐率和效率。(2)按两种途径之一改进,画出流水线结构示意图,同时计算连续输入3条指令和30条指令时的吞吐率和效率。,121,(1)连续输入3条指令时的吞吐率TP3=3/(5t+(3-1)*3 t)=3/11 t效率3=(3*5t)/(3*11t)=5/11=45.5%连续输入30条指令时的吞吐TP30=30/(5t+(30-1)*3t)=15/46 t效率30=(30*5t)/(3*92t)=25/46

40、=54.3%,122,为提高流水线效率,可采取瓶颈段再细分和瓶颈段并联两种途径。连续输入3条指令和30条指令时的吞吐率和效率分别为TP3=3/(5t+(3-1)t)=3/7 t3=(3*5t)/(5*7t)=3/7=42.9%TP30=30/(5t+(30-1)*t)=15/17 t30=(30*5t)/(5*34t)=15/17=88.2%,123,第5章 重叠、流水、向量处理机,5-12禁止表F=1,3,4,8冲突向量C=(10001101)流水线状态图如下:五个步骤:禁止表含义:间隔的拍数,最大值冲突向量含义:最低位从哪开始,向量的长度就是里面的最大值,124,第5章 重叠、流水、向量处

41、理机,5,7,画向量表随着流水线往前走只是右移补零右移多少位然后或操作,125,第5章 重叠、流水、向量处理机,能找到就可以,如果题目没要求全找不用全找,126,第5章 重叠、流水、向量处理机,最小平均延迟=3.5 拍最大吞吐率TPMAX=1/3.5t调度方案为(2,5),127,第5章 重叠、流水、向量处理机,按(2,5)调度方案,当输入6个任务时,任务调度及完成情况如下:任务:1 2 3 4 5 6所需拍数:9 2 5 2 5 2实际吞吐率TP=6/(9+2+5+2+5+2)t=6/25t 没要求的就不要画图,直接计算简单,还要对齐作图的工具,128,第5章 重叠、流水、向量处理机,129

42、,5-17 设指令由取指、分析、执行三个子部件组成。每个子部件经过时间为t,连续执行12条指令。请分别画出在常规标量流水处理机及度m均为4的超标量处理机、超长指令字处理机、超流水线处理机上工作的时空图,分别计算它们相对常规标量处理机的加速比SP。,第5章,超标量、常规标量:概念必须清楚,130,常规标量流水处理机,第5章,131,度m=4的超标量处理机,第5章,加速比SP=14 t/5t=2.8,132,度m=4的超长指令字处理机,第5章,加速比SP=14 t/5t=2.8,133,度m=4的超流水线处理机,第5章,加速比SP=14 t/5.75t=2.43,阶梯状1/n,134,6-1 画出

43、16台处理器仿ILLIAC 的连接模式进行互连的互连结构图,列出PE0分别经一步、二步和三步传送,能将信息传送到的各处理器号。,第6章,135,第6章,环怎么连除了画图表达还要搞清楚互联函数,136,PE0(PU0)经一步可将信息传送至PU1、PU4、PU12、PU15。PE0(PU0)至少需经二步才能将信息传送至PU2、PU3、PU5、PU8、PU11、PU13、PU14。PE0(PU0)至少需经三步才能将信息传送至PU6、PU7、PU9、PU10。,第6章,137,6-2 编号为0、1、15的16个处理器用单级互连网络互连。当互连函数分别为(1)Cube3(2)PM2+3(3)PM2-0(

44、4)Shuffle(5)Shuffle(Shuffle),第6章,单级,138,16个处理器的编号可用4位二进制P3P2P1P0表示,其中第13号处理器的二进制编号为1101。(1)Cube3=P3P2P1P0=01012=5。(2)PM2+3=j+23(mod 16)=13+8(mod 16)=5(3)PM2-0=j-20(mod 16)=13-1(mod 16)=12(4)Shuffle=P2P1P0P3=10112=11(5)Shuffle(Shuffle)=P1P0P3P2=01112=7,第6章,互联函数必须都记住建立一个 欧米茄 欧米茄网络是什么网络典型的是16个控制信号:用的是什么控制信号,级控制还是单元控制=路线不同同一个信号控制下,同路存在,可同时通信但如果用到同一个开关,而且方向相反,必须注意,139,Amdahl定律练习!必考如果改进的是两部分,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号