多核处理器体系结构及并行程序设计.ppt

上传人:牧羊曲112 文档编号:5953837 上传时间:2023-09-08 格式:PPT 页数:37 大小:775.50KB
返回 下载 相关 举报
多核处理器体系结构及并行程序设计.ppt_第1页
第1页 / 共37页
多核处理器体系结构及并行程序设计.ppt_第2页
第2页 / 共37页
多核处理器体系结构及并行程序设计.ppt_第3页
第3页 / 共37页
多核处理器体系结构及并行程序设计.ppt_第4页
第4页 / 共37页
多核处理器体系结构及并行程序设计.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《多核处理器体系结构及并行程序设计.ppt》由会员分享,可在线阅读,更多相关《多核处理器体系结构及并行程序设计.ppt(37页珍藏版)》请在三一办公上搜索。

1、1,多核处理器体系结构及并行程序设计,天津大学 于策,http:/http:/,2,Outline,多核处理器简介并行程序设计方法学(PCAM)科研及技术(天津大学SRDC及IBM技术中心),http:/http:/,3,Outline,多核处理器简介并行程序设计方法学(PCAM)科研及技术(天津大学SRDC及IBM技术中心),http:/http:/,4,什么是多核处理器?,两个或多个独立运行的内核集成于同一个处理器上面双核处理器=一个处理器上包含2个内核多核处理器=一个处理器上包含2个或多个内核,http:/http:/,5,为什么要采用多核技术?,http:/http:/,6,最终目标:

2、提升用户的体验,摩尔定律 不断发展和改进处理器的性能最大限度地利用越来越多的晶体管实现最优的价值缩减处理时间,提高计算能力开发平台的新特性和新功能,http:/http:/,7,通过并行方式改进处理器的性能,http:/http:/,8,多核技术的发展,Pentium 4with HT,Dual Xeon Processors,Dual Core,2 Threads1 Package,2 Threads2 Packages,2 Threads1 Package,Two independent execution cores in the same processor,http:/http:/,

3、9,几种不同的技术,HT Hyper Threading:2 threads running on the same processor core处理器上的某些资源会被共享使用相同的缓存和运算器DC Dual Core:2 execution cores in the same processor package共享系统总线与双处理器的性能相同DP/MP Dual/Multi-Processing:2 or more processors in the same system只共享系统总线,独立缓存高性能,资源冲突少,http:/http:/,10,双核技术 VS.超线程技术,双核是真正意义上

4、的双处理器 不会发生资源冲突每个线程拥有自己的缓存、寄存器和运算器一个3.2GHz Smithfiled在性能上并非等同于3.2GHz P4 with HT 的2倍HT 使处理器的性能至少提升了1/3 双核的性能相当于2块 non-HT 处理器双核技术与HT技术在性能上的对比Ex 1:两个floating point线程(Smithfield client)每个线程拥有自己的FPU,没有资源冲突尽管性能上没有提升太多,但仍然优于HTEx 2:一个integer线程与一个floating point线程性能大幅度提升没有资源冲突,http:/http:/,11,Single core,With

5、HT(Eg.Pentium 4 Processor With HT)Integer and Floating Point Threads,L2 Cache and Control,L2 Cache and Control,L1 D-Cache and D-TLB,Schedulers,Integer,Trace Cache,Rename/Alloc,uop Queues,BTB,uCodeROM,3,3,Decoder,BTB&I-TLB,FloatingPoint,2 threads can be executed at the same time(per processor)if they

6、re not competing for the same execution resource,http:/http:/,12,Single core,With HT(Eg.Pentium 4 Processor with HT)Two Floating Point Threads,2 threads CANNOT be executed at the same time(per processor)if theyre competing for the same execution resource(eg.2 floating point threads in a P4P architec

7、ture),http:/http:/,13,Dual core,Without HT(Eg.Pentium D Processor)Two Floating Point Threads,Even 2 floating pointthreads can be executedat the same time now(per processor)as there are multiple floating point execution units,http:/http:/,14,Dual core,With HT(Eg.Dual Core Pentium Processor Extreme Ed

8、ition)Supports HTMultiple Integer and Floating Point Threads,With dual core&HT together,maximum#of threads that can be executed at a time is 4 per processor,http:/http:/,15,多核技术与超线程技术的结合,产 量 多功能 功 效,Dual Core with Hyper-Threading4 threads/socket,Dual Core2 threads/socket,http:/http:/,16,AMD与Intel双核架

9、构的对比,AMD Opteron双核架构示意图,Intel 奔腾至尊版双核架构示意图,http:/http:/,17,多核面临的困难,如何计算软件授权?按CPU个数收取软件授权费用按芯片个数收取软件授权费用应用软件是否支持?如果应用程序是基于多处理器编写的如果应用程序是基于单处理器编写的双核发热大,散热是难题,http:/http:/,18,DualCore、SMP、Cluster,http:/http:/,19,Outline,多核处理器简介并行程序设计方法学(PCAM)科研及技术(天津大学SRDC及IBM技术中心),http:/http:/,20,PCAM设计方法学,划分(Partitio

10、ning)通讯(Communication)组合(Agglomeration)映射(Mapping),http:/http:/,21,PCAM设计方法学,设计并行算法的四个阶段划分(Partitioning)通讯(Communication)组合(Agglomeration)映射(Mapping)划分:分解成小的任务,开拓并发性;通讯:确定诸任务间的数据交换,监测划分的合理性;组合:依据任务的局部性,组合成更大的任务;映射:将每个任务分配到处理器上,提高算法的性能。,http:/http:/,22,PCAM设计过程,http:/http:/,23,域分解,划分的对象是数据,可以是算法的输入数据

11、、中间处理数据和输出数据;将数据分解成大致相等的小数据片;划分时考虑数据上的相应操作;如果一个任务需要别的任务中的数据,则会产生任务间的通讯;,http:/http:/,24,域分解,示例:三维网格的域分解,各格点上计算都是重复的。下图是三种分解方法:,http:/http:/,25,功能分解,划分的对象是计算,将计算划分为不同的任务,其出发点不同于域分解;划分后,研究不同任务所需的数据。如果这些数据不相交的,则划分是成功的;如果数据有相当的重叠,意味着要重新进行域分解和功能分解;功能分解是一种更深层次的分解。,http:/http:/,26,划分判据,划分是否具有灵活性?划分是否避免了冗余计

12、算和存储?划分任务尺寸是否大致相当?任务数与问题尺寸是否成比例?功能分解是一种更深层次的分解,是否合理?,http:/http:/,27,通讯,通讯是PCAM设计过程的重要阶段;划分产生的诸任务,一般不能完全独立执行,需要在任务间进行数据交流;从而产生了通讯;功能分解确定了诸任务之间的数据流;诸任务是并发执行的,通讯则限制了这种并发性;,http:/http:/,28,通讯判据,所有任务是否执行大致相当的通讯?是否尽可能的局部通讯?通讯操作是否能并行执行?同步任务的计算能否并行执行?,http:/http:/,29,组合,组合是由抽象到具体的过程,是将组合的任务能在一类并行机上有效的执行;合并

13、小尺寸任务,减少任务数。如果任务数恰好等于处理器数,则也完成了映射过程;通过增加任务的粒度和重复计算,可以减少通讯成本;保持映射和扩展的灵活性,降低软件工程成本;,http:/http:/,30,组合判据,增加粒度是否减少了通讯成本?重复计算是否已权衡了其得益?是否保持了灵活性和可扩放性?组合的任务数是否与问题尺寸成比例?是否保持了类似的计算和通讯?有没有减少并行执行的机会?,http:/http:/,31,映射,每个任务要映射到具体的处理器,定位到运行机器上;任务数大于处理器数时,存在负载平衡和任务调度问题;映射的目标:减少算法的执行时间并发的任务 不同的处理器任务之间存在高通讯的 同一处理

14、器映射实际是一种权衡,属于NP完全问题,http:/http:/,32,映射判据,采用集中式负载平衡方案,是否存在通讯瓶颈?采用动态负载平衡方案,调度策略的成本如何?,http:/http:/,33,Outline,多核处理器简介并行程序设计方法学(PCAM)科研及技术(天津大学SRDC及IBM技术中心),http:/http:/,34,技术力量,天津大学IBM新技术中心(http:/)共享大学研究(SUR)软件技术培训Lotus(协同工作)WebSphere(J2EE)Rational(应用程序设计与开发)DB2(数据库与商务智能)AIX/Linux(操作系统管理)Eclipse(程序开发,

15、IDE设计)全球专业认证,http:/http:/,35,科研情况,天津大学软件研究与开发中心(http:/)网格计算,分布式与并行计算可视化与图像处理虚拟现实数字艺术与动画真实感图形网络与信息安全智能Agent,语义网嵌入式系统,http:/http:/,36,Lotus Workplace 产品家族,Lotus Domino(服务器,邮件及应用程序)Lotus Notes(客户端)Lotus Designer(应用程序设计开发环境)Lotus Document Manager(文档管理)Lotus Workflow(工作流)Lotus Enterprise Integrator(企业集成)Lotus Instant Messaging and Web Conferencing(消息),http:/http:/,37,Eclipse(http:/),

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号