最新GPU HPC集群方案.docx_三一办公31ppt.com

资源描述

《最新GPU HPC集群方案.docx》由会员分享，可在线阅读，更多相关《最新GPU HPC集群方案.docx（26页珍藏版）》请在三一办公上搜索。

1、XXXX大学XXXX系统仿真平台建设方案XXXX科技有限公司2016.2123456789101112131415161718目录19 第一章概述420 1.1高性能计算环境发展的趋势 421 1.1.1更高、更全面的性能要求422 1.1.2向通用化方向发展.523 1.1.3更加严格的预算约束524 1.1.4使用商品化部件625 1.2高性能计算应用的特点726 1.3高性能计算主机性能评价体系727 第二章设计方案828 2.1系统设计原则829 2.2总体方案结构 1030 2.3计算服务器方案 1131 2.3.1 GPU计算节点服务器型号及配置.1132 2.3.2基于KEPLE

2、R的nvidia芯片GPU加速技术1333 2.3.3高性能计算环境1434 2.3.4计算任务提交及管理1435 2.4 Cluster计算集群方案 1536 2.4.1宝德Cluster计算集群结构1537 2.4.2Cluster节点系统配置1738 2.4.3节点互连、管理和用户网络1939 2.4.4Cluster计算集群节点管理2040 2.4.5Cluster计算集群作业管理2241 2.4.6宝德Cluster计算集群的特点和优势2342 2.5高性能计算外接存储需求分析2343 2.6方案的优势 2444 第三章产品清单2545464748495051525354555657

3、585960616263646566676869第一章概述XXXX非常荣幸能为XXXX系统仿真平台系统建设提出建议。我公司推荐了先进的系统建设方案，考虑了系统的实用性、高可用性、安全性、可管理性以及灵活扩展能力。XXXX凭借先进的技术和出色的支持服务，相信通过双方的合作，可使中国 XXXX大脑初级视觉系统仿真平台系统建设项目顺利实施，从而为用户提供一个健壮、安全、高可用的运行环境，并进一步建立长期的友好合作关系。高性能计算系统是提高一个科研机构研究水平的重要基础设施，也是一个国家科技与经济实力的标志。它不仅是一个高速处理的计算机系统、更重要的是在其之上运行的各种应用对科学领域产生非常

4、深远的影响。20世纪90年代中后期以来，许多高性能计算应用领域越来越多地希望利用半导体和计算机技术发展的新成果通过更大规模、更精确的数值模拟和数字计算来进行新产品设计和科学研究，提高科学研究水平、厂商市场竞争力以至国家的综合国力。另一方面，人们也要求利用工业标准芯片等开放性的技术降低投资、加速开发，在规定经费预算和时间框架内完成规模越来越大的计算任务。高性能和高经济效益相结合已经成为高性能计算领域最引人注目的发展趋势。1.1高性能计算环境发展的趋势1.1.1更高、更全面的性能要求高性能技术计算是利用数值模拟和数字技术方法探索和预测未知世界的技术。这一技术广泛应用于核武器研究和核材

5、料储存仿真、生物信息技术、医疗和新药研究、计算化学、GIS、CAE、全球性长期气象、天气和灾害预报、工艺过程改进和环境保护等许多领域。近年来，随着研究的深入和竞争的加剧，各70717273747576777879808182838485868788899091929394个领域越来越多地使用模拟的方法来解决科研和生产中的实际问题。模拟的模型越来越大、计算的精度越来越高、对超级计算机性能要求也越来越高。例如，在一个3维模型中，如果把从每个方向取100个分点增加取到1000个分点，对计算机资源的需求将增加1000倍以上。高性能计算应用不仅规模越来越大，而且往往必须在规定的时间内完成任务

6、否则就失去了计算的价值（如天气预报、传染病防治）。这就对计算机系统的计算能力、系统带宽、内存容量、存储设备和I/O吞吐能力以及应用软件的开发技术都提出了更高、更全面的要求。1.1.2向通用化方向发展过去人们一般把计算机应用分为科学计算、信息处理和自动控制等类型。其中，以信息处理为主的应用统称企业应用，是市场容量最大的应用领域。早期的企业应用与高性能计算应用有很大的差别，涉及的计算比较简单、使用的数据量也不大，对计算机系统的主要要求是能够支持大量用户（包括网上用户）进行事务处理如信息输入、查询和统计等，而对于计算能力、存储容量要求也不高。因此，高性能计算应用往往使用与企业应用不同的

7、系统，影响了产品批量的扩大。当前，人类正在从工业化社会进入信息社会，技术的持续创新、市场需求的瞬息万变、竞争空间的迅速扩大，要求企业采用Internet、电子商务、电子商务企业等现代化手段，来适应时代的发展。许多新型的企业应用对计算能力、存储容量和系统带宽的要求都越来越高、越来越迫切，高性能计算应用和其他类型应用的界限也日益淡化。当前，几乎所有应用领域都需要使用能够提供高计算能力、系统带宽和存储容量的计算机系统，促使用户选择相同的系统满足各种类型的需求，为利用大批量、低成本的通用产品满足高性能计算应用需求创造了有利的条件。1.1.3更加严格的预算约束随着竞争的加剧和应用的普及

8、，高性能计算不再是一个不惜工本的应用领域，许多项目的预算约束越来越严格。这就要求厂商生产全系列的产品满足不9596979899100101102103104105106107108109110111112113114115116117118同规模应用的需求、更加可靠地保护用户原有投资、加速口投资回报，而且也要求实现资源按需供应和更大范围的资源共享，推动了网格和公用服务等新的计算模式的发展。1.1.4使用商品化部件为了促进高性能计算广泛应用必须降低成本，否则很难为更多的用户所接受。由于高端的高性能计算系统(特别是超级计算机)需要使用许多计算节点和互联设备等部件，因此必须保持每个部件的低

9、成本。早期的超级计算机系统使用专门定制的处理器和互联设备等部件价格非常昂贵。以后，Cray Research 公司的T3D和CRAY T3E开始使用商品化的Alpha处理器。当前商品化处理器和服务器性能日益提高、价格也日趋下降，为利用它们建立高端和超级计算机系统提供了良好的基础。为此，美国政府还推出了 ASCI计划，力图降低超级计算机系统的成本，其主要途径是尽可能采用商品化市售(COTS)硬件和软件部件，把力量集中在发展主流计算机工业不能有效地提供的专门技术。目前已经很少再有厂商使用专门的部件如向量处理器来建立超级计算机系统。今后的发展趋势是在高端和超级计算机系统中尽可能普遍地采

10、用商品化和大批量的工业标准部件，包括处理器、互联设备、I/O、存储、操作系统、语言、编译程序、编程工具和应用软件。人们注意到，基于开放性IA-32体系结构的Xeon和Pentium 4处理器的超级计算机已经在TOP500占有重要地位。新兴的Itanium处理器系列 (IPF)必将以其开放性、大批量和64位寻址和处理能力，对超级计算机水平的提高产生划时代的影响，以远比32位体系结构时代高的性能和性价比来满足日益增长的需求。我们深信，通过采用HP的高性能计算系统，必将加速XXX在高性能计算领域取得更加丰硕的科研成果。11912012112212312412512612712812913

11、01311321331341351361371381391401411421.2高性能计算应用的特点在传统意义上高性能计算应用是属于CPU和内存密集型的应用，它对所运行的计算机体系结构(超级计算机体系结构)提出了几个主要的要求:浮点计算能力(尤其是64位双精度浮点运算)，内存带宽和内存容量及体系框架。所有这些因素都是相互关联的。高性能计算通常利用各种数学方程式来建立模型和模拟物理现象。随着各种模型越来越大，越来越复杂，数据集的规模也急剧增长。例如，一个100*100*100的栅格包含100万个元素，该模型仅占用32MB内存，如果此栅格的分辨率提高10倍，这一模型就变为1000*100

12、0*1000，包含10亿个元素，此模型的原始数据将占用32GB的内存！因此不论是分布式内存还是共享式内存，要将此数据传输至内存中，由CPU处理，就需要高带宽，高容量，低延迟的体系结构，当然还需要强大的CPU进行计算。而超级计算机主要用来处理这样庞大的工作负载。这样的负载所要求的超级计算机一定是采用快速的CPU，高性能的内存和I/O子系统，旨在实现最高的运算速度。同样这样的负载所要求的超级计算机还必须采用多级别并行处理技术，能够利用几十个甚至几千个处理器来处理一项任务；这样的并行处理技术也需要超级计算机要采用高性能的互连设备和系统设计，以较高的成本去换取最高的性能。1.3高性能计

13、算主机性能评价体系衡量主机系统或处理器计算处理能力的测试体系(BenchMark)也有多种，如 SPEC、Linpack等，尤其是通过Linpack值更可以衡量一个主机系统或一个处理器芯片的实际运算能力，而不仅仅是虚的理论峰值能力。过去，人们使用系统能够达到的执行指令最大速率如每秒执行百万指令数 /浮点操作数(MIPS/MFLOPS)来量度计算机硬件性能。但是，这些量度指标的实用价值十分有限，它们只能给出理论上最大的性能，并没有全面反映计算机系143144145146147148149150151152153154155156157158159160161162163164165统的实际性

14、能如内存带宽、内存延迟和I/O性能等。此外，硬件性能量度和系统体系结构都是非标准的，使得人们很难使用它们作为服务器选型的性能指标。因此，出现了计算机系统性能基准测试的概念，即由某些中立的非盈利机构开发出一组经过精心统筹设计和组合的程序，来量度计算机系统运行这组程序的性能指标。此类程序一般称为基准测试程序。不同的计算机系统都运行同一组基准测试程序，就可以相对客观地比较计算机系统的性能。目前有许多专门设计基准测试程序和管理各种计算机系统基准测试指标的机构，其中最著名的是 SPEC 和 TPC。第二章设计方案2.1系统设计原则帮助用户建立一套既能最大限度地满足用户实际需要且技术又处于领先

15、地位的高性能计算环境是我公司为高性能计算用户设计方案的基本出发点。我们认为，中国XXXX大脑初级视觉系统仿真平台系统应具有处理大规模的复杂运算，尤其是浮点运算及图像处理的能力。它将为图形化分析提供优化工程设计、分析、验证的手段，最终实现提高设计质量、缩短计算周期、降低开发成本。方案设计以用户现场测试结果为基础，根据XXXX对未来应用模式及业务量需求预测为前提，强调高性能以及可行、合理和低风险。架构设计和系统选型遵循以下原则：1. 先进性本系统方案所采用的技术既要符合业界的发展方向，又要在未来几年内仍具有很高的技术先进性，保持在同类系统中的领先地位。这样有利于提高整个系统的计算与

16、处理能力。2. 有限投资获取最大计算性能166167168169170171172173174175176177178179180181182183184185186187在有限的投资前提下，高性能计算系统应具有优秀的处理能力，它不仅具有符合要求的峰值性能(Peak Performance)，更重要的是应具有稳定的应用性能(sustained performance)。各种复杂的研究课题在本系统中能够得到准确，快速的计算结果。3. 可扩展性系统应具有很强的扩展能力。随着对计算机系统性能的要求不断提高，该计算机系统应具有扩展能力，并且容易实现。4. 开放性和兼容性本计算机系统应符合公认的

17、工业标准，包括体系结构，硬件，I/O,网络，操作系统，开发环境和开发工具等。这样，便于和其他平台上的系统互操作。5. 应用软件丰富本系统的平台上应具有丰富的软件资源，能够提供研究课题的解决方案和相应的软件系统。我公司与高性能计算方面的独立软件开发商紧密合作，例如: Fluent,ANSYS 等专业工程软件商,Red Hat,Etnus,Pallas,Platform 等专业平台软件商，不仅提供处理节点间的协调和通信的中间件，使整个系统节点能够真正实现合作，负载均衡，还能针对不同应用需求，提供一系列并行计算应用。6. 良好的技术支持由于本系统是比较复杂的计算机环境，在使用过程中不可避免的

18、会遇到一些技术问题。当遇到这些问题时能够得到有效的支持，使问题得以圆满的解决。7. 性能价格比优越由于本系统比较庞大，价格因素也比较重要。本系统在性能价格比方面在189190191192193194195196197198199188同类系统中应具有明显的优势，对于三院三部来说在采购大型系统中应该考虑的重要因素。8. 管理简单尽量减少数据中心的设备管理难度。2.2总体方案结构针对中国XXXX大脑初级视觉系统仿真平台系统高性能计算应用的特点，结合与相关业务处室的沟通。从满足应用需求的角度出发，我们建议建立一个高可扩展、易管理的混合SMP与Cluster结构的高性能计算环境，整体方案架构

19、如下：iPR4768GW宝德F 叫顽 GS宝德 FR2750GGPUii算节点有催节点管理节点节点互连网络一用户网缗管理网络工作站1宝德FR4764GY工作站？宝德F如呻200201202203204205206207208209210211212213214215216217218我们推荐采用1台宝德服务器PR4768GW作为GPU计算节点，主要运行并行计算、图形分析等应用GPU计算节点服务器采用高性能计算操作系统环境，并运行动态资源管理工具对任务的资源分配进行管理和调度。高性能计算集群配置1个管理节点及2个存储节点，并通过用户网络和管理网络进行互联。管理节点运行管理软件实现Clust

20、er中所有节点的集中管理、配置、激活/ 关闭等，并通过软件对用户提交的任务进行作业管理。GPU节点服务器和集群管理节点通过1000Base-T千兆以太网连接到三部的骨干网中，各室工作组通过该网络申请计算资源和提交任务。GPU节点服务器和存储节点可通过扩展的IB光纤通道卡连接到SAN中，满足高性能计算环境对存储性能和空间的巨大需求。2.3计算服务器方案2.3.1 GPU计算节点服务器型号及配置根据以上分析，我们配置两台宝德PR4768GW作为GPU计算节点服务器。宝德 PR4768GW 具有两颗 E5-2690V3 12 核 CPU，256GBDDR4 内存和 8 块 NVIDIA TESL

21、A K80 GPU加速卡，非常适合做高性能计算服务器，并最多可支持32核CPU 及扩展至1.5TB内存。宝德PR4768GW如下图所示：219220 宝德PR4768GW计算服务器的配置如下:服务器型号宝德 PR4768GW处理器2 X Intel Xeon Processor E5-2690V3内存16 X 16GB/DDR4/2133/MHz/ECC/REG硬盘2TB/SATA/6Gb/128M/7200rpm/2.5 寸/企业级 1.2TB/2.5in/SATA/6Gb/s/16nm/MLCGPU加速卡8 X NVIDIA/TESLA/K80/4992C/24GB网络接口（内置）Mell

22、anox/56GB/40GB/ 单口 IB 卡X520-SR2/双口/万兆网卡/双多模SFP+模块扩展网卡1*10/100/1000Base-TDVD-ROM1*DVD+RW机柜42U, PDU221222223224225226227228229230231232233234235236237238239240241242243244245246电源风扇N+1热拔插电源风扇2.3.2基于KEPLER的nvidia芯片GPU加速技术Tesla K80的目标领域包括数据分析和科学计算。它的单精度计算性能最高可以达到每秒9万亿次浮点运算，而消费级的GeForce GTX 980很难超过每秒5 万

23、亿次。这款显卡由2个Kepler GK210 GPU所组成，每个图形处理单元可支持最高 12GB GDDR5闪存(共计24GB)。除此之外，Tesla K80还支持480GB/s的带宽， 4992个CUDA并行处理核心，Dynamic Nvidia GPU Boost等定制技术，以及动态并行(Dynamic Parallelism)。根据Nvidia的说法，这些配置让K80大幅超越了现有的最佳硬件。他们还声称，Tesla K80比最优秀的CPU还要快10倍。根据Nvidia在网站上挂出的一张图表，Tesla K80对比前任K40拥有大幅的提升。跑分成绩也显示出，K80也同样领跑全局，无论

24、是化学、物理还是机器学习领域。GPU处理器提供的寄存器资源Floating-Point 81 Registers .32 Static_96 Stacked, Rotating .96 RotatingBranchPredicateRegisters bitD pro PR1 IPR15PR16PR6316 Static |48 Rotating 2472482492502512522532542552562572582592602612622632642652662672682692702712.3.3高性能计算环境宝德PR4768GW采用CENTOS操作系统，提供高性能计算环境的基础,并

25、配合相应的系统管理软件、语言编译器、并行模式、相关数学库，还可支持目前流行的各种第三方高性能计算商业软件包和应用软件包，例如Platform的LSF（负载平衡软件）和 checkpoint, Etnus 的 TotalView，Pallas 的 Vampir 及 Gaussian 等等，这些可根据实际要求灵活配置，以运行高性能计算应用程序和商业软件（含数据库软件）。在此系统下的C,C+和Fortran编译器展示出卓越的实际应用性能，操作系统库充分利用了此架构的先进技术，其中包括：MLIB。一系列子程序，为科学和技术计算提供了常用数学软件，并针对 Itanium2架构进行了优化；MPI

26、。实现对集群架构信息传递接口的高性能，为开发人员提供了 API和软件库来支持下有效，可移植的并行信息传递的应用，是分布式计算的理想选择。2.3.4计算任务提交及管理所有向宝德PR4768GW计算服务器提交的任务其所需的CPU内存等系统资源是通过动态资源管理工具来进行管理的。动态资源管理是一个非常简单、高效、易用的资源分区和管理工具，通过它，系统管理员可根据计算服务器的资源情况及提交任务的优先级给使用用户灵活分配和调度CPU、内存及I/O等系统资源，当更高优先级的任务提交后，HP WLM可动态调整系统资源的分配，保证高优先级的任务获得所需的资源。272动态资源管理可通过本地或远程终端进行

27、管理。2.4 Cluster计算集群方案2.4.1宝德Cluster计算集群结构宝德公司作为高性能科学计算集群技术的领导者，可提供最强大的、易于管理的一系列现有的Linux集群解决方案。宝德结合了 Linux的优势、最好的软件、内部互连、工业标准的计算机平台、宝德集群技术专家、支持和服务向用户提供具有增加容量和能力的Linux集群系统。Linux集群系统也叫做Beowulf Cluster集群系统。宝德Beowulf集群的逻辑架构如下：Beowulf机群定义计算节点1273274275276277278279280281282283284连互部内计算节点2 计算节点3 计算节点4开发环境

28、编译器工具调试工具管理工具客户应用标准应用数学库并行库网格文件系统批处理系统作业调度操作系统/设备驱动计算节点5计算节点n软件管理工作站硬件硬件部分应包括:计算节点管理节点I/O节点互连系统软件部分应包括：操作系统集群管理软件开发环境数学库、并行库作业管理系统文件系统和客户应用软件标准应用软件285286287288289290291292293294295296297298299300根据用户的需求分析，按HP Beowulf集群的逻辑架构，我们为本项目设计的Cluster计算集群方案如下：用户网络1000Base-T计算节点宝德 PR4T68GW管理节点宝德 PR2750GClust

29、er 管理控制台IQ节点宝德 PR4036GS千兆屈薄制Infiniband互连g以太网交换机管理网络100Base-T上述Cluster高性能集群主要为Fluent、Fastran等流体类应用提供计算环境，另外，根据现场测试的结果，LS-Dyna应用在此SMP和Cluster架构上均有非常出色的表现，用户也可选择在此Cluster计算集群中来运行此类应用。2.4.2 Cluster节点系统配置根据用户需求，配置高性能管理节点配置配置如下：301302303304305306307308309310服务器型号宝德 PR2750G处理器2 X Intel Xeon Processor E5-

30、2640V3内存8 X 8GB/DDR4/2133/MHz/ECC/REG2 X 240GB/2.5in/SATA/6Gb/s/16nm/MLC网络接口（内置）Mellanox/56GB/40GB/ 单口 IB 卡X520-SR2/双口/万兆网卡/双多模SFP+模块扩展网卡1*10/100/1000Base-TDVD-ROM1*DVD+RW机柜42U, PDU电源风扇N+1热拔插电源风扇311312 存储节点配置313 配置1台存储节点，配置如下:服务器型号宝德 PR4036GS处理器2 X Intel Xeon Processor E5-2640V3内存8 X 8GB/DDR4/2133/M

31、Hz/ECC/REG硬盘28 X 4TB/SATA/7200PRM/3.5 寸/企业级480GB/2.5in/SATA/6Gb/s/16nm/MLC网络接口（内置）Mellanox/56GB/40GB/ 单口 IB 卡 1 XLR382B/8 口/SAS 12Gb扩展网卡1*10/100/1000Base-TDVD-ROM1*DVD+RW机柜42U， PDU电源风扇N+1热拔插电源风扇314315316317318319320321322323324管理节点通过集群控制管理计算节点，并进行作业的调度管理。2.4.3节点互连、管理和用户网络宝德高性能集群系统的计算节点通过高速的Infiniban

32、d互连技术实现互联，高速的Infiniband互连网络主要用于计算节点之间进行MPI通讯，交换节点应用进程信息和计算数据。Infiniband互连采用36端口的Infiniband交换机。整个高性能集群的每个节点连接分别连接到两个网络，管理网络和用户网络。管理网络主要用于节点管理信息的传输，用户网络又称存储网络，主要用于各节点与I/O节点之间的数据传输，包括应用程序和数据的装载、计算结果的保存等等。325326327328329330331332333334335管理网络和用户网络均采用中兴以太网络产品搭建。管理网络采用千兆以太网交换机，用户网络（存储网络）采用万兆系列以太网交换

33、机。网络交换机配置如下:互连交换机（Infiniband）32 端口 Infiniband 交换机，以太网交换机（用户网络）-24*10GBase-T SFP+-4*10/100/1000Base-T 或 mini-GBIC（双功能定制端口）以太网交换机（管理网络）-24*10/100Base-T4*10/100/1000Base-T 或 mini-GBIC（双功能定制端口）所有Cluster集群计算节点、I/O节点和管理节点及上述互连交换机和以太网交换机均被分别安装在1个2米高42U的机柜中（含PDU），安装位置进行适当调整，以优化机柜配线。2.4.4 Cluster计算集群节点管理为了

34、有效的管理计算集群系统，管理节点配置了管理能力很强的管理软件。管理系统是一个非常出色的Beowulf集群系统环境下的管理软件，它负责系统的诊断、软件安装、性能监控、系统的克隆（Cloning ）和事件的分析与管理。通过使用友好的用户界面，集群管理将变得更加高效。也将通过减少相关的管理任务，使Cluster计算集群成为一个经济高效的解决方案。集群管理软件，使得所有计算节点的远程文本控制台在服务器的所有状态下（设置、启动、OS或暂停）均可使用。并借助独立WEB浏览器，远程访问任何活动节点的图形控制台。通过管理程序，Cluster集群系统管理员可以远程控制服务器电源，而无论服务器处于何种状

35、态（即使服务器关机）。另外，还可进行程 BIOS 置o336337338339340341342343344345346347348349350351EthernetLinkComputeNodesNetwork switchMonitoring Node集群管理软件还具有将一个系统配置向集群中的所有计算节点传播的功能。CMU可以通过网络将一个映像服务器的磁盘分区内容克隆到计算节点本地磁盘中。这可用于计算节点的首次安装，以及向核心或当前系统配置传播更新内容等。在目标分区与初始映像不同的情况下，则会重点考虑目标磁盘分区。在克隆阶段对目标磁盘进行分区，避免了在初次安装期间对各个计算节点进行

36、分区。352353354355356357358359360361362363364365366367368369370371372373集群管理实用程序可以有效地管理大量计算节点。带有图形用户界面 (GUI),可以根据需要和集群中任意数量的节点进行定制。借助集群管理，只需在单一显示屏上单击鼠标即可访问所有的计算节点控制台。软件主窗口可通过访问配置显示界面来设置控制台服务器硬件。通过集群管理，可以监控、暂停、启动、重启或关闭选定的任何节点。还可以连接到集群中的多个节点，并通过一次键盘输入以广播的方式向其发出命令。也可以管理来自集群的事件，如节点的增加或减少等。2.4.5 Cluste

37、r计算集群作业管理高性能计算用户通过登录管理节点进行作业的提交，作业提交后，由管理节点上的作业管理软件进行管理和分发。作业管理为生产环境设计的，它可提供了图形和命令行两种用户界面来提交批处理、交互式作业，并提供查询作业、队列、系统的状态和跟踪作业的处理。在作业运行之前，用户可将需要的文件拷贝到执行节点上，和将这些指定的文件在作业执行完之后，拷贝出来。只有在所有的文件成功传输之后，作业将会被列入调度表。提交任务的用户可以指定作业的优先级，可以向队列和系统层提供默认值。作业管理支持单队列或多队列方式。并选择标准的first-in, first out调度，或者改进的调度算法。作业管理

38、可以使用户定义广泛的批处理作业的内部相关性。这些相关性包括：执行顺序、同步执行和根据指定作业的成功或失败结果条件执行。3743753763773783793803813823833843853863873883893903913923933943952.4.6宝德Cluster计算集群的特点和优势宝德Cluster计算集群具有以下特点和优势：1）具有很高的性能价格比。采用先进的Beowulf架构，扩展性好即可扩充到几百上千个节点，从而获得很高的性能和比较低的总体成本。2）方案采用惠普公司的高性能、高可靠性的产品。高节点内存带宽，高性能的网络交换产品，集群管理软件。3）方案采用工业标准设

39、备和顺应高新技术发展的趋势。如INTEL CPU，Linux技术，集群并行计算技术，开放代码程序。4）由宝德公司提供专业服务支持。2.5高性能计算外接存储需求分析本次方案涉及的存储区域网络的设计，给计算服务器和集群存储节点配置的24个4TB硬盘考虑临时的应用需要，高性能计算对存储空间的巨大需求是显而易见的。在这里，我们根据现场测试的结果，分析存储的容量要求，供XXXX 在规划存储区域网（SAN）设计时参考。假设以三个月作为用户的活跃生产数据迁移到近线存储空间（作为非频繁访问数据）的周期，以一年作为非频繁访问数据迁移到离线备份设备（作为离线备份数据）的周期，因此用户的SAN总存储空间需求

40、为高性能磁盘空间加上近线磁盘空间：高性能磁盘空间=生产数据空间+20%冗余+预留30%近线存储磁盘空间=4x生产数据空间+20%冗余+预留15%396397398399400401402403404405406407408409410411412413414415416417而生产数据空间与计算任务量相关。以ANSYS为例，按SMP计算服务器配置中分析，用户有10人，假设每月每人要计算2个600万单元的系统级任务， 5个200万单元的部件级任务。每个系统级任务和部件级任务均产生3份计算结果（不同的参数和条件，但不包含中间结果数据）。另外，进行实际的估算时应根据用户实际的工作模式、任务量预

41、测、考虑的数据迁移策略等作相应调整和计算。2.6方案的优势我们所提供的上述方案是经过深思熟虑的，从架构设计、选型配置等方面均经过专业的分析并以用户现场测试结果为基础，可行、适当、低风险和高性价比，是很好的选择。在以下方面，具有明显的优势：1）HP提供的方案是真正可行、低风险的方案提供的计算环境系统架构与已被证明架构可行、对各种应用具有良好的适用性、高性能、易管理的现场测试系统方案相一致，不但可以保证用户可获得所期望的性能，还避免了由于采用未经测试系统架构所带来的风险。本方案采用多种标准的工业架构及多种高性能计算应用软件。在用户现场测试中，分别在该架构上测试了用户样题和标准题，不但证

42、明了结果准确无误，计算性能也非常理想，而且测试过程中从未发生操作系统与应用不能匹配而临时对操作系统打补丁的问题，或测试题目的运算异常的现象。证明了方案的架构是稳定的、对应用的支持可靠的。2）提供的方案具有非常高的性能价格比418419420421422423424425426427428429430431432433434本次方案中，整个计算环境配置的计算CPU数共达28个，内存总数共达1TB 以上。可支持超过3000万单元的任务运算，计算性能非凡。能够同时图形媒体和结构计算的最大要求。由于采用了 Cluster混合的高性能计算体系架构，能充分利用高价格高性能和高性能低成本Clust

43、er的优势，使得整体构建成本仍较低，而使用户获得了非常高性能价格比的高性能计算环境。3）提供的方案所采用的架构是合理、高性能和高可扩展的方案中采用与用户现场测试时一致的SMP+Cluster架构，针对了不同类型应用对不同架构计算平台具有不同的适应性的特点，为各类应用任务的计算都提供了最优的支持和性能表现，同时也给用户提供更加灵活的选择。测试结果已经验证了该架构是合理的、高性能的。4）方案给用户提供了低成本、易管理的高性能计算环境SMP单机运行结构题目，Cluster运行流体题目，是系统管理简单而且性能高。另外，用户可以通过管理工具和简易管理界面即可进行计算节点的管理及计算任务的更为精细的调度和资源分配，大大简化了任务管理的复杂性及降低了管理成本。第三章产品清单名称品牌型号数量GPU计算节点宝德 PR4768GW2管理节点宝德 PR2750G1存储节点宝德 PR4036GS1工作站1宝德 PR4764GW4工作站2宝德 PR4764GW6千兆网络交换机中兴 ZXR10 3928A1千兆网络交换机中兴 ZXR10 5960-32DL1光交换机宝德 QDR-36PORT1KVM力登DL17081机柜科创KC-WT1435

展开阅读全文