HP 高性能计算系统技术方案建议书.doc

资源描述

《HP 高性能计算系统技术方案建议书.doc》由会员分享，可在线阅读，更多相关《HP 高性能计算系统技术方案建议书.doc（47页珍藏版）》请在三一办公上搜索。

1、高性能计算系统技术方案建议书中国惠普有限公司2023/2/17目录第一章概述31.1 高性能计算环境发展的趋势31.1.1 更高、更全面的性能要求31.1.2 向通用化方向发展41.1.3 更加严格的预算约束41.1.4 使用商品化部件51.2 高性能计算应用的特点51.3 高性能计算主机性能评价体系6第二章设计方案92.1系统设计原则92.2总体方案结构102.3 SMP计算服务器方案122.3.1 CPU内存配置数量计算122.3.2 SMP计算服务器型号及配置132.3.3 基于EPIC的安腾芯片技术152.3.4 高性能计算环境HP-UX 11i TCOE182.3.5 计算任务提

2、交及管理192.3.6 HP rx8620计算服务器的特点和优势202.4 Cluster计算集群方案212.4.1 HP Cluster计算集群结构212.4.2 Cluster节点系统配置242.4.3 节点互连、管理和用户网络262.4.4 Cluster计算集群节点管理272.4.5 Cluster计算集群作业管理282.4.6 HP Cluster计算集群的特点和优势292.5高性能计算外接存储需求分析302.6 HP方案的优势31附件 HP的HPC应用及成功案例331 HP的基础研究和国防研究HPC解决方案352 HP面向计算机辅助工程 (CAE)的HPC 解决方案382.1 HP

3、基于网络的一体化和虚拟化CAE解决方案382.2 HP全面和丰富的CAE应用软件402.3 HP 面向CAE的HPC解决方案在中国国内的应用422.4 HP 面向CAE的HPC解决方案的成功应用实例43第一章概述HP公司非常荣幸能为高性能计算中心系统建设提出建议。作为全球最大的计算机厂商之一，HP公司具有一流的产品、技术和服务。在本方案建议书中，HP公司推荐了先进的系统建设方案，考虑了系统的实用性、高可用性、安全性、可管理性以及灵活扩展能力。HP公司凭借先进的技术和出色的支持服务，相信通过双方的合作，可使高性能计算中心系统项目顺利实施，从而为用户提供一个健壮、安全、高可用的运行环境，并进一步

4、建立长期的友好合作关系。高性能计算系统是提高一个科研机构研究水平的重要基础设施，也是一个国家科技与经济实力的标志。它不仅是一个高速处理的计算机系统、更重要的是在其之上运行的各种应用对科学领域产生非常深远的影响。20世纪90年代中后期以来，许多高性能计算应用领域越来越多地希望利用半导体和计算机技术发展的新成果通过更大规模、更精确的数值模拟和数字计算来进行新产品设计和科学研究，提高科学研究水平、厂商市场竞争力以至国家的综合国力。另一方面，人们也要求利用工业标准芯片等开放性的技术降低投资、加速开发，在规定经费预算和时间框架内完成规模越来越大的计算任务。高性能和高经济效益相结合已经成为高性能计算领域最

5、引人注目的发展趋势。1.1 高性能计算环境发展的趋势1.1.1 更高、更全面的性能要求高性能技术计算是利用数值模拟和数字技术方法探索和预测未知世界的技术。这一技术广泛应用于核武器研究和核材料储存仿真、生物信息技术、医疗和新药研究、计算化学、GIS、CAE、全球性长期气象、天气和灾害预报、工艺过程改进和环境保护等许多领域。近年来，随着研究的深入和竞争的加剧，各个领域越来越多地使用模拟的方法来解决科研和生产中的实际问题。模拟的模型越来越大、计算的精度越来越高、对超级计算机性能要求也越来越高。例如，在一个3维模型中，如果把从每个方向取100个分点增加取到1000个分点，对计算机资源的需求将增加100

6、0倍以上。高性能计算应用不仅规模越来越大，而且往往必须在规定的时间内完成任务否则就失去了计算的价值（如天气预报、传染病防治）。这就对计算机系统的计算能力、系统带宽、内存容量、存储设备和I/O吞吐能力以及应用软件的开发技术都提出了更高、更全面的要求。 1.1.2 向通用化方向发展过去人们一般把计算机应用分为科学计算、信息处理和自动控制等类型。其中，以信息处理为主的应用统称企业应用，是市场容量最大的应用领域。早期的企业应用与高性能计算应用有很大的差别，涉及的计算比较简单、使用的数据量也不大，对计算机系统的主要要求是能够支持大量用户（包括网上用户）进行事务处理如信息输入、查询和统计等，而对于计算能力

7、、存储容量要求也不高。因此，高性能计算应用往往使用与企业应用不同的系统，影响了产品批量的扩大。当前，人类正在从工业化社会进入信息社会，技术的持续创新、市场需求的瞬息万变、竞争空间的迅速扩大，要求企业采用Internet、电子商务、电子商务企业等现代化手段，来适应时代的发展。许多新型的企业应用对计算能力、存储容量和系统带宽的要求都越来越高、越来越迫切，高性能计算应用和其他类型应用的界限也日益淡化。当前，几乎所有应用领域都需要使用能够提供高计算能力、系统带宽和存储容量的计算机系统，促使用户选择相同的系统满足各种类型的需求，为利用大批量、低成本的通用产品满足高性能计算应用需求创造了有利的条件。1.

8、1.3 更加严格的预算约束随着竞争的加剧和应用的普及，高性能计算不再是一个不惜工本的应用领域，许多项目的预算约束越来越严格。这就要求厂商生产全系列的产品满足不同规模应用的需求、更加可靠地保护用户原有投资、加速IT投资回报，而且也要求实现资源按需供应和更大范围的资源共享，推动了网格和公用服务等新的计算模式的发展。1.1.4 使用商品化部件为了促进高性能计算广泛应用必须降低成本，否则很难为更多的用户所接受。由于高端的高性能计算系统（特别是超级计算机）需要使用许多计算节点和互联设备等部件，因此必须保持每个部件的低成本。早期的超级计算机系统使用专门定制的处理器和互联设备等部件价格非常昂贵。以后，Cra

9、y Research 公司的T3D 和 CRAY T3E 开始使用商品化的 Alpha 处理器。当前商品化处理器和服务器性能日益提高、价格也日趋下降，为利用它们建立高端和超级计算机系统提供了良好的基础。为此，美国政府还推出了ASCI 计划，力图降低超级计算机系统的成本，其主要途径是尽可能采用商品化市售(COTS)硬件和软件部件，把力量集中在发展主流计算机工业不能有效地提供的专门技术。目前已经很少再有厂商使用专门的部件如向量处理器来建立超级计算机系统。今后的发展趋势是在高端和超级计算机系统中尽可能普遍地采用商品化和大批量的工业标准部件，包括处理器、互联设备、I/O、存储、操作系统、语言、编译程序

10、、编程工具和应用软件。人们注意到，基于开放性IA32体系结构的Xeon和Pentium 4处理器的超级计算机已经在TOP500占有重要地位。新兴的Itanium处理器系列（IPF）必将以其开放性、大批量和64位寻址和处理能力，对超级计算机水平的提高产生划时代的影响，以远比32位体系结构时代高的性能和性价比来满足日益增长的需求。我们深信，通过采用HP的高性能计算系统，必将加速在高性能计算领域取得更加丰硕的科研成果。1.2 高性能计算应用的特点在传统意义上高性能计算应用是属于CPU和内存密集型的应用,它对所运行的计算机体系结构(超级计算机体系结构)提出了几个主要的要求: 浮点计算能力(尤其是64

11、位双精度浮点运算),内存带宽和内存容量及体系框架。所有这些因素都是相互关联的。高性能计算通常利用各种数学方程式来建立模型和模拟物理现象。随着各种模型越来越大，越来越复杂，数据集的规模也急剧增长。例如，一个100*100*100的栅格包含100万个元素，该模型仅占用32MB内存，如果此栅格的分辨率提高10倍，这一模型就变为1000*1000*1000，包含10亿个元素，此模型的原始数据将占用32GB的内存！因此不论是分布式内存还是共享式内存，要将此数据传输至内存中，由CPU处理，就需要高带宽，高容量，低延迟的体系结构，当然还需要强大的CPU进行计算。而超级计算机主要用来处理这样庞大的工作负载。这

12、样的负载所要求的超级计算机一定是采用快速的CPU，高性能的内存和I/O子系统，旨在实现最高的运算速度。同样这样的负载所要求的超级计算机还必须采用多级别并行处理技术，能够利用几十个甚至几千个处理器来处理一项任务；这样的并行处理技术也需要超级计算机要采用高性能的互连设备和系统设计，以较高的成本去换取最高的性能。1.3 高性能计算主机性能评价体系衡量主机系统或处理器计算处理能力的测试体系(BenchMark)也有多种，如SPEC、Linpack等, 尤其是通过Linpack值更可以衡量一个主机系统或一个处理器芯片的实际运算能力, 而不仅仅是虚的理论峰值能力。过去，人们使用系统能够达到的执行指令最大

13、速率如每秒执行百万指令数/浮点操作数(MIPS/MFLOPS)来量度计算机硬件性能。但是，这些量度指标的实用价值十分有限，它们只能给出理论上最大的性能，并没有全面反映计算机系统的实际性能如内存带宽、内存延迟和I/O性能等。此外，硬件性能量度和系统体系结构都是非标准的，使得人们很难使用它们作为服务器选型的性能指标。因此，出现了计算机系统性能基准测试的概念，即由某些中立的非盈利机构开发出一组经过精心统筹设计和组合的程序，来量度计算机系统运行这组程序的性能指标。此类程序一般称为基准测试程序。不同的计算机系统都运行同一组基准测试程序，就可以相对客观地比较计算机系统的性能。目前有许多专门设计基准测试程序

14、和管理各种计算机系统基准测试指标的机构，其中最著名的是SPEC和TPC。基准测试可以分为三类： 1) 系统基准测试指标：用于测试计算机各子系统的性能，其中主要有： n SPEC CPU2000 用于处理器子系统的指标； n McCaplin Stream用于测试内存带宽指标； n TPC-C用于测试在线事务处理指标性能指标； 2) 标准应用基准测试指标：用于测试计算机系统执行某种标准的应用的性能指标，其中主要有： n SPEC WEB 99用于测量计算机执行 Web应用的性能指标；n SPEC MAIL2000 用于测量计算机执行电子邮件应用的性能指标； n SPEC JBB2000，SPE

15、C JVM98 用于测量计算机执行JAVA 应用性能指标； n Linpack用于测量计算机进行线性代数计算的性能指标（也常作为测量计算机浮点计算速度的基准测试指标）； n SPEC HPC96 用于测量计算机执行高性能计算应用的性能指标； n SPEC SFS97 用于测量计算机执行网络文件系统应用的性能指标；n TPC-D专门用于测量计算机执行数据仓库应用的性能指标； n SPEC glperf 和 SPEC viewperf 专门用于测量计算机执行图形和图象显示方面应用的性能指标；3) 实际应用基准测试指标：许多重要的独立软件开发商(ISV)都制订了计算机系统运行本公司开发的软件产品的基

16、准测试指标。例如，在数据库应用方面Oracle、Informix、 Sybase公司的基准测试指标；在企业应用方面SAP、SAS、PeopleSoft、Baan等公司的基准测试指标；在高性能计算方面运行Amber、CHARMm、Fluent、LS-DYNA、MARC、ANSYS等著名应用软件的指标等；一般地说，系统基准测试指标测试的计算机子系统的性能，而其他两类基准测试指标则主要测试计算机执行某种或某个特殊应用的性能。基准测试指标在用户服务器选型工作中具有重要的作用，许多用户都根据它们来决定设备选型。但是“全信书不如无书”。对基准测试必须持一分为二的观点。一方面，虽然基准测试的环境和用户的实

17、际应用环境不完全相同，但是它们毕竟比较客观地反映了计算机系统某一方面的性能，对性能评估和搞好服务器选型工作都有相当大的参考价值；另一方面，任何基准测试指标都是在人为设定的特殊条件下得到的。虽然，设计基准测试的机构尽了很大的努力使得基准测试条件尽可能符合实际、具有代表性，但真实的应用环境规模大、软件类型多其组合更是千变万化。基准测试的条件不可能完全反映实际应用的复杂性，基准测试指标不可避免地具有某种片面性。因此，在进行设备选型时必须尽可能了解所使用的各项基准测试指标的实际含义，包含产生它们的环境和测试方法等。为了避免片面性，对服务器系统的性能指标、特性和厂商进行全面考察，将是搞好服务器选型工作比

18、较科学和可靠的方法。第二章设计方案2.1系统设计原则帮助用户建立一套既能最大限度地满足用户实际需要且技术又处于领先地位的高性能计算环境是HP公司为高性能计算用户设计方案的基本出发点。HP认为，高性能计算系统应具有处理大规模的复杂运算，尤其是浮点运算的能力。它将为提供优化工程设计、分析、验证的手段，最终实现提高设计质量、缩短开发周期、降低开发成本。方案设计以用户现场测试结果为基础，根据用户对未来应用模式及业务量需求预测为前提，强调高性能以及可行、合理和低风险。架构设计和系统选型遵循以下原则：1先进性本系统方案所采用的技术既要符合业界的发展方向,又要在未来几年内仍具有很高的技术先进性，保持在

19、同类系统中的领先地位。这样有利于提高整个系统的计算与处理能力。2. 有限投资获取最大计算性能在有限的投资前提下，高性能计算系统应具有优秀的处理能力，它不仅具有符合要求的峰值性能 (Peak Performance)，更重要的是应具有稳定的应用性能（sustained performance）。各种复杂的研究课题在本系统中能够得到准确，快速的计算结果。3. 可扩展性系统应具有很强的扩展能力。随着对计算机系统性能的要求不断提高，该计算机系统应具有扩展能力，并且容易实现。4. 开放性和兼容性本计算机系统应符合公认的工业标准，包括体系结构，硬件，I/O, 网络，操作系统，开发环境

20、和开发工具等。这样，便于和其他平台上的系统互操作。 5应用软件丰富本系统的平台上应具有丰富的软件资源，能够提供研究课题的解决方案和相应的软件系统。HP公司与高性能计算方面的独立软件开发商紧密合作，例如：Fluent,ANSYS等专业工程软件商,Red Hat,Etnus,Pallas,Platform等专业平台软件商, 不仅提供处理节点间的协调和通信的中间件，使整个系统节点能够真正实现合作，负载均衡，还能针对不同应用需求，提供一系列并行计算应用。6. 良好的技术支持由于本系统是比较复杂的计算机环境，在使用过程中不可避免的会遇到一些技术问题。当遇到这些问题时能够得到有效的支持，使问

21、题得以圆满的解决。7性能价格比优越由于本系统比较庞大，价格因素也比较重要。本系统在性能价格比方面在同类系统中应具有明显的优势，对于三院三部来说在采购大型系统中应该考虑的重要因素。8管理简单尽量减少数据中心的设备管理难度。2.2总体方案结构针对系统高性能计算应用的特点,结合与相关业务处室的沟通。从满足应用需求的角度出发，我们建议建立一个高可扩展、易管理的混合SMP与Cluster结构的高性能计算环境，整体方案架构如下：我们推荐采用1台HP高档UNIX服务器HP Integrity rx8620作为SMP计算服务器，主要运行Ansys、Nastran、Marc计算应用。SMP计算服务器采用高性

22、能HP-UX 11i TCOE高性能计算操作系统环境，并运行HP WorkLoad Manager(WLM)动态资源管理工具对任务的资源分配进行管理和调度。另外，采用64节点、通过Infiniband高速互连的Linux高性能计算集群（128颗CPU，512G内存），主要运行Fluent、Fastran或LS-Dyna计算应用。高性能计算集群配置1个管理节点及2个I/O节点，并通过用户网络和管理网络进行互联。Cluster管理节点运行Cluster Management Utility(CMU)管理软件实现Cluster中所有节点的集中管理、配置、激活/关闭等，并通过OpenPBS软件对用户提

23、交的任务进行作业管理。SMP计算服务器和Cluster管理节点通过1000Base-T千兆以太网连接到三部的骨干网中，各室工作组通过该网络申请计算资源和提交任务。待三院三部存储区域网络（SAN）建成后，SMP计算服务器和Cluster I/O节点可通过扩展的光纤通道卡连接到SAN中，满足高性能计算环境对存储性能和空间的巨大需求。2.3 SMP计算服务器方案2.3.1 CPU内存配置数量计算根据以上分析，SMP计算服务器主要用于结构类计算任务，包括结构的设计、分析和仿真等。SMP服务器的选型应与用户现场测试服务器具有相同的结构和相同的产品系列机型，即采用基于Itanium2芯片的HP Integ

24、rity（安腾）服务器系列产品，并根据未来几年内三院三部的计算需求配置适当的型号和CPU内存数量。从测试结果上看，ANSYS类应用对系统资源和开销是最大的，而用户使用ANSYS来进行部件和系统设计也是最多的，因此按此类应用的峰值性能需求来计算出系统的配置，当然还应根据任务的并发情况来适当调整。根据用户计算需求的预测，该SMP计算服务器应至少达到以下性能：1) 同时运行5-6个ANSYS系统级任务（每个600万单元），计算时间不超过12小时（夜间运行）；2) 部件级ANSYS任务（每个200万单元）的计算时间在1-2小时内（白天运行）；用户目前此类应用用户有5人，按未来10人来规划。白天考虑4-

25、5个部件级的并发。计算依据上述要求和实测数据：n ANSYS实际测试结果：1个7万单元任务，4个1.3GHz CPU，8GB RAM，运行时间：2分15秒；n 本次选择1.5GHz的芯片，性能比测试机配置芯片性能高；n ANSYS提供标准题的计算要求：600万单元的任务，要求20GB内存；系统级并发任务对CPU数目要求如下：6任务*(600万/7万)*(1.3GHz/1.5GHz)*(2分钟/720分钟)*4CPU=4.95CPU结论：对于在12小时内完成6个系统级任务，按每个任务分配1个CPU，共需6个1.5GHz CPU即可实现。如果每个系统级任务分配2个CPU，共占用12颗CPU，只需不

26、到6个小时即可完成计算。部件级并发任务对CPU数目要求如下：5任务*(200万/7万)*(1.3GHz/1.5GHz)*(2分钟/90分钟)*4CPU=11CPU按每个任务分配2-3个CPU，共需11个1.5GHz CPU。结论：对于在1.5小时内完成5个系统级任务，共需11个1.5GHz CPU即可实现。整个系统配置CPU数目如下：按照白天在1.5个小时内完成5 个并发部件级任务和晚上并发6 个系统级人物的最大要求，考虑其他应用如Nastran、Marc、LS-Dyna任务的并发计算要求，建议本次SMP系统的CPU配置总数为12个。系统对内存的要求如下：我们以ANSYS应用对内存的要求作为估

27、算标准。1700万单元ANSYS标准题的内存要求约为60GB。对于本系统来说，系统最大负荷时的并发任务量总计最大为6 x 600万单元，因此，我们建议本次SMP系统内存配置为128GB。2.3.2 SMP计算服务器型号及配置根据以上分析，我们配置16CPU和128GB内存的HP Integrity rx8620安腾服务器作为SMP计算服务器，并安装在2米高机柜内。HP Integrity rx8620具有51.2GB/s系统带宽、64GB/s内存带宽和8.5GB/s的I/O总线带宽，非常适合做高性能计算服务器，并最多可支持32个CPU及扩展至256GB内存。HP Integrity rx862

28、0如下图所示：除了满足上述用户的计算要求外，配置16CPU和128GB内存的rx8620计算服务器还可胜任超过单任务3000万以上单元的系统部件的计算，并在4-12小时内得到计算结果。HP Integrity rx8620 计算服务器的配置如下：服务器型号HP Integrity rx8620-32处理器12*Itanium2 1.5GHz/4MB内存128GB HD SyncDRAM内存硬盘4*146GB 硬盘网络接口（内置）1*10/100/1000Base-T，接用户网络1*10/100/1000Base-T，接管理网络扩展网卡1*10/100/1000Base-T，接所骨干网DVD-R

29、OM1*DVD+RW机柜1*Rack System/E 41U，PDU电源风扇N+1热拔插电源风扇软件配置- HP-UX 11i v2 TCOE操作系统（无限用户许可）- HP WorkLoad Manager(WLM)动态资源管理器- HP MirrorDisk/UX磁盘镜像软件- C/C+/Fortran编译器配置的HP Integrity rx8620还有13个可扩展的PCI-X插槽，未来可配置2块Fiber Channel 2Gb适配器分别连接至SAN(存储区域网络)上，以获得高性能的数据访问及所需的及可扩展的存储空间。HP Integrity rx8620最多可扩展32个PCI-X插

30、槽，满足I/O扩展的需要。2.3.3 基于EPIC的安腾芯片技术针对高性能计算应用对高性能的需求，HP在系统设计上允许通过使用不断更新的IPF系列产品、采用先进的芯片组、使用更高性能的基础节点、支持更多的节点和提供更高的带宽等多种途径扩展系统的规模，提供高性能和最大的性能扩展空间，满足当前和为适应当前飞速发展的计算需要, 一个高性能计算的全新时代应运而生, 而HP正是以其基于第二代Itanium2处理器的安腾服务器执业界之牛耳。未来各种高端应用的需要。具有革命意义的安腾处理器家族架构由HP与Intel共同研制开发, 它基于全新的EPIC体系结构, 降低了平台的成本, 提高了其性能和可扩展性.

31、基于Itanium2的HP系统的速度比上一代产品快两倍, 轻松超越IA-32和基于标准RSIC的系统的性能. 基于Itanium2的惠普服务器能够提供更强大的功能, 更多的应用, 附加的特性, 以及更广泛的解决方案。IA64体系结构在吸收RISC体系结构经验教训基础上另辟蹊径，一开始就走开放性的道路，充分利用现代芯片制造工艺发展成果、提供足够的资源；同时，通过力争成为新的高端工业标准、扩大批量来降低成本。它的基本设计思想是：提供一种新的机制、充分利用硬软件协同能力来提高指令并行度：一方面大力开发先进的编译程序，消除程序中的条件转移指令、并基于猜测机制越过转移和存储指令界限调度指令的执行次序，把

32、程序员利用串行语义编写的源程序转换成由可并行执行指令段序列组成的目标程序；另一方面使得处理器具有足够资源和智能，来纪录编译程序所发现的程序中可并行执行指令段之间的划分信息，并保证在程序运行过程中发现猜测和调度有错时仍然给出正确结果。对IA64体系结构处理器来说，所执行的目标程序中可并行执行的指令段已经由编译程序显性地标识出来了、指令间的数据相关性和过程相关性也已经由编译程序消除了，使得处理器只需使用相对简单的逻辑来实现很高的指令级并行度（ILP）。相反，传统的RISC处理器没有足够的资源来纪录编译程序所产生许多有用的信息，也没有充分利用现代编译程序强大的对程序执行过程的调度能力。虽然在RISC

33、体系结构下，设计师们也使用编译程序来优化目标程序、为处理器提高ILP创造条件。但是，处理器所执行的基本上是隐性并行和包含大量相关性的目标程序，发现并行、线路预测、动态调度等提高ILP的无序执行技术、完全是由处理器硬件利用复杂的芯片逻辑来实现的。尽管两种体系结构之间存在着许多差别，但是执行显性并行或者隐性并行目标程序是其中最主要的本质差别。所以最初发明这种新体系结构的惠普公司把它称为显性并行指令计算（EPIC）体系结构。除了强有力的编译程序外，IA64 体系结构微处理器必须提供足够的资源来实现EPIC设计思想、提高并行度和实现高性能，包括：新颖的指令集：允许编译程序产生由并行指令段组成的目标程序

34、，并纪录指令段间的划分；大寄存器空间：为编译程序通过寄存器换名等技术消除相关性、产生尽可能在寄存器中进行运算的优质目标程序提供充分的余地；具有足够长度的指令：便于在指令中访问大寄存器空间中多个寄存器和消除程序中转移指令；足够的指令发送端口和派送网络：用于提高每个时钟周期发送到指令数和提高发送到速度和效率；多种类型的新型寄存器：允许编译程序越过条件转移和存储指令的界限调度目标程序中访问内存指令的位置、消除相关性，并弥补调整位置所产生的错误；更多的浮点执行部件：有利于处理器实现高并行度的浮点计算；更多的整数和多媒体运算执行部件：有利于处理器实现高并行度的整数和多媒体信息处理；更多的芯片上高速缓存：

35、有利于提高缓存命中率、降低内存延迟； EPIC体系结构处理器提供的寄存器资源IA64的EPIC体系结构是对传统RISC体系结构的重大革新，许多方面突破了RISC体系结构的局限、发展了RISC体系结构，为利用新制造工艺和技术、按照摩尔定律预示的速度提高处理器性能提供了可靠的保证。2.3.4 高性能计算环境HP-UX 11i TCOEHP Integrity rx8620 采用HP_UX 11i V2(现在成为唯一可支持安腾芯片的64位UNIX操作系统)操作系统(TCOE)提供高性能计算环境的基础,并配合相应的系统管理软件、语言编译器、并行模式、相关数学库,还可支持目前流行的各种第三方高性能计算商

36、业软件包和应用软件包,例如Platform的LSF(负载平衡软件)和checkpoint, Etnus的TotalView, Pallas的Vampir及Gaussian等等,这些可根据实际要求灵活配置, 以运行高性能计算应用程序和商业软件(含数据库软件)。HP_UX11i系统下的C,C+和Fortran编译器展示出卓越的实际应用性能, 操作系统库充分利用了Itanium2架构的先进技术,其中包括:MLIB。一系列子程序, 为科学和技术计算提供了常用数学软件, 并针对Itanium2架构进行了优化;HP MPI。实现对Itanium2架构信息传递接口的高性能, 为开发人员提供了API和软件库来

37、支持下有效,可移植的并行信息传递的应用, 是分布式计算的理想选择。2.3.5 计算任务提交及管理所有向HP Integrity rx8620计算服务器提交的任务其所需的CPU内存等系统资源是通过HP Workload Manager(WLM)动态资源管理工具来进行管理的。HP Workload Manager(WLM)是一个非常简单、高效、易用的资源分区和管理工具，通过它，系统管理员可根据计算服务器的资源情况及提交任务的优先级给使用用户灵活分配和调度CPU、内存及I/O等系统资源，当更高优先级的任务提交后，HP WLM可动态调整系统资源的分配，保证高优先级的任务获得所需的资源。HP WLM动态

38、资源管理可通过本地或远程终端进行管理，其界面如下图所示。2.3.6 HP rx8620计算服务器的特点和优势HP Integrity rx8620是具有非常高性能价格比的SMP计算服务器，非常适合三院三部的结构类计算任务的运算。其特点和优势如下：1) 业已经测试证明的结构类高性能计算架构用户现场测试结果表明，HP Integrity安腾服务器的架构最适合作为Ansys、Nastran、Marc等应用的计算平台。2) 优越的系统架构和CPU芯片技术优势与用户现场测试服务器的架构相同的HP Integrity rx8620高端SMP服务器，提供更高的系统带宽、内存总线带宽和I/O总线带宽。基于这样

39、的架构，HP Integrity rx8620可为计算应用带来更高的性能和更好的加速比。另外，HP Integrity rx8620采用基于EPIC（显式并行指令计算）技术的Itanium2 MP芯片（注：非Itanium2 DP芯片），拥有更大的内存带宽和系统带宽。与RISC和超标量技术不同，EPIC技术是在程序编译阶段即实现指令的并行，这为强调并行的高性能任务实现更高的计算性能提供了基础。3) 多操作系统支持以及硬件分区技术给用户更多的灵活性HP Integrity rx8620可支持HP-UX、Linux和Windows等操作系统，并支持在同一机箱内划分成1至4个完全电隔离的硬件分区（n

40、Pars）。这样，在需要的情况下，用户可灵活配置不同大小的硬分区及分别运行相同或不同的操作系统，从而给与用户最大的系统使用灵活性。4) 易管理的高性能计算环境HP-UX 11i TCOEHP-UX 11i TCOE提供高性能、高可靠及安全的UNIX操作系统基础环境，并提供HP高性能C/C+和Fortran编译器、数学库MLIB和MPI工具。通过HP Workload Manager(WLM)动态资源管理工具，管理员可根据SMP计算服务器的资源情况及任务的优先级给不同使用用户灵活分配和调度CPU、内存及I/O等系统资源，HP WLM动态资源管理工具简单、高效、易用。5) 投资保护优势HP Int

41、egrity rx8620基于工业标准架构，拥有良好的可扩展能力（其中内存可最大扩展到256GB），并支持在机箱内升级到下一代Itanium2芯片，最大可容纳32颗CPU，可实现最大程度的投资保护。2.4 Cluster计算集群方案2.4.1 HP Cluster计算集群结构HP公司作为高性能科学计算集群技术的领导者，可提供最强大的、易于管理的一系列现有的Linux集群解决方案。惠普结合了Linux的优势、最好的软件、内部互连、工业标准的计算机平台、惠普集群技术专家、支持和服务向用户提供具有增加容量和能力的Linux集群系统。Linux集群系统也叫做Beowulf Cluster集群系统。HP

42、 Beowulf 集群的逻辑架构如下：硬件部分应包括：n 计算节点n 管理节点n I/O节点n 互连系统软件部分应包括：n 操作系统n 集群管理软件n 开发环境n 数学库、并行库n 作业管理系统n 文件系统和n 客户应用软件n 标准应用软件根据用户的需求分析，按HP Beowulf 集群的逻辑架构，我们为本项目设计的Cluster计算集群方案如下：上述Cluster高性能集群主要为Fluent、Fastran等流体类应用提供计算环境，另外，根据用户现场测试的结果，LS-Dyna应用在此SMP和Cluster架构上均有非常出色的表现，用户也可选择在此Cluster计算集群中来运行此类应用。2.4

43、.2 Cluster节点系统配置根据用户需求，配置高性能n 计算节点配置配置64台计算节点。每台配置如下：计算结点处理器2*Opteron 2.6GHz内存4GB 内存硬盘1*60GB SATA硬盘网络接口（内置）1*10/100/1000Base-T，接用户网络1*10/100/1000Base-T，接管理网络网络互连接口1*Infiniband Adapter远程管理Integrated lights out (iLO)软件配置RedHat EL3 U2 X86-64 WSn I/O节点配置配置2台I/O节点，每台配置如下：I/O节点处理器2*Opteron 2.6 GHz内存4GB 内存

44、硬盘2*146GB SCSI Ultra320 硬盘网络接口（内置）1*10/100/1000Base-T，接用户网络1*10/100/1000Base-T，接管理网络扩展网卡1*10/100/1000Base-T，接所骨干网远程管理Integrated lights out (iLO)软件配置RedHat EL3 U2 X86-64 ES用户数据中心建立以前，用户数据及应用程序临时存放在4个146GB硬盘中。用户数据中心建立后，可扩展配置2个2GB 光纤通道卡接到SAN存储网络中，届时，所有Cluster计算集群的用户数据、应用等均放到SAN里。n 管理节点配置采用1台管理节点，配置如下：管

45、理节点处理器2*Opteron 2.6 GHz内存8GB 内存硬盘2*146GB SCSI Ultra320 硬盘网络接口（内置）1*10/100/1000Base-T，接用户网络1*10/100/1000Base-T，接管理网络扩展网卡1*10/100/1000Base-T，接所骨干网高速通讯网络Infiniband远程管理Integrated lights out (iLO)软件配置- Cluster Management Utility (CMU)- OpenPBS- MPI,PVM- C/C+/Fortran Compilers and Mlib for AMD- RedHat EL3

46、 U2 X86-64 ES管理节点通过CMU管理计算节点，并通过OpenPBS进行作业的调度管理。2.4.3 节点互连、管理和用户网络HP Cluster高性能集群系统的计算节点通过高速的Infiniband互连技术实现互联，高速的Infiniband互连网络主要用于计算节点之间进行MPI通讯，交换节点应用进程信息和计算数据。Infiniband互连采用64端口的Infiniband交换机。整个高性能集群的每个节点连接分别连接到两个网络，管理网络和用户网络。管理网络主要用于节点管理信息的传输，用户网络又称存储网络，主要用于各节点与I/O节点之间的数据传输，包括应用程序和数据的装载、计算结果的保

47、存等等。管理网络和用户网络均采用HP ProCurve 以太网络产品搭建。管理网络采用2台10/100 Mb/s HP ProCurve 2650 以太网交换机，用户网络（存储网络）采用2台1Gb/s HP ProCurve 2800系列以太网交换机。网络交换机配置如下：互连交换机（Infiniband）64端口Infiniband交换机，以太网交换机（用户网络）1*HP ProCurve Switch 2824- 20*10/100/1000Base-T- 4*10/100/1000Base-T或mini-GBIC（双功能定制端口）1* HP ProCurve Switch 2848- 44*10/100/1000Base-T- 4*10/100/1000Base-T或mini-GBIC（双功能定制端口）以太网交换机（管理网络）2*HP ProCurve Switch 2650- 48*10/100Base-T- 2*10/100

展开阅读全文