XX气象局高性能计算服务器方案.doc

上传人:sccc 文档编号:4848080 上传时间:2023-05-19 格式:DOC 页数:73 大小:2.17MB
返回 下载 相关 举报
XX气象局高性能计算服务器方案.doc_第1页
第1页 / 共73页
XX气象局高性能计算服务器方案.doc_第2页
第2页 / 共73页
XX气象局高性能计算服务器方案.doc_第3页
第3页 / 共73页
XX气象局高性能计算服务器方案.doc_第4页
第4页 / 共73页
XX气象局高性能计算服务器方案.doc_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《XX气象局高性能计算服务器方案.doc》由会员分享,可在线阅读,更多相关《XX气象局高性能计算服务器方案.doc(73页珍藏版)》请在三一办公上搜索。

1、 XXXX气象局高性能计算服务器系统技术方案建议书中国惠普有限公司XXXX气象局高性能计算服务器系统 技术方案建议书目 录第一章 前言1第二章 系统需求分析32.1系统应用特点32.2高性能计算服务器性能评价体系及选型依据32.3高性能存储系统72.4系统设计原则7第三章 总体方案建议93.1 方案技术概述93.2方案逻辑结构123.2.1 ccNUMA体系构架的多处理器服务器123.2.2 集群高性能计算解决方案133.3 性能指标和成功案例193.4 HP安腾高性能计算解决方案优势23第四章 技术说明书254.1 操作系统HP-UX简介254.2 惠普HP-UX Process Resou

2、rce Manager(PRM)264.3 HP Integrity server SuperDome简介314.3.1 SX1000芯片组介绍334.3.2 HP Integrity Superdome系统参数列表384.4 HP 1000 光纤阵列柜39第五章 实施计划415.1 项目管理及支持服务人员安排415.1.1 项目实施小组组织原则415.1.2 项目组成员职责415.1.3 项目支持人员组成425.2 项目实施日程安排435.3 项目实施内容435.3.1 第一阶段:项目实施的准备工作435.3.2 第二阶段:到货设备的清点与验收445.3.3 第三阶段:系统安装的具体实施44

3、5.3.4 第四阶段:系统联调465.3.5 第五阶段:系统的验收465.4 项目培训计划46第六章 中国惠普服务介绍486.1中国惠普技术支持服务体系486.2中国惠普公司售后服务的种类496.3中国惠普公司对本项目的支持服务516.4备品备件管理方案介绍536.5惠普各分公司及技术人员资料信息54惠普产品保修服务说明55客户机房准备要求通知书57中国惠普有限公司 第 ii 页 计算服务器方案建议书第一章 前言HP公司非常荣幸能为XXXX气象局高性能服务器系统建设提出建议。作为全球最大的计算机厂商之一,HP公司具有一流的产品、技术和服务。在本方案建议书中,HP公司推荐了先进的系统建设方案,考

4、虑了系统的实用性、高可用性、安全性、可管理性以及灵活扩展能力。HP公司凭借先进的技术和出色的支持服务,相信通过双方的合作,可使XXXX气象局高性能服务器系统建设项目顺利实施,从而为用户提供一个健壮、安全、高可用的运行环境,并进一步建立长期的友好合作关系。高性能计算系统是提高一个科研机构研究水平的重要基础设施,也是一个国家科技与经济实力的标志。它不仅是一个高速处理的计算机系统、更重要的是在其之上运行的各种应用对科学领域产生非常深远的影响 。无论是在天气与气象研究,理论物理, 计算化学,能源管理,生命科学(life science) ,地理信息系统(GIS),核模拟还是生产制造系统等重大科技领域,

5、 如果没有与之相适应的高性能计算机系统,这些科技项目将无法取得重大进展和突破。为适应高性能计算应用对计算机系统的要求,HP公司长期致力于高性能计算机系统的开发和研究,并制造了一系列高性能计算机系统; 运算能力从每秒几百亿次到几十万亿次。这些高性能计算机系统在高性能计算领域发挥了不可替代的作用。作为全球领先的高科技公司,HP一直在领导着发展潮流,并以31.5%的市场份额已经成为全球高性能计算市场的领导者。不久前,HP刚刚发布了一个包括硬件、软件和服务的全面打包方案,以降低客户在高性能计算领域的复杂性。在中国软件行业协会数学软件分会和国家863高性能计算机评测中心,于2004年11月15日联合公开

6、发布的2004年中国高性能计算机性能TOP100排行榜中,HP公司再次成为最大的赢家。在所有TOP100榜上有名的超级计算机中,HP系统占据了58个席位,这也就意味着,在100台中国最快的计算机中,有58台来自HP的系统。这一数据是第二和第三名之和的近2倍。在2003年中国软件行业协会数学软件分会发布的2003年中国高性能计算机性能TOP100排行榜中,HP的总体装机量达到了57%。这充分显示了HP在高性能技术计算领域无人企及的领先地位,同时也反映出中国市场对HP系列服务器的强大需求。在天气与气象研究领域,HP公司与著名的数值预报软件MM5的开发者NCAR有着长期的合作关系。MM5的多个版本以

7、及下一代的数值气象预报模型WRF均是在HP公司的Alpha高性能计算机上进行开发的,HP公司还帮助NCAR建立了开放式培训中心和网上实时预报系统,用于MM5的培训和推广。NCAR在网站上公布的测试结果表明,无论对于中小规模还是大规模区域的数值预报,HP所提供的高性能服务器平都是最佳的计算平台,在计算性能和线性扩展能力商均领先于其他高性能计算平台。我们深信,通过采用HP的高性能计算系统 ,必将加速XXXX气象局在高性能计算领域取得更加丰硕的科研成果。 中国惠普有限公司2004年11月第二章 系统需求分析2.1系统应用特点在传统意义上高性能计算应用是属于CPU和内存密集型的应用,它对所运行的计算机

8、体系结构(超级计算机体系结构)提出了几个主要的要求: 浮点计算能力(尤其是64位双精度浮点运算),内存带宽和内存容量及体系框架。所有这些因素都是相互关联的。高性能计算通常利用各种数学方程式来建立模型和模拟物理现象。随着各种模型越来越大,越来越复杂,数据集的规模也急剧增长。例如,一个100*100*100的栅格包含100万个元素,该模型仅占用32MB内存,如果此栅格的分辨率提高10倍,这一模型就变为1000*1000*1000,包含10亿个元素,此模型的原始数据将占用32GB的内存!因此不论是分布式内存还是共享式内存,要将此数据传输至内存中,由CPU处理,就需要高带宽,高容量,低延迟的体系结构,

9、当然还需要强大的CPU进行计算。而超级计算机主要用来处理这样庞大的工作负载。这样的负载所要求的超级计算机一定是采用快速的CPU,高性能的内存和I/O子系统,旨在实现最高的运算速度。同样这样的负载所要求的超级计算机还必须采用多级别并行处理技术,能够利用几十个甚至几千个处理器来处理一项任务;这样的并行处理技术也需要超级计算机要采用高性能的互连设备和系统设计,以较高的成本去换取最高的性能。2.2高性能计算服务器性能评价体系及选型依据 衡量主机系统或处理器计算处理能力的测试体系(BenchMark)也有多种,如SPEC、Linpack等, 尤其是通过Linpack值更可以衡量一个主机系统或一个处理器芯

10、片的实际运算能力, 而不仅仅是虚的理论峰值能力。 过去,人们使用系统能够达到的执行指令最大速率如每秒执行百万指令数/浮点操作数(MIPS/MFLOPS)来量度计算机硬件性能。但是,这些量度指标的实用价值十分有限,它们只能给出理论上最大的性能,并没有全面反映计算机系统的实际性能如内存带宽、内存延迟和I/O性能等。此外,硬件性能量度和系统体系结构都是非标准的,使得人们很难使用它们作为服务器选型的性能指标。因此,出现了计算机系统性能基准测试的概念,即由某些中立的非盈利机构开发出一组经过精心统筹设计和组合的程序,来量度计算机系统运行这组程序的性能指标。此类程序一般称为基准测试程序。不同的计算机系统都运

11、行同一组基准测试程序,就可以相对客观地比较计算机系统的性能。目前有许多专门设计基准测试程序和管理各种计算机系统基准测试指标的机构,其中最著名的是SPEC和TPC。 基准测试可以分为三类: 1、 系统基准测试指标:用于测试计算机各子系统的性能,其中主要有: SPEC CPU2000 用于处理器子系统的指标; McCaplin Stream用于测试内存带宽指标; TPC-C用于测试在线事务处理指标性能指标; 2、 标准应用基准测试指标:用于测试计算机系统执行某种标准的应用的性能指标,其中主要有: SPEC WEB 99用于测量计算机执行 Web应用的性能指标; SPEC MAIL2000 用于测量

12、计算机执行电子邮件应用的性能指标; SPEC JBB2000,SPEC JVM98 用于测量计算机执行JAVA 应用性能指标; Linpack用于测量计算机进行线性代数计算的性能指标(也常作为测量计算机浮点计算速度的基准测试指标); SPEC HPC96 用于测量计算机执行HPTC应用的性能指标; SPEC SFS97 用于测量计算机执行网络文件系统应用的性能指标; TPC-D专门用于测量计算机执行数据仓库应用的性能指标; SPEC glperf 和 SPEC viewperf 专门用于测量计算机执行图形和图象显示方面应用的性能指标;3、 实际应用基准测试指标:许多重要的独立软件开发商(ISV

13、)都制订了计算机系统运行本公司开发的软件产品的基准测试指标。例如,在数据库应用方面Oracle、Informix、 Sybase公司的基准测试指标;在企业应用方面SAP、SAS、PeopleSoft、Baan等公司的基准测试指标;在HPTC方面运行Amber、CHARMm、Fluent、LS-DYNA、MARC、ANSYS等著名应用软件的指标等; 由于在XXXX气象局的主要应用NCAR MM5模式系统的程序(TERRAIN,REGRID,RAWINS/little_r,INTERPF/NESTDOWN,INTERPB,GRAPH/RIP和MM5)中尺度数值模式考虑高分辨的地形和陆面使用状况等重

14、要的局地迫动因子,并可使用复杂的物理参数化方案,来研究和预测高分辨的局地中尺度天气现象,其相对于大模式的灵活性、细致性,使其应用范围迅速扩大,如各种中尺度天气系统的研究。MM5模式系统的程序主要是Fortran程序,属于计算密集性任务。因此,XXXX气象局在进行高性能服务器选型时,需要衡量的主要指标包括:服务器的整体性能指标:l SPECint_2000:单CPU执行以整数运算为主应用软件的性能指标; l SPECfp_2000:单CPU执行以浮点运算为主应用软件的性能指标; l SPECint_rate2000:多处理器计算机系统执行以整数运算为主应用软件的性能指标; l SPECfp_ra

15、te2000:多处理器系统执行以浮点运算为主应用软件的性能指标;前两个指标一般称为核心SPEC基准测试指标,是为测量CPU性能设计的。它们主要测量CPU和高速缓存的性能,某种程度上也反映内存子系统的性能。由于,CPU不能单独执行程序,所以人们也经常使用核心SPEC基准测试指标来量度CPU芯片的速度。但是,它们并不测试多处理器系统性能、处理器间通信或系统级内存带宽等。因此,有时小的系统可能提供比大的系统更高的核心基准测试指标。当然这并不意味着小系统有比大系统更高的信息处理能力。后两个指标称为Rate基准测试,它们把负载加在整个系统上,用于测量多处理器系统的性能指标,特别强调CPU个数、系统级内存

16、性能等。Rate基准测试指标随着CPU个数的增加而提高。因此,人们经常使用核心基准测试指标来测试CPU本身和单CPU系统的指标,使用Rate基准测试指标来测试多处理器和多计算机系统(包括CPU、内存和带宽等)的性能指标。SPEC CPU2000使用整数和浮点数两组基准测试程序。整数基准测试程序组CINT2000 由表2-1所示的11个执行整数计算的程序组成,这些程序大都是用C语言编写的,有一个(252,eon)是用 C+编写的,所给出的SPECint_2000和SPECint_rate2000指标是计算机系统执行这11个程序的性能平均的结果。浮点基准测试程序组CFP2000由14个执行浮点计算

17、的程序组成,这些程序中6个是用Fortran77语言编写的,4个是用 Fortran 90语言编写的,4个是用C语言编写的。所给出的SPECfp_2000和SPECfp_rate2000测试指标是计算机系统执行这14个程序的性能平均的结果。(表 2-1 CINT2000 的 组 成 程 序)程 序 名 称 应 用 164.gzip数 据 压 缩 实 用 程 序 175.vprFPGA 电 路 布 线 176.gccC 语 言 编 译 程 序 181.mcf最 小 成 本 网 络 流 求 解 程 序 186.crafty下 棋 程 序 197.parser自 然 语 言 处 理 程 序 252.

18、eon光 线 示 踪 253.perlbmkPerl254.gap计 算 群 论 255.vortex面 向 对 象 数 据 库 256.bzip2数 据 压 缩 实 用 程 序 300.twolf位 置 和 路 由 仿 真 程 序 (表 2-2 CFP2000 的 组 成 程 序)程 序 名 称 应 用 168.wupwise量 子 色 彩 动 力 学 171.swim浅 水 模 型 172.mgrid多 网 格 方 法 求 解 3D 位 势 场173.applu抛 物 /椭 圆 偏 微 分 方 程 177.mesa3D 图 形 库 178.galgel流 体 动 力 学 179.art神

19、经 网 络 模 拟 ; 自 适 应 推 理 183.equake有 限 元 模 拟 ; 地 震 模 型187.facerec计 算 机 视 觉 ; 识 别 人 像 188.ammp计 算 化 学 189.lucas数 论 ; 质 数 测 试 191.fma3d有 限 元 碰 撞 模 拟200.sixtrack粒 子 加 速 器 模 型 301.apsi求 解 大 气 温 度 、 风 向 、 速 度 和 污 染 物 分 布 问 题 Linpack:Linpack 是美国田纳西大学的Jack Dongarra创立和管理的基准测试指标。它是一组用于分析和求解线性代数方程和线性最小二乘问题的 Fort

20、ran子程序,其中的矩阵可以是一般的,也可以对称正定、带形、三对角等特殊形状的。Linpack 广泛应用于测量计算机系统执行浮点计算 (特别是线性代数计算)的性能指标。是高性能计算服务器性能参考的重要依据。任何一项基准测试指标都有其局限性和片面性。有的厂商往往按照自己的优势领域来诠释,过份强调某项指标、贬低或不公布其他指标,这样很容易误导用户。事实上,性能指标都是以系统资源容量(处理器、内存、磁盘、I/O接口等)以及系统架构是否能够充分发挥资源潜力为基础的。对于XXXX气象局的用户而言,只有从实际(系统资源容量和架构)出发,全面考察系统的基准测试指标,充分考虑实际的应用,才能作出科学和客观的评

21、估,选择最佳的服务器。2.3高性能存储系统在高性能计算系统应用中, 除了对高运算能力的需求外, 对存储的需求也是必不可少。在高性能计算应用中,经常需要短时读写大批量的数据,这对存储系统的性能,尤其是多道并行作业同时存取大量数据时的I/O性能,会提出很高要求. 如果这一要求用在计算节点上直接连接大量的本地存储磁盘子系统来满足,那么, 这样会出现多台计算节点之间产生多次数据传输和磁盘容量不均及大量冗余且不一致的文件等现象, 而这些现象既耗用了大量的传输时间和计算节点宝贵的处理资源,又使得管理难度加大,降低了投资的使用率, 从而使整个系统的性能也很难保证。 在当前高性能计算系统中, 越来越趋向于使用

22、多台独立的高性能服务器和外部存储阵列专门作为存储服务系统, 高性能计算系统中的所有计算节点可同时存取数据文件, 将来还可过渡到为其它系统提供信息存储服务。2.4系统设计原则HP公司为XXXX气象局高性能计算系统设计方案的基本出发点:帮助用户建立一套既能最大限度地满足用户实际需要且技术又处于领先地位的高性能计算环境。HP公司认为,XXXX气象局高性能计算系统应具有处理大规模的复杂运算,尤其是浮点运算的能力 。它将为XXXX气象局提供优化工程设计、分析、验证的手段,最终实现提高设计质量、缩短开发周期、降低开发成本。中国惠普公司提供的解决方案是遵循以下原则设计的:1先进性本系统方案所采用的技术既要符

23、合业界的发展方向,又要在未来几年内仍具有很高的技术先进性,保持在同类系统中的领先地位。这样有利于提高整个系统的计算与处理能力 。2. 优越的性能高性能计算系统应具有优秀的处理能力,它不仅具有符合要求的峰值性能 (Peak Performance), 更重要的是应具有稳定的应用性能(sustained performance) 。各种复杂的研究课题在本系统中能够得到准确,快速的计算结果 。3. 可扩展性 系统应具有很强的扩展能力 。 随着对计算机系统性能的要求不断提高, 该计算机系统应具有扩展能力, 并且容易实现 。4. 开放性和兼容性本计算机系统应符合公认的工业标准, 包括体系结构,硬件,I/

24、O, 网络,操作系统,开发环境和开发工具等 。这样,便于和其他平台上的系统互操作 。 5应用软件丰富本系统的平台上应具有丰富的软件资源, 能够提供研究课题的解决方案和相应的软件系统 。HP公司与高性能计算方面的独立软件开发商紧密合作,例如:Fluent,ANSYS等专业工程软件商,Red Hat,Etnus,Pallas,Platform等专业平台软件商, 不仅提供处理节点间的协调和通信的中间件,使整个系统节点能够真正实现合作,负载均衡,还能针对不同应用需求,提供一系列并行计算应用。6. 良好的技术支持由于本系统是比较复杂的计算机环境, 在使用过程中不可避免的会遇到一些技术问题。 当遇到这些问

25、题时能够得到有效的支持, 使问题得以圆满的解决 。7性能价格比优越由于本系统比较庞大,价格因素也比较重要。 本系统在性能价格比方面在同类系统中应具有明显的优势,对于XXXX气象局来说在采购大型系统中应该考虑的重要因素。第三章 总体方案建议3.1 方案技术概述 针对高性能计算应用对高性能的需求,HP在系统设计上允许通过使用不断更新的IPF系列产品、采用先进的芯片组支持交叉交换体系结构、使用更高性能的基础节点、支持更多的节点和提供更高的带宽等多种途径扩展系统的规模,提供高性能和最大的性能扩展空间,满足当前和为适应当前飞速发展的计算需要, 一个高性能计算的全新时代应运而生, 而HP正是以其基于第二代

26、Itanium2处理器的安腾服务器执业界之牛耳。未来各种高端应用的需要。具有革命意义的安腾处理器家族架构由HP与Intel共同研制开发, 它基于全新的EPIC体系结构, 降低了平台的成本, 提高了其性能和可扩展性. 基于Itanium2的HP系统的速度比上一代产品快两倍, 轻松超越IA-32和基于标准RSIC的系统的性能. 基于Itanium2的惠普服务器能够提供更强大的功能, 更多的应用, 附加的特性, 以及更广泛的解决方案。IA64体系结构在吸收RISC体系结构经验教训基础上另辟蹊径,一开始就走开放性的道路,充分利用现代芯片制造工艺发展成果、提供足够的资源;同时,通过成为新的高端工业标准、

27、扩大批量来降低成本。它的基本设计思想是:提供一种新的机制、充分利用硬软件协同能力来提高指令并行度:一方面大力开发先进的编译程序,消除程序中的条件转移指令、并基于猜测机制越过转移和存储指令界限调度指令的执行次序,把程序员利用串行语义编写的源程序转换成由可并行执行指令段序列组成的目标程序;另一方面使得处理器具有足够资源和智能,来纪录编译程序所发现的程序中可并行执行指令段之间的划分信息,并保证在程序运行过程中发现猜测和调度有错时仍然给出正确结果。对IA64体系结构处理器来说,所执行的目标程序中可并行执行的指令段已经由编译程序显性地标识出来了、指令间的数据相关性和过程相关性也已经由编译程序消除了,使得

28、处理器只需使用相对简单的逻辑来实现很高的指令级并行度(ILP)。相反,传统的RISC处理器没有足够的资源来纪录编译程序所产生许多有用的信息,也没有充分利用现代编译程序强大的对程序执行过程的调度能力。虽然在RISC体系结构下,设计师们也使用编译程序来优化目标程序、为处理器提高ILP创造条件。但是,处理器所执行的基本上是隐性并行和包含大量相关性的目标程序,发现并行、线路预测、动态调度等提高ILP的无序执行技术、完全是由处理器硬件利用复杂的芯片逻辑来实现的。尽管两种体系结构之间存在着许多差别,但是执行显性并行或者隐性并行目标程序是其中最主要的本质差别。所以最初发明这种新体系结构的惠普公司把它称为显性

29、并行指令计算(EPIC)体系结构。除了强有力的编译程序外,IA64 体系结构微处理器必须提供足够的资源来实现EPIC设计思想、提高并行度和实现高性能,包括:新颖的指令集:允许编译程序产生由并行指令段组成的目标程序,并纪录指令段间的划分;大寄存器空间:为编译程序通过寄存器换名等技术消除相关性、产生尽可能在寄存器中进行运算的优质目标程序提供充分的余地;具有足够长度的指令:便于在指令中访问大寄存器空间中多个寄存器和消除程序中转移指令;足够的指令发送端口和派送网络:用于提高每个时钟周期发送到指令数和提高发送到速度和效率;多种类型的新型寄存器:允许编译程序越过条件转移和存储指令的界限调度目标程序中访问内

30、存指令的位置、消除相关性,并弥补调整位置所产生的错误;更多的浮点执行部件:有利于处理器实现高并行度的浮点计算;更多的整数和多媒体运算执行部件:有利于处理器实现高并行度的整数和多媒体信息处理;更多的芯片上高速缓存:有利于提高缓存命中率、降低内存延迟; EPIC体系结构处理器提供的寄存器资源IA64的EPIC体系结构是对传统RISC体系结构的重大革新,许多方面突破了RISC体系结构的局限、发展了RISC体系结构,为利用新制造工艺和技术、按照摩尔定律预示的速度提高处理器性能提供了可靠的保证。HP公司向XXXX气象局提出的以下高性能计算系统的解决方案正是以安腾2 (Itanium2-Madison)关

31、键技术为基础的。3.2方案逻辑结构根据惠普公司多年来气象气候领域的经验,在与XXXX气象局的各位专家进行交流之后,按照系统设计原则、基本的评价标准以及各种应用软件的需求,HP公司推荐了两种高性能计算的解决方案。一种是采用基于ccNUMA体系构架的多处理器服务器为节点的大节点集群系统,采用基于线程的并行处理机制为主,基于消息传输的并行处理机制为辅,一种是基于2 CPU 的SMP服务器为节点的分布式内存体系构架的集群系统,采用消息传输机制并行计算为主。实际上早期的数字天气预报应用软件(以MM5为主)主要运行在共享内存体系构架或者CRAY的矢量机上,随着机群技术的普及,主要的数字天气预报软件,比如M

32、M5都已经针对集群系统进行了并行化处理,可以运行在集群系统平台上了。3.2.1 ccNUMA体系构架的多处理器服务器方案一采用1台惠普公司的ccNUMA体系构架的Superdome服务器作为气象服务器,Superdome服务器运行1.5GHz 安腾2 CPU,最大配置128个CPU,但是考虑到美国的中国的出口限制,在本方案中,每台Superdome服务器配置32个1.5GHz 安腾处理器。Superdome服务器连接一台MSA1000磁盘柜,配置7个300GB磁盘,提供2TB的存储,最大配置提供6TB存储。HP Integrity SuperDome是HP公司最高端UNIX服务器,它基于Cel

33、l板的模块化高技术设计,最大可扩充至128颗CPU及1T内存和192个PCI插槽。它具有卓越的体系机构和性能,是作为XXXX气象局高性能计算系统的理想平台。HP Integrity服务器可以提供更强劲的动力、更多应用、额外的特性、以及包括商用和技术计算在内的更广泛的解决方案,其超群表现让竞争对手同档系统难以望其项背。凭借在与英特尔联合开发安腾体系结构中所取得的丰富经验,惠普开发了HP超级可扩展处理器芯片组sx1000。HP sx1000芯片组可以降低内存延迟并提高内存和I/O吞吐量,进而充分发挥英特尔安腾2处理器的全部性能。从而使您获得卓越的系统性能,以处理要求最苛刻的业务工作负载并提供业界无

34、与伦比的价值。SuperDome支持硬件分区,可以定义成16个分区。分个分区都可以安装、运行单独的操作系统,以适应不同应用对系统的不同要求。分区之间的资源可以调整,满足不同应用不同时段的资源要求。SuperDome采用HP_UX 11i V2(现在成为唯一可支持安腾芯片的64位UNIX操作系统)操作系统提供高性能计算环境的基础,并配合相应的系统管理软件、语言编译器、并行模式、相关数学库,还可支持目前流行的各种第三方高性能计算商业软件包和应用软件包,例如Platform的LSF(负载平衡软件)和checkpoint,Etnus的TotalView,Pallas的Vampir及Gaussian等等

35、,这些可由校方根据实际要求灵活配置, 以运行高性能计算应用程序和商业软件。HP_UX11i系统下的C,C+和Fortran编译器展示出卓越的实际应用性能, 操作系统库充分利用了Itanium2架构的先进技术,其中包括: MLIB- 一系列子程序, 为科学和技术计算提供了常用数学软件, 并针对Itanium2架构进行了优化; Libm - 一种支持C,C+和Fortran90的优化的浮点数学库,其设计充分利用了HP快速准确实用的架构;向量数学库由HP实验室和CERN共同开发的一组代数和先验函数, 经过优化可为向量计算提供高精度和无与论比的性能;HP MPI-实现对Itanium2架构信息传递接口

36、的高性能, 为开发人员提供了API和软件库来支持下有效,可移植的并行信息传递的应用, 是分布式计算的理想选择。惠普还可以提供PRM(Process Resource Manager)软件。PRM提供系统管理员指定计算机资源如何分配给不同用户和应用的权力。PRM可以管理分配CPU、内存、磁盘和I/O资源给特定应用,以控制不同应用或不同用户组对计算机资源的使用。 3.2.2 集群高性能计算解决方案方案二采用30个 HP安腾高性能计算2路服务器作为节点机,通过Myrinet高速互联设备连接组成一个高性能计算机,用来满足通常的应用程序计算需求,除了计算节点之外,还配置了2 个服务器作为管理节点和用户登

37、录节点,同时兼作作为存储节点,通过SAN 网络连接MSA1000,配置2TB存储容量。 30个计算节点 HP安腾高性能计算2路服务器 RX1600每个节点的配置如下:- 2个 IA-64 Itanium 2 1.0GHz- 2 GB DDR-SDRAM 内存- 2个 PCI 槽位- 2个10/100 TP Ethernet 口, 1 个 Gb Ethernet 口- Integrated lights out (iLO)- 2 个 Universal Serial Bus (USB) 口- 磁盘空间: 计算节点36GB/节点2台RX1600服务器作为存储访问节点/管理节点/登录节点,其配置如下

38、:- 2个 IA-64 Itanium 2 1.0GHz- 2 GB DDR-SDRAM 内存- 2个 PCI 槽位- 2个10/100 TP Ethernet 口, 1 个 Gb Ethernet 口- Integrated lights out (iLO)- 2 个 Universal Serial Bus (USB) 口- 磁盘空间: 2x 36GB - 1000Base-T Giagbit 以太网卡- DVD-ROM 驱动器- USB PS/2转换器MSA 1000配置:300GB硬盘7块所有设备采用机柜式配置,集成在2套机架式里,共享液晶显示/键盘/鼠标)。高速互联设备采用32 My

39、rinet交换机,其中30个端口连接计算节点,2个端口连接存储和管理节点。方案示意图如下:集群互联设备的选择目前业界主要有3种互联设备: Myrinet、Infiniband和Quadrics高速互联设备作为互联网络,两种互联设备的比较如下:理论带宽MPI带宽MPI延迟Myrinet 2000单向250MB/s,双向500MB/s单向235MB/s,双向473MB/s6.7sInfiniband4x: 10Gbps,全双工; 12x: 30Gbps,全双工;单向841MB/s,双向900MB/s6.8sQuadrics单向400MB/s,双向800MB/s单向308MB/s,双向375MB/s

40、4.6s三种互联设备的比较图如下:带宽比较:延迟比较:通过以上比较发现,三种互联设备各有优缺点,具体如下: Quadrics在延迟方面是三种设备中最好的 Infiniband在带宽方面是三种设备中最好的 Infiniband和Myrinet两种互联设备在延迟方面比较接近 高带宽是通过加大数据包的大小获得的,在数据包小于2kb的情况下,Infiniband和Myrinet的带宽比较接近。由于高性能计算中,大部分类型的应用程序节点之间进程的通信数据包不大,三种互联设备带宽也相差不大,Quadrics的低延迟特性使其领先于其它2种互联设备,Infiniband和Myrinet的延迟差别比较小,对于气

41、象类型的应用系统,比如MM5应用程序,已经成功的移植到分布式内存体系构架上了,对于并行计算版本的MM5应用程序,对互连设备的带宽和延迟的要求程度,属于中等,所以采用Infiniband和Myrinet已经足够了,另外,Infiniband提供24口、96口、288口以及更多端口的配置模式,Myrinet采用16口、32口、64口、128口以及更端口的配置模式,在本方案中,要求32个端口,相比之下采用Myrinet 32口的交换机,在价格上会更加便宜一些,所以建议采用myrinet互连设备。事实上,在华中科技大学建设的中国教育科研网格高性能计算项目的建设中,我们就采用了这种方案。它作为全国教育网

42、格的节点,近期负责为该校的科学计算可视化及生命科学项目提供计算能力,未来将作为我国教育部网格计算的重要节点为其它高校科研项目提供计算能力。集群整体解决方案的峰值性能如下:30*2*4*1.0 = 240Gflops互联设备拓扑结构分析目前三种互联设备都采用fat-tree的拓扑结构互联,通常都是又一个最小单位的交换机模块,通过fat-tree拓扑结构组成一个non-blocking的交换机,fat-tree拓扑结构的优势在于:1. 保证任何端口之间的延迟是相同的2. 在non-blocking的连结模式下,任何端口之间可以并行可以并行传输数据,互不干扰,而且带宽相同,3. 在blocking模

43、式下,所有端口并发传输数据时,会出现某些端口争用带宽的情况。以下采用Myrinet交换机作为例子进行分析。Myrinet交换机同样采用Fat Tree(或者CLOS)拓扑结构,CLOS拓扑结构能够保证所有远地端口保持相同的延迟和带宽,提供一种无阻塞的拓扑结构。低于128个端口的交换机是由多个16口XBAR交换机组成,16口XBAR交换机采用交换式的非阻塞体系构架。有多个16口XBAR交换机通过CLOS拓扑结构进一步组成一个非阻塞的128端口交换机。其体系构架如下:目前Myrinet提供单个交换机最大128个端口,超过128个端口的网络系统,必须进一步采用CLOS拓扑结构,由多个XBAR64组成

44、,由 XBAR64作为基本构造模块,目前Myrinet提供多种超过128个端口的交换机,包括:192/256/320/384/448/512/576/640/704/768/832/960/1024 端口交换机。下图是192端口交换机的示意图:192端口的交换机是由5个128端口交换机采用CLOS拓扑结构组成的,256端口的交换机是由6个128端口交换机采用CLOS拓扑结构组成的,超过256端口,至少需要9个128端口交换机。通过以上的介绍可以发现,从成本上来看,由128端口升级到192端口在成本上会是2.5倍的关系,从192端口升级到256端口1.25倍的关系,以上包括主机适配器的成本。介于

45、128/192之间,以及192/256之间的节点数,在成本上仅仅是主机适配器数量的区别,交换机的配置不变。3.3 性能指标和成功案例Linpack 是美国田纳西大学的Jack Dongarra创立和管理的基准测试指标。它是一组用于分析和求解线性代数方程和线性最小二乘问题的 Fortran子程序,其中的矩阵可以是一般的,也可以对称正定、带形、三对角等特殊形状的。Linpack 广泛应用于测量计算机系统执行浮点计算 (特别是线性代数计算)的性能指标。是高性能计算服务器性能参考的重要依据。从上图可以看出,采用了安腾2处理器的HP动能服务器的Linpack(10001000)测试结果相当理想,非常适合

46、于高性能计算的应用。正是由于HP Integrity SuperDome服务器卓越的性能, 尽管它才刚刚推出时间不长, 但在国内的中国科技大学(2*SuperDome各配64*1.5GHz CPU)选择了它作为其高性能计算平台; 另外, 选择HP基于 Itanium 2处理器的Linux集群的有清华大学, 中国科技大学, 华中理工大学和国防科技大学。linpack性能指标是一种整合性能测试,包含多种应用模式下的一个总合测试,在每一个特定的应用程序下,实际的性能会有所偏差,对与数字天气预报类型的应用程序,在此给出了MM5应用程序的标准测试结果供参考。通过以上的比较可以发现,方案一和方案二在运行MM5应用程序时的性能相差却不大。在配置32个1.5GHz Itanium II CPU 的Superdome服务器的MM5性能为25388 Mflop/sec。CAS Itanium2集群系统采用1.3GHz的Itanium2处理器,在64个1.3GHz Itanium2 cpu的MM5性能为28543,考虑到在采用HP zx1 芯片组时性能较公版的芯片组有1020的提高,在使用HP专门针对高性能计算的计算环境TCOE又会有1020的提升,估计60个Itanium2 1.0GHz CPU的MM5性能约为25500左右。在64路处理器的情况下,Superdome服务器也是除了矢量机之外性能

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号