服务器三大体系SMPNUMAMPP研讨.docx

资源描述

《服务器三大体系SMPNUMAMPP研讨.docx》由会员分享，可在线阅读，更多相关《服务器三大体系SMPNUMAMPP研讨.docx（10页珍藏版）》请在三一办公上搜索。

1、服务器三大体系Smpnumampp研讨服务器三大体系SMP、NUMA、MPP介绍摘要：从系统架构来看，目前的商用服务器大体能够分为三类，即对称多处理器结构、非一致存储访问结构与海量并行处理结构。从系统架构来看，目前的商用服务器大体能够分为三类，即对称多处理器结构(SMP：SymmetricMulti-Processor),非一致存储访问结构(NUMA：Non-UniformMemoryAccess),与海量并行处理结构(MPP：MassiveParallelProcessing),它们的特征分别描述如下：SMP(SymmetricMulti-Processor)所谓对称多处理器结构，是指服务器

2、中多个CPU对称工作，无主次或者从属关系。各CPU共享相同的物理内存，每个CPU访问内存中的任何地址所需时间是相同的，因此SMP也被称之一致存储器访问结构(UMA：UniformMemoryAccess)o对SMP服务器进行扩展的方式包含增加内存、使用更快的CPU、增加CPU、扩充1/0(槽口数与总线数)与添加更多的外部设备(通常是磁盘存储)。SMP服务器的要紧特征是共享，系统中所有资源(CPU、内存、I/O等)都是共享的。也正是由于这种特征，导致了SMP服务器的要紧问题，那就是它的扩展能力非常有限。关于SMP服务器而言，每一个共享的环节都可能造成SMP服务器扩展时的瓶颈，而最受限制的则是内存

3、。由于每个CPU务必通过相同的内存总线访问相同的内存资源，因此随着CPU数量的增加，内存访问冲突将迅速增加，最终会造成CPU资源的浪费，使CPU性能的有效性大大降低。实验证明，SMP服务器CPU利用率最好的情况是2至4个CPU。CPU利用率最好的情况是2至4个CPUNUMA(Non-UnifornMemoryAccess)由于SMP在扩展能力上的限制，人们开始探究如何进行有效地扩展从而构建大型系统的技术，NUMA就是这种努力下的结果之一利用NUMA技术，能够把几十个CPU（甚至上百个CPU）组合在一个服务器内。其CPU模块结构如图2所示：图2.NUMA服务器CPU模块结构NUMA服务器的基本特

4、征是具有多个CPU模块，每个CPU模块由多个CPU（如4个）构成，同时具有独立的本地内存、I/O槽口等。由于其节点之间能够通过互联模块（如称之CrossbarSWitCh）进行连接与信息交互，因此每个CPU能够访问整个系统的内存（这是NUMA系统与MPP系统的重要差别）。显然，访问本地内存的速度将远远高于访问远地内存（系统内其它节点的内存）的速度，这也是非一致存储访问NUMA的由来。由于这个特点，为了更好地发挥系统性能，开发应用程序时需要尽量减少不一致CPU模块之间的信息交互。利用NUMA技术，能够较好地解决原先SMP系统的扩展问题，在一个物理服务器内能够支持上百个CPU。比较典型的NUMA服

5、务器的例子包含HP的SUPerdOme、SUN15KIBMp690球但NUMA技术同样有一定缺陷，由于访问远地内存的延时远远超过本地内存，因此当CPU数量增加时，系统性能无法线性增加。如HP公司公布SUPerdOme服务器时，曾公布了它与HP其它UNIX服务器的相对性能值，结果发现，64路CPU的SUPerdome（NUMA结构）的相对性能值是20,而8路N4000（共享的SMP结构）的相对性能值是6.3。从这个结果能够看到，8倍数量的CPU换来的只是3倍性能的提升。NUMA与MPP之比较NUMAjK务器MPP圈务器MPP节点互联网络内在校制日内存图3.MPP服务器架构图MPP(Massiv

6、eParallelProcessing)与NUMA不一致，MPP提供了另外-种进行系统扩展的方式，它由多个SMP服务器通过一定的节点互联网络进行连接，协同工作，完成相同的任务，从用户的角度来看是一个服务器系统。其基本特征是由多个SMP服务器（每个SMP服务器称节点）通过节点互联网络连接而成，每个节点只访问自己的本地资源（内存、存储等）,是一种完全无共享（ShareNothing）结构，因而扩展能力最好，理论上其扩展无限制，目前的技术可实现512个节点互联，数千个CPU。目前业界对节点互联网络暂无标准，如NCR的Bynet,IBM的SPSWitch,它们都使用了不一致的内部实现机制。但节点互联网

7、仅供MPP服务器内部使用，对用户而言是透明的。在MPP系统中，每个SMP节点也能够运行自己的操作系统、数据库等。但与NUMA不一致的是，它不存在异地内存访问的问题。换言之，每个节点内的CPU不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的，这个过程通常称之数据重分配（DataRedistribution）o但是MPP服务器需要一种复杂的机制来调度与平衡各个节点的负载与并行处理过程。目前一些基于MPP技术的服务器往往通过系统级软件（如数据库）来屏蔽这种复杂性。举例来说，NCR的Teradala就是基于MPP技术的一个关系数据库软件，基于此数据库来开发应用时，不管后台服务器由多

8、少个节点构成，开发人员所面对的都是同一个数据库系统，而不需要考虑如何调度其中某几个节点的负载。NUMA与MPP的区别从架构来看，NUMA与MPP具有许多相似之处：它们都由多个节点构成，每个节点都具有自己的CPU、内存、I/O,节点之间都能够通过节点互联机制进行信息交互。那么它们的区别在哪里？通过分析下面NUMA与MPP服务器的内部架构与工作原理不难发现其差异所在。首先是节点互联机制不一致，NUMA的节点互联机制是在同一个物理服务器内部实现的，当某个CPU需要进行远地内存访问时，它务必等待，这也是NUMA服务器无法实现CPU增加时性能线性扩展的要紧原因。而MPP的节点互联机制是在不一致的SMP服

9、务器外部通过I/O实现的，每个节点只访问本地内存与存储，节点之间的信息交互与节点本身的处理是并行进行的。因此MPP在增加节点时性能基本上能够实现线性扩展。其次是内存访问机制不一致。在NUMA服务器内部，任何一个CPU能够访问整个系统的内存，但远地访问的性能远远低于本地内存访问，因此在开发应用程序时应该尽量避免远地内存访问。在MPP服务器中，每个节点只访问本地内存，不存在远地内存访问的问题。数据仓库的选择哪种服务器更加习惯数据仓库环境？这需要从数据仓库环境本身的负载特征入手。众所周知，典型的数据仓库环境具有大量复杂的数据处理与综合分析，要求系统具有很高的I/O处理能力，同时存储系统需要提供足够的

10、I/O带宽与之匹配。而一个典型的OLTP系统则以联机事务处理为主，每个交易所涉及的数据不多，要求系统具有很高的事务处理能力，能够在单位时间里处理尽量多的交易。显然这两种应用环境的负载特征完全不一致。从NUMA架构来看，它能够在一个物理服务器内集成许多CPU,使系统具有较高的事务处理能力，由于远地内存访问时延远长于本地内存访问，因此需要尽量减少不一致CPU模块之间的数据交互。显然，NUMA架构更适用于OLTP事务处理环境，当用于数据仓库环境时，由于大量复杂的数据处理必定导致大量的数据交互，将使CPU的利用率大大降低。相对而言，MPP服务器架构的并行处理能力更优越，更适合于复杂的数据综合分析与处理

11、环境。当然，它需要借助于支持MPP技术的关系数据库系统来屏蔽节点之间负载平衡与调度的复杂性。另外，这种并行处理能力也与节点互联网络有很大的关系。显然，习惯于数据仓库环境的MPP服务器，其节点互联网络的I/O性能应该非常突出，才能充分发挥整个系统的性能。SMP系统与MPP系统比较SMP(SymmetricMultiProCeSSing),对称多处理系统内有许多紧耦合多处理器,在这样的系统中，所有的CPU共享全部资源，如总线，内存与I/O系统等，操作系统或者管理数据库的复本只有一个，这种系统有一个最大的特点就是共享所有资源。MPP(MassivelyParallelProcessing),大规模并

12、行处理系统,这样的系统是由许多松耦合的处理单元构成的，要注意的是这里指的是处理单元而不是处理器。每个单元内的CPU都有自己私有的资源，如总线，内存，硬盘等。在每个单元内都有操作系统与管理数据库的实例复本。这种结构最大的特点在于不共享资源。既然有两种结构，那它们各有什么特点呢？使用什么结构比较合适呢？通常情况下，MPP系统由于要在不一致处理单元之间传送信息（请注意上图），因此它的效率要比SMP要差一点，但是这也不是绝对的，由于MPP系统不共享资源，因此对它而言，资源比SMP要多，当需要处理的事务达到一定规模时，MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定，假如通信时间比较多，

13、那MPP系统就不占优势了，相反，假如通信时间比较少，那MPP系统能够充分发挥资源的优势，达到高效率。当前使用的OTLP程序中，用户访问一个中心数据库，假如使用SMP系统结构，它的效率要比使用MPP结构要快得多。而MPP系统在决策支持与数据挖掘方面显示了优势，能够这样说，假如操作相互之间没有什么关系，处理单元之间需要进行的通信比较少，那使用MPP系统就要好，相反就不合适了。通过上面两个图我们能够看到，关于SMP来说，制约它速度的一个关键因素就是那个共享的总线，因此关于DSS程序来说，只能选择MPP,而不能选择SMP,当大型程序的处理要求大于共享总线时，总线就没有能力进行处理了，这时SMP系统就不

14、行了。当然了，两个结构互有优缺点，假如能够将两种结合起来取长补短，当然最好了。什么是大型机，小型机。(Mainframe)大型机（mainframe）这个词，最初是指装在非常大的带框铁盒子里的大型计算机系统，以用来同小一些的迷你机与微型机有所区别。尽管这个词已经通过不一致方式被使用了很多年，大多数时候它却是指system/360开始的一系列的IBM计算机。这个词也能够用来指由其他厂商，如Amdahl,HitachiDataSystems（HDS）制造的兼容的系统。有些人用这个词来指IBM的AS/400或者者iSeries系统，这种用法是不恰当的；由于即使IBM自己也只把这些系列的机器看作中等型

15、号的服务器，而不是大型机。什么是I/O通道（ChanneI）一条大型机通道（Charlnel）某种程度上类似于PCI总线（bus）,它能将一个或者多个操纵器连接起来，而这些操纵器又操纵着一个或者更多的设备（磁盘驱动器、终端、LAN端口，等等。）大型机通道与PCI总线之间的一个要紧区别是大型机通道通过几对大的busandtag电缆（并行通道方式），或者者通过最近常使用的ESeoN（EnterpriseSystemConnection）光导纤维电缆（串行通道方式）与光纤通道来连接操纵器。这些通道在早期是一些外置的盒子（每个约6X30X5H大小），现在都已经整合到了系统框架内。这些通道的超强I/O处

16、理能力是大型机系统功能如此强大的原因之一。什么是DASDDASD是DirectAccessStorageDevice（直接存取存储设备）的缩写：IBM制造这个词来指那些能够直接（并随意）设定地址的存储系统，也就是今天我们所说的磁盘驱动器。但在过去，这个词也指磁鼓（drums）与数据单元（datacell）等等。什么是数据单元？嗯，在磁盘驱动器变得廉价、快速并普遍使用前，IBM曾经制造过一种设备，基本上就是由一个磁鼓与绕在磁鼓上的许多磁条（单元）中的一个构成，然后读写的资料就被纪录在卷动的磁条的磁道上。这种存取数据的方法与磁盘很类似，但当（磁鼓）搜寻资料的时候需要更换磁带的话，所需的时间显然就得

17、按秒来计算。数据单元设备还有个调皮的习惯，它喜欢在卸下一个单元到存储槽的时候卷成一块，这有的时候会造成介质的物理损坏。可见，在取得目前的技术进步前，我们已经走了很长一段路了。什么是LPAR一个LPAR（逻辑分区logicpartition）是一种通过PR/SM（ProcessorResource/SystemManager,一种最近的大型机都具有的固件fireware特性）来实施的虚拟机。在每个分区上，能够运行一个单独的镜像系统，并提供完全的软件隔离。这与UNlX操作系统上的domains原理很相似，但IBM的方法更加细致，它同意所有的CPU与I/O子系统能够在逻辑分区间被共享。PR/SM同意

18、在单个系统上运行15个LPAR,每个（LPAR）拥有专有真实存储（dedicatedrealstorageRAM）同时拥有专有或者共享的CPU与通道。由于对性能影响最为重要的部分都是在CPU里完成的，因此（这样做）没有多少性能的缺失。IBM已经宣称它准备在不久的将来把最高可支持的LPAR数目扩展到超过15个。大型机系统得以长盛不衰的要紧原因（特点）是：RAS,I/O处理能力与ISA。RASRAS（Reliability,Availability,Serviceability高可靠性、高可用性、高服务性）是一个IBM常用来描绘它的大型机的词。到70年代早期为止，IBM已经认识到商业用途系统市场远

19、比科研计算机系统市场有利可图。他们也明白IBM商用系统的一个重要的卖点就是高可靠性。假如他们的商业客户准备使用IBM计算机来开展极其重要的商业业务，客户就得确认他们能够在任何时间都能够正常使用（IBM的机器）。因此，最近30多年来，IBM致力于使每一个新系列的系统比前一代更加可靠。这就导致了今天的系统变得如此可靠，以至于几乎没听说过有任何由于硬件问题导致的系统灾难。这些大型机系统内集成了相当高程度的冗余与错误检查（技术），这样就能防止系统发生灾难性的问题。每个CPUdie装有2个完全的执行管道（exeJtionPiPelineS）来同时执行每一条指令。假如这两条管道得出的结果不相同，CPU的状

20、态就会复原，然后这条指令被重新执行。假如重新执行后结果还是不一致，最初的CPU状态就被记录卜.来，然后一个空闲的CPU被激活并装入存储的状态数据。这颗CPU继续做最初那颗CPU的工作。经历芯片、内存总线、I/O通道、电源等等，都要么有冗余的设计，或者者有相应的备用品并能够随时投入使用。这些（设备的）小错误可能会导致性能的一些小缺失，但他们决不可能导致系统中任何任务的失败。当很罕见地出现错误的时候，高服务性就用得上了。许多组件都能够在系统运行的同时被更换（热插拔）；甚至微码（microcode）的升级也能够在系统运行的同时进行。关于那些不能被同时更换的部件，如CPU,备用品的存在就保证了能够客户

21、方便的时候安排系统停机。除了系统设计中的固有可靠性，IBM也创立了一个紧密联结的集群技术，叫做PaQlIelSySplex,这项技术支持由最多32个系统作为一个系统镜像运行。在一个合理部署的ParaIlelSySPIeX系统上，即使一个独立系统遭受了毁灭性缺失，整个系统也不可能受太大影响，而且不可能导致任何工作的缺失。任何在那台遭受缺失的系统的上进行的工作，都能够自动地在剩卜的系统上重新开始。另一个ParaI回SySPIeX的优势是一台（或者多台）系统能够从整个系统中移出以进行硬件或者软件的保护工作（比如在非工作时间），而其余的单独系统能够继续处理工作。当保护工作完成后，系统又回归加入SySP

22、IeX系统中继续工作。充分利用这一特点就能够升级整个SySPIeX系统软件（一次一个单独的系统），而不可能导致任何应用程序的暂停使用。正由于拥有所有这些功能，真正100%的系统可用性是非常有用的，同时已经在许多地方开始实施。I/O吞吐量（I/OThroughput）这些通道实际上就是I/O处理器，他们执行通道程序。这些程序包含了成串的I/O指令，其中就包含有最原始的分流功能。这些通道极大地降低了CPU在I/O操作中的工作量，使得CPU能够更加高效地工作。每一个通道都能同时处理许多I/O操作与操纵上千个设备。在360与370系列构架上，操作系统会创建一个通道程序并在一个已连接到所需设备的通道上执

23、行这个程序。假如这个通道或者操纵单元十分忙碌，起始I/O指令就会失败，然后操作系统就会尝试在另一个已连接到不一致操纵单元的通道上重新开始通道程序。假如所有的道路都是繁忙的，操作系统就会把这个请求列入队列留在以后再试。XA系列里面出现的一个显著的改进就是创立了通道子系统的概念，这个子系统能够协调并安排系统里所有通道的活动。现在操作系统只需要创立通道程序，然后把程序转交给通道子系统，通道子系统就会处理所有的通道/操纵单元与队列问题。这样就使大型机具有了更加强大的I/O吞吐量并使CPU能更有效地工作，由于只有在所有的I/O操作都完成的时候才需要CPU的介入。目前Z900大型机的I/O吞吐能力是最低每

24、秒24GB（这是字节数，不是位数。）尽管我没有亲自测试这些最新系统的机会，但即使理论上的数字可能不太准确，假如说Z900大型机达到了每秒100,000次I/O,我也不可能感到太吃惊。TheISA(IBMSystemArchitecture)这些年尽管IBM大型机的整体指令集有了显著改进，IBM保持了惊人的对应用程序的向后兼容。许多最为显著的构架上的变化已经影响了一些只能直接被操作系统调用，而不能被应用程序调用的设备（如I/O子系统）。IBM已经花费了巨大的努力来保证它的客户们不必重写或者重编译他们的程序来在新系统上运行。这样，客户要使用新的硬件就更为容易，客户只需要拔下旧系统，换上新系统，而不

25、需要做额外的软件测试工作。关于只有拥有一台大型机的公司来说，只需要花几个小时就能够对旧系统进行升级，而不需要在投入正式使用前对新系统进行测试。这特别适合那些在升级前后使用同一种操作系统的客户，他们只需要将操作系统升级到所需要的版本就行了。比如，客户能够在新安装的z900系统上仍然运行31位的操作系统，然后在一个单独的LPAR上安装并测试一个64位的操作系统，然后再把全部运行的业务转移到64位的操作系统上。大型机类型：9672/9674=ES9000=S390=zSeries中型机类型：95069402=AS400=iSeries小型机类型：RS6000=pSeries,HP9000zSNSPA

26、RC小型机*不一致品牌的小型机架构大不相同,使用RISC.MlPS处理器,像美国SIJn、日本FlJjitSU等公司的小型机是基于SPARC处理器架构,而美国HP公司的则是基于PA-RISC架构,Compaq公司是AIPha架构,IBM与SGI等的也都各不相同;I/O总线也不相同,Fujitsu是PCLSun是SBUS,等等,这就意味着各公司小型机机器上的插卡,如网卡、显示卡、SCSI卡等可能也是专用的;操作系统通常是基于Unix的,像SUrI、Fujitsu是用SunSoIariszHP是用HP-UnixzIBM是AIX,等等,因此小型机是封闭专用的计算机系统。使用小型机的用户通常是看中Un

27、iX操作系统的安全性、可靠性与专用服务器的高速运算能力。小型机通常都是用UNIX操作系统，往常IO不兼容，现在基本上都是Pel总线，外设板卡通常都是兼容的。SBUS之类都是古董了。巨型机*事实上，绝大多数当今的巨型机都是MPP或者NUMA架构的，而且都使用INTEL或者RlSC节点。因此说，绝大部分巨型机是由开放系统节点机（包含开放系统小型机）构成的。巨型机是用途完全不一致的东西，要紧强调的是并行计算、共享内存，追求的是性能，动辄用几千个CPU,也有的用的不是CPU,而是专用的向量处理机，要紧用于科学计算。典型编程语言是fortran、c,大型机有关信息*按照IBM的说法，大型机有S/390,

28、中型机有AS/400,小型机有RS/6000,S/390运行z/OS或者者LinUX/390,要紧指标在于年档机只有几小时，因此又统称之Z系列（ZerO）,AS/400要紧应用在银行与制造业，还有用于Domino,要紧的技术在于TIML单级存储，有了TIMI技术能够做到硬件与软件相互独立。RS/6000比较常见，用于科学计算，事务处理。大型机本来就不是以处理能力见长，各类排行榜如TPeC上，很少看到大型机，I。/RAS的优势现在也不明显了，往常EMc、HDS的存储都是用于大型机的，现在它们的要紧市场都在小型机上，100oooiops已经不稀奇了。在CPU/内存容量/10带宽方面,相对小型机里面的旗舰级产品如SUnI5K,HPSuperdome,IBMP690,没有优势。大型机技术上还有很多领先的地方，但是性价比不敢恭维。只是积存了很多行业应用，一大堆非关系数据库/Cobol程序之类，这些东东没法移植，成为大型机吃老本的资本。IBM的大型机概念强调的是IO与RAS,追求的是稳固、可靠，要紧用于商业管理系统；典型编程语言是Cobolo

展开阅读全文