《计算资源的发展.ppt》由会员分享,可在线阅读,更多相关《计算资源的发展.ppt(125页珍藏版)》请在三一办公上搜索。
1、计算资源的发展,郝卫东,资源整合,计算、存储、数据、应用、信息、知识、专家等资源的全面共享,耦合各种资源:计算资源:计算机、软件存储资源:存储硬件、存储软件、存储接口数据资源:数据库(如人类基因库)、资源库(政务信息资源库等)仪器资源:各种仪器(如射电望远镜、仪表、工业控制器等)专家资源:人(生物学家、物理学家、数学家、计算机专家)提供象电力一样方便的“计算力”:计算力公司,计算资源,从发展阶段来看,包括大型机(Mainframe,Super Computer)C/S计算(PC,服务器)集群计算P2P计算网格计算云计算,大型机,主机/终端计算架构最早出现的应用架构。典型的主机(Mainfram
2、e)如IBM的大型机等,价格昂贵对主机-终端方式而言,终端是毫无运算能力的输入、输出设备,应用软件运行在主机上。既然有如此之大的计算需求,那么如何来满足呢?在过去的几十年里,人们的解决方法是,建造越来越大的超级计算机。,NEC Earth Simulator,5104 processors,40 TFlop/s peak,10 TB memory.,4 tennis courts,3 floors,地球模拟器,“地球模拟器”是由日本宇宙开发事业团、日本原子能研究所以及海洋科学技术中心共同开发的矢量型超级计算机。“地球模拟器”通过在计算机内设置“虚拟地球”,以预测及解析整个地球的大气循环预测、温
3、室化预测、地壳变动、地震发生等大规模计算为目的而开发,其原形是日本NEC公司的矢量型超级计算机“SX-5”。,地球模拟器,“地球模拟器”是由640台用来进行演算处理的“计算节点”(机体的长和宽均为1.4米,高为2米)和65台用于连接计算结点的网络设备构成。每个计算结点上配备有8个最大为8吉 FLOPS(1吉FLOPS1秒钟进行10亿次的浮点运算)的NEC产处理器和16GB的共享内存。计算结点和网络设备由通信速度为12.3GB/秒的网络连接,使用的电缆总长度达2800公里。整套设备共占用空间达3200平方米。“地球模拟器”的开发始于1999年。开发费用总计达400亿日元(约合人民币25亿元)。,
4、地球模拟器,2002年4月,“地球模拟器”在接受超级计算机的世界标准“Linpack”的基准测试时,运算性能达到了35.61太拉FLOPS(1太拉FLOPS1秒钟进行1万亿次的浮点运算),是当时世界上最高性能的超级计算机。由于其实际性能达到了此前世界最高性能的美国ASCI White超级计算机的5倍以上,因此美国媒体甚至将其称为“Computenik”(新造词汇,表示美国自1957年前苏联率先发射人造卫星以来受到的又一次重大冲击),Linpack 测试,LINPACK是线性系统软件包(Linear system package)的缩写。Linpack是用Fortran语言编写的线性代数软件包,
5、目前Linpack例程常被用来比较不同计算机的性能。,ASCI White,8192 processors,12.3 TFlop/s peak,6 TB memory,two hundred cabinets,two basket ball courts,ASCI White,ASCI White在2004年NEC“地球模拟器”系统推出之前一直占据TOP500第一的位置,从2001年到2004年一直是IBM安装的最大的计算机系统.命名为“ASCI White”的超级计算机是由512个RS/6000 SMP节点机构成的机群系统,“ASCI White”采用了IBM的AIX操作系统,美国能源部用它
6、来开发模拟核弹头安全性.,曙光4000A在价格、Linpack速度、系统占地、功耗等方面都好于ASCI White,说明曙光4000A达到IBM最大系统的水平。,BlueGene/L,据Top500.org表示,2005年全球最快的超级计算机是 IBM公司开发的 BlueGene/L,安装在美国加州利弗莫尔的劳伦斯-利弗莫尔国家实验室。该设备能够进行每秒137 TFLops或137万亿次计算.中国超级计算机曙光 4000 A被排在第31名,它的最高的标准计算性能为8 TFLops.联想集团开发的DeepComp 6800超级计算机在全球500台最强大超级计算机排行榜上被排在第72名。它的最高的
7、标准计算性能为4 TFLops,1.026 petaflop/s(2008),Roadrunner,BladeCenter QS22/LS21 Cluster,PowerXCell 8i 3.2 Ghz/Opteron DC 1.8 GHz,Voltaire Infiniband,Linux,“曙光5000”高性能计算机是国家863计划支持的研究项目。其浮点运算处理能力可以达到230万亿次(交付用户使用能力200万亿次),Linpack速度预测将达到160万亿次,这个速度将有望让中国高性能计算机再次跻身世界前十(2008)。,“星云”超级计算机,TC3600“星云”由中国曙光公司生产,被安装在
8、国家超级计算深圳中心,理论峰值接近3000万亿次,Linpack运算能力达到每秒1270万亿次,居2010年6月超级计算机排行榜第二位.排行第一的是位于美国能源部橡树岭国家实验室的”美洲虎”(Jaguar)超级计算机,理论峰值2300万亿次,实际运算能力达到每秒1760万亿次.,中国成功研制千万亿次超级计算机“天河一号”,2010年11月第一,天河一号,Top500在2010年11月公布的榜单介绍,由中国国防科技大学(NUDT,National University of Defense Technology)研制、部署在中国国家超级计算天津中心的“天河一号A”实测运算速度达每秒2570万亿次
9、,获得第一。远高于美国“美洲虎”的每秒1750万亿次。中国的“星云”(nebulae,Dawning TC3600 Blade System)超级计算机获得第三。,天河一号,天河一号A的成功之处在于其拥有无法比拟的超强带宽的互联网络,一般美国超级计算机所用的Infiniband互联网络单向带宽只有40千兆位/秒,而天河一号A高达80千兆位/秒。天河一号A有7168个计算结点,每个结点上配备了2个Intel处理器和1个Nvidia公司的GPU(图象处理单元),即中国仍需借用美国的芯片技术,天河一号,美国仍是超级计算机的领导者。它不仅在超级计算机系统研发方面做得好,而且在其应用软件方面也好。相比之
10、下,欧洲在应用软件方面较强,但超级计算系统研发方面较弱。中国相反,在超级计算系统研发方面强,但目前使用的大多却是国外的应用软件。,天河一号,与其它超级计算机操作系统不同的”麒麟”系统,同样是”天河一号”的亮点.在中国超级计算机大多使用外国操作系统的情况下,这套由国防科技大学自主开发的操作系统以高安全性著称.Windows 操作系统的生态链非常丰富,为它开发软件的人很多.但”麒麟”系统还没有形成生态链,所以使用性就会不足.,兼容Linux,银河麒麟2.0操作系统兼容Linux目标代码,Linux平台上的大型应用如图形环境、Oracle数据库服务等都可以直接运行在麒麟安全操作系统平台上.,涉嫌抄袭
11、事件,在2006年4月27日网友Dancefire的一篇技术分析文章中声称,通过对麒麟操作系统2.0版本进行反汇编,麒麟操作系统与美国开放源代码的FreeBSD 操作系统5.3版本相似度在90%以上。更多的证据指出,麒麟操作系统仅仅是对开源的FreeBSD进行了一定的修改.,中标麒麟,2010年12月16日,两大国产操作系统民用的“中标Linux”操作系统和解放军研制的“银河麒麟”操作系统在上海正式宣布合并,双方今后将共同以“中标麒麟”的新品牌统一出现在市场上,并将开发军民两用的操作系统。,日本又占第一,2011年6月公布的世界500强计算机中,日本的“京”(K computer)名列榜首,这
12、是自2004年“地球模拟器”争得第一后日本又一次夺得桂冠。其浮点运算速度达到每秒8200万亿次,是第二名中国“天河一号”的三倍以上。日本字“京”的意思是万万亿,而每秒1万万亿次的运算速度正是该计算机的追求目标。,绿色500强(绿色计算),2010年11月19日,国际绿色超级计算机500强排名公布(Green500.org)这是根据能效来排列世界最先进的计算机(每瓦特的计算次数)该排名由美国弗吉尼亚理工大学研究员冯吴春于2007年创建,其目的在于限制“消耗大量电能的超级计算机”的生产。,绿色500强(绿色计算),位居首位的是IBM公司的“蓝色基因”系统,每瓦特可进行16.84亿次每秒浮点运算,比
13、中国的“天河一号”(每瓦特6.3515亿次每秒浮点运算)的效能高出165%。但蓝色基因系统的性能远远不够强大,其峰值速度在世界超级计算机500强排名第115位。,绿色500强(绿色计算),2011年3月,中科院计算所宣布推出中国第一台完全自主研发的超级计算机“曙光6000”。它将采用3000颗主频为1GHz的八核龙芯3B芯片,实现每秒300万亿次浮点运算。它的效能非常高,每瓦能耗可实现每秒32亿次浮点运算相当于用一个标准灯泡的能耗,实现1280亿次浮点运算。,绿色500强(绿色计算),这是可能的。因为龙芯芯片的主频相对较低,为1.0GHz,而且使用MIPS64架构。MIPS架构以低功耗高性能著
14、称,这也是MIPS架构被应用于从便携式电脑游戏操控台到无线路由器等各项技术之中的原因。,超级计算机的“软肋”,Repackaging chipsRewriting softwareEngineering lag time:=Half Life of Parallel Supercomputers.Low Performance/cost value,超级计算机,尽管超级计算机在整个计算市场仅占到很小的份额,但主要硬件厂商都不愿意轻易放弃这一领域,因为从某种意义上讲,超级计算机决定了通用产品的发展方向,计算资源,从发展阶段来看,包括大型机(Mainframe,Super Computer)C/S
15、计算(PC,服务器)集群计算P2P计算网格计算云计算,C/S架构,C/S架构主要由客户应用程序(Client)、服务器管理程序(Server)组成。客户应用程序是系统中用户与数据进行交互的部件。服务器程序负责有效地管理系统资源,如管理一个信息数据库,其主要工作是当多个客户并发地请求服务器上的相同资源时,对这些资源进行最优化管理。B/S架构是C/S在Web上的变形C/S架构是伴随着局域网计算平台的发展而发展的,尤其是PC组网的广泛普及导致C/S架构获得了廉价而有相当计算能力的客户机。,服务器硬件的选择,从CPU处理器的体系结构来看,服务器分为基于RISC(精简指令集计算机)体系结构典型的RISC
16、体系结构的服务器是小型机。国外提供该类型产品的公司主要是SUN、HP 和IBM,它们分别使用自己研制的芯片,如SUN 的UltraSparc 系列、HP 的PA-8700 系列、IBM 的PowerPC 系列,服务器硬件的选择,基于CISC(复杂指令集计算机)体系结构CISC体系结构的典型代表是IA体系(Intel Architecture),该种服务器从PC机发展而来,又称PC服务器,它是目前市场上增长最快和应用最广的服务器。IA 体系结构由于其价格适中,性能优良,可作为中小型系统购买服务器时选择的目标。在IA 体系产品中,企业级服务器占有相当大的比例。INTEL和HP公司推出了IA-64
17、的处理器芯片Itanium,使IA体系结构进入了64 位的高端计算环境,服务器硬件的选择,在系统结构上,服务器多采用SMP(对称多处理器)结构,当前水平可以支持8 个甚至更多的CPU 处理器同时工作。若对性能要求很高时,单使用SMP 结构已经不能满足需求,可以使用集群计算技术将多个SMP 服务器连接起来,共同完成工作。集群计算在服务器性能向高端提升的过程中起到决定性作用,服务器操作系统的选择,在服务器上常见的操作系统有Unix、类Unix和Windows系列等三种。如果选择PC服务器,操作系统可在Windows、Linux、SCO Unix、Solaris中选择。如果服务器选择小型机,则操作系
18、统一般随品牌而定。多数小型机服务器都选用Unix操作系统,如IBM公司的AIX操作系统、HP公司的HP-UX,Sun公司的Solaris等。,服务器操作系统的选择,Unix操作系统Unix操作系统的主要优点是技术成熟、开放性好、可靠性高、网络功能强大。Unix操作系统能运行于许多机型上,在服务器建设中主要用于小型机。UNIX操作系统不但以其较高的可靠性、稳定性和较高的安全级别,在一些重要和关键的业务领域得到了广泛的应用,而且UNIX提供了丰富的软件开发工具。UNIX具有强大的数据库开发环境,大型数据库厂商都把UNIX作为主要的数据库开发和运行平台。强大的网络功能是UNIX的又一个特点,它支持所
19、有通信需要的重要网络协议,这使得UNIX系统能很方便的与现有的主机系统以及各种广域网、局域网连接。,服务器操作系统的选择,Linux操作系统Linux操作系统是所有类UNIX操作系统中最出色的一种。由于它是自由的、没有版权限制的软件,所以是计算机市场中装机份额增长最快的操作系统之一。Linux操作系统在受到全球众多个人用户认可的同时,也赢得了一些跨国公司的喜爱,如Netscape、Oracle等公司宣布了对Linux的支持,并推出了基于Linux的产品。Linux属于开源的操作系统,在价格上极具优势,而且其性能也十分优越。,服务器操作系统的选择,Windows操作系统Windows操作系统是目
20、前最流行的网络操作系统之一,具有强大的功能和非常良好的性能,其市场份额正在逐渐扩大。Windows Server系列操作系统主要有NT/2000/2003/2008等。Windows操作系统的主要优点在于其技术先进、操作方便,能很好的兼容各种Windows丰富的应用软件,也有利于软件厂商开发新的应用。,服务器的功能选择,从功能看,服务器主要包括两大部分:业务服务器和Internet服务器。业务服务器用来实现电子商务和电子政务的各种业务应用,比如CAD自动化系统服务器、企业档案管理系统服务器、企业勘察设计管理信息系统等,这些都属于专用服务器。该部分服务器的设计要满足用户的需求以及应用层软件的开发
21、。数据库服务器也是一类重要的业务服务器,它们运行和管理企业或政府的业务数据。,服务器的功能选择,Internet服务器用来实现因特网的各种常见应用,比如WWW、EMAIL等,属于通用服务器。通用的INTERNET/INTRNET服务器是网络应用中不可缺少的重要组成部分。它包括如下几种不同的服务器:WEB服务器MAIL服务器Proxy 服务器(代理服务器)DNS服务器FTP服务器,服务器的功能选择,根据功能选择服务器的配置时,常常把服务器分为两大类型:性能敏感型和空间敏感型。所谓性能敏感型是指所承担的应用功能对服务器的性能要求较高,反应速度要求快,如WWW,DNS,Proxy服务器等服务器。所谓
22、空间敏感型服务器是指对服务器的存储空间要求大,如FTP服务器等。另外,数据库服务器,EMAIL 服务器、Lotus Notes等则对二者都有一定的要求,视用户数的多少、用户定额空间的大小、访问的频繁度而偏向于某一种类型。,服务器的结构选择,按结构划分,服务器基本上可以分为:塔式、机架式、刀片式通常一种结构的服务器中可以有多种不同档次的服务器。,刀片式服务器,尽管目前塔式服务器已经在市场得以广泛应用,但是随着网络向更深层面发展,刀片式服务器将成为服务器市场的主流产品 刀片式服务器是一种HAHD(High Availability High Density,高可用高密度)的低成本服务器平台,是专门
23、为特殊应用行业和高密度计算机环境设计的。,刀片式服务器,其中每一块“刀片”实际上就是一块系统母板,高度集成了CPU、硬盘、内存、网络接口和控制芯片“刀片”可以通过本地硬盘启动自己的操作系统,如Windows NT/2000、Linux、Solaris等等,类似于一个个独立的服务器。在这种模式下,每一个母板运行自己的系统,服务于指定的不同用户群,相互之间没有关联。不过可以使用系统软件将这些母板集合成一个服务器集群。在集群模式下,所有的母板可以连接起来提供高速的网络环境,可以共享资源,为相同的用户群服务。,刀片式服务器,刀片式服务器的结构“刀片”垂直插入到一高度为 3U 或更高的机箱(刀箱)中,然
24、后轻巧地推入到一台标准服务器机架中(1U 设备高度为 1.75 英寸,4.45cm高)。“刀片”并列地插在刀片服务器机箱的背板上,共享统一的电源供应、风扇、鼠标、键盘以及显示器设备,不仅占地空间更少,还去掉了在机架式服务器中消耗电能的部件,降低了系统电源的发热量。,刀片式服务器,刀片服务器还比传统的机架式服务器更灵活,它可以根据业务需求的变化,将不同预先配置的刀片更换到一个刀片机箱中刀片服务器凭借其在集中管理和空间占用等方面的优势,在一些要求服务器密度很高的行业中备受青睐,比较适合集群计算、数据中心、科研机构和为ISP提供互联网服务。,集 群,集群的兴起,A Case for NOWIEEE
25、Micro,Feb,1995.Thomas E.Anderson,David E.Culler,David A.Patterson,and the NOW Team.,NOW=Network of Workstations,集群的思想,集群的思想是把大量现成的PC直接放上机架,用高速网络连接在一起,构成一台超级计算机。而不像大型计算机需要专门研制集成电路板,这大大缩减了制造的时间和成本。,集群-简单组合单元,简单组合单元(Simple Composite Element,SCE)是由彼此连接并相似的基本系统单元(计算主存通信存储)组成的,通常都位于一个单一的管理域内且在很多情况下被看做是一个单
26、一的系统通常也称集群(Cluster),概念,集群(Cluster)是一种分布式处理系统,由很多连接在一起的独立计算机节点组成,像一个单独集成的计算机资源一样协同工作。计算机节点可以是物理上集中在一起的,也可以是物理上分散而通过LAN连结在一起的。一个连接在一起(LAN基础上)的计算机集群对于用户和应用程序来说像一个单一的系统,这样的系统可以提供一种价格合理且性能快速而可靠的解决方案。,特点,集群计算主要有以下几个特点:集群技术支持混合平台工作模式,体系结构上可以同时支持RISC和IA节点,操作系统上可以同时支持Windows NT/2000、LINUX、Unix等操作系统。集群技术具有统一的
27、系统监控和管理功能,可以简单直观的监控到整个集群的软硬件运行状态,同时通过集群的主机入侵检测系统保障系统的安全性。,特点,集群计算主要有以下几个特点:集群技术的架构具有优异的动态扩展性,可以根据用户应用的需要,随时增加新的节点,而不必改动整个集群系统。集群服务器节点可以根据不同的需要,灵活的进行调整和配置,承担不同的应用服务、计算任务,或通过软件管理协同处理某一特定任务。,分类,集群的分类和工作原理按照侧重点的不同,可以把集群分为三类:高可用性集群 负载均衡集群 超级计算集群,可用性,计算机系统的可用性定义为:MTTF/(MTTF+MTTR)*100%平均无故障时间(MTTF):计算机系统平均
28、能够正常运行多长时间,才发生一次故障 平均维修时间(MTTR):系统发生故障后维修和重新恢复正常运行平均花费的时间 由此可见,计算机系统的可用性定义为系统保持正常运行时间的百分比。,可用性,计算机产业界通常用如下表所示的9的个数来划分计算机系统可用性的类型。,高可用性集群,高可用性集群运行于两个或多个节点上,目的是在系统出现某些故障的情况下,仍能继续对外提供服务。高可用性集群的设计思想就是要最大限度地减少服务中断时间。高可用性集群能适用于提供动态数据的服务,是由于集群中的节点共享同一存储介质,如磁盘阵列。也就是说,在高可用性集群内,每种服务的用户数据只有一份,存储在共用存储设备上,在任一时刻只
29、有一个节点能读写这份数据,两节点集群典型结构,系统组成,两台节点服务器节点可以是一个单处理器(PC、工作站)或多处理器的系统(共享存储的多处理机),拥有内存、I/O设备和操作系统。集群管理软件实现集群功能需要集群软件。如Turbolinux TurboHA,或者与MS Windows Server集成在一起的集群软件MSCS(Microsoft Cluster Server),或者如IBM 的HACMP软件,HP 的MC Service Guard。共享存储设备如磁盘阵列等。用来存储大量的由各节点共享的数据。存储设备通过I/O控制卡和相应的传输介质连接到节点。,系统组成,心跳链路(Heartb
30、eat Link)用来实现集群中两个节点之间的直接高速互连,并交换信息。可以通过RS232线缆实现,也可通过内部连接网卡以双绞线方式实现。网络链路用来与网络交换机相连,并进一步连接到所有的客户端设备,从而使各个客户端能够访问集群的资源。,高可用性集群工作过程举例,以Turbolinux TurboHA为例,集群中有两个节点A和B,设这个集群只提供Oracle服务,用户数据存放于共用存储设备的分区/dev/sdb3上。在正常状态下,节点A提供Oracle数据库服务,分区/dev/sdb3被节点A加载在/mnt/oracle上。当系统出现某种故障并被TurboHA软件检测到时,TurboHA会将O
31、racle服务停止,并把分区/dev/sdb3卸载。之后,节点B上的TurboHA软件将在节点B上加载该分区,并启动Oracle服务。对于Oracle服务有一个虚拟的IP地址,当Oracle服务从节点A切换到节点B上时,虚拟的IP地址也会随之绑定到节点B上,因此用户仍可访问此服务。,负载均衡集群,负载均衡集群目的是提供和节点个数成正比的负载能力,这种集群很适合提供大访问量的Web服务。负载均衡集群往往也具有一定的高可用性特点。负载均衡集群适用于提供相对静态的数据的服务,比如HTTP服务。因为通常负载均衡集群的各节点间没有共用的存储介质,用户数据被复制成多份,存放于每一个提供该项服务的节点上。,
32、Turbolinux Cluster Server,负载均衡集群的工作机制,下面以Turbolinux Cluster Server为例简要介绍一下负载均衡集群的工作机制。在集群中有一个主控节点,称为高级流量管理器(ATM)。假设这一集群仅被用来提供一项HTTP服务,其余各节点均被设定为HTTP的服务节点。用户对于页面的请求全部发送到ATM上,因为ATM上绑定了这项服务对外的IP地址。ATM把接受到的请求再平均发送到各服务节点上,服务节点接收到请求之后,直接把相应的Web页面发送给用户。,负载均衡集群的工作机制,这样一来,假如在1秒内有1000个HTTP页面请求,而集群中有10个服务节点,则每
33、个节点将处理100个请求。这样,在外界看来,好象有一台10倍速度的高速计算机在处理用户的访问。这也就是真正意义上的负载均衡。,负载均衡集群的工作机制,但是ATM要处理所有1000个页面请求,它会不会成为集群处理速度的瓶颈呢?由于对于页面请求的数据量相对较少,返回页面内容的数据量相对较大,因此这种方式还是很有效率的。ATM发生故障,也不会导致整个系统无法工作。Turbolinux Cluster Server可以设置一台或多台计算机为后备ATM节点,当主ATM节点故障时,在后备ATM中会产生出一个新的主ATM,接替它的工作。可以看出,这种负载均衡集群也具有一定的高可用性。,TurboCluste
34、r中采用的调度策略有:轮回(Round Robin)、加权轮回(Weighted Round Robin)、最少连接(Least Connection),两者的结合,高可用性集群对一种服务而言不具有负载均衡功能,它可以提高整个系统的可靠性,但不能增加负载的能力。当然,高可用性集群可以运行多种服务,并将其适当分配在不同节点上,比如节点A提供Oracle服务,同时节点B提供Sybase服务,这也可以看成是某种意义上的负载均衡,不过这是对多种服务的分配而言 对于同一种服务,是不能同时获得高可用性与负载均衡能力的。对一种服务,要么是只有一份数据,放在共用存储设备上,一次被一个节点访问,获得高可用性;要
35、么是把数据复制为多份,存储于每个节点的本地硬盘上,用户的请求同时发送到多个节点上,获得负载均衡能力,超级计算集群,超级计算集群。按照计算关联程度的不同,又可以分为两种:一种是任务片方式,要把计算任务分成任务片,再把任务片分配给各节点,在各节点上分别计算后再把结果汇总,生成最终计算结果;另一种是并行计算方式,节点之间在计算过程中大量地交换数据,可以进行具有强耦合关系的计算。这两种超级计算集群分别适用于不同类型的数据处理工作。有了超级计算集群软件,企业利用若干台PC机就可以完成通常只有超级计算机才能完成的计算任务,云计算系统的资源组织方式,云计算系统的资源组织方式有两种虚拟机方式利用虚拟化技术,在
36、物理服务器抽象出能够被上层使用的虚拟化服务器,以屏蔽底层硬件差异的影响,并提高资源的利用率。其上的执行环境与传统PC系统相同,通常在IaaS服务中提供分布式集群方式,分布式集群方式,分布式集群方式的原理是首先由云操作系统组织一批物理服务器或者虚拟服务器构成集群,然后再在集群上部署分布式软件系统作为上层软件的开发和执行环境,包括分布式集群管理分布式程序开发环境分布式文件系统分布式数据库等等,两种资源组织方式比较,虚拟化架构虽然也可用于整合分布式的服务器节点,但其思想是一种“分裂”思想,也就是把服务器“分裂”成多台虚拟机来调度;而分布式架构则侧重于“聚合”各个服务器的资源,输出一种新的“计算”和“
37、存储”能力。互联网公司(如Google)采用分布式架构的比例更高;企业私有云(如IBM)则以虚拟化技术的应用为主。,集群计算条件成熟,Very HP Microprocessors workstation performance=yesterday supercomputersHigh speed communicationComm.between cluster nodes=between processors in an SMP.Tools for parallel/distributed computing,Benefits of Clustering,Easy to buildHigh
38、 Performance(HP)High Availability(HA)ScalabilityCheap,Original Food Chain Picture,引用,1980s Computer Food Chain,Mainframe,Vector Supercomputer,Mini Computer,Workstation,PC,引用,Mainframe,Vector Supercomputer,MPP,Workstation,PC,1990s Computer Food Chain,Mini Computer,(hitting wall soon),(future is bleak
39、),引用,Computer Food Chain(Now and Future),引用,SMP系统与MPP系统比较,SMP(Symmetric Multi Processing),对称多处理系统内有许多紧耦合多处理器,在这样的系统中,所有的CPU共享全部资源,如总线,内存和I/O系统等,操作系统或管理数据库的复本只有一个,这种系统有一个最大的特点就是共享所有资源。,SMP系统与MPP系统比较,MPP(Massively Parallel Processing),大规模并行处理系统,这样的系统是由许多松耦合的处理单元组成的,要注意的是这里指的是处理单元而不是处理器。每个单元内的CPU都有自己私有
40、的资源,如总线,内存,硬盘等。在每个单元内都有操作系统和管理数据库的实例复本。这种结构最大的特点在于不共享资源。,Traditional Availability Clusters,Clients,Server A,Server B,Cluster Computer Architecture,引用,Middleware Design Goals,Complete TransparencyLets see a single cluster system.Scalable PerformanceEasy growth of clusterEnhanced AvailabilityAutomatic
41、 Recovery from failures,引用,Size Scalability(physical&application)Enhanced Availability(failure management)Single System Image(look-and-feel of one system)Fast Communication(networks&protocols)Load Balancing(CPU,Net,Memory,Disk)Security and Encryption(clusters of clusters)Distributed Environment(Soci
42、al issues)Manageability(admin.And control)Programmability(simple API if required)Applicability(cluster-aware and non-aware app.),Major issues in cluster design,引用,Desired SSI Services,Single Entry Pointtelnet telnet node1.cluster.institute.eduSingle File HierarchySingle Control Point Management from
43、 single GUISingle memory space Network RAM/DSM,引用,How to implement SSI?,Hardware Level,引用,Example Cluster:Berkeley NOW,100 Sun UltraSparcs200 disksMyrinet SAN160 MB/sFast comm.AM,MPI,.Ether/ATM switched external netGlobal OS,引用,NOW System Architecture,Net Inter.HW,UNIXWorkstation,Comm.SW,Net Inter.H
44、W,Comm.SW,Net Inter.HW,Comm.SW,Net Inter.HW,Comm.SW,Global Layer UNIX,Resource Management,Network RAM,Distributed Files,Process Migration,Fast Commercial Switch(Myrinet),UNIXWorkstation,UNIXWorkstation,UNIXWorkstation,Large Seq.Apps,Parallel Apps,Sockets,Split-C,MPI,HPF,vSM,The UC Berkeley NOW-Sort
45、Team1997-98MinuteSortWinner,Massive Cheap Storage Cluster,8 SCSI disks for each node,Currently serving Fine Art at http:/,引用,AlphaServer SC ES45/1 GHz,3,000 processors,6TFlop/speak,3TB memory,集群的问题,大家可能要说,集群计算机这么容易扩展,对于很大的计算问题,只要造一台更大的集群计算机不就行了吗?事情没有这么简单。这幅图反映的就是集群计算机的规模越来越大,从97年到02年看规模扩大了(6倍)。,集群的问
46、题,从97年到02年看规模扩大了(6倍),性能却没能够成比例地放大(只有2倍)。换一句话说,就是它的效率下降了。看来,如果一味地想通过扩大规模来提高集群计算机的性能,它的性价比会相应下降,这意味着我们不可能无限制地扩大集群的规模。,集群规模与MapReduce运行速度的关系,理论上,随着集群节点数目的增加,MapReduce的运行速度会线性提升。但是实际应用中,有如下的一些限制:数据不可能无限切分;如果每份数据太小,MapReduce框架的开销就会相对变大;集群节点数变大,节点之间的通讯开销也会增加。所以,一般而言,如果集群的规模在几百个节点,MapReduce的速度可以和节点的数目成正比;超
47、过这个规模,MapReduce的运行速度虽然可以继续提高,但是不再以线性增长。,P2P计算,既然集群计算机的规模不可能无限制地扩大,那么还有没有别的办法呢?这时,又出现了P2P计算的概念,它突破了集群的地域限制,能把一个大型的计算任务分成很多独立的小块,分散到位于不同地方的PC上运算。,P2P计算,P2P含义,P2P(Peer to Peer,对等计算)含义Intel公司P2P工作组给出的定义为:系统之间通过直接交换来共享计算机资源和服务。P2P就是人可以直接连接到其他用户的计算机、交换文件,而不是像过去那样连接到服务器去浏览与下载。P2P另一个重要特点是改变互联网现在的以 大网站为中心的状态
48、、重返非中心化,并把权力交还给用户。,P2P含义,P2P(Peer to Peer,对等计算)含义每个计算机作为节点(peer),充当客户端、服务器的角色,网络上的所有节点都可以通过直接互连共享信息资源、处理器资源、存储资源基至高速缓存资源等。P2P是一种分散的、非集中和自组织的分布式系统,利用分布式资源进行关键性的应用。,P2P含义,P2P(Peer to Peer,对等计算)含义网络上现有的许多服务可以归入P2P的行列。即时通信系统譬如ICQ、AOL Instant Messenger、Yahoo Pager、微软的MSN Messenger以及国内的QQ是最流行的P2P应用P2P已经由最
49、初的文件共享,转向更深入的应用,如大规模的分布式存储等。,P2P:大规模的分布式存储,由于Bigtable需要管理节点集中管理元数据,所以存在性能瓶颈和单点失效问题。为此,DeCandia等人设计了基于P2P结构的Dynamo存储系统,并应用于Amazon的数据存储平台。借助于P2P技术的特点,Dynamo允许使用者根据工作负载动态调整集群规模。,380多万台计算机参加,已投入百万年CPU时间,平均每台返回142.81个结果,已经有547,488,318 个结果,Community=1000s of home computer usersPhilanthropic(博爱的)computing
50、vendor(Entropia)Research group(Scripps)Common goal=advance AIDS research,Home ComputersEvaluate AIDS Drugs,引用,P2P计算与MapReduce,相同点:将问题分为独立的块,然后进行并行计算。不同点1:P2P问题是CPU高度密集型的,相对于计算时间而言,其传输时间微不足道。因此,P2P计算贡献的是CPU周期,而不是带宽。MapReduce是CPU和带宽高度密集型的。MapReduce被设计为用来运行那些需要数分钟或数小时的作业,这些作业在一个聚集很高带宽的数据中心运行。,P2P计算与Map