《超算在云计算网络中的部署方案.ppt》由会员分享,可在线阅读,更多相关《超算在云计算网络中的部署方案.ppt(5页珍藏版)》请在三一办公上搜索。
1、超算在云计算网络中的部署方案,超算在云计算网络中的部署方案,1 超级计算中心概述,20 世纪后半期,全世界范围掀起第三次产业革命的浪潮,人类开始迈入后工业社会信息社会。在信息经济时代,其先进生产力及科技发展的标志就是计算技术。时至今日,计算科学,尤其是以超级计算机(或高性能计算机)为基础的计算科学已经与理论研究、实验科学相并列,成为现代科学的三大支柱之一。,现代超级计算基于先进的集群技术构建,就是我们常说的网格计算技术(Grid Computing)。网格计算是伴随着互联网而迅速发展起来的,专门针对复杂科学计算的新型计算模式。这种计算模式是利用互联网把分散在不同地理位置的电脑组织成一个“虚拟的
2、超级计算机”,其中每一台参与计算的计算机就是一个“节点”,而整个计算是由成千上万个“节点”组成的“一张网格”,所以这种计算方式叫网格计算。这样组织起来的“虚拟的超级计算机”有两个优势,一个是数据处理能力超强;另一个是能充分利用网上的闲置处理能力。实际上,网格计算是分布式计算(Distributed Computing)的一种。超级计算在一个国家的发展中,特别是一些尖端科技的发展中,发挥着不可替代的使用。生物科技,石油勘探,气象预报,国防技术,工业设计,城市规划等经济、社会发展的关键领域都离不开超级计算。各个国家,尤其是经济、科技水平比较发达的国家,都把促进超级计算的发展作为重要的规划内容。超级
3、计算中心(超算中心)是指基于超级计算机系统对外提供计算资源、存储资源以及技术咨询等服,务的机构或单位。,2 超级计算与云计算,2.1 云计算的概念,云计算是一种将全球范畴、高度可扩展与灵活的服务通过互联网进行发布与消费,采取按需求和实际使用付费的商业模式。云计算代表着全新的价值:它可以让企业获得高度可扩展和灵活的互联网服务;SaaS的廋客户端应用减轻了软件采购、维护成本。所有的功能都以服务的方式提供给用户。,2.2 超级计算与云计算的关系,云计算是从网格计算演化来的,能够随需应变地提供资源。网格计算可以在云中,也可能不在,这取决于什么样的用户在使用它。如果用户是系统管理员和集成商,他们就会关心
4、如何维护云。他们升级、安装和虚拟化服务器与应用程序。如果用户是消费者,就不必关心系统是如何运行的。,网格计算要求软件的使用可以分为多个部分,将程序的片段作为大的系统映像传递给几千个计算机中。网格的一个问题是如果某个节点上的软件片段失效,可能会影响到其他节点上的软件片段。如果这个片段在其他节点上可以使用故障转移组件,那么就可以缓解问题,但是如果软件片段依赖其他软件片段完成一项或多项网格计算任务,那么问题仍然得不到解决。大型系统镜像以及用于操作和维护的相关硬件可能造成很高的资本和运营支出。,2.3 超级计算与云计算的相同点,从定义上来说,网格计算和云计算都试图将各种 IT 资源看成一个虚拟的资源池
5、,然后向外提供相应的服务。云计算试图让“用户透明地使用资源”,而网格计算当初的口号就是让“使用 IT 资源像使用水电一,超算在云计算网络中的部署方案,样简单”。,云计算是一种宽泛的概念,它允许用户通过互联网访问各种基于 IT 资源的服务,这种服务允许用户无需了解底层 IT 基础设施架构就能够享受到作为服务的“IT 相关资源”。而网格的内涵包括两个方面,一个方面是所谓的效用计算或者随需计算,在这一点上面,网格计算跟云计算是非常相似的,都是通过一个资源池或者分布式的计算资源来提供在线的计算或者存储等服务;另外一个方面就是所谓的“虚拟超级计算机”,以松耦合的方式将大量的计算资源连接在一起提供单个计算
6、资源所无法完成的超级计算能力,这也是狭义上的网格计算跟云计算概念上最大的差别。,云计算和网格计算都是可伸缩的。可伸缩性是通过独立运行在通过 Web 服务连接的各种操作系统上的应用程序实例的负载平衡实现的。CPU 和网络带宽根据需要分配和回收。系统存储能力根据特定时间的用户数量、实例的数量和传输的数据量进行调整。,两种计算类型都涉及到多承租(multitenancy)和多任务,即很多用户可以执行不同的任务,访问一个或多个应用程序实例。通过大型的用户池共享资源来降低基础设施成本,提高峰值负荷能力。云计算和网格计算都提供了服务水平协议(SLA)以保证可用性,比如 99%。如果服务达不到承诺的正常运行
7、时间,消费者将由于数据延迟而得到服务补偿。,2.4 超级计算与云计算的不同点,可以看出,网格计算和云计算有相似之处,特别是计算的并行与合作的特点;但他们的区别也是明显,的。主要有以下几点:,首先,网格计算的思路是聚合分布资源,支持虚拟组织,提供高层次的服务,例如分布协同科学研究等。而云计算的资源相对集中,主要以数据中心的形式提供底层资源的使用,并不强调虚拟组织(VO)的概念。,其次,网格计算用聚合资源来支持挑战性的应用,这是初衷,因为高性能计算的资源不够用,要把分散的资源聚合起来;到了 2004 年以后,逐渐强调适应普遍的信息化应用,特别在中国,做的网格跟国外不太一样,就是强调支持信息化的应用
8、。但云计算从一开始就支持广泛企业计算、Web 应用,普适性更强。第三,在对待异构性方面,二者理念上有所不同。网格计算用中间件屏蔽异构系统,力图使用户面向同样的环境,把困难留在中间件,让中间件完成任务。而云计算实际上承认异构,用镜像执行,或者提供服务的机制来解决异构性的问题。当然不同的云计算系统还不太一样,像 Google 一般用比较专用的自己的内部的平台来支持。,第四,网格计算用执行作业形式使用,在一个阶段内完成作用产生数据。而云计算支持持久服务,用,户可以利用云计算作为其部分 IT 基础设施,实现业务的托管和外包。,第五,网格计算更多地面向科研应用,商业模型不清晰。而云计算从诞生开始就是针对
9、企业商业应用,,商业模型比较清晰。,总之,云计算是以相对集中的资源,运行分散的应用(大量分散的应用在若干大的中心执行);而网格计算则是聚合分散的资源,支持大型集中式应用(一个大的应用分到多处执行)。但从根本上来说,从应对Internet 的应用的特征特点来说,他们是一致的,为了完成在 Internet 情况下支持应用,解决异构性、资源共享等等问题。,3 超级计算的分类,随着超级计算的不断发展,逐渐出现了新的应用。这些新的应用丰富了传统的网格计算的种类,同时,也给网格计算带来的新的问题。,从网络的角度出发,将超级计算分为三大类:,并行信息处理,分布式 I/O 处理并行文件处理,超算在云计算网络中
10、的部署方案,3.1 并行信息处理,并行信息处理指的是应用在所有计算节点并行执行,主节点管理各计算节点输入处理,节点之间高速信息交互,通过等-停机制保证信息交互视需的正确性。通常是定制的计算环境,追求最高计算性能。这一类应用就是通常所说的科学计算,包括:气候模型,材料科学,生物系统模型,核模拟 和人工智,能等等。,这类应用的共同特点是对信息交互时延极敏感。对网络的要求就是高带宽、低时延(Top500 高端计算,应用 IPC 时延10us)。,3.2 分布式 I/O 处理,分布式 I/O 处理指的是客户请求通过主节点发送到所有计算节点进行并行处理,各节点结果直接返回主节点,由主节点响应给客户端,时
11、延要求不苛刻,但是所有计算节点以最快速度响应主节点,使得主节点网络位置短时会产生较大突发流量。,这类计算的典型应用就是网站搜索引擎。信息显示:Google 每天需要提供 1.5 亿次查询服务,平均每毫秒发生 1.736 次查询。举例来说,搜索“高性能计算”,得到 3,250,000 结果,用时 0.20 秒(第二次再搜0.05 秒)。,这类应用的共同特点是对网络丢包敏感。对网络的要求就是高带宽、不丢包。对设备带宽、包缓存大,小及分配方式有要求,与应用的具体规模(服务器数量等)相关。,3.3 并行文件处理,并行文件处理指的是将庞大的源数据文件通过主节点分割成多个小文件后,分发到各计算节点并行处,
12、理,处理完毕后返回主节点进行文件组装。,这类计算的典型应用就是动漫渲染和影视动画制作。将影视文件有机分割,分发到集群内相应服务器,进行渲染等工作,各部分完成后组合成新的文件。,这类应用的特点是节点之间信息交互少,但都是以大文件的形式完成。网络流量很大,且存在很强的,并发性。对网络的要求是高带宽互联。,4 H3C 超级计算中心网络安全解决方案,4.1 超级计算在云计算中的部署方案,超级计算可以作为云计算的一种业务对 internet 用户提供便捷的服务。从这个角度来看,超算中心可以,作为云计算数据中心的一个部分。但是超级计算与云计算还是很大区别的,因此需要看作是一个特殊的云计算服务。这种特殊性对
13、于网络和安全方面的需求表现在:,超级计算是一种“聚合”业务,是一种特殊的服务器集群应用。这种应用要求服务器自成系统,具体,表现在:,集群系统不能出现异构现象。,集群内部的通信服务质量要求非常高,因此不能与其他业务共享业务通道。,集群系统的安全级别很高,从接入区开始一直到超算区,要求与其他系统保持物理或是逻辑隔离。集群节点的计算性能要求较高,一般不会出现虚拟机。因此,集群内部的通信流量并不是很大。综合各种需求,H3C 提出融合超级计算中心和云计算数据中心的网络解决方案。将超级计算服务作为云计算的一个独立的区;保证超级计算端到端的安全隔离;在超级计算区内实现统一交换架构。,超算在云计算网络中的部署
14、方案,在该组网方案中,重点强调性能、安全、可靠和易用性设计。,4.2 超级计算组网方案的高性能设计,传统的超级计算网络通常会用 Infiniband 进行组网,而不是用以太组网。原因是 Infiniband 本身就是为超级计算量身订制的,具有高带宽、低时延转发的特点(通常可以低于 10us,甚至达到纳秒级)。尽管 HPC TOP500 集群中,采用千兆以太网的是采用 InfiniBand 集群的两倍。但事实上在绝大多数商业,环境中,千兆以太网高性能计算集群的规模远不够大。随着万兆以太网成本逐渐降低,高性能集群升级到万兆以太网将会有效的降低整体成本。,以太网的发展速度非常快。从 1983 年 I
15、EEE 建立了 10Mbps 以太网标准。之后快速以太网(100Mbps)、千兆以太网、万兆以太网,40GE 和 100GE 标准即将推出。目前关于 Tb 级以太网的讨论已经开始了。尽管,以太网发展迅速,但基本的以太网帧格式和运行原理本质上仍维持不变。,万兆以太网传输数据速度比千兆以太网快十倍。新一代万兆以太网网卡可以减少服务器之间延迟约八倍。由带宽增加和延迟缩小获得的更高的应用性能比想象的还要好,而且几乎与 InfiniBand 速度不相上下。根据最新的 Spirent 测试报告,H3C 的数据中心级交换机 S12500 的万兆端口转发时延 614us。盒式万,兆交换机的转发时延更低。,除了
16、转发时延有了大幅度降低之外,H3C 的数据中心级交换机还能够提供超高密度的万兆接入端口。S12518 最大可以支持 576 个万兆端口,可以实现大量计算节点的高密度接入,有效的降低成本。另外,万兆以太网每 Gb 的功耗比千兆以太网的要低,这使得用户可获得 10 倍的带宽,而能耗需求却,远低于原来。,4.3 超级计算组网方案的高安全设计,H3C 超算中心安全解决方案的技术特色可用:安全分区规划以及端到端的安全部署来概括。,在超算中心网络中存在不同业务种类和易受攻击程度不同的设备,按照这些业务种类和设备的情况制定不同的安全策略和信任模型,将超算网络划分为不同区域。区域之间实现逻辑隔离,重点保证高性
17、能计算区域(HPC)的数据安全和流量服务。,端到端的安全部署强调对于不同级别、不同业务的用户,从接入到超算中心开始一直到最终的服务器,都能一直保持逻辑隔离的状态。通过端到端的安全隔离进一步加强超算中心核心业务的数据中心安全性和服务质量。,超算在云计算网络中的部署方案4.4 超级计算组网方案的高可靠设计通过第二代智能弹性架构 IRFII 技术,可以有效地将超算业务的网络可靠性提高一个级数。极大的保证了用户业务的连续性,提高客户对于超算业务的信心。同时,使超算中心网络的性能以倍数级别灵活扩展,增强可靠性增强,简化配置,降低投入和维护成本。IRFII 可实现分布式设备管理、分布式路由和跨设备链路聚合
18、,部署 IRFII 除了提高超算中心网络的可用性,减少单点故障影响,还可以:分布式处理二三层协议,极大提高网络性能。每组当成一个逻辑 Fabric,配置管理更高效。交换集群内设备软件版本同步升级,升级容易。整个交换集群的设备支持热插拔,灵活管理。交换集群实现倍数级的接入密度和背板交换能力,并提高组网的可靠性。对高端设备而言,可将多台设备当成一台设备进行管理,实现性能倍增,简化组网。部署 IRF II 后,无需再考虑 MSTP、VRRP 等协议,解决了传统设备和链路只能工作在主/备模式和利用率低于 50的性能瓶颈。4.5 超级计算组网方案的易用性设计传统的超算中心网络结构异构复杂,接口不统一:前
19、端网和管理网采用以太网;存储网采用 FC;计算网用 Infiniband。超算中心通信网络复杂异构、接口不统一,导致超算中心运行时协议转换开销大、速率不匹配、存在性能瓶颈、开发与部署周期长、无法满足业务快速灵活部署和性能的需求。超算中心通信网络由繁化简传统异构网络统一交换网络前端网络/LAN核心层,汇聚层接入层,Ethernet,统一架构与接口,LAN前端网络EthernetUSF,集群/刀片,InfiniBand,HPC集群,SAN存储,存储网络Fiber Chanel超算中心一体化网络通过 CEE(增强以太网)和标准 IP 协议融合前端、计算、存储和管理四张网络,消除网络技术割裂所来的种种弊端。,