第10章云计算大数据仿真技术.ppt

上传人:文库蛋蛋多 文档编号:2432957 上传时间:2023-02-19 格式:PPT 页数:46 大小:1.86MB
返回 下载 相关 举报
第10章云计算大数据仿真技术.ppt_第1页
第1页 / 共46页
第10章云计算大数据仿真技术.ppt_第2页
第2页 / 共46页
第10章云计算大数据仿真技术.ppt_第3页
第3页 / 共46页
第10章云计算大数据仿真技术.ppt_第4页
第4页 / 共46页
第10章云计算大数据仿真技术.ppt_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《第10章云计算大数据仿真技术.ppt》由会员分享,可在线阅读,更多相关《第10章云计算大数据仿真技术.ppt(46页珍藏版)》请在三一办公上搜索。

1、云计算与大数据技术,人民邮电出版社,王鹏 黄焱 安俊秀 张逸琴 编著,目 录,第1章 云计算与大数据基础 第2章 云计算与大数据的相关技术 第3章 虚拟化技术 第4章 集群系统基础 第5章 MPI面向计算第6章 Hadoop分布式大数据系统第7章 HPCC面向数据的高性能计算集群系统 第8章 Storm基于拓扑的流数据实时计算系统第9章 服务器与数据中心 第10章 云计算大数据仿真技术,CONTENTS,第10章 云计算大数据仿真技术,第10章 云计算大数据仿真技术,云计算与大数据技术,第10章 云计算大数据仿真技术,10.1用参数定义物理设备进行仿真10.2云计算仿真系统CloudSim10

2、.2.1CloudSim基础10.2.2CloudSim体系结构 10.2.3 CloudSim的使用模型场景 10.2.4CloudSim使用实例10.3云计算系统相空间模型,计算机仿真是将现实生活中的系统,用计算机软件的方法在计算机中建立虚拟的替代物,以方便人们研究系统各个方面的性质。比如,我们可以使用计算机软件对不同气候条件下的导弹的发射进行建模,模拟导弹的运动轨迹,我们可以对不同型号的导弹在不同的动力系统条件下的运动轨迹进行反复实验。使用计算机软件的仿真技术具有经济、安全、可重复和不受气候、场地、时间限制的优势,是理论推导和科学实验之外人类认识自然、改造自然的重要手段。,本书前面几章讲

3、解了基于虚拟化的云计算技术、基于集群的云计算技术和云计算数据中心的相关知识,基于这些技术目前已经有很多的系统级、算法级和应用级的研究展开,这些开发和研究大多需要仿真平台。比如,技术研发人员对大规模集群的资源调度、负载均衡、集群拓扑等展开研究,如果在物理机上进行实验,必然需要消耗大量的服务器、网络设备资源,实验环境的准备、实验数据的采集、实验方案的调试很不方便,同时成本很高,使用仿真系统是一个很好的解决方案;对于数据中心的建设和运营人员来说,数据中心的能耗测算和经济测算非常重要,需要在项目建设之前进行预估,无法在实际的平台上进行测算,展开研究需要先在仿真实验平台上进行实验。,10.1用参数定义物

4、理设备进行仿真,本章的主要内容包括云计算仿真软件CloudSim和云计算系统相空间模型,通过仿真软件和仿真模型使读者快速掌握云计算仿真的基础知识。10.1用参数定义物理设备进行仿真 在仿真系统中,我们一般将实体的参数提取出来,用变量、对象、数组来定义现实中的事物在计算机系统中构建被仿真对象。服务器是数据中心的主要组成部分,我们可以将服务器的计算性能、CPU核数、硬盘大小、内存大小、网络带宽等主要参数提取出来,构建服务器对象。,10.1用参数定义物理设备进行仿真,下面以一个由4个虚拟机节点组成的集群为例,说明如何使用参数来定义物理节点,集群的参数信息如表10.1所示。,表10.1 虚拟机性能参数

5、,10.1用参数定义物理设备进行仿真,我们可以用数组来定义:double node45=300,2,10000,512,1000;300,2,10000,512,500;150,1,5000,256,500;150,1,5000,256,1000;对硬盘、内存等其他设备也可以如此进行定义,比如,硬盘可以用品牌、型号、尺寸、容量、转速、传输速度等参数来定义,内存可以用品牌、型号、容量、速度、电压等参数来定义。在对数据中心的经济模型进行仿真时,我们需要对CPU核单价、硬盘空间单价、内存空间单价、网络带宽单价等进行定义,确定销售经济模型。同时,需要定义数据中心能耗费用、维护费用、人员成本等,从而综合

6、确定数据中心的经济模型,对数据中心建成后的营收情况进行预测。,10.2云计算仿真系统CloudSim,10.2.1CloudSim基础1CloudSim简介CloudSim是澳大利亚墨尔本大学云计算与分布式系统实验室开发的一种通用、可扩展的云计算仿真框架,也是一个云计算仿真工具集,提供了用于描述数据中心、虚拟机、应用、用户、计算资源和管理策略等核心类。对海量集群资源的模拟仿真一直是是计算机领域的研究课题。在网格计算时代出现了很多仿真平台,如GridSim、SimGrid、OptorSim、GangSim等,其中GridSim的开发团队也是澳大利亚墨尔本大学云计算与分布式系统实验室。GridSi

7、m等网格计算仿真软件没有将云计算体系中的SaaS、PaaS、IaaS层抽象出来,也没有虚拟化模型和资源管理模型,CloudSim继承了GridSim的编程模型,弥补了网格计算模拟软件的不足。,10.2.1CloudSim基础,基于CloudSim云计算仿真器,我们不仅能够很方便地搭建可控的云环境进而对系统的资源调度和负载均衡策略进行建模和测试,还可以对云应用进行建模和测试。研发人员根据测评结果针对性地调整性能瓶颈。与此同时,CloudSim对云系统建立了价格模型和能耗模型,帮助服务提供商制订出更加合理的价格策略和节能机制。用户可以使用CloudSim提供的组件进行编程,构造自己的应用场景,也可

8、以扩展或者自己编写类来进行仿真,使用起来非常灵活。这一点与针对特定使用场景的仿真系统不同,针对特定使用场景的仿真系统在使用的时候只需填写参数即可使用,无需编程,但无法灵活地构建使用场景。,10.2.1CloudSim基础,CloudSim是使用Java语言开发的,用户只需掌握Java语言的用法和云计算的相关知识,即可建立云计算模型进行仿真。仿真平台是个模拟器,并不能运行真实的云计算平台上的应用程序。CloudSim在物理主机和虚拟机两个层面进行资源分配。物理主机中构建的所有虚拟机共享物理资源,由CloudSim中的VmScheduler负责资源的分配;CloudSim中仿真的任务称为Cloud

9、let,集群中的虚拟机有大量的Cloudlet需要资源,由CloudSim中的虚拟机资源调度器CloudletScheduler负责资源的分配。,10.2.1CloudSim基础,2为什么要使用CloudSim 对于技术研发人员来说,大规模集群的资源调度、负载均衡、集群平台,集群拓扑等研究如果在物理机上进行,需要大量的服务器、网络设备资源,实验环境的准备、实验数据的采集、实验方案的调试很不方便、成本很高,需要先在仿真实验平台上进行实验。对云应用服务的测试也会比较麻烦,主要表现在:(1)应用服务商直接将应用部署到云平台上之后再进行测试,无疑会带来额外的成本开销。一旦应用程序接入云平台就必须要缴纳

10、相应的费用,这样在应用没有任何经济效益的情况下就产生了额外的费用,对于SaaS提供商来说是不经济的;(2)实际运行的云平台环境(IaaS、PaaS)是不可控的,整个互联网环境时而拥塞,时而清闲,从而导致了云平台资源使用的无规律性和不可再现性,不利于应用的重复测试。,10.2.1CloudSim基础,3CLoudSim的特点(1)能够在一台PC上建模和仿真大规模云计算基础设施,如数据中心、物理主机等;(2)支持用户任务以及服务代理的建模和仿真;(3)支持对云计算环境中的网络环境进行建模;(4)有效地利用虚拟化引擎,帮助在数据中心节点上创建、管理和销毁多个虚拟节点;(5)可以灵活地在基于时间共享和

11、基于空间共享的虚拟化策略之间进行切换;(6)支持对云数据中心的能耗行为进行建模和仿真;(7)可以方便地建立云平台资源的价格策略,包括存储价格、带宽价格等;(8)能够模仿多个云厂家之间进行透明交易,包括任务迁移、存储迁移、价格协商等。,10.1CloudSim分层体系架构,10.2.2CloudSim多层体系结构,10.2.2CloudSim体系结构,1用户代码层用户代码层处于系统的上层,包含仿真描述和调度策略,用户在这一层定义云计算方案、用户需求,进行应用配置,同时云应用开发人员可以生成工作流请求,根据用户的配置进行云计算场景的强力测试。(1)仿真描述。对于云服务使用者来说,他们需要测试应用程

12、序在特定云平台上的服务性能,或者测试应用程序需要占用多少云资源,只需创建与特定云平台类似的虚拟云平台,并按应用程序的需求(如带宽、内存等)创建对应的云任务(在CloudSim中云任务被定义为Cloudlet)。之后,就可以让云任务运行在虚拟的云平台上最终得到测试结果。比如,一个亚马逊云平台的使用者,想在其上部署一个网络硬盘的应用程序,希望估算需要租用多少服务,可以使用CloudSim进行仿真。首先,使用CloudSim建立一个虚拟的亚马逊云平台;然后,在其上建立一定数量的虚拟机资源对应某一云服务性能;最后,按照自己的预期生成云服务(比如,需要多大的硬盘、带宽、内存等),使其运行在之前建立的虚拟

13、的云服务上得出测试结果。,10.2.2CloudSim体系结构,(2)调度策略。从云服务提供者的角度,服务提供者想测试云平台任务调度策略是否合理,或者服务商提出一种新的任务调度策略,在使用之前需要对其进行测试。测试的重心相较于CloudSim就不一样了,测试的步骤需要先实现自定义的任务调度策略(主要是更改数据中心代理DatacenterBroker)。比如,亚马逊的用户发现当前的任务调度策略没有发挥最好的作用,设计实现了一种新的调度策略,可以先在CloudSim进行仿真。首先,改写DatacenterBroker的任务调度策略的代码;然后,创建云平台和云任务并运行,最终得出测试结果。,10.2

14、.2CloudSim体系结构,2CloudSim层CloudSim仿真层的主要作用是对基于虚拟化的数据中心环境中的虚拟机、内存、存储、带宽等进行建模仿真。将物理机切分为虚拟机、应用程序管理、集群系统状态监控等工作由CloudSim仿真层来完成。用户在CloudSim仿真层编写自己的策略,就可以对虚拟化数据中心的虚拟主机分配策略进行研究,评估不同的分配策略下数据中心的运行情况。云应用开发人员可以在CloudSim仿真层测试不同的云应用的运行效果。实际的云计算环境中基本组成元素是数据中心(Datacenter)。数据中心包含了大量的物理主机,且云环境下的物理主机是可以被多个虚拟机共享的,Cloud

15、Sim定义了一组资源共享策略的接口(UtilizationModel),来描述如何使用共享资源,CloudSim中的主机可以被多个虚拟机共享。资源共享策略主要有空间共享(Space-Based)策略和时间共享(Time-Based)策略。,10.2.2CloudSim体系结构,空间共享策略是指在某一段时间内只把计算资源分配给某一个虚拟机/计算任务独占;时间共享策略是指某一时间段内计算资源可以在多个虚拟机/计算任务之间进行共享。例如,一台具有两个CPU 的主机,CloudSim 在主机上部署了2 个虚拟机VM1、VM2,每个虚拟机都有4 个任务,VM1上的任务为t1、t2、t3、t4,VM2上的

16、任务为t5、t6、t7、t8,如图10.2所示,图10.2不同资源共享策略下的任务执行情况,10.2.2CloudSim体系结构,图10(a)所示为主机层和虚拟机层都采用空间共享策略的计算任务时间图,VM1先独占2个CPU,待任务处理完再交给VM2,同时任务t1和任务t2分别独占CPU1和CPU2,待处理完成后交给t3和t4;图10(b)所示为主机层采用空间共享的策略,在虚拟机层采用时间共享的策略。图10(c)所示为在主机层采用时间共享的策略,虚拟机层采用空间共享的策略;图10(d)所示为在主机和虚拟机层都采用了时间共享策略。,10.2.3 CloudSim的使用模型场景,CloudSim的用

17、途十分广泛,本节讲解CloudSim的3种典型的使用模型场景。1云数据中心的能耗模型云计算系统包含大量互相连接的主机、存储设备和网络设备等,维持这样庞大的系统运行需要消耗大量的电力。CloudSim提供了电力控制策略的模拟,能够让用户设计出符合本地数据中心特点的电力方案,从而节约成本,提高整个系统的运行效率。在CloudSim中实现一个抽象类PowerModel,用来对电力策略进行建模。用户可以通过继承该抽象类,编写自己的电力供应方案,在CloudSim上进行仿真实验,从而验证供电方案的整体效果。,10.2.3 CloudSim的使用模型场景,2云平台的经济模型云计算是基于互联网的服务的增加、

18、使用和交付模式,通常涉及通过互联网来提供动态、易扩展且经常是虚拟化的资源。用户可以像使用水和电一样使用云计算资源,只需付费给云服务提供商就可以租用其提供的计算、存储以及网络等资源。对计算资源、网络资源以及存储资源的定价对于数据中心的运营非常重要。,10.2.3 CloudSim的使用模型场景,CloudSim中对定价策略进行模拟分为基础设施层和服务层两个层次。(1)基础设施层:这一层主要包括内存单元的价格、外存的价格、数据传输的单位成本以及计算资源的价格。(2)服务层:这一层主要是应用程序服务使用的资源价格。如果使用者只是利用了云中的基础设施而没有在其上部署任何的应用,比如只是创建了几台虚拟机

19、,并没有在虚拟机上运行任何的任务,那么他将不需要为服务层付费。CloudSim的数据中心类(Datacenter)包含了一些关于价格的参数,如CPU的使用价格、网络的使用价格、内存和硬盘的使用价格等,方便价格策略的建模。,10.2.3 CloudSim的使用模型场景,3联合云模型先对以下几个概念进行区分:公有云、私有云、混合云以及联合云。(1)公有云:面向互联网大众的云服务。其受众是整个互联网环境下的所有人,只要注册缴纳一定的费用任何人都可以使用其提供的云服务。目前,比较流行的公有云平台有国外的Amazon EC2、GAE(Google App Engine),国内的SAE(Sina App

20、Engine)、BAE(Baidu App Engine)等。(2)私有云:面向企业内部的云计算平台。使用其提供的云服务需要一定的权限,一般只提供给企业内部员工使用。其主要目的是合理地组织企业已有的软硬件资源,提供更加可靠、弹性的服务供企业内部使用。,10.2.3 CloudSim的使用模型场景,(3)混合云:混合了私有云和公有云。一般像银行这样的单位,其内部的私有云系统在用户访问高峰期的时候很难满足要求,此时就可以接入到公有云中应对更多的用户请求。(4)联合云:联合多个云服务提供商的云基础设施,向用户提供更加可靠、优惠的云服务,主要针对公有云平台。比如,部署在云平台上的CDN(内容分发网络)

21、服务,系统存储的数据内容在地理上是分散的,用户也是分布在世界各地。如果A国家的用户请求一个分布在B国家的数据内容,那么数据就会途经许多路由,增加了网络的时延。联合云能够自动地将用户请求的数据资源迁移到距离用户比较近的云数据中心,提高CDN的质量保证。,10.2.3 CloudSim的使用模型场景,CloudSim中定义了云协调器实体(CloudCoordinator)。它不仅负责与其他的云计算平台进行通信,而且负责监控本云平台系统的状态(如任务负载情况、网络延迟情况等)。在整个仿真阶段,云协调器的监控进程始终是活跃的,从监控进程反馈回来的信息为以后进行云平台之间的任务调度作参考。在进行联合云仿

22、真的时候,两个需要被控制的基本问题是通信与监控。通信问题主要由数据中心通过以事务为基础的消息进程进行控制。监控问题主要由云协调器进行控制。每一个加入联合云的云计算平台都需要实例化一个云协调器实体。云协调器会根据本地数据中心的状态触发CloudSim中联合云的任务负载均衡进程。云协调器监控得到的数据是由传感器实体(Sensor)提供的。在每次监控时,CloudCoordinator 都会查询一下Sensor,判断数据中心的负载是否达到了事先定义好的任务转移条件(如数据中心负载超过多少等)。如果达到了该条件,那么本地的云协调器就会与联合云中的其他云平台的云协调器进行协商,进行任务负载的转移。,10

23、.2.4CloudSim使用实例,CloudSim是基于Java语言编写的开源软件,用户使用CloudSim和Eclipse集成进行云计算仿真实验和开发工作。1下载CloudSim 登录http:/“New”“Java Project”,新建Java项目,命名为“CloudSim”,如图10.3所示。,工程中用到了math里面的类,需要引入commons-math3-3.2.jar这个库。用户下载了commons-math3-3.2.jar后,选中新建的项目“CloudSim”,单击右键,选择“Build Path”“Add External Achieve”,将其导入。,图10.3准备Ecl

24、ipse开发环境,10.2.4CloudSim使用实例,3运行测试程序Cloud提供了一些实例程序,使初学者对能快速了解CloudSim,实例程序存放在解压后的CloudSim文件夹中,打开/cloudsim-3.0.3/examples/org/cloudbus/cloudsim/examples,将其中的6个示例程序CloudSimExample1.javaCloudSimExample6.java复制到工程中。这里我们打开示例程序CloudSimExample6.java,按“Ctrl+F1”快捷键即可运行示例程序,显示如下的运行结果。,10.2.4CloudSim使用实例,4数据中心仿

25、真实例本节我们使用CloudSim来仿真一个由两台双核物理机组成的最小单元集群,体验CloudSim系统的使用。每台物理机分为4台虚拟机,即2台虚拟机共享1个CPU核,集群共有8台虚拟机,每台虚拟机的运算能力(MIPS)各不相同。这个数据中心需要处理的外部负载任务数为16。任务调度由DatacenterBroker负责,本实例分别使用轮询算法和最小执行时间优先算法进行任务调度,使用CloudSim进行数据中心的仿真运行实验,查看两种算法调度的执行情况。这两种算法的区别在于:轮询算法按照虚拟机的顺序,依次将负载分配到虚拟机节点;最小执行时间优先算法将最大的负载分配到处理能力最强的虚拟机。,(1)

26、创建虚拟机。在CloudSim中,我们通过使用镜像大小、虚拟机内存大小、CPU计算性能、带宽等参数来定义虚拟机的性能。,创建外部负载任务,我们对任务的执行长度、占用空间大小、输出文件大小、使用的CPU核数进行定义。,10.2.4CloudSim使用实例,主程序是CloudSim仿真的重点,用CloudSim仿真的主要步骤分为6步:初始化CloudSim程序包、创建数据中心、创建数据中心代理、创建虚拟机和云事务、开始仿真、打印仿真结果。,10.2.4CloudSim使用实例,定义数据中心,10.2.4CloudSim使用实例,10.3云计算系统相空间模型,云计算系统从诞生之日起就与大规模、异构性

27、以及复杂性息息相关。大规模是指云计算系统会涉及多个数据中心、海量的物理节点和网络设备;异构性主要表现在海量的物理节点的软硬件配置各不相同;对于大规模异构的云计算系统来说,无论是系统内部的资源调度和负载均衡,还是对系统的服务性能评估和服务定价都是十分复杂的。使用仿真技术进行云计算系统相关方面的研究可以简化研究工作、节省大量成本。,10.3云计算系统相空间模型,云计算系统相空间模型是一种针对具有海量节点的云计算集群的仿真模型,通过将物理节点的主要参数(如CPU占用率、内存占用率)抽象出来作为点的坐标,构建云计算集群的相空间。将节点的参数变化转化为相空间中点的运动,利用海量节点在参数相空间的运动与热

28、力学运动的相似性,定义广义温度、广义熵等广义热力学参数,我们可以通过节点在相空间中的投影点来观测节点的状态变化,并通过广义温度、广义熵等的参数来监控集群的整体运行情况。,10.3云计算系统相空间模型,1.云计算集群的相空间投影云计算集群中的每台服务器的工作状态可以用一个状态参数向量来表述(参数1,参数2,参数),如(CPU占用率0.3,内存占用率0.2,连接数占用率0.1)。当它映射在相空间模型下时,参数向量的维数对应于相空间的维数,向量终点在相空间的位置代表服务器多个参数的综合负载情况,反映了服务器当前的工作状态。参数相空间的定义:由服务器的某两个或多个参数为广义坐标轴所形成的二维或多维空间

29、称为云计算系统的参数相空间。参数相空间是云计算集群的整体工作情况在某个时刻上的一个快照。动量相空间的定义:为了描述云计算的动态工作情况我们定义了动量相空间,动量相空间以投影点在某一单位时间片内在相空间内移动的距离看作速度作为纵轴(投影点的质量设为1,纵轴就可看作是动量),投影点离当前时刻广义重心的距离作为横轴,一个调度良好的云计算系统在动量相空间中应聚集在原点附近,系统投影点聚集在原点附近表明当前系统运行稳定、负载均衡。,10.3云计算系统相空间模型,2.云计算集群在相空间上投影的广义参数定义具有海量节点的高耦合云计算集群向相空间投影后,由于在外部负载请求的作用下相空间上的各个点会不断地产生运

30、动,大量的点的运动呈现出较为典型的热运动特征,分析参数相空间上各点的位置便可以对集群资源进行有效地调度,而且我们可以利用热力学中的参数特性来对应的定义云计算系统在相空间投影下的广义热力学参数作为对云计算系统进行分析的工具。,10.3云计算系统相空间模型,假定服务器数量为 m,服务器参数有 n 个,由于 n 个参数在调度时的重要性不同,所以假设各参数所占权重分别为,且,则服务器节点向维相空间的投影点集为:,10.3云计算系统相空间模型,集群在参数相空间中投影的广义重心位置是判断集群整体负载情况和建立集群管理调度策略的重要参数。云计算集群参数相空间投影的广义重心坐标是由被投影的所有服务器工作状态参

31、数的平均值构成。云计算集群在某时刻投影点的广义重心位置为G,坐标写为.广义重心坐标计算公式为:,10.3云计算系统相空间模型,在对云计算系统进行调度效果评价时,相空间上所定义的广义温度和广义熵分别反映了系统当前的活动状态和系统的均衡状态。在实际计算时可以将单位时间间隔内的相空间所有点两次位置采样的平均移动距离作为广义温度。根据热力学原理单个点的运动只有速度概念,大量点的运动就具有了温度的概念,当节点接受新任务时,其相空间投影点向相空间右上方运动,当节点释放任务时,其相空间投影点向相空间原点运动。,10.3云计算系统相空间模型,广义熵的计算一般采用将相空间划分为 n*n 的网格,根据服务器投影点落入网格的数目,利用广义熵的定义公式 来计算,分母 的作用是使广义熵归一化,广义熵的值越大系统越不均衡。我们通常把相空间上定义的这类热力学参数称为广义热力学参数。,练习题,1网格计算仿真系统主要有、等。2GridSim和CloudSim的区别有哪些?3简述CloudSim仿真的主要步骤。4编写一段简单的C语言程序对由1000个同构节点的集群进行模拟定义。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号