《第01章大数据与云计算ppt课件.pptx》由会员分享,可在线阅读,更多相关《第01章大数据与云计算ppt课件.pptx(55页珍藏版)》请在三一办公上搜索。
1、,西北农林科技大学,信息工程学院,推荐资源,教材云计算 第三版 电子工业出版社 2015年,参考教材虚拟化与云计算小组著.虚拟化与云计算,电子工业出版社,2009年.陆嘉恒,文继荣著.分布式系统及云计算概论.清华大学出版社,2013.Tom White著 曾大聃译.Hadoop权威指南,清华大学出版社,2015年.,西北农林科技大学,大数据与云计算,第 1 章,目录,大数据时代,云计算大数据的计算,云计算发展现状,云计算实现机制,云计算压倒性的成本优势,1.1大数据时代,第一章 大数据与云计算,全球数据总量变化图,1.1大数据时代,第一章 大数据与云计算,为什么全球数据量增长如此之快?,一:数
2、据产生方式的改变,二:人类的活动越来越依赖数据,1.人类的日常生活已经与数据密不可分,2.科学研究进入了“数据科学”时代,3.各行各业也越来越依赖大数据手段来开展工作,1.1大数据时代,第一章 大数据与云计算,何谓大数据?,10,1C,4V,数据增长速度快,而且越新的数据价值越大,这就要求对数据的处理速度也要快。,数据的来源及格式多样,数据格式除了传统的结构化数据外,还包括半结构化或非结构化数据,比如用户上传的音频和视频内容。,对数据的处理和分析的难度大。,1.1大数据时代,第一章 大数据与云计算,目录,大数据时代,云计算大数据的计算,云计算发展现状,云计算实现机制,云计算压倒性的成本优势,G
3、=f(x),大数据与云计算的关系,我们的目标,云计算,大数据,1.2云计算大数据的计算,第一章 大数据与云计算,云计算是什么?“它起源于我们将互联网视为云的时候 我们不关心消息去往何处 云为我们屏蔽了复杂性”Kevin Marks,Google“融合的云是对服务器,应用,数据,基础设施的复杂性和异构平台的简化抽象”Amazons CEO Jeff Bezos,1.2云计算大数据的计算,第一章 大数据与云计算,1.2云计算大数据的计算,第一章 大数据与云计算,云计算的发展路线,1.2云计算大数据的计算,第一章 大数据与云计算,并行计算,并行计算或称平行计算是相对于串行计算来说的。并行计算(Par
4、allel Computing)是指同时使用多种计算资源解决计算问题的过程。为执行并行计算,计算资源应包括一台配有多处理机(并行处理)的计算机、一个与网络相连的计算机专有编号(?),或两者结合使用。并行计算的主要目的是快速解决大型且复杂的计算问题。,并行计算可以划分成时间并行和空间并行。时间并行即流水线技术,空间并行使用多个处理器执行并发计算,当前研究的主要是空间的并行问题。以程序和算法设计人员的角度看,并行计算又可分为数据并行和任务并行。数据并行把大的任务化解成若干个相同的子任务,处理起来比任务并行简单。,https:/simple.wikipedia.org/wiki/Parallel_c
5、omputing,1.2云计算大数据的计算,第一章 大数据与云计算,集群计算,计算机集群将一组松散集成的计算机软件或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机,比如工作站或超级计算机性价比要高得多。,根据组成集群系统的计算机之间体系结构是否相同,集群可分为同构与异构两种。集群计算机按功能和结构可以分为,高可用性集群(High-availability(HA)clusters)、负载均衡集
6、群(Loadbalancing clusters)、高性能计算集群(High-performance(HPC)clusters)、网格计算(Grid computing)。,https:/simple.wikipedia.org/wiki/Cluster_(computing),1.2云计算大数据的计算,第一章 大数据与云计算,分布式计算,分布式计算这个研究领域,主要研究分散系统(Distributed system)如何进行计算。分散系统是一组计算机,通过计算机网络相互链接与通信后形成的系统。把需要进行大量计算的工程数据分区成小块,由多台计算机分别计算,在上传运算结果后,将结果统一合并得出数
7、据结论的科学。,https:/simple.wikipedia.org/wiki/Distributed_computing,1.2云计算大数据的计算,第一章 大数据与云计算,并行计算与分布式计算的区别,并行计算与分布式计算都是运用并行来获得更高性能,化大任务为小任务。简单说来,如果处理单元共享内存,就称为并行计算,反之就是分布式计算。也有人认为分布式计算是并行计算的一种特例。,1.2云计算大数据的计算,第一章 大数据与云计算,并行计算与分布式计算的区别,并行计算与分布式计算都是运用并行来获得更高性能,化大任务为小任务。简单说来,如果处理单元共享内存,就称为并行计算,反之就是分布式计算。也有人
8、认为分布式计算是并行计算的一种特例。,分布式的任务包互相之间有独立性,上一个任务包的结果未返回或者是结果处理错误,对下一个任务包的处理几乎没有什么影响。因此,分布式的实时性要求不高,而且允许存在计算错误(因为每个计算任务给好几个参与者计算,上传结果到服务器后要比较结果,然后对结果差异大的进行验证。,1.2云计算大数据的计算,第一章 大数据与云计算,并行计算与分布式计算的区别,并行计算与分布式计算都是运用并行来获得更高性能,化大任务为小任务。简单说来,如果处理单元共享内存,就称为并行计算,反之就是分布式计算。也有人认为分布式计算是并行计算的一种特例。,并行程序并行处理的任务包之间有很大的联系,而
9、且并行计算的每一个任务块都是必要的,没有浪费的分割的,就是每个任务包都要处理,而且计算结果相互影响,就要求每个的计算结果要绝对正确,而且在时间上要尽量做到同步,而分布式的很多任务块可以根本就不处理,有大量的无用数据块,所以说分布式计算的速度尽管很快,但是真正的“效率”是低之再低 的,可能一直在寻找,但是永远都找不到,也可能一开始就找到了;而并行处理不同,它的任务包个数相对有限,在一个有限的时间应该是可能完成的。,1.2云计算大数据的计算,第一章 大数据与云计算,网格计算,网格计算是分布式计算的一种,也是一种与集群计算非常相关的技术。如果我们说某项工作是分布式的,那么,参与这项工作的一定不只是一
10、台计算机,而是一个计算机网络,显然这种“蚂蚁搬山”的方式将具有很强的数据处理能力。网格计算的实质就是组合与共享资源并确保系统安全。,网格计算通过利用大量异构计算机的未用资源(CPU周 期和磁盘存储),将其作为嵌入在分布式电信基础设施中的一个虚拟的计算机集群,为解决大规模的计算问题提供一个模型。网格计算的焦点放在支持跨管理域计算 的能力,这使它与传统的计算机集群或传统的分布式计算相区别。网格计算的目标是解决对于任何单一的超级计算机来说仍然大得难以解决的问题,并同时保持解决 多个较小的问题的灵活性。这样,网格计算就提供了一个多用户环境。,https:/simple.wikipedia.org/wi
11、ki/Grid_computing,1.2云计算大数据的计算,第一章 大数据与云计算,云计算,云计算,不只是计算等计算机概念,还有运营服务等概念了。它是分布式计算、并行计算和网格计算的发展,或者说是这些概念的商业实现。云计算不但包括分布式计算还包括分布式存储和分布式缓存。分布式存储又包括分布式文件存储和分布式数据存储。,弹性能力,虚拟化,服务,互联网,多租户,动态配置,按需付费,IaaS,PaaS,SaaS,云计算的定义 wiki,第一章 大数据与云计算,云计算的定义NIST 美国国家标准技术研究院云计算是一种模型,它可以实现随时随地,便捷地,随需应变地从可配置计算资源共享池中获取所需的资源(
12、例如,网络、服务器、存储、应用、及服务),资源能够快速供应并释放,使管理资源的工作量和与服务提供商的交互减小到最低限度。云计算的基本特点是:随需应变的自助服务、无处不在的网络访问、资源共享池、快速而灵活、计量付费服务。,广大用户依托互联网某些节点强大的信息资源、包括存储资源、计算资源、软件资源、数据资源,管理资源为己所用,强调需求驱动,用户主导,按需服务,即用即付,用完即散,不对用户集中控制,用户不关心服务者在什么地方。,云计算的定义,第一章 大数据与云计算,云计算长定义,云计算短定义,云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、
13、存储空间和信息服务。,云计算是通过网络按需提供可动态伸缩的廉价计算服务。,将软件作为服务SaaS(Software as a Service),将平台作为服务PaaS(Platform as a Service),将基础设施作为服务IaaS(Infrastructure as a Service),针对性更强,它将某些特定应用软件功能封装成服务如:Salesforce online CRM,对资源的抽象层次更进一步,提供用户应用程序运行环境如:Google App Engine Microsoft Windows Azure,将硬件设备等基础资源封装成服务供用户使用如:Amazon EC2/S
14、3,云计算按服务类型大致分为三类:,专用,通用,1.2云计算大数据的计算,第一章 大数据与云计算,服务模型与系统架构:,SaaS,PaaS,IaaS,Network,H/W,Virtualization,OS,Database,Middleware,Application,Management,1.2云计算大数据的计算,第一章 大数据与云计算,部署模型:,公有云,社区云,私有云,混合云,企业独立拥有或独立承租的云系统在特定社区内共享的云系统,如:由某公司及其合作伙伴共同承建并分享使用的云系统面向公众开放租售的大规模云系统由以上三种云系统中的两种以上的云系统共同配合而提供IT能力的混合型云系统,
15、1.2云计算大数据的计算,第一章 大数据与云计算,云计算的7个特点,1.2云计算大数据的计算,第一章 大数据与云计算,基本特征:,目录,大数据时代,云计算大数据的计算,云计算发展现状,云计算实现机制,云计算压倒性的成本优势,微软紧跟云计算步伐,推出了Windows Azure操作系统,国外云计算的先行者,亚马逊的云计算称为Amazon Web Services(AWS),谷歌是最大的云计算技术的使用者,率先在全球提供了弹性计算云EC2(Elastic Computing Cloud)和简单存储服务S3(Simple Storage Service),为企业提供计算和存储服务。,收费的服务项目包
16、括存储空间、带宽、CPU资源以及月租费。,AWS服务的种类非常齐全,全球用户数量已经超过100万,国内云计算崛起代表企业,存储服务为特色,多处拥有云计算数据中心,游戏托管为特色,国际上云计算产品最全,提供类似AWS服务,专门支撑智能硬件大数据免费托管,目录,大数据时代,云计算大数据的计算,云计算发展现状,云计算实现机制,云计算压倒性的成本优势,41,1.4云计算实现机制,第一章 大数据与云计算,管理中间件层和资源池层是云计算技术的最关键部分,SOA构建层的功能更多依靠外部设施提供。,1.4云计算实现机制,第一章 大数据与云计算,均衡使用云资源节点,检测节点故障并试图恢复或屏蔽之,并对资源的使用
17、情况进行监视统计,云计算的管理中间件层,执行用户或应用提交的任务,包括完 成用户任务映象(Image)的部署和管理、任务调度、任务执行、任务生命期管理等,实现云计算商业模式的一个必不可少的环节,包括提供用户交互接口、管理和识别用户身份、创建用户程序的执行环境、对用户的使用进行计费等,保障云计算设施的整体安全,包括身份认证、访问授权、综合防护和安全审计等,1.4云计算实现机制,44,第一章 大数据与云计算,简化的IaaS实现机制图,服务目录是用户可以访问的服务清单。,系统管理模块负责管理和分配所有可用的资源,其核心是负载均衡。,配置工具负责在分配的节点上准备任务运行环境。,监视统计模块负责监视节
18、点的运行状态,并完成用户使用节点情况的统计。,用户交互接口向应用以Web Services方式提供访问接口,获取用户需求。,1.4云计算实现机制,第一章 大数据与云计算,目录,大数据时代,云计算大数据的计算,云计算发展现状,云计算实现机制,云计算压倒性的成本优势,47,全球企业IT开销发展趋势,1.5云计算压倒性的成本优势,第一章 大数据与云计算,冷,中型数据中心和特大型数据中心的成本比较,1.5云计算压倒性的成本优势,第一章 大数据与云计算,美国不同地区电力价格的差异,1.5云计算压倒性的成本优势,第一章 大数据与云计算,“信息时代核电站”Google数据中心,Nautilus Data Technologies公司的漂浮式数据中心,冰立方实验室在阿蒙森-斯科特站家世界最南端的数据中心,某典型网站的流量数据,提供弹性的服务,在超大资源池中动态分配和释放资源,资源利用率达到80%左右,是传统模式57倍,云计算平台的规模极大,比较容易平稳整体负载,1.5云计算压倒性的成本优势,第一章 大数据与云计算,云计算将计算变成了大众用得上和用得起的“水和电”,云计算较之传统方式的性价比优势,1.5云计算压倒性的成本优势,第一章 大数据与云计算,1.云计算基本概念、服务类型2.云计算实现机制3.云计算的特点与优势,本章小结:,