OSSBSS云部署中的分布式计算特点研究及应用(可编辑) .doc

上传人:laozhun 文档编号:2393129 上传时间:2023-02-17 格式:DOC 页数:36 大小:126.50KB
返回 下载 相关 举报
OSSBSS云部署中的分布式计算特点研究及应用(可编辑) .doc_第1页
第1页 / 共36页
OSSBSS云部署中的分布式计算特点研究及应用(可编辑) .doc_第2页
第2页 / 共36页
OSSBSS云部署中的分布式计算特点研究及应用(可编辑) .doc_第3页
第3页 / 共36页
OSSBSS云部署中的分布式计算特点研究及应用(可编辑) .doc_第4页
第4页 / 共36页
OSSBSS云部署中的分布式计算特点研究及应用(可编辑) .doc_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《OSSBSS云部署中的分布式计算特点研究及应用(可编辑) .doc》由会员分享,可在线阅读,更多相关《OSSBSS云部署中的分布式计算特点研究及应用(可编辑) .doc(36页珍藏版)》请在三一办公上搜索。

1、OSSBSS云部署中的分布式计算特点研究及应用 单位代码: 10293密 级:专 业 学 位 硕 士 论 文 论文题目:OSS/BSS 云部署中的分布式计算特点的研究及应用学号 1210012445姓名孙洪波导师韩雅良教授、卢捍华教授 专业学位类别 工程硕士 类型 申请 全日制专业(领域) 申请电子与通信工程论文提交日期二?一三年四月Research and Application of the Characteristics of Distributed Computing of OSS / BSS in the Cloud Deployment Thesis Submitted to Na

2、njing University of Posts and Telecommunications for the Degree ofMaster of Engineering By Hongbo Sun Supervisor: Prof. Yaliang Han,Prof. Hanhua Lu April 2013 南京邮电大学学位论文原创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它 教育机构的学位或证书而使用过的材料。与我一同

3、工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 本人学位论文及涉及相关资料若有不实,愿意承担一切相关的法律责任。 研究生签名:_ 日期:_南京邮电大学学位论文使用授权声明 本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档;允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索;可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。 涉密学位论文在解密后适用本授权书。 研究生签名:_ 导师签名:_ 日期:_ 摘要 随着计算机技

4、术的不断发展和业务的推动,云计算已成为 IT技术发展的趋势,并将推动整个 IT产业发生深刻的变革。当前运营商也越来越重视云计算的发展,都纷纷推出了云计算发展计划。但是要将 OSS/BSS系统部署在云计算环境中,它必须能够适应云计算的特点。 首先,本文介绍了云计算的概念及特点,主要从虚拟化、弹性伸缩和动态调配、按需即取及绿色节能等特点来阐述云计算的优势所在。并且对云计算的服务模式、体系架构及Hadoop云计算平台进行了简单的介绍,从而对云计算有了一个比较全面的认识。 其次,对 Hadoop云计算平台中的核心内容进行了详细分析。主要从分布式文件系统、分布式数据处理算法以及负载均衡算法三个方面做了详

5、细的研究,从而对云计算及 Hadoop 云计算框架有了更加深入的理解。 然后,针对当前 OSS/BSS 系统中存在的问题,要适应云计算的分布式计算特点必须做出相应的改变。而这些改变必须经过系统的抽象化来实现,通过解耦达到系统的松耦合状态。 参考 Frameworx体系框架,主要从业务流程、信息框架及应用框架三个角度对 OSS/BSS系统进行解耦,从而降低了系统的耦合度,提高系统对新技术及新业务的适应能力。 最后,对 OSS/BSS 中的计费数据在 Hadoop 分布式计算环境中实现了分布式查询,并与单机计算进行比较,能够看出云计算能够提高对大数据处理的效率。关键词: 云计算,OSS/BSS,H

6、adoop ,HDFS,MapReduce ,Frameworx ,eTOM IAbstract With the development of computer technology and business driven, cloud computing which will bring tremendous innovation into IT industry has become the trend of the IT. So,operators begin to take cloud computing plans into account. The main task is to

7、 deploy OSS/BSS systems in the cloud computing environmentThis paper introduces the related knowledge of cloud computing firstly. The main content as following: concept, architecture, cloud computing service model,hadoop platform, and characteristics and advantages which including virtualization, fl

8、exible telescopic, dynamic deployment, energy-saving, access on demand and so onSecondly, this paper analyzes some key technologies in Hadoop cloud computing. It focuses on the study of distributed file systems, distributed data processing and load balancing algorithmin Hadoop. Thus,we have a more i

9、n-depth understanding of cloud computing and HadoopMoreover,the abstraction processing of the system is to solve the problem of deploying OSS/BSS systems in the cloud computing environment. In order to achieve loosely coupled state, this paper decouples the OSS/BSS system by Frameworx. OSS/BSS is br

10、oken down from three angles of the business processes,information framework and application framework. Not only achieve standardization requirements,but also can it improve the ability of the system to adapt to new technology and businessFinally, billing data of OSS/BSS is implemented in distributed

11、 query in cloud. Compared with stand-alone computing, cloud computing is possible to improve the efficiency of the calculation of large data Key words: Cloud Computing,OSS/BSS,Hadoop,HDFS,MapReduce,Frameworx,eTOM II目录 专用术语注释表1?第一章 绪论2?1.1 研究背景和意义2?1.2 国内外发展现状3?1.3 云计算与 OSS/BSS 4?1.4 论文结构及内容安排5?第二章 云

12、计算概念及平台6?2.1 云计算概念. 6?2.1.1 云计算概念阐述 6?2.1.2 云计算分类7?2.1.3 云计算体系架构 8?2.2 Hadoop 云计算平台 9?2.2.1 Hadoop项目及其结构. 10?2.3 云计算特点及关键技术 13?2.3.1 云计算特点 13?2.3.2 云计算关键技术. 16?2.4 本章小结 17?第三章 Hadoop 核心技术研究 18?3.1 Hadoop 分布式文件系统(HDFS)18?3.1.1 HDFS体系架构及特点 18?3.1.2 HDFS API 接口分析. 20?3.2 Hadoop 分布式数据处理算法 23?3.2.1 Hadoo

13、p 编程模型23?3.2.2 映射(Map).23?3.2.3 本地化规约(Combine). 24?3.2.4 规约(Reduce). 24?3.2.5 MapReduce 任务执行流程. 24?3.3 负载均衡算法分析27?3.3.1 Hadoop负载均衡简介. 27?3.3.2 Hadoop负载均衡算法. 28?3.4 本章小结 29?第四章 基于 Frameworx 的 OSS/BBS系统设计30?4.1 OSS/BSS 的现状和问题 30?4.2 Frameworx体系框架分析 31?4.2.1 Frameworx 体系框架概况. 31?4.2.2 Frameworx 体系的业务流程

14、框架?eTOM. 33?4.2.3 Frameworx 体系的信息框架?SID. 38?4.2.4 Frameworx 体系的应用框架?TAM39?4.2.5 eTOM、SID、TAM 三者之间的关系 40?4.3 基于 Frameworx 的云环境下 OSS/BSS 系统设计 40?4.3.1 OSS/BSS系统云部署框架设计. 40?4.3.2 OSS/BSS系统云部署实施方案设计42?4.4 基于 Frameworx 的计费功能模块的设计43?4.4.1 计费系统的流程框架43III4.4.2 计费系统的数据信息模型 45?4.5 本章小结 46?第五章 OSS/BBS中计费数据实现分布

15、式查询 48?5.1 Hadoop 云计算环境部署48?5.1.1 操作系统及软硬件配置. 48?5.1.2 软件安装. 49?5.1.3 启动 Hadoop 服务. 51?5.2 计费数据分布式查询程序设计 52?5.2.1 计费数据结构52?5.2.2 Maper函数. 53?5.2.3 Reducer函数. 53?5.2.4 Main 主程序流程 54?5.3 实验结果 55?第六章 总结与展望 57?6.1 研究成果总结. 57?6.2 未来展望 57?参考文献 59?附录 1 攻读硕士学位期间参加的科研项目 61?致谢62IV南京邮电大学专业学位硕士研究生学位论文 专用术语注释表 专

16、用术语注释表 缩略词说明:BSS Business support system运营支撑系统 增强的电信运营图 eTOM enhanced Telecom Operations Map HDFS Hadoop Distributed File System Hadoop分布式文件系统 IaaS Infrastructure as a Service 基础设施即服务 ITIL Information Technology Infrastructure Library 信息技术基础架构库 OS Operating System 操作系统 OSS Operation Support System 业

17、务支撑系统 PaaS Platform as a Service 平台即服务 RPC Remote Procedure Call Protocol 远程过程调用协议 SaaS Software as a Service 软件即服务 共享信息数据 SID Shared Information and Data TOGAF The Open Group Architecture Framework 开放组体系结构框架1南京邮电大学专业学位硕士研究生学位论文 第一章 绪论 第一章 绪论 1.1 研究背景和意义 1,2信息通信技术和行业正处在一个变革和发展的时期,云计算 、物联网、智慧星球、大数据等,

18、推动着社会包括经济、民生、知识获取、军事国防等领域的全面进步。云计算的发展已经成为大势所趋。一些大型的互联网公司如:Amazon、IBM、Google 等率先将云计算与市场结合起来,将云计算变为一种服务,可以说云计算已不是一种神秘的东西,它已经贴近了我们的生活,当你在 Google 浏览器上应用一些小的应用程序时,当你在 Amazon 或者淘宝上购买你喜欢的商品时,你就已经零距离的接触到或使用到了云计算技术。 云计算是一种由软件开发出来的新商业模式,它包含了研发技术、负载均衡及合理的架构。简单地讲,云计算是一种以 Internet 网络为核心的服务软件及商业模式。它是基于 Web浏览器的一种服

19、务方式,即用户只要根据自己需要的功能支付费用,而不需再额外的对软、硬件及体系进行投资的一种服务方式。可以说云计算就是一种直接按需获得需求的方式,是在虚拟化方式下的新应用,是一种新的服务模式。 应用云计算技术的好处是能够帮助我们快速的搭建应用环境,而且可以节省对硬件设备的投资。如:现在我们需要搭建一个应用网站平台,就不再需要考虑硬件设备和系统软件的购买,更不需要考虑后期设备的维护等等,而是将它搭建在“云”上,只需按照我们业务的3需要购买服务资源就可以了。而且这个“云”的规模具有动态伸缩性 ,这样可以根据业务的需要对随时的增加或减小系统规模,甚至业务被取消之后,也不会造成软硬件等投资的浪费,这样也

20、增加了资源的利用率,表现了云计算的灵活性和可扩展性。 由于云计算的宗旨是面向服务的,它也正在颠覆着传统的硬件、软件以及媒体的商业模,4 5式 。用户从购买产品转向了购买服务,这种商业模式的转变,正在重新划分产业格局,云计算是第三次计算机革命,从单机计算走向了分布计算的革命。它最大限度的降低了对终端计算和存储能力的需求,也凸显了网络的重要性,因为云计算将真正的计算和存储放在后台运行,而它计算的结果以及存储的信息流,通过网络与终端进行连接,从这个角度讲,云计算高度依赖于网络,同样也促进网络的发展。由于云计算带来的技术和商业模式的变化,传统的 OSS/BSS 已经很难适应这种变化,6 7就需要新的

21、OSS/ BSS 系统的支撑,如 Framewox 以及 ITIL 的提出。因为这些体系架构的设计理念以及它的开放性、模块化、信息的共享等特点与云计算的需求相适应。而且新一代2南京邮电大学专业学位硕士研究生学位论文 第一章 绪论 的运营支撑系统架构是与技术无关的,因此它的实现与实施也需要一些新的技术来支撑。确8切地说,OSS/BSS本身需要在云计算的环境下进行部署 ,这也是未来发展的必然趋势。 1.2 国内外发展现状 随着计算技术的发展和商业的推动,云计算逐渐成为 IT 发展的趋势,并将带动 IT产业的深刻变革,“不论你是不是愿意接受,云计算都正在改变着世界”。当前,企业和服务供应商采用云计算

22、来加速创新、提高敏捷性并降低运营成本,正在搭建包括私有云、公有云及托管云服务的混合云环境。惠普公司持续强化融合云战略,成为业界首个完整、集成且开放的云平台?惠普 CloudSystem 并发布了一系列更新,客户不管采用了何种底层技术,均能简化云服务的管理。惠普云 CloudSystem是基于惠普融合基础设施和惠普云服务自动化HP Cloud 9Service Automation软件构建的,能够帮助客户轻松搭建、管理和保护混合云环境 。 微软公司也意识到云计算对微软的重要性,并在 2008年推出了自己的云计划,而且成立了自己的数据中心。微软的云战略采用了三种不同的运营模式,并且都与其他公司的云

23、战略有很大区别。 第一种是以 Online services和 Windows live 为代表的微软向最终使用者提供的云计算服务。 第二种是基于 Windows Azure Platform开发各种云计算应用。第三种是微软提供了一些云计算解决方案,客户可以在此基础上完成自己平台的搭建。当然,以后微软还将会推出很多其他云的解决方案,例如微软正在开发云计算的迁移工具,还会推出一个整合工10具及管理平台来完成对其他云或传统应用的集成 。 而国内,一些大型互联网企业也率先推出自己的云计算应用平台。如自 2011年 7月开始,阿里云以自主开发的飞天开放平台为基础,该平台有数千台服务器组成的超大计算机,

24、通过互联网向用户提供存储资源和计算资源。阿里云 OS 系统是集云存储、云服务及云操作系统为一身的新一代操作系统。阿里云 OS基于 Linux内核以及 WebKit、OpenGL 和 SQLite 等开源库,采用 6HTML5 构建了移动终端的运行环境,并与云端平台服务一起,形成了云应用框11架,同时提供了本地应用的运行环境 。另外针对弹性计算服务,阿里云还提供了负载均衡、云监控、云盾这三种产品。此外百度也提出了“百度云”等等,互联网公司利用自己的用户群,率先将自己的一下应用部署到云平台上实现云化,以满足更大的客户需求。 与此同时,中国的三大电信运营商也紧跟潮流,厉兵秣马,积极布局云计算,期待能

25、够在这次信息化大潮中占据行业的至高点。中国移动目前正在构建 IT支撑云、业务云及公众服务云三大云平台,实现内部资源的合理调配,面向全社会提供基于云的全新 IT服务。以集中化为导向,向“依托南北基地构建两3南京邮电大学专业学位硕士研究生学位论文 第一章 绪论 大全网云计算数据中心,并在各大中省份建设省级云计算数据中心”的总体发展目标迈进,12通过 IP 网络连接,承载 IT 支撑系统云、业务平台云,并对外提供公众化云计算服务 。整体的构建思路是让云计算逐步成为构建中国移动各 IT系统的核心,通过云计算技术使系统建设及运营方面的成本降低,信息处理的能力不断提高,进而实现服务创新,使企业核心竞争力得

26、到大大增强。 中国电信云计算的发展策略是以电信优势资源、采取合作共赢的方式打造运营商主导的13信息化和移动互联网生态环境 ,让更多的开发者和用户聚集在电信的云平台之上。具体是通过提高企业的信息化服务能力,推动移动互联网的发展,通过提升 IT资源使用效率,从而降低成本,以求能够满足中小企业的信息化应用需求;引入更多第三方开发者,形成信息化应用生态系统;满足大量中小企业的弹性 IT资源需求,降低客户信息化发展门槛;丰富移动互联网应用业务,吸引更多的用户使用移动互联网业务。 针对云计算的热潮,中国联通推出了五年计划,打算在青岛创建联通数据中心,并将青岛打造成为我国北方重要的数据中心。从而吸引大量的云

27、服务商云集青岛。而且中国联通还酝酿成立云计算公司,以提高自己在云计算方面的发展。另外联通也推出了自己的云产品,14由沃云更名为悦云 ,并应用了海量数据的存储技术和 1:3 的备份机制,向用户提供免费的存储空间。 1.3 云计算与 OSS/BSS 云计算的发展已经成为大势所趋,运营商也开始重视将内部 IT应用在云计算环境下的部署。通过上文对中国三大运营商?中国移动、中国电信和中国联通在云计算方面的发展战略也都表明了这一点。因为云计算可以降低 IT建设和拥有成本,提高系统的性能和可伸缩性,提高系统对业务变化的适应能力。与此同时,内部的云计算应用还将促进电信企业对外云计算服务水平的提高和业务的发展。

28、因此从长远来看,将 OSS/BSS在云计算环境下部署是必然的趋势。 但是在云计算环境下部署 OSS/BSS还有许多问题需要考虑,比如系统安全性及稳定性,还有就是如何充分发挥云计算的优势。所以为了保证 OSS/BSS在云计算环境下部署之后能够充分地发挥其优越性,就必须考虑 OSS/BSS本身的体系架构能够适应云计算环境的特点。例如:对现有系统进行有效解耦,以适应云计算小粒度应用调度灵活的优越性;采用适当算法,使得对计算能力要求较高的任务能够并行和分布处理;对系统进行抽象,利用门户、广义编15程、规则等服务关联技术,降低服务对象和软件部署的关联程度、降低软硬件的关联程度 。4南京邮电大学专业学位硕

29、士研究生学位论文 第一章 绪论 信息系统一体化的关键仍然在于规划和架构,其中比较重要的工作就是系统抽象与解耦。在进行规划和实现 OSS/BSS 系统时,应当重视行业内已有的框架成果的应用,其中包括TOGAF、Zachman、Frameworx、ITIL 等,可以参考这些框架,建立符合自己企业战略要求的 IT规划,使得系统建设有一定的抽象和解耦高度,可以适应云计算的分布式特点的要求,能够在收放自如地应业务、技术变化和运营结构调整的前提下,稳定运行,平滑演进。 本文借助 Frameworx 框架体系分别对 OSS/BSS系统的业务流程框架、信息框架及应用框架进行分解,使系统具备一定的抽象性和呈现松

30、耦合性。实现系统的平台化、服务化,使更多的用户获得更广泛的信息服务。 1.4 论文结构及内容安排 第一章为绪论阐述了课题的研究背景和意义,关于云计算在国内外的发展现状及其对电信运营商带来的影响。 第二章介绍了云计算方面的相关理论知识,包括云计算的概念、云计算的基本模式,并重点论述了云计算的特点及关键技术,另外对 hadoop云计算平台做了简单概述。 第三章对 Hadoop中的核心技术进行研究,主要是对分布式文件系统,分布式数据处理算法以及负载均衡算法有了比较深入的理解。为后面实验编程提供理论支持。 第四章研究了基于 Frameworx框架的 OSS/BSS系统设计,从业务流程、信息及应用三个角

31、度对 OSS/BSS系统进行分解,并着重讨论了计费流程的分解。 第五章在现有实验环境基础上搭建了 hadoop 云计算开发环境,对 OSS/BSS 中计费数据进行分布式查询处理,从而验证分布式计算的优越性。 第六章对全文进行总结,提出对进一步工作的展望。5南京邮电大学专业学位硕士研究生学位论文 第二章 云计算概念及平台 第二章 云计算概念及平台 本章主要讲述云计算相关的基本概念、服务模式及体系架构,着重讨论了云计算的特点,并且介绍了开源Hadoop平台的基本内容,为本文的研究工作奠定技术基础。 2.1 云计算概念 2.1.1 云计算概念阐述 近年来,一些新兴的大规模的互联网应用如电子商务、社交

32、网络、在线视频、数字城市等迅猛发展。而且这些新兴的应用都具有了业务增长迅速、数据存储容量巨大等特点。据统计,到 2010 年底社交网站类 Facebook 网站的数据存储量已达到了 15PB,并且以每天 60TB的数据量增长;电子商务网站?淘宝网 B2C 的业务数据量在 2010 年增长了 4 倍,它们的数据中心的数据量已突破了 14PB,而且一天内需要进行处理的数据量就有 500TB 之多。同时,传统企业都需要支付高昂费用来对软硬件系统进行维护。根据统计,在企业的 IT投入中,仅有总投入的 20%是用在了提升的系统商业价值和系统软、硬件的更新,而 80%的投资成本都用在对系统的维护。2006

33、年 IDC对 200家企业的信息化投资成本进行了统计,部分企业的信息技术人力成本每人每台服务器达到 1320美元,而且需要花费 5.4周的时间来部署一个新的应用系统。为了解决上述问题,2006 年 Google、Amazon 等公司提出了发展“云计算”的构想。 云计算技术正像我们所使用的水和电一样悄悄地改变着人们的日常工作和生活,我们天天使用的百度或 Google 的搜索和邮件服务就是其中的典型代表。云计算的概念和技术被应用到了各个领域,从企业管理到个人应用,从关系国家命脉的电力交通到涉及民生工程的健康服务,无处不闪现着云计算的影子。在 IDC发布的报告中提到,从 2009年底到 2013年底

34、的四年时间里云计算将为全球带来新业务收入可以达到 8000亿美元,而对中国来说,将会产生16超过 11050亿人民币的新净业务收入 。然而或许是“只缘身在此山中, 云深不知处”的缘故,我们对云计算的概念还不甚清晰。 按照维基百科、IBM 以及一些学术报告中对云计算的定义,可以总结出:云计算应该是基于网络的、共享的、可交付的,利用动态可伸缩的虚拟化资源,按需为用户通过服务的一种服务模式,如图 2.1。云计算是将所有的服务资源进行了抽象,并且以服务的形式提供,用6南京邮电大学专业学位硕士研究生学位论文 第二章 云计算概念及平台 户可以通过互联网对服务进行访问。图 2.1 云计算的服务模式 与传统互

35、联网的应用模式相比较,云计算是新型的服务模式,更多的是与服务联系在一起。对于用户来讲,他们只关心它提供的服务,而不考虑技术本身,但是从技术来讲,云计算并不是新的概念,只不过是网格计算,并行技术,分布式技术等一些技术融合在一起组成17的新技术 ,从图 2-2我们可以看出这几类计算之间的关系。图 2.2 云计算与其他计算的比较 虽然云计算不是什么新的技术,为什么云计算的概念会如此火爆呢?原因云计算具备了一些传统的互联网的应用模式所不具备的一些特点,并且提出了未来网络的发展方向。可以说云计算带来的改变,不仅仅是技术上的,还有对用户和开发者思维方式的转变,它使用户和开发者对服务的概念有了更深的认识。

36、2.1.2 云计算分类 通过上面讲述了云计算的基本概念有了初步的了解,既然云计算是一种新型的服务模式,那么下面从服务类型和服务方式两个角度对云计算进行分类。7南京邮电大学专业学位硕士研究生学位论文 第二章 云计算概念及平台 (1)按服务类型分类 按照服务类型分类,可以分为基础设施即服务(IaaS)、应用平台即服务(PaaS)以及软件即服务(SaaS),下面将具体解释一下这几种服务类型提供的服务内容。 基础设施即服务:这种服务主要为用户提供底层的近似于直接操作底层硬件资源的服务。例如云强大的分布式计算能力和海量数据的存储能力,而且非常灵活,不受地域、空间的限制,这样用户就可以使用基础设施云提供的

37、服务,通过设计和实现来完成自己的应用。应用平台即服务:这里的平台就像一个资源托管服务器,这种平台能为开发人员提供应用程序的托管,开发人员只需要将满足平台运行的应用程序开发出来并成功部署之后,而在运行过程中的资源分配和其他的管理工作,都将由应用云平台来自行管理。 软件即为服务:这种服务为客户提供业务应用服务,云提供商为用户提供了许多服务配置选项,用户只要通过浏览器,按照自己的业务需求对这些服务配置项进行相应的定制即可,但是这类应用具有很强的针对性。 (2)按服务方式分类 将云计算按照服务方式进行分类可以分为:私有云、公有云以及混合云。 私有云指的是部署在一个封闭和特定环境(网络封闭或者服务范围封

38、闭)中的一个云计算系统。该系统的系统边界明确,仅对指定范围内的人员提供服务,该范围以外的人员和系统无法使用该云,比如非服务区域或者非指定内部网络的人不能使用私有云上的云服务。 公有云指的是部署在一个开放环境中,为所有具备网络接入能力的人和系统提供服务。用户通过互联网访问和使用公有云的服务,但不拥有云也不管理云。 混合云指的是以私有云为基础,能够在业务负载超越私有云自身能力或其它指定的情况下,把部分业务负载透明地分流到其它云上进行处理,使得私有云和部分其它云的资源整合在一起形成的一个系统。 2.1.3 云计算体系架构 云计算平台就像一个非常大的“云”网络,将许多并发的计算及服务连接在一起,并可以

39、使用虚拟化技术增加或减小其中某个服务器的计算能力,把各自的计算资源通过平台整合起来,完成存储和超级计算功能。比较通用的云体系结构如图 2.3 所示。从图中可以看出,通用的云计算体系结构包括: 云客户端:它是用户用来请求云服务的操作界面,还是用户操作云的入口,它多采用 web的形式向用户提供信息注册、用户登陆及服务的定制、配置和用户管理。8南京邮电大学专业学位硕士研究生学位论文 第二章 云计算概念及平台 服务目录:用户通过云客户端注册并获取相应的应用权限后,就可以选择及定制自己所需要的服务,并形成一个服务列表,在这里用户可以很清楚看到自己的服务,并能够对已有的服务进行操作,比如退订、修改等。 管

40、理系统和部署工具:提供管理服务,能对用户进行统一管理,比如管理用户的授权、认证权限、用户登陆等,并且对可用的计算资源及服务进行统一调配管理。接收到用户请求之后,然后根据请求转到相应的应用程序,智能地调度、部署和应用资源,以及对资源进行动态的部署、配置及回收。 监控:对整个云系统的资源及其使用情况进行监控和计算,便于快速响应,可以同步配置节点、对资源进行监控及实现其负载均衡,从而使资源能够被合理的分配到每个用户。 服务器集群:包括了虚拟服务器及物理服务器,管理系统对其进行统一管理,主要负责对高并发的请求进行处理以及处理 web用户的应用服务。图 2.3 云计算体系结构 通过云用户端提供的服务列表

41、,用户可以对所需的服务发送服务请求,这一请求被相应之后,由管理系统来实现相应资源的调度,并由部署工具负责分发请求并配置 web应用,这样用户就可以使用定制的云服务了。 2.2 Hadoop云计算平台 Hadoop的源头是 apache nutch,该项目开始于 2002年,是 apache lucene 的子项目之一。2004年, google 在”操作系统设计与实现“(OSDI, Operating system design and implementation)18会议上公开发表了题为“mapreduce:simplified data processing on large clust

42、ers”的论文 ,之后 dougcutting等人受到这篇文章的启发就尝试是否能够实现 Mapreduce 这种计算框架,并且把它与分布式文件系统 ndfs(nutch distributed file system)融合在一起,作为对 nutch 引擎支撑的主要算法。因为它和 ndfs 及 MapReduce 等引擎中都有很好的应用,所以在 2006 年初9南京邮电大学专业学位硕士研究生学位论文 第二章 云计算概念及平台 它被独立出来,构成一套完整的独立开发软件并称为 hadoop。后来在 2008 年初,hadoop 成为 apache的一个单独的项目,甚至被应用到包括雅虎在内好多互联网公

43、司。 现在,Hadoop是 apache软件基金会旗下的一个开源分布式计算平台。以 Hadoop分布式19 20文件系统(HDFS, hadoop distributed filesysytem) 和 MapReduce编程模型 为核心的 Hadoop框架为用户提供了系统底层细节透明的分布式基础架构。HDFS 的高容错性、高伸缩性等优点允许用户将 hadoop 部署在低廉的硬件上,构成分布式处理系统;应用 MapReduce 编程模型的意义在于即使用户在不清楚分布式系统的底层构成的情况下仍可以进行并行程序的开发工作。所以利用 Hadoop 用户能够轻松的组织计算机资源搭建起自己的分布式计算平台

44、,并且可以允许利用集群的计算和存储能力,完成海量数据的处理。 2.2.1 Hadoop项目及其结构 现在 Hadoop 发展非常迅速,已经成为包含了几个子项目的系统集合。虽然它的核心仍然是 HDFS 和 MapReduce,但是 Hadoop 下的 Avro、Common、Chukwa、HBase、Hive 等子项目也是不可或缺的了。它们提供了互补性服务或在核心层上提供了更高层的服务。图 2.4展现了 Hadoop整个项目的结构。图 2.4 Hadoop 的项目结构图 下面将对 Hadoop的各个子项目进行更详细的介绍。 (1)Core/Common 从 Hadoop的 0.20版本起,Had

45、oop Core 项目已经更名为 Common。它是为 Hadoop 的其他几个子项目提供常用工具的支持,主要包括了 FileSystem、串行化库和 RPC 等,这些工具为能够在廉价硬件上搭建所需的云计算服务环境提供支持,并且还能为运行在这个平台上的其他软件开发提供 API 接口服务。 (2)Avro Avro 是专门用于做数据序列化的软件系统。它提供了丰富的数据结构类型、存储持久性数据的文件集、快速可压缩的二进制数据格式、简单的动态语言集成功能和远程调用 RPC 的10南京邮电大学专业学位硕士研究生学位论文 第二章 云计算概念及平台 功能。 Avro 系统依赖于模式(Schema),Avr

46、o 数据的读和写是在模式之下完成的。这样就可以减少写入数据的开销,提高序列化的速度并缩减其大小。同时,也可以方便动态脚本语言的使用,因为数据连同其模式都是自描述的。 在 RPC中, Avro 系统的客户端和服务端通过握手协议进行模式的交换。因此当客户端和服务端拥有彼此全部的模式时,不同模式下的相同命名字段、丢失字段和附加字段等信息的一致性问题就得到了很好的解决。 (3)MapReduce MapReduce是一种编程模型,用于大规模数据集(大于 1TB)的并行运算。 “映射” (map)、“化简”(reduce)等概念及这种思想主要是从函数式编程语言中借鉴过来的。它可以让编程人员即使不了解分布式并行编程也可以很方便地把自己的程序在分布式系统中运行。在执行的时候,先要指定一个 map 函数,可以把输入的键值对key,value映射成为一对新的键值对key1,value1,经过一定处理后再交给 reduce 函数,reduce 对 key相同的所有 value 值进行处理之后再输出一个键值对并作为最终结果。 图 2.5是 MapReduce的任务处理流程图,它展示了 MapReduce 程序将输入划分到不同的map上,再将 map的结果合并到 reduce,然后进行处理的输出过程

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号