《基于Hadoop的分布式云计算云存储方案的研究与设计.doc》由会员分享,可在线阅读,更多相关《基于Hadoop的分布式云计算云存储方案的研究与设计.doc(5页珍藏版)》请在三一办公上搜索。
1、基于Hadoop的分布式云计算/云存储方案的研究与设计成静静(广东省电信规划设计院有限公司 广州510630)摘要:通过介绍云计算技术的发展背景以及目前云计算技术的几种技术架构,对分布式云计算/ 云存储技术进行了详尽的研究,包括分布式云计算/ 云存储的整体架构、分布式文件系统、分布式数据库、分布式数据 仓库、分布式同步软件等,并通过与并行关系型数据库、MPP数据库的对比,分析了基于Hadoop的分布式云计算/ 云存储架构的竞争优势,基于Hadoop的分布式云计算/ 云存储将更有效支撑未来电信运营商业务的发展。关键词:云计算;终端桌面云;分布式云计算/ 云存储;Hadoop;分布式文件系统(HD
2、FS);分布式数据库(Hbase);并行计算框架(MapR educe);分布式同步软件(Zookeeper)1 云计算发展背景云计算技术将IT基础资源和服务转变为像水和 煤气一样的社会公用基础设施,云计算数据中心成 为IT资源和服务的提供者,云计算模型能以按需方 式,通过网络方便的访问云系统的可配置计算资源 共享池(如网络、服务器、存储、应用程序和服务)。同 时,以最少的管理开销及最少的与供应商的交互,迅 速配置提供或释放资源。电信运营商引入云计算技术,实现高效率、快速 部署、按需使用的IT服务能力,有助于企业缩短IT系 统建设周期、降低维护成本、创新业务模式 。图1 云计算架构体系IaaS
3、(基础设施即服务)交付给用户的是基本的 基础设施资源。用户无需购买、维护硬件设备和相关 系统软件,就可以直接在基础设施即服务层上构建 自己的平台和应用;PaaS(平台即服务)为开发人员 提供了支持离线开发的SDK和集成开发测试环境, 实现客户应用的自动部署和扩展,PaaS的实现通常 依赖于一体化设备,用户无需为服务器、操作系统、 网络和存储等资源运行环境操心;SaaS (软件即服 务)提供应用软件的集合,这些应用构建在基础设施 层及平台层提供的环境之上,通过网络交付给用户 使用。SaaS应用一般为标准化的应用,提供的服务是 标准的、一致的,并为数量众多的用户提供相互隔离2 分布式云计算的体系架
4、构云资源池虚拟化资源池平台主要以提供用户基于云的各 种服务,共包含3个层次:SaaS将应用主要以基于Web 的方式提供给客户;PaaS将一个应用的开发和部署 平台作为服务提供;IaaS将各种底层的计算和存储等 资源作为服务提供给用户。在管理方面,云管理层确保整个云计算中心能 够安全、稳定地运行,并且能够被有效管理。2.114收 稿 日 期:2012-08-29新技术New Technology数 据 通 信2012.5的操作空间。领域。终端桌面云基于瘦终端的桌面云将原有访问、计算和存储 一体的桌面终端演变为终端只完成接入访问,存储 和计算资源迁移到后台资源池进行部署,所有应用 也都部署在后台机
5、房。2.23基于Hadoop的分布式云计算/云存储方案研究与设计3.1 分布式云计算/云存储设计思路大量普通服务器的集群可以比高性能主机提供 更快的性能和更高的可靠性。(1)互联网规模的服务建设只能通过分区实现。 单个服务节点的性能已然不够用,即使是解答一个 小问题,都需要使用大量的数据,已超出单个节点的 能力,更大的问题通常需要具有大量的并行性。数据和计算通常可以被分布到大量的独立的节 点上,进行分布式计算。(2) 超过99.99%的可用性只能通过冗余方式来 实现:墨菲定律:有可能出错,总能出错。假设单个服 务器的故障率是运行3年(1000天)有一次故障;对于 一万个服务器,每天就有10个服
6、务器出现故障。“超级可靠”硬件并不能永久保证可靠:在规模 扩大时,“超级可靠”的硬件依然会出错,虽然出错概 率小一点。为了实现可靠性,数据需要被复制到多个 节点,最好还可以异步跨数据中心进行数据复制。3.2 基于Hadoop的分布式云计算/云存储建设方案基于Hadoop的分布式云计算整体架构体系如图3所示。图2 终端桌面云体系架构图桌面云瘦终端:前台瘦终端设备实现访问接入, 后台机房部署计算和存储设备;在后台服务器统一 部署操作系统、应用软件等个人配置;终端设备占用 较小空间,具有较低功耗。出于集中管理、安全和节能的要求,基于瘦终端 的桌面云未来将取代传统的分布式桌面终端,在试 点的基础上逐步
7、进行推广。2.3 分布式云计算/云存储在Google发表MapReduce后,2004年开源组织A- pache发布了开源的Hadoop分布式计算框架,模仿和 实现了Google云计算的主要技术。Hadoop基于Java开发,为应用程序提供一组稳定 可靠的API接口,实现具有高可靠性和良好扩展性的 分布式系统,运行于大量廉价硬件设备组成的集群 系统上。分布式云计算:采用标准X86架构服务器大规模 集群实现,每个模块都是一个离散的处理单元,使用 并行计算技术,集群内各计算节点负荷均衡,当某节 点负荷过高时,可智能的将负荷转移到其他节点,并 支持节点线性平滑扩展。分布式云存储:采用X86服务器的本
8、地硬盘实 现,使用分布式文件系统,每份数据至少保存在2个 节点,保证存储设计的性能和可靠性目标。出于成本及开放性的要求,分布式云计算/存储 在未来将部分取代传统小型机盘阵存储,并从非 关键性业务应用领域逐步扩展到较关键的业务应用图3 分布式云计算/ 云存储体系架构图分布式文件系统(HDFS):针对大规模数据的高 容错性和高吞吐的分布式文件系统;它可以构建从 几台到几千台由常规服务器组成的集群中,并提供 高聚合输入输出的文件读写访问。Namenode是一个中心服务器,负责管理文件系 统的namespace和客户端对文件的访问;Datanode在 集群中会有多个,一般是一个节点存在一个,负责管 理
9、其自身节点上它们附带的存储。在内部,一个大文15新技术New Technology数 据 通 信 2012.5缩,有效降低磁盘I/O,提高磁盘利用率;多维表,四个维度,其中三个维度可变,适合描述复杂嵌套关系。分 布 式 数 据 仓 库 (Hive):基于Hadoop的大数据 分布式数据仓库引擎,可以将数据存放在分布式文 件系统或者分布式数据库中,并使用SQL语言进行海 量数据统计、查询和分析操作。图4 分布式文件系统体系架构图件分成一个或多个block,这些block存储在Datanode集合里。Namenode执行文件系统的namespace相关操 作,例如打开、关闭、重命名文件和目录,同时
10、决定了 block 到具体Datanode 节点的映射。 Datanode 在Na- menode的指挥下进行block的创建、删除和复制。单一节点的Namenode大大简化了系统的架构。 Namenode负责保管和管理所有的HDFS元数据,因而 在请求Namenode得到文件的位置后就不需要通过 Namenode参与而直接从Datanode进行。为了提高Namenode的性能,所有文件的names- pace数据都在内存中维护,所以就天生存在了由于内 存大小的限制导致一个HDFS集群的提供服务的文 件数量的上限。图6 分布式数据仓库体系架构图提供类似于SQL的语句查询、易于使用;针对海量数据
11、的高性能查询和分析系统;高扩展性,通过增 加节点提高计算性能,扩容无需停机;和Hbase结合, 同时提供实时查询和高效统计。分 布 式 数 据 分 析 (Pig):基于Hadoop的大数据分 布式数据分析语言和运行平台,确保分析任务。提供Pig Laten语言,便于编写分析程序;系统可 以自动优化运行,允许用户关注与业务实现;用户可 以实现自定义函数扩展实现特殊处理。并 行 计 算 框 架 (MapReduce):适用于大数据量 处理的分布式框架,是为离线数据分析而设计,利用数据的并行性进行分布运算,而后汇总结果的计算 框架。将任务拆分、分布、汇总,开发人员只需要实现 业务逻辑;分布任务自动失
12、败重试,单个任务失败不 会造成整个任务推出;和HDFS整合,使计算移到数 据所在的节点运行。分布式同步 软件 (Zookeeper):针对大型分布式 系统的可靠协调系统。提供的功能包括:配置服务、名字维护、分布式同步、组服务等。可以维护系统配 置、群组用户和命名等信息。分布式服务的数据被复制在ZooKeeper集群中, 保证数据的可靠性和可用性;数据严格按照时间更 新、查询和发布;高性能、特别在以读为主的应用中, 可以提供数千台客户端的查询。分 布 式 数 据 库(HBase):HBase是一个分布式的、按列存储的、多维表结构的实时分布式数据库,它可以提供大数据量架构化和非结构化数据高速读 写
13、操作,为高速在线数据服务而设计。图5 分布式数据库体系架构图Hbase支持每秒数万条级别的高速并发写入和高速查询;可扩展,数据自动切分和分布,可动态扩 容,无需停机;数据存放在HDFS文件系统上,不会丢 失;灵活的表结构,可动态增加或改变;面向列,可压16新技术New Technology数 据 通 信2012.53.3 基 于Hadoop的 分 布 式 云 计 算/云 存 储 网 络 集 群架构二层服务器每个节点配置:大约40台普通的两 路八核或六核处理器、12到48GB内存、612块硬盘、2块千兆以太网卡的服务器,由一层普通网络交换机 互联。一层汇聚交换机配置:采用40Gbit/s的inf
14、iniband交换机。网络架构如图7所示。图9 Hadoop方案优势:计算与存储融合,支持横向扩展,有更好的扩展性; 劣势:解决数据冲突时,需要节点间协作。 适用范围:数据仓库和离线数据分析;大规模在线实时应用。MPP型数据库与Hadoop的方案对比:(1)软件架构(扩展性):图7 基于Hadoop的分布式云计算网络架构图3.4 基于Hadoop的分布式云计算/云存储方案优势并行关系型数据库与Hadoop的方案对比:(1)并行关系型方案如图8所示。(2)数据模型:(3)分析方式:图8 并行关系型方案多个独立的关系数据库服务器,访问共享的存储资源池。优势:采用多个关系数据库服务器、多个存储, 与
15、原有的架构相比扩展了存储和计算的能力。劣势:计算与存储分离,数据访问存在竞争和带 宽瓶颈;支持的关系数据库服务器数量有限;只能向 上扩展不能横向扩展。适用范围:适合复杂的需要事务处理的应用。(2)Hadoop方案如图9所示。有大量独立的服务器通过网络互连形成集群, 每台服务器有独立的存储;4 结束语IDC预测全球的数据使用量2020年将增长44倍, 达到35.2ZB。传统技术无法胜任大数据集的分析、管 理和挖掘。基于Hadoop的分布式云计算/云存储方案 将有效地支撑大量的结构化、非结构化数据以及结 构可变的数据的导入、查询和统计,有效支持PB级别 数据、支持万级每秒查询、支持该可用性系统、支
16、持 高效率统计分析。基于Hadoop的分布式云计算/云存 储方案对电信运营商未来业务和技术的发展有重要 的战略意义和经济意义。17MPP数 据 库Hadoop分 析 方 式SQL查 询 语 言广泛的数据分析 ,包 括 SQL、M/R、Rlanguage、数 据 挖 掘 、预 测 性 分 析MPP数 据 库Hadoop数 据 模 型二元关系模型 非结构化或者多维MAP模 式静态数据模式 动态可变数据模式 MPP数 据 库Hadoop软 件 架 构(扩 展 性 )集 群 规 模几 十 个 节 点几 千 个 节 点扩 展 能 力静 态 停 机 扩 展 (数 据 需 要 重 新 分 布 )动 态 无
17、缝 扩 展 , 自 动 扩 展容 错 能 力不存放中间结果 , 出 错 时 需 要 重 新 执 行 查 询只需要重新运行 出 错 的 子 任 务新技术New Technology数 据 通 信 2012.5参考文献电 信 工 程 技 术 与 标 准 化,2009(11)6 韩 银 俊 ,高 洪 ,郭 斌 .基 于 云 计 算 分 布 式 缓 存 构 建 IPTV 业 务 平 台J.电 脑 知 识 与 技 术,2011(3)7 张 文 峰 .MapReduce模 型 的 分 布 式 计 算 平 台 的 原 理 与 设 计J.华 中 科 技 大 学,2012(3)8 郑 启 龙,房 明,汪 胜 等
18、.基 于MapReduce模 型 的 并 行 科 学 计 算J. 微 电 子 学 与 计 算 机,2009(08)9 张应 刚.分布 计 算 中间 件 技 术的 探 讨J.科 技 创 新 导 报, 2009 (02)1 Jay Heiser,Mark Nicolett. Assessing the Security Risks ofCloud ComputingR. June 20082 Jeffrey Dean, Sanjay Ghemawat. Map Reduce: Simplified Data Processing on Large Clusters J.Communications
19、 of the ACM, 20083 适 用 于 云 计 算 的 面 向 查 询 数 据 库 数 据 分 布 策 略 J.计 算 机科 学,2010(9)4 程 伟 炜 ,杨 宗 凯 , 乐 春 晖 . 基 于 Web Service 的 一 种 分 布 式 体 系 结 构J.计 算 机 应 用 研 究,2002(02)5 钱 宏 蕊,刘 玲.云 计 算 技 术 在 移 动 通 信 运 营 商 的 落 地 应 用J.作者简介: 成 静 静 , 广 东 省 电 信 规 划 设 计 院 从 事 云 计 算 新 技术 、通 信 软 件 架 构 的 研 究 设 计 。 简讯2012新一代宽带无线移动通
20、信发展论坛召开由工业和信息化部电信研究院主办的“2012新一代宽带无线移动通信发展论坛” 近日在北京举办。论坛 以 “技 术 创 新 驱 动 产 业 发 展 ,开 启 未 来 移 动 互 联 时 代 ”为 主 题 ,聚 焦LTE、TD-LTE产 业 链 建 设 、扩 大 规 模 试 验 、技 术 演 进 等 内 容 ,关 注 移 动 互 联 网 行 业 的 发 展 趋 势 、产 业 发 展 特 点 、典 型 业 务 应 用 以 及 大 数 据 挖 掘 技 术 等。大唐电信科技产业集团副总工程师、首席科学家王映民发表了题为“TD-LTE演进助推移动互联网发展 ” 的演讲,介绍了TD-LTE的快速
21、发展情况,提出TD-LTE对移动互联网发展的助力作用。王映民在演讲中指出,TD-LTE正吸引着全球更多主流运营商加入 。 我国于2008年启动TD-LTE概念验 证,随后进行 了技术试验 ,2011年开展了“6+1”城 市大规模组 网性能测 试 , 2012年 启 动 了13城 市 扩 大 规 模 试 验,实现主城区无线网络连续覆盖,并实现与现网TD-SCDMA互联互通和多模应用。 王映民认为,根据TD- SCDMA产业发展的 经验 ,TD-LTE正处于 商用前的产 业化关键阶 段 。 要 遵 循TD-LTE和TD-SCDMA协 调 发 展 原 则 ,在 多 频 多 模 终 端 芯 片 研 发
22、 、国 家 频 谱 规 划 与 分 配 政 策 、用 户 需 求 挖 掘 和 消 费 培 养 、商 业 模 式 创 新和终端应用模式等方面,科学快速推动本土产业链成熟。王映民指出 ,移动互联网 产业持续高 速发展 ,移动 数据业务 已形成规模 需求 ,移动数 据流量的指 数 式 增 长将使移动运营商面临更大的压力。 对此,大唐积极推进TD-LTE技术和标准的持续演进,满足高频热点小覆盖的LTE-Hi(Small Cell)技术 (TDD高频高速热 点接入技术 )将帮助TD-LTE打 造 多 层 次 、多 频 段 、全 覆 盖 的移动宽带网络,助推移动互联网升级发展。大唐电信集团一直致力于持续推
23、动TDD产业升级演 进 ,积极布 局核心网 、无 线网、终端芯 片及测试仪 表 等产业链 关键环节 ,率 先 满 足LTE预 商 用 背 景 下 工 信 部 、中 国 移 动 对 于 多 模 终 端 芯 片 的 需 求 ,成 为TD-LTE 产业链关键环节最完整的厂家。大唐移动积极配合中国移动参加TD-LTE南京规模技术试验网建设,并独家承担北京演示网建设。王映民还介绍了由大唐率先推出的业界领先的LTE网络规划 “真仿”云计算 平台及大唐 在海外市场 的布 局和发展。 王映民建议,应当坚持TDD协调发展和同步发展策略,一方面坚定不移 地推进TD-SCDMA规模 商用,另一方面积极推进TD-LTE规模试验、规模扩大试验等产业化进程。 大唐提出发展TDD的四个“同步” 策 略 :行 业 应 用 与 公 网 市 场 同 步 ,商 业 模 式 与 发 展 周 期 同 步 ,国 内 市 场 与 国 际 市 场 同 步 ,资 源 配 置 与 产 业 推进同步。(来源:大唐电信集团)18