云数据库CloudDatabase.ppt

上传人:小飞机 文档编号:5183123 上传时间:2023-06-11 格式:PPT 页数:16 大小:546.50KB
返回 下载 相关 举报
云数据库CloudDatabase.ppt_第1页
第1页 / 共16页
云数据库CloudDatabase.ppt_第2页
第2页 / 共16页
云数据库CloudDatabase.ppt_第3页
第3页 / 共16页
云数据库CloudDatabase.ppt_第4页
第4页 / 共16页
云数据库CloudDatabase.ppt_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《云数据库CloudDatabase.ppt》由会员分享,可在线阅读,更多相关《云数据库CloudDatabase.ppt(16页珍藏版)》请在三一办公上搜索。

1、大数据技术基础云数据库,林子雨,2013年9月第一版,提纲,云数据库的特性 云数据库是海量存储需求的必然选择 云数据库与传统的分布式数据库 云数据库的影响 云数据库产品 数据模型 数据访问方法 编程模型本讲义PPT存在配套教材,由林子雨通过大量 阅读、收集、整理各种资料后编写而成 下载配套教材请访问大数据技术基础2013 班级网站:http:/,大数据技术基础,厦门大学计算机科学系,云数据库概述,林子雨,2013年9月第一版,云数据库概念和特点,云数据库概念云数据库是部署和虚拟化在 云计算环境中的数据库云数据库特点,动态可扩展高可用性较低的使用代价易用性大规模并行处理,云数据库应用示意图,在云

2、数据库应用中,客户端不需要了解云数据库的底 层细节,所有的底层硬件都已经被虚拟化,对客户端 而言是透明的,它就像在使用一个运行在单一服务器 上的数据库一样,非常方便容易,同时又可以获得理 论上近乎无限的存储和处理能力。,海量存储需求的必然选择,大数据技术基础,厦门大学计算机科学系,Cloud Database,林子雨,2013年9月第一版,云数据库与传统的分布式数据库,DB1,网 络,服务器2,服务器3,DB2,DB3,客,户,客 户,客 户,图分布式数据库系统示意图,大数据技术基础,厦门大学计算机科学系,-分布式数据库概念-分布式数据库是计算机网络环境中各场地或节点 上的数据库的逻辑集合。逻

3、辑上它们属于同一系 统,而物理上它们分散在用计算机网络连接的多 个节点场地,并统一由一个分布式数据库管理 系统管理。-云数据库和分布式数据库的共同点-云数据库和传统的分布式数据库有着相似的地方,比如,都把数据存放到不同的节点上。-云数据库和分布式数据库的区别-分布式数据库在可扩展性方面是无法和云数据库 相比的:由于需要考虑数据同步和分区失败等开销,前 者随着节点的增加,会导致DDB性能快速下降。而云数据库则具有很好的可扩展性,因为后者 在设计的时候,就已经避免了许多会影响到可扩 展性的因素,比如采用更加简单的数据模型、对 元数据和应用数据进行分离以及放松对一致性的 要求等等。,林子雨,2013

4、年9月第一版,云数据库的影响,影响,大数据技术基础,厦门大学计算机科学系,1、极大地改变企业管理数据的方式Forrester Research分析师Noel,2、催生新一代的数据库技术,3、数据库市场份额面临重新分配,Yuhanna指出,18%的企业正在 把目光投向云数据库。,中小企业会更多地 采用云数据库产品,但是,对于大企业而 言,云数据库并非首 选,因为大企业通常 自己建造数据中心。,第一代是20世纪70年代的早期关系数据库第二代是80到90年代的更加先进的关系模型第三代的数据库技术,要求数据库能够灵活 处理各种类型的数据,而不是强制让数据去适 应预先定制的数据结构。,从数据模型设计方式

5、来看,已经有些产品(比如SimpleDB、HBase、Dynamo、BigTable)放弃传统的行存储方式,而采用键/值存储,从而可 以在分布式的云环境中获得更好的性能。,此前,Teradata、Oracle、IBM DB2、Microsoft SQL Server、Sybase等传统数据库 厂商垄断市场,Amazon和Google扮演引领者角色,新的云数据库厂商开始出现 Vertica和EnterpriseDB,Cloud,Database,林子雨,2013年9月第一版,云数据库产品,传统的数据库厂商:Teradata、Oracle、IBM DB2和Microsoft SQL Server;

6、涉足数据库市场的云供应商:Amazon、Google和Yahoo;新兴小公司:Vertica、LongJump和EnterpriseDB。,大数据技术基础,厦门大学计算机科学系,林子雨,2013年9月第一版,云数据库产品,云数据库市场先行者,云数据库市场重要参与者,云数据库市场主力军,云数据库市场主力军,提供著名的S3存储服务和EC2 计算服务,提供基于云的数据 库服务SimpleDBAmazon EC2应用托管服务可 以部署多种数据库产品,如 SQL Server、Oracle 11g、MySQL和IBM DB2等数据库平 台,HBaseCryansAA08和Hypertable 利用开源M

7、apReduce平台Hadoop 提供了类似于BigTable的可伸缩 数据库实现甲骨文开源数据库产品 BerkelyDB也提供了云计算环境 中的实现,Google BigTable是一种满足弱一致性 要求的大规模数据库系统Google开发的另一款云计算数据库产 品是Fusion Tables,采用了基于数据空 间的技术,SQL AZure可以允许用户通过网络 在云中创建、查询和使用SQL SERVER数据库属于关系型数据库支持云中的事务(局部事务)支持存储过程,云数据库产品,大数据技术基础,厦门大学计算机科学系,林子雨,2013年9月第一版,云数据库领域的研究问题,数据模型,事务一致性,云数

8、据库的重点研究问题,体系结构,编程模型,大数据技术基础,厦门大学计算机科学系,林子雨,2013年9月第一版,云数据库领域的研究问题-数据模型,行键,BigTable在行键上根据字典顺序对数据进行维护。对于一个表而言,行区间是根据行键的值进行动态划分的。每个行区间称为一个Tablet,它是负载均衡和数据分发的基本单位,这些Tablet会被分发到不同的 数据服务器上。,列键,被分组成许多“列家族”的集合,它是基本的访问控制单元。存储 在一个列家族当中的所有数据,通常都属于同一种数据类型,这通常 意味着具有更高的压缩率。数据可以被存放到列家族的某个列键下面,但是,在把数据存放到这个列家族的某个列键下

9、面之前,必须首先创 建这个列家族。在创建完成一个列家族以后,就可以使用同一个家族 当中的列键。在BigTable中的每个单元格当中,都包含相同数据的多个版本,这 些版本采用时间戳进行索引。BitTable时间戳是64位整数。一个单元 格的不同版本是根据时间戳降序的顺序进行存储的,这样,最新的 版本可以被最先读取。,时间戳,一个BigTable实际上就是一个稀疏的、分布的、永久的多维 排序图,它采用行键(row key)、列键(column key)和时 间戳(timestamp)对图进行索引。图中的每个值都是未经解 释的字节数组。,键/值模型,BigTable,大数据技术基础,厦门大学计算机科

10、学系,林子雨,2013年9月第一版,云数据库领域的研究问题-数据模型,BigTable,大数据技术基础,厦门大学计算机科学系,林子雨,2013年9月第一版,云数据库领域的研究问题-数据模型,表:一个表是一个逻辑关系,它包含一 个分区键,用来对表进行分区。表组:具有相同分区键的多个表的集合,称为表组。行组:在表组中,具有相同分区键值的 多个行的集合,称为行组。一个行组中包 含的行,总是被分配到同一个数据节点上。每个表组会包含多个行组,这些行组会被 分配到不同的数据节点上。数据分区:一个数据分区包含了多个行 组。因此,每个数据节点都存储了位于某 个分区键值区间内的所有行。,关系模型,大数据技术基础

11、,厦门大学计算机科学系,林子雨,2013年9月第一版,云数据库领域的研究问题-体系架构,实际上,为了改进性能,同时也为了避免管理器的性能瓶颈,通常会在客户端缓存常用的分 区映射图,这样,客户端在很多情况下不用与管理器交互就可以直接访问相应的数据节点。,1、客户端首先向管理器请求一份分区映射图2、管理器向客户端发送分区映射图3、客户端在映射图中根据键值找到所需数据的存储位置4、客户端到指定的数据节点请求数据5、由该数据节点把数据返回给客户端,数据访问方法,大数据技术基础,厦门大学计算机科学系,林子雨,2013年9月第一版,云数据库领域的研究问题-编程模型,MapReduceMap/Reduce计

12、算流程,大数据技术基础,厦门大学计算机科学系,林子雨,2013年9月第一版,云数据库领域的研究问题-编程模型,假设关系R(A,B)和S(B,C)都存储在一个文件中。为了联接这些关系,必须把来自每个关系的各个元组都和一个key关联,这个key就是属性B的值。可以使用一个Map进程集合,把来自R的每个元组(a,b)转换成一个key-value 对,其中的key就是b,值就是(a,R)。注意,这里把关系R包含到value中,这 样做使得我们可以在Reduce阶段,只把那些来自R的元组和来自S的元组进 行匹配。类似地,可以使用一个Map进程集合,把来自S的每个元组(b,c),转换成一 个key-val

13、ue对,key是b,value是(c,S)。这里把关系名字包含在属性值中,可以使得在Reduce阶段只把那些来自不同关系的元组进行合并。Reduce进程的任务就是,把来自关系R和S的具有共同属性B值的元组进行合 并。这样,所有具有特定B值的元组必须被发送到同一个Reduce进程。假设使用k个Reduce进程。这里选择一个哈希函数h,它可以把属性B的值映 射到k个哈希桶,每个哈希值对应一个Reduce进程。每个Map进程把key是b 的key-value对,都发送到与哈希值h(b)对应的Reduce进程。Reduce进程把 联接后的元组(a,b,c),写到一个单独的输出文件中。,MapReduc

14、e,在MapReduce环境下执行两个关系的联接操作,大数据技术基础,厦门大学计算机科学系,林子雨,2013年9月第一版,主讲教师和助教,主讲教师:林子雨单位:厦门大学计算机科学系E-mail:个人网页:http:/数据库实验室网站:http:/,助教:赖明星单位:厦门大学计算机科学系数据库实验室2011级硕士研究生(导师:林子雨)E-mail:个人主页:http:/,欢迎访问大数据技术基础2013班级网站:http:/本讲义PPT存在配套教材大数据技术基础,请到上面网站下载。,大数据技术基础,厦门大学计算机科学系,大数据技术基础厦门大学计算机科学系林子雨2013年9月第一版,Department of Computer Science,Xiamen University,Sep,2013,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号