《数据库系统导论.ppt》由会员分享,可在线阅读,更多相关《数据库系统导论.ppt(41页珍藏版)》请在三一办公上搜索。
1、,第1部分 数据库系统基础第1章 数据库系统导论,高级数据库系统及其应用,2023/9/11,2,第1章 数据库系统导论,数据模型,1.1,数据库方法特点与应用简史,1.2,数据库系统体系结构,1.3,数据库系统的发展与演化,1.4,2023/9/11,3,1.1 数据模型,1.1.1 数据模型的定义与分类,1.1.2 一些典型的数据模型特点综述,2023/9/11,4,数据模型分类,通常按描述DB结构概念的抽象层次进行分类 高级数据模型(概念数据模型)所提供的概念抽象层次比较高,与领域用户理解数据的方式较接近,能更好隐藏数据存储组织和操作的细节。典型代表包括:E-R模型、扩展E-R模型(EE
2、R模型)和UML类图等。低级数据模型(物理数据模型)所提供的概念描述了数据如何在计算机上存储的具体细节。对应DBMS底层实现部分,没有/也不需要有统一的标准实现主要感兴趣者:DB系统开发专家。逻辑数据模型介于概念和物理两类数据模型之间,是DB系统的主要工作模型。典型代表包括关系模型、OO模型和O-R数据模型,以及早期DB系统中用的层次模型和网状模型。,2023/9/11,5,一些典型数据模型特点综述 关系模型(1),2023/9/11,6,一些典型数据模型特点综述 关系模型(2),2023/9/11,7,一些典型数据模型特点综述 ER模型,2023/9/11,8,一些典型数据模型特点综述 EE
3、R模型,是ER模型的扩展模型(Enhanced/Exented ER),它在ER模型的基础上,扩展了以下概念:类、超类/子类(ISA)关系、特化与泛化关系。EER的特化,能混合表达重叠/不相交约束,以及完全/部分约束。UNION子类或类别。EER的union子类,可表达完全和部分约束。多值属性和复合结构属性;与基本ER模型相比,EER模型表达能力更强,能表达更多的数据语义。3.2节将详细介绍EER模型。,2023/9/11,9,一些典型数据模型特点综述 UML类图,UML是一种基于OO范型的建模语言定义了一个用于建模的概念框架用符号表示概念连接符号(路径)表示概念间的联系。UML常用于对软件系
4、统进行描述和可视化构造,允许基于不同的视点,建立描述系统体系结构的各种视图,其中:UML类图也可作为一种有效的概念数据模型。所属类型概念模型,它是一种视图表达模型。数学基础:无。,2023/9/11,10,一些典型数据模型特点综述 ODMG模型(1),2023/9/11,11,一些典型数据模型特点综述 ODMG模型(2),2023/9/11,12,一些典型数据模型特点综述 ODMG模型(3),2023/9/11,13,1.2 数据模型,1.2.1 数据模型方法特点,1.2.2 书刊技术发展简史,2023/9/11,14,1.2.1 数据库方法特点,与利用OS文件进行简单的数据管理相比,利用DB
5、进行数据管理至少具有以下优势:具有更好的数据独立性具有更好的数据存储有效性更便于数据共享可以更好确保数据的完整性和安全性。具有并发存取和崩溃恢复功能。更有利于减小应用开发时间,提高应用的健壮性。不适合使用DB的一些应用举例只有几个严格定义的关键操作,必须用高效风格的代码来实现。应用并不关心灵活查询、安全性、并发存取和崩溃恢复等性能时。应用可能需要以DBMS不支持的方式来查询数据。,2023/9/11,15,1.2.2 数据库技术发展简史(1),1960s年代初期通用电气的巴克曼1973年的ACM图灵奖获得者等人设计成功第一个通用DBMS系统这个模型后来被CODASYL(the Conferen
6、ce On Data Systems Languages)进一步标准化,并强烈影响了整个1960s年代的DB系统技术.1960s年代后期IBM成功开发IMS系统(Information Management System)IMS是网状数据模型之外的另一个重要数据表示模型(即层次数据模型)的基础.,2023/9/11,16,1.2.2 数据库技术发展简史(2),1970s年初期 IBM San Jose研究室的提出了新一代的数据表示框架关系数据模型,定义了关系数据库的基本概念。该成果被认为是数据库系统发展的一个分水岭1970s中后期数据库作为一个学科分支开始逐步走向成熟,关系DBMS也变得十分流
7、行,其优点已被人们广泛认可。利用DBMS管理公司/组织的数据逐渐开始成为趋势。,2023/9/11,17,1.2.2 数据库技术发展简史(3),1980s年代关系数据模型成为DBMS的主流数据模型,并进一步巩固了其领域地位。SQL在1986年被美国国家标准信息委员会(ANSI)和国际标准化组织(ISO)采纳为关系数据库语言的标准。该时期,最广泛使用的并发程序形式是可并发执行的、被称为“事务”的DB程序。,2023/9/11,18,1.2.2 数据库技术发展简史(4),从1980s后期到1990s年代初期DB领域在许多方面-从更强有力的查询语言到各种新型数据模型,都得到了广泛且深入的研究并取得了
8、重要进展。很多著名的DBMS开发商,都增加了对大型图像、文本等新数据类型的支持,增强了针对复杂数据集进行数据分析处理和回答更复杂查询的能力,增强了支持创建数据仓库的特性。该时期另一个重要进展是关于“对象数据库系统(ODBMS)”研究和开发。但该时期,ODBMS相关技术及产品由于没有统一标准,缺乏可移植性,故大都属于原型产品。,2023/9/11,19,1.2.2 数据库技术发展简史(5),从1990s年代中期开始,DB进入了或许是最重要的Internet时代。几乎所有DBMS开发商都在他们的产品中增加了更适合在Internet上部署的特性。,2023/9/11,20,1.2.2 数据库技术发展
9、简史(6),1993年,ODMG提出了第一个对象数据管理标准ODMG 1.0。该标准后续修订版包括ODMG 2.0(1997)和ODMG 3.0(2000)。ODMG标准出现,不仅改善对象数据库系统的可移植性,而且进一步促进了ODBMS的规范健康发展。新一代的ORDBMS不仅能提供了更为丰富的类型系统,包括复杂数据类型和面向对象,而且还在SQL-99标准的框架下,扩展了传统的关系查询/关系数据操纵语言,以适应更丰富的类型系统。,2023/9/11,21,1.3 数据库系统体系结构,1.3.1 DB数据的三层抽象模型,1.3.2 一种典型的DBMS实现体系结构,1.3.3 五层DBMS体系结构模
10、型,2023/9/11,22,1.3.1 DB数据的三层抽象模型,2023/9/11,23,1.3.2 一种典型的DBMS实现体系结构,2023/9/11,24,1.3.3 五层模型体系结构,2023/9/11,25,1.4 数据库系统的发展与演化,1.4.1 五层模型体系结构的发展综述,1.4.2 层次模型与事务模型,1.4.3 体系结构变体,1.4.4 可靠性与可适应性,1.4.5 结论与展望,2023/9/11,26,1.4.1 五层模型体系结构的发展综述,过去的20多年中,DB系统无论是在功能还是在性能方面,都已经发生了巨大变化。虽然其中大部分的增强和改变,已被五层体系结构模型所容纳。
11、但由于许多新特征/新特性引入,五层模型的各层次也不可避免需要进行一定的调整和变化。20多年前,SQL尚未标准化,关系模型也很简单。今天,我们必须引用SQL-99,或引用对象-关系模型,它们的各部分通常较复杂且不那么好理解。,2023/9/11,27,L5层的演化发展,用户定义类型、嵌套子表/类型、递归等新特性引入,须在L5层进行调整。通过增强利用各类实例统计数据,基于代价的查询优化器得到了更成功的改进,但对标志性新概念-用户定义类型,尚缺乏通用且有效的处置方法。在为动态QEP 建立更有效优化器,以更好处理新资源适用性问题,以及减少查询引擎的“刹车距离”等方面,已取得了一定进展,但还远未达到可实
12、用的程度。,2023/9/11,28,L4层的演化发展(1),L4层适配技术,不仅与单个算法处理有关,而且与单个查询的多个操作符,或与多个并发查询处理有关。较新出现的、影响操作符实现的重要自适应技术:根据当前工作集设置和调整并行度;对重复进入的索引进行重排序或范围整合;在多个查询之间共享表扫描等技术。某些特定的查询类型,如top/bottom N查询、OLAP查询,往往存在新的可动态优化机会。,2023/9/11,29,L4层的演化发展(2),在针对一些已有标准操作的优化处理方面,也已提出了一些改进、建议和扩展算法,其中很多成果已被集成到商业DBMS系统中。一些原先被认为是非标准应用的操作,被
13、重新利用并扩展了它们的使用范围。如空间连接,或一些支持OLAP的功能。但仅通过调整已有的或增加新操作符,似乎并不足以或不可能应对呈爆炸性增长的新类型集。,2023/9/11,30,L3层的演化发展,L3层是在过去20多年中,一项很“火爆”的研究热点。通过提供更合适的存取路径和存取结构,L3层中的操作已变为更加有效。Volker Gaede等人详细分析对比了1998年以前提出的各种存取结构。但除了无处不在的B+树,以及它的一些变体外,它们中只有少数结构被成功集成到特殊的数据处理系统。,2023/9/11,31,L2层的演化发展,最剧烈改进发生在并不需DB研究者下太多功夫的L2层。Moore定律已
14、为他们完成了大部分工作。巨大缓存容量也使平滑实现预取缓存分区成为可能。隔离L2层的“段/页”与L1层的“文件/块”,为复杂的数据映射和更新传播提供了机会。但至今,这方面体系结构还没有任何变化发生。,2023/9/11,32,L1层的演化发展,L1层通常不是DB研究者们感兴趣的焦点。操作系统(OS)研究者对文件系统处理的各种改进,只有部分会对DB管理有用。至今,对于L1层抽象,仍未得到任何事务支持。但标准的文件映射已更为精细,能支持2G字节的长字段和大对象。许多新出现的设备或技术的使用,已被能被透明地集成到体系的L1层中。RAID技术及存储设备支持并行存取能力提高,为在L1L3层支持不同的存储策
15、略和优化提供了新的机会。,2023/9/11,33,1.4.2 层次模型与事务模型,所谓的事务,指的是DBMS中一个可执行的、具有一定偏序的动作/操作序列。任何事务,都具有以下四个基本特性,即原子性、一致性、孤立性和持久性,简称ACID特性。进一步考虑ACID,层模型能更好帮助我们清晰描述概念和引出一些更合适的解决方案。,2023/9/11,34,1.4.3 体系结构变体,在过去的20多年中,出现了很多较特殊的新型数据管理应用场景。如何将它们纳入五层或简化的DBMS体系?一个很好的观察切入点是:DBMS结构变化决定于体系结构中“映射步”的变化。我们应能通过标识相关层中变体组件和扩展映射,并通过
16、解释DB处理中的相似性和特殊性,来平滑处理各种体系结构变体问题。,2023/9/11,35,DB处理的横向分布变化:分布式DBMS系统,图1.5 DBMSs沿水平分布扩展后演化成分布式DBMSs系统,2023/9/11,36,DBMSs处理的垂直分布变化:C/S DBMS,这类DBMS体系结构的典型代表是所谓的C/S DBMSs(client/server DBMSs)。它们的主要目标是:使应用或客户机能有效使用DBMS的处理能力。C/S DBMSs通常被用在需要较长事务,且需要对数据进行检查/校验的场合。图1.6中给出了三种常见的C/S体系结构变体。这方面面临的主要挑战是:如何利用当前查询缓
17、存结果内容,来处理声明性的、面向集合的查询。,2023/9/11,37,1.4.3.3 新的体系结构需求,五层或其简化体系结构已能很好满足面向集合操作的、记录式的数据库管理,使得它们能以不变或稍许变化的方式,重用已有标准DBMS或其简单变体来实现。然而,近年来,需求已有强烈偏离这种规范的倾向。一个最引人关注的进展是:基于组件体系的、松散耦合的数据库系统研制与应用,这种体系现已被广泛应用到对象-关系数据库系统(ORDBMSs)中。例如,Informix 的数据刀片(DataBlades)、Oracle的盒式插件(Cardridges)等框架结构。但目前这类方法尚未达到真正无缝集成的要求,也没有达
18、到所期许的性能和可伸缩性。将来的挑战可能仍主要是面向体系结构方面的调整。,2023/9/11,38,1.4.3.4 XTC体系结构,2023/9/11,39,1.4.3.5 未来DBMS扩展框架(图1.8),一种以数据存储系统作为通用低层的、可扩展的DBMS体系结构。,2023/9/11,40,1.4.4 可靠性与可适应性,DBMS在当代社会关键的角色地位,除了给它带来更多的功能扩展需求外,也同时对它的性能提出了更高要求。但功能扩展需求和质量增强需求所导致的体系结构设计指导准则,往往是正交的或矛盾的。为开发可靠(=自调节维护无故障)的DBMSs,Gerhard Weikum等人建议了一种高度组件化的系统体系结构具有小且良好控制的组件接口。,2023/9/11,41,1.4.5 结论与展望,五层体系结构基本上能在原有风范上适应各种扩展和优化。未来需要集成更多新的处理变体,来处理各种新的数据类型。让非过程化的关系操作符去操作对象集的可扩展对象-关系系统体系结构,目前已进入细节演化阶段。将来的体系结构必须具备自治调节和无故障(无干扰)计算的能力,即使是在面临各种形式的“压力”或“蓄意攻击性测试”时。必须在支持数据独立性和演化的指导下,沿着适应性和可靠性的路线发展。无论如何,对所有DB研究者而言,可视为好消息的是,在DBMS体系结构领域,仍具有足够的挑战。,