《数据库》第八章数据库技术新发展.ppt

资源描述

《《数据库》第八章数据库技术新发展.ppt》由会员分享，可在线阅读，更多相关《《数据库》第八章数据库技术新发展.ppt（50页珍藏版）》请在三一办公上搜索。

1、第九章数据库技术的新发展,西北大学经济管理学院张昌蓉,数据库新技术,数据库技术与分布式处理技术相结合，形成分布式数据库系统。数据库技术与面向对象技术相结合，形成面向对象数据库系统。数据库技术与并行技术相结合，形成并行数据库系统。数据库技术与多媒体技术相结合，形成了多媒体数据库系统。数据库技术与人工智能相结合，形成了知识库系统。数据库技术与模糊技术相结合，形成了模糊数据库系统。数据库技术与演绎规则相结合，形成了演绎数据库系统。数据库技术与工程设计应用相结合，形成了工程数据库系统。数据库技术与地理空间系统相结合，形成了空间数据库系统。数据仓库是数据库应用规模、范围、和深度不断扩大，为了更有效地获

2、得由价值信息而发展起来的一种数据库信息综合技术。,一、分布式数据库系统,分布式数据库系统是分布式技术与数据库技术的结合。由于计算机网络技术的发展，需要把分散在各处的数据库系统通过网络技术连接起来，这样形成的数据库系统称为分布式数据库系统。分布式数据库是一个数据集合，这些数据逻辑上属于同一个系统，但实际上又分布在一个计算机网络中的不同计算机中。此网络的各个节点具有自治的处理能力，并且能够执行本地的应用，每个节点的计算机至少还参与一个全局应用的执行，这种应用要求在几个节点上存取数据。,分布式数据库系统特点：分布性，逻辑相关性，区域自治性，相互之间的协调性是分布式数据库系统的特点。使应用程序编写时可

3、完全不考虑数据的分布情况。位置透明性，复制透明性是对分布式数据库系统的要求。局部数据库分散在各个场地的数据库是局部数据库。本身是一个完整的数据库系统，具有本地真实的数据库、本地用户、本地DBMS全局数据库是一组局部数据库的集合一组数据库系统的集合是一个逻辑数据库（虚拟的）,数据的分布性分布式数据存储复制：多个副本储存在多个节点数据可用性，并行度的增加冗余分片水平分片：r1 r2；垂直分片:r1 r2分片的要求完备性可重构性：垂直分片含主码属性复制+分片数据的冗余提高数据的可用性、并发性、减少网络传输增加了数据更新的开销，副本一致性问题,事务的分布性局部事务仅访问当地数据库的事务全局事务需访问其

4、他场地数据库的事务,分布式数据库环境下的访问代价磁盘读写网络传输分布式数据库的目标部门组织分布，降低成本数据资源共享，提高数据库的利用率,全局外模式：全局应用的用户视图，全局概念模式的子集全局概念模式是全局概念视图全局概念模式名、属性名、域分片模式定义分片片段以及全局关系到片段的映象是一对多的，一个全局关系可对应多个片段，一个片段只来自全局关系分布模式：分片的物理分配视图局部概念模式局部数据库中的概念模型，关于本地数据库的描述如果局部数据库中还有独立应用，则应有局部外模式，提供给本地应用使用局部内模式：局部数据库的物理描述局部数据库：本地的局部数据库,分布式数据库的基本原则对用户（最终用户、程

5、序员）来说，一个分布式系统应该看起来完全象一个非分布式系统,客户/服务器（Client/Server，C/S）体系结构也是一种分布式结构。按照CS结构，一个数据处理任务至少是分布在2个不同的部件上完成。一部分是由前端(Frontend,即Client)运行应用程序，提供用户接口，而另一部分是由后端(Backend,即Server)提供特定服务，包括数据库或文件服务、通信服务等。客户机通过远程调用或直接请求应用程序提供服务，服务器执行所要求的功能后，将结果返回客户机，客户机和服务器通过网络来实现协同工作。CS结构具有性能优越、保护投资、易于扩展和保证数据完整性等优点。,二、面向对象系统数据库概述

6、,面向对象数据库（OODBS）是为了管理复杂对象的复杂行为（如：多媒体信息的处理），将面向对象技术和数据库技术相结合的一种数据库系统。它利用面向对象技术中类的概念来描述复杂对象；利用类中封装方法来模拟对象的复杂行为；利用继承性来实现对象的结构和方法重用。与关系数据库比，面向对象数据库理论和技术都还不成熟。,面向对象的数据模型,对象：对象是面向数据模型的基本结构。一个对象是由一些数据以及能够作用与这些数据上的操作组成。例如：一个学生对象，将包括与学生相关的数据（学号、姓名、）以及相应的操作（增加、删除、修改学生记录）面向对象数据库系统：主要强调的仍是数据，操作被定义为数据的一部分。数据与操作被封

7、装起来，对客户是隐蔽的。对象主要包含的部分：属性集合：对象的状态与特征。注意：这里的属性可能是其他对象。即对象嵌套。多层嵌套即可组成复杂的对象。方法集合：对象的行为特征。即方法是对对象进行的各种操作，可改变对象的状态或特性。方法的定义包括：方法的调用说明和实现部分。消息集合：对象是封装的，是属性和方法的封装。所以外界与对象的通信一般是通过消息。一条消息就是一个执行方法的请求。,类和实例,基本概念：类：将具有相同或相似特征（相同属性、相应相同的消息、使用相同的方法等）的对象归为一类。实例：类中每一个对象则为类的一个实例。类的继承性子类和超类：A类属于B类，A类具有一些附加特性（不与B类的所有成员

8、相关）。A类称为是B类的子类。B类称为A类的超类或父类。也称存在Is-a层次关系。子类可继承超类的所有特征，同时又可具有超类所没有的特征。单继承和多继承单继承：一个子类只继承一个超类的特征。多继承：一个子类可继承多个超类的特征。,面向对象的数据模型描述工具ODL,数据库建模和实现的过程：ODL的类说明Interface 类的特征表。包括：属性、联系、方法等例：Interface employee attribute string name;attribute integer age;attribute enum sextypemale,female sex;,E-R模型向面向对象模型的转换,转

9、换步骤将E-R模型中的实体集生成类将E-R模型中具有隶属关系的类生成类/子类在转换得到的类中加入联系的说明。,对象-关系数据库,面向对象数据库必须满足的条件：支持面向对象数据模型支持传统数据库对象-关系数据库（ORDBMS）对象-关系数据库将传统的关系数据库加以扩展，增加面向对象特征。即支持被广泛应用的SQL，具有良好的通用性；又具有面向对象特征，支持复杂对象的复杂行为。对象-关系数据库在SQL环境下的特征：对基本数据类型及扩充的支持。例：P165对复杂对象的支持。例：P166对继承性的支持。例：P167对产生式规则系统的支持。例：P167,创建基本数据类型举例：Create Type pho

10、to-t(country-num varchar(4),area-num varchar(4),photo-date date);用户自定义函数举例Create Function diff-salary(float)Returns float as Select$1-AVG(salary)From employee;对复杂对象的支持举例：使用组合对象 Create table employee(no char(6),name varchar(8),age interger,photo photo-t);,对继承性的支持举例。例：Create Type person(identify inter

11、ger,name varchar(8),sex char(2);Create Type student(degree varchar(10),department varchar(20)under person;Create Type teacher(salary interger,department varchar(20)under person;,三、并行数据库,并行数据库系统是并行技术与数据库技术的结合。并行数据库系统是随着数据库应用领域、规模、响应速度等要求愈来愈高。为了提高事务处理的高吞吐量和响应速度而提出来的。并行数据库系统是以并行计算机或并行多处理机为基础，利用多处理机结构的优

12、势，将数据库在多个磁盘上分布存储，利用多个处理机对磁盘数据进行并行处理，从而解决了磁盘“I/O”瓶颈问题，提供比相应大型机高得多的性能价格比和可用性。,并行数据库研究的主要内容,并行数据库操作的并行算法的设计与实现。并行数据库物理存储结构的研究，研究如何划分多处理器、划分或共享磁盘和内存。并行查询优化的研究,并行数据库系统的体系结构,并行计算机的体系结构紧耦合全对称多处理器(SMP)系统，所有的CPU共享内存和磁盘。松耦合集群机系统，所有的CPU共享磁盘。大规模并行处理（MPP)系统，所有的CPU均有自己的内存和磁盘。混合结构，如：紧耦合全对称多处理器(SMP)的集群机系统，即MPP系统中的每

13、一个节点都是一个SMP系统。并行数据库系统的体系结构共享内存：是处理器之间的通信效率极高，但注意当处理器的个数不能超过64个。共享磁盘：所有存储器共享公共磁盘，但每个处理器都有自己的主存储器，不会产生总线瓶颈，同时有容错功能。无共享：系统通过高速网络交换消息和数据。层次并行结构：结合了共享内存、共享磁盘和无共享的特点。,并行处理技术,并行查询技术查询间并行：指不同的查询事务可相互并行执行。查询内并行：指多个查询事务在多个处理器上并行执行操作内并行：指操作在关系的不同子集上并行地执行。操作间并行流水线并行：多个操作间的输入输出是并行的。独立并行：将一个查询分解为多个独立的子任务，由多个处理器并行

14、执行。并行数据库系统是通过采用先进的并行查询技术，开发查询间并行、查询内并行以及操作内并行，大大提高查询效率。其目标是提供一个高性能、高可用性、高扩展性的数据库管理系统，而在性能价格比方面，较相应大型机上的DBMS高得多。,四、多媒体数据库系统,多媒体数据库系统是多媒体技术与数据库技术的结合。多媒体数据库系统必须能表示和处理多种媒体数据。其主要特征为：（1）多媒体数据在计算机内的表示方法决定于各种媒体数据所固有的特性和关联。对常规的格式化数据使用常规的数据项表示。对非格式化数据，像图形、图像、声音等，就要根据该媒体的特点来决定表示方法，往往要用不同的形式来表示。所以多媒体数据库系统要提供管理这

15、些异构表示形式的技术和处理方法。（2）多媒体数据库系统能反映和管理各种媒体数据的特性，或各种媒体数据之间的空间或时间的关联。例如，关于乐器的多媒体数据包括乐器特性的描述、乐器的照片、利用该乐器演奏某段音乐的声音等。这些不同媒体数据之间存在自然的关联，包括时序关系和空间结构。,（3）多媒体数据库系统提供比传统数据库管理系统更强的适合非格式化数据查询的搜索功能，允许对 Image等非格式化数据做整体和部分搜索，允许通过范围、知识和其他描述符的确定值和模糊值搜索各种媒体数据，允许同时搜索多个数据库中的数据，允许通过对非格式化数据的分析建立图示等索引来搜索数据，允许通过举例查询(QuerybyExam

16、ple)和通过主题描述查询使复杂查询简单化。（4）多媒体数据库系统还提供事务处理与版本管理功能。,五、知识数据库,知识数据库可定义为：知识、经验、规则和事实的集合。是人工智能技术与数据库技术的结合。知识数据库系统的功能是如何把由大量的事实、规则、概念组成的知识存储起来，进行管理，并向用户提供方便快速的检索、查询手段。知识数据库系统应具备对知识的表示方法；对知识系统化的组织管理；知识库的操作；库的查询与检索；知识的获取与学习；知识的编辑；库的管理等功能。,六、模糊数据库,模糊数据库就是能够表示、存储及处理模糊数据、模糊数据结构和模糊数据联系的数据库。模糊数据库中数据的运算和操作、对数据的约束（包

17、括完整性和安全性）、用户使用的数据库窗口用户视图、数据的一致性和无冗余性的定义等都是模糊的。模糊数据库包括：模糊关系数据库，模糊演绎数据库（模糊推理规则的表示，具有模糊推理的功能）,七、演绎数据库,演绎数据库是一种基于逻辑推理的数据库，将数据库看成是一个演绎系统，由一些公理组成，通过公理中的演绎规则可以推导出定理。,八、工程数据库,工程数据库的定义：狭义：工程数据库是一种能存贮和管理各种工程图形，并能为工程设计提供各种服务的数据库系统。广义：工程数据库应能为CAD和CIMS实现一条龙服务，不仅支持CAD，还能支持CAD和CAM过程中的计算机控制、管理和决策事务，把设计、制造、管理、经营业务在一

18、个统一的数据库基础上实现集成(IEDB)。,工程数据库的特点,存储复杂的数据类型常规信息管理数据工程数据产品模型数据支持数据模式的动态定义和修改。保证数据一致性管理能满足特殊数据的处理要求：包括分析、功能、判断、生产等等能满足更广泛的使用需求：操作实时性、交互性等,工程数据库的系统结构,使用多级数据库组织结构，把不同用途的数据库在物理上分开存储。全局数据库全局公共数据库：是永久性的标准库，不可随意修改。工程项目数据库：对应一个工程设计项目。局部数据库,工程数据库的数据模型,扩展的关系数据模型对象数据模型语义数据模型：利用实体、联系、和约束得来描述现实世界的静态、动态和视台特征。具有较高的抽象层

19、次和较强的语义表达。,设计方案的版本p178在设计过程中产生多个不同的方案，每个设计方案就是一个版本。每个方案都具有很高的参考价值。因此需要管理。版本因包含的信息：设计信息对象与版本的关联信息。版本标识信息附加的版本管理信息。版本管理线性版本管理模型树型版本管理模型有向无环版本管理模型,九、数据仓库,基本概念数据仓库的定义数据仓库Data Warehouse-DW：是面向主题的、集成的、稳定的，并且时变地收集不同数据的一种数据集合的结构形式，用以支持经营管理中的决策制定过程。面向主题：数据仓库中的数据是面向主题的，而传统数据库是面向应用的。主题是在较高层次将数据归类的标准，每个主题对应一个宏

20、观分析领域。集成特性：数据仓库的集成特性是指在数据进入数据仓库之前，必须经过转换、加工和集成，或称“整合”处理。这是建立数据仓库的关键步骤。首先要解决原始数据的一致性，消除矛盾，使数据完整、统一；其次还要把面向应用的原始数据结构转变为面向主题的。,稳定性：数据仓库反映的是历史性的数据内容，而不是日常事务处理产生的数据，经加工和集成进入数据仓库后，基本上不再修改。在一次数据分析的执行过程中使用的数据不得变更，这样才能保证两次使用同一组信息进行分析时不会得出不同的答案。不同时间的集合：要求数据仓库是不同时间的数据集合，这种数据保存的时限能满足进行决策分析的要求，而且在数据仓库中要标明这些数据的历史

21、时期。,数据仓库系统的组成,数据仓库DW组成事实表：存储历史商务数据的表。通常不更新。维表：用于提炼事实表中所包含的数据。减少了对事实表扫描的数据量，提高了查询性能。维表中的数据常需更新模式星型模式雪花模式数据仓库管理系统对数据仓库进行数据建模。确定从源数据到数据仓库的数据抽取、转换和装载等。确定数据仓库的存储方式。管理数据的安全、归档、维护、备份、恢复等工作。分析工具用户查询工具C/S检索工具OLAP分析工具数据挖掘(DM)工具（Data Mining）,DW查询系统,特点报表杳询：从DW中产生各种业务报表，一般为多表联接、累计、分类、排序等。随机、动态查询：根据上次查询结果，进行进一步的查

22、询，又称为DM。共同特点：数据量大、查询速度受到限制。应考虑的问题：数据仓库中数据库的可扩展能力。系统的并发查询处理能力。,OLAP,OLTP和OLAP的区别联机事务处理OLTP系统，它是事件驱动、面向应用的。联机分析处理OLAP系统，是基于DW的信息分析与处理过程，OLAP是跨部门的、面向主题的。OLTP和OLAP的区别,OLAP的基本概念,变量：是决策者所关心的具有实际意义的数量。维：人们观察数据的特定角度。如：时间、地区等维的层次：观察数据的某个特定角度的不同细节程度的方面。例：时间维中的日期、月份、季度、年度等维成员：维的一个取值。例如：某年某月多维数组：可表示为（维1，维2，维n，变

23、量)，例如：日用品的销售数据按地区、时间和销售渠道组织起来的三维立方体，加上变量“销售量”多维分析：指对以多维方式组织起来的数据采取切片，切块、旋转、钻入、归并等各种分析动作，是分析者、决策者能从多个角度、多个侧面观察数据。切片：选定多维数组的一个二维子集的动作。切块：选定多维数组的一个三维子集的动作。旋转：改变一个报告或页面显示的维方向。钻入：对结果数据的下一层数据进行剖析。归并：是钻入的反向处理。,数据挖掘DM,1、数据挖掘的定义数据挖掘，Data Mining,就是从大型数据库中的数据中提取人们感兴趣的知识。MD与KDD(Knowledge discovery in database)有

24、很大的重合度，一般在AI领域称KDD。2、数据挖掘的目的发现大量数据中尚未发现的知识，是系统内部自动获取知识的过程学会方法：OLAP、OLTP等3、DM的相关领域归纳学习(inductive learning)机器学习(machine learning)，关系最为密切统计(statistics)分析,4、决策支持空间数据空间(data space):处理基于关键字的查询,如OLTP聚合空间(aggregation space):数据空间聚合运算(sum、average、max等)聚合空间,如OLAP影响空间(influence space):处理逻辑性质的支持，如是何因素影响某地区的销售，

25、其信息由DM来获得变化空间(variation space):回答某种变化的过程和速度问题，如前三个月的销售额增长情况如何注：数据挖掘处于影响空间中，对企业决策具有重要意义,数据挖掘的过程,数据挖掘的过程数据准备数据集成数据选择数据预处理数据开采如何产生假设：系统自动产生假设，或用户提出假设选择合适的工具发掘知识的操作证实发现的知识结果表达和解释,数据开采的分类,根据发现的知识的种类分总结(summarization)规则开采关联(association)规则开采分类(classification)规则开采聚类(clustering)规则开采趋势(trend)分析偏

26、差(deviation)分析模式(pattern analysis)分析根据开采知识的抽象层次分原始层次(primitive level)数据开采高层次(high level)数据开采多层次(multiple level)数据开采,根据采用的技术分类人工神经元网络决策树遗传算法最邻近技术规则归纳可视化数据开采的内容和本质数据开采的技术支柱：数据库、人工智能、数理统计数据开采的内容与本质：为老板服务，为决策者提供决策支持,数据开采所能发现的知识,广义型知识：反映同类事物共同性质的知识特征型知识：反映事物各方面特征的知识差异型知识：反映不同事物间属性差别的知识关联型知识

27、：反映事物间关联或依赖的知识预测型知识：根据当前和历史数据推测未来数据偏离型知识：提示事物偏离常规的异常现象,数据开采的一般方法,基于数据仓库的数据开采与基于数据库的数据开采的区别规模：一般数据仓库的规模都在50GB以上，因此有效、快速的算法是数据开采的重点历史数据：传统数据库的时间轴尽量短，而数据仓库可进行长时间的历史数据存储，可达510年.,（1）关联规则开采方法关联规则是描述数据库的数据项之间存在潜在关系的规则形式。通过关系规则分析得到结果。（2）分类分析方法找出数据集中的各组对象的共同特征，建立分类模型。表示分类模型的一种常用方法是决策树。（3）聚类分析方法将数据集分割为若

28、干个有意义的聚簇的过程。,数据仓库与数据集市(Data Mart),目前有两种数据仓库解决方案：一种是集中式数据仓库方式，另一种是数据集市方式。集中式数据仓库：是企业级的，能为企业各部门提供决策支持手段。可以跨越公司收集可操作数据，把它们集中在一个数据库中。这些数据将覆盖许多不同的领域，经常是为许多行业服务的。集中的方法需要直接面对我们先前所描述的组织和行政问题，这是集中式数据库价格昂贵、复杂和费时的一个重要原因。集中式数据库的优越性在于它所提供的可控制性、数据精确性和可依赖性。数据集市：是一种致力于单一的某个领域并且通常为某一个用户组服务的数据仓库。它企业部门级的，又称部门级数据仓库.一般只涉及某一个特殊的应用范围(例如市场、销售和金融)。在一些公司里，商业部门自己建立数据集市，而在另一些公司里依靠一个中心IT部门来规划和设计数据集市。数据集市有很大的灵活性，因为可以根据商业具体问题、部门的机遇和行业或不同应用来进行定制。,独立数据集市数据集市从属数据集市,

展开阅读全文