《关系数据库设计原理.ppt》由会员分享,可在线阅读,更多相关《关系数据库设计原理.ppt(33页珍藏版)》请在三一办公上搜索。
1、数据库管理系统西南交通大学交通运输学院,第3章 关系数据库设计理论,前面已经讨论了关系数据库系统的一般概念,介绍了关系数据库的基本概念、关系模型的三个部分,但是还有一个很基本的问题尚未涉及。针对一个具体问题,应该如何构造一个适合于它的数据模式,即应该构造几个关系模式,每个关系由哪些属性组成等。这是数据库设计的问题,确切地讲是关系数据库逻辑设计问题。实际上设计任何一种数据库应用系统,不论是层次的、网状的还是关系的,都会遇到如何构造合适的数据模式即逻辑结构的问题。由于关系模型有严格的数学理论基础,并且可以向别的数据模型转换,因此,人们就以关系模型为背景来讨论这个问题,形成了数据库逻辑设计的一个有力
2、工具关系数据库的规范化理论。规范化理论虽然是以关系模型为背景,但是它对于一般的数据库逻辑设计同样具有理论上的意义。,现实世界随着时间在不断地变化,因而在不同的时刻,关系模式的关系也会有所变化。但是,现实世界的许多已有事实限定了关系模式所有可能的关系必须满足一定的完整性约束条件。这些约束或者通过对属性取值范围的限定,或者通过属性值间的相互关连(主要体现于值的相等与否)反映出来。后者称为数据依赖,它是数据模式设计的关键,关系模式应当刻划这些完整性约束条件。,3.1 函数依赖,一、数据依赖属性之间的联系称为数据依赖。其中有两种最重要的数据依赖,函数依赖和多值依赖。,1属性之间的关系1:1的关系 对于
3、两个属性A和B,A属性与B属性的取值是一一对应的。例如学号和学生姓名。如果姓名是唯一的,则它们之间的关系是1:1的关系。1:m(1 to many)的关系 若两个属性集合A和B,A中的值只与B中某个值相关,而B的一个取值与A中多个值相对应。例如,班级和学生的关系。m:m(m to many)的关系 一个实体的两个属性集中任何一个值都与另一个属性集中多个值相对应。例如,学生号与课程号之间,任何一个学生可以选多门课程,任何一个课程可以由多个学生选择。,二、函数依赖 对于关系两个属性A和B,若A中每一个取值,都有B中唯一的值与之对应,则称B函数依赖于A,也可以说A决定B。AB 例如,学号和班级,学号
4、班级。学号决定班级,班级函数依赖于学号。,三、函数依赖和属性的关系 我们在前面讨论的三种关系,并不是每一种关系都存在函数依赖,设有一个关系R,存在两个属性A和B。则有下列的规则:(1)若A和B之间是 1:1的关系,则有AB和BA,即A和B相互依赖(2)若A和B之间是m:1的关系,则有函数依赖AB。(3)若A和B之间是m:m的关系,则有不存在函数依赖。如学生关系,可有学号(SNO),姓名(SNAME),系名(SDEPT)等几个属性。,由于一个学号只对应一个学生,一个学生只在一个系学习。因而当“学号”值确定之后,姓名和该生所在系的值也就被唯一地确定了。就象自变量x确定之后,相应的函数值f(x)也就
5、唯一地确定了一样,我们说SNO函数决定SNAME和SDEPT,或者说SNAME,SDEPT函数依赖于SNO,记为 SNOSNAME SNOSDEPT,U=Sno,Sdept,Mname,Cname,Grade现实世界的已知事实告诉我们(1)一个系有若干学生,但一个学生只属于一个系;(2)一个系只有一名(正职)负责人;(3)一个学生可选修多门课程,每门课程有若干学生选修;(4)每个学生学习每一门课程有一个成绩;于是得到U上的一组函数依赖:F=SnoSdept,SdeptMname,(Sno,Cname)Grade,我们就得到了一个描述学校的数据库模式SU,F:U=Sno,Sdept,Mname,
6、Cname,Grade F=SnoSdept,SdeptMname,(Sno,Cname)Grade,3.2关系的规范化,设计一个的关系数据库,首先要定义一组关系,这组关系定义的好,系统的性能就好,定义的差,系统的性能就差。一般的设计原则是:数据的冗余度尽量低。不出现插入、删除等操作异常;能尽量如实反映现实世界的实际情况,而且又易懂。这就要求研究关系模式中各属性之间的依赖关系,及其对关系模式性能的影响,探讨关系模式应满足什么样的约束,这就是关系规范化的目的。,关键字,(1)如果一个系刚成立还没有学生,或学生还没有安排课程,则无法将这个系的信息存入数据库,称为插入异常;(2)如果一个系的学生全都
7、毕业了,需要删除学生及学生选课信息,但同时也将该系的信息删除了,这称为删除异常;(3)该关系中有一个学生选课,相关系的信息就要存储一次,冗余太大,容易造成系及系的负责人信息的不一致,造成数据冗余和修改复杂。同样课程信息的操作也存在着插入异常、删除异常和数据冗余。,学生选课存在的问题:,上述问题出现的原因,上述问题的出现是因为在学生关系的属性之间存在着数据依赖。该关系的关键字是SNO(学号)+CNO(课程号)属性dept(系)和mn(系主任)仅与SNO(学号)有关,而与cno(课程号)无关,即DEPT(系)和MN(系主任)仅函数依赖于属性SNO。课程名(cname)只与课程号(CNO)有关,与学
8、号(SNO)无关。因此,要设计出一个好的数据库,必须先要搞清楚属性间的数据依赖关系。,什么是关系规范化,一个好的数据库要求数据库中的关系应满足一定的要求。我们把满足不同要求的关系称为范式。又按照要求条件的宽严的不同逐级分为第一范式、第二范式、第三范式等,并用1NF、2NF、3NF表示。关系的规范化:就是将一个低一级的范式,转化为一组高一级范式的过程。这种转化过程就是关系的规范化。,1、第一范式1NF,定义:在一个关系的记录中,每一个属性都是不可再分的数据项。例 如下是一个通讯地址表addr,若要求按城市检索,则addr表应该表示为addr(姓名,城市,街道)。如下的表为非1NF的关系。addr
9、(姓 名 地 址)李小明 北京市白石桥路7号 张 亮 天津市和平街18号 王国全 太原市解放路35号 苏 丹 北京市复外大街12号,将关系进行分解:addr(姓 名 城市 街道)李小明 北京市 白石桥路7号 张 亮 天津市 和平街18号 王国全 太原市 解放路35号 苏 丹 北京市 复外大街12号,解决办法,2、第二范式2NF,定义:关系满足1NF,同时,关系的每一个非主属性都完全函数依赖于主关键字。一个关系模式R不属于2NF,就会产生以下几个问题:1插入异常2删除异常3修改复杂,学生选课关系就满足1NF,不满足2NF。属性dept(所属系)和mn(系主任)仅与SNO(学号)有关,而与cno(
10、课程号)无关,即DEPT和MN仅函数依赖于属性SNO,属性DEPT和MN部分依赖于主关键字。,利用投影分解将关系按照属性间的依赖关系进行分解进行分解。在原学生关系中属性间依赖如下:SNO(学号)姓名(SNAME),年龄(sage),系(dept),系主任(mn)课程号(CNO)课程名(cname)SNO(学号)+课程号(CNO)成绩(grade)为了消除部分依赖,将原关系按照主键分解为三个关系:,解决方法,(1)、学生关系,(2)、学生选课关系,(3)课程关系,定义 关系满足2NF,同时,关系的每一个非主属性都不传递依赖于主关键字。一个关系模式R不属于2NF,就会产生以下几个问题:1插入异常2
11、删除异常3修改复杂,3第三范式 3NF,学生关系,在分解后的学生关系中,关系完全依赖于主关键字,而系主任依赖于系,系主任传递依赖于主关键字,产生了传递依赖关系。为了消除传递依赖关系,需进一步将学生关系分解为学生关系和系关系。,(1)学生关系,(2)系关系,经过以上关系规范化操作,原学生选课关系分解为四个关系:(1)系关系(系,系主任)(2)课程关系(课程号,课程名)(3)学生关系(学号,姓名,年龄,系)(4)选课关系(学号,课程号,成绩)以上四个关系满足第三范式的要求,完全消除了操作异常及数据冗余的问题,关系规范化的目的就是要消除关系中的操作异常问题。,关系规范化设计的基本思想:通过对属性之间的数据依赖进行分析,根据分析的结果对不满足规范化要求的关系模式进行分解,用一组等价的关系子模式来代替原有的关系模式,消除数据依赖中不合理的部分。这一过程必须是在保证无损连接性、保持函数依赖的前提下进行,即确保不破坏原有的数据和数据间的联系。,总结,关系规范化设计的优点:可以有效的消除数据冗余,理顺数据的从属关系,保持数据库的完整性,增强数据库的稳定性、伸缩性和适应性。关系规范化的主要问题:增加了查询时表的连接运算,导致计算机时间、空间、系统运行效率的损失。,总结,在进行数据库结构设计时,要根据具体应用进行分析,适当增加数据冗余。一个完全没有冗余的数据库,并不一定是好的数据库。,