《关系数据库设计理论.ppt》由会员分享,可在线阅读,更多相关《关系数据库设计理论.ppt(101页珍藏版)》请在三一办公上搜索。
1、1,第3章 关系数据库理论,2,本章概要,前面已经讲述了关系数据库、关系模型的基本概念以及关系数据库的标准语言。如何使用关系模型设计关系数据库,也就是面对一个现实问题,如何选择一个比较好的关系模式的集合,每个关系又应该由哪些属性组成。这属于数据库设计的问题,确切地讲是数据库逻辑设计的问题,有关数据库设计的全过程将在第10章详细讨论。本章讲述关系数据库规范化理论,这是数据库逻辑设计的理论依据。要求了解规范化理论的研究动机及其在数据库设计中的作用,掌握函数依赖的有关概念,第一范式、第二范式、第三范式的定义(了解BC范式的定义),重点掌握并能够灵活运用关系模式规范化的方法和关系模式分解的方法,这也是
2、本章的难点。,3,3.1 规范化问题的提出,规范化理论的主要内容 关系数据库的规范化理论最早是由关系数据库的创始人E.F.Codd提出的,后经许多专家学者对关系数据库理论作了深入的研究和发展,形成了一整套有关关系数据库设计的理论。在该理论出现以前,层次和网状数据库的设计只是遵循其模型本身固有的原则,而无具体的理论依据可言,因而带有盲目性,可能在以后的运行和使用中发生许多预想不到的问题。,4,在关系数据库系统中,关系模型包括一组关系模式,各个关系不是完全孤立的,数据库的设计较层次和网状模型更为重要。如何设计一个适合的关系数据库系统,关键是关系数据库模式的设计,一个好的关系数据库模式应该包括多少关
3、系模式,而每一个关系模式又应该包括哪些属性,又如何将这些相互关联的关系模式组建一个适合的关系模型,这些工作决定了整个系统运行的效率,也是系统成败的关键所在,所以必须在关系数据库的规范化理论的指导下逐步完成。,5,关系数据库的规范化理论主要包括三个方面的内容:函数信赖范式(Normal Form)模式设计其中,函数信赖起着核心的作用,是模式分解和模式设计的基础,范式是模式分解的标准。关系模式的存储异常问题数据库的逻辑设计为什么要遵循一定的规范化理论?什么是好的关系模式?某些不好的关系模式可能导致哪些问题?下面通过例子进行分析:,6,例如,要求设计教学管理数据库,其关系模式SCD如下:SCD(SN
4、O,SN,AGE,DEPT,MN,CNO,SCORE)其中,SNO表示学生学号,SN表示学生姓名,AGE表示学生年龄,DEPT表示学生所在的系别,MN表示系主任姓名,CNO表示课程号,SCORE表示成绩。根据实际情况,这些数据有如下语义规定:1.一个系有若干个学生,但一个学生只属于一个系;2.一个系只有一名系主任,但一个系主任可以同时兼几个系的系主任;3.一个学生可以选修多门功课,每门课程可有若干学生选修;4.每个学生学习课程有一个成绩。在此关系模式中填入一部分具体的数据,则可得到SCD关系模式的实例,即一个教学管理数据库,如图3.1所示。,7,图3.1 关系SCD,8,根据上述的语义规定,并
5、分析以上关系中的数据,我们可以看出:(SNO,CNO)属性的组合能唯一标识一个元组,所以(SNO,CNO)是该关系模式的主码。但在进行数据库的操作时,会出现以下几方面的问题。数据冗余。每个系名和系主任的名字存储的次数等于该系的学生人数乘以每个学生选修的课程门数,同时学生的姓名、年龄也都要重复存储多次,数据的冗余度很大,浪费了存储空间。2.插入异常。如果某个新系没有招生,尚无学生时,则系名和系主任的信息无法插入到数据库中。因为在这个关系模式中,(SNO,CNO)是主码。根据关系的实体完整性约束,主码的值不能为空,而这时没有学生,SNO和CNO均无值,因此不能进行插入操作。另外,当某个学生尚未选课
6、,即CNO未知,实体完整性约束还规定,主码的值不能部分为空,同样不能进行插入操作。,9,3.删除异常。某系学生全部毕业而没有招生时,删除全部学生的记录则系名、系主任也随之删除,而这个系依然存在,在数据库中却无法找到该系的信息。另外,如果某个学生不再选修C1课程,本应该只删去C1,但C1是主码的一部分,为保证实体完整性,必须将整个元组一起删掉,这样,有关该学生的其它信息也随之丢失。4.更新异常。如果学生改名,则该学生的所有记录都要逐一修改SN;又如某系更换系主任,则属于该系的学生记录都要修改MN的内容,稍有不慎,就有可能漏改某些记录,这就会造成数据的不一致性,破坏了数据的完整性。,10,由于存在
7、以上问题,我们说,SCD是一个不好的关系模式。SCD(SNO,SN,AGE,DEPT,MN,CNO,SCORE)产生上述问题的原因,直观地说,是因为关系中“包罗万象”,内容太杂了。那么,怎样才能得到一个好的关系模式呢?我们把关系模式SCD分解为下面三个结构简单的关系模式,如图3.2所示。学生关系S(SNO,SN,AGE,DEPT)选课关系SC(SNO,CNO,SCORE)系关系D(DEPT,MN),11,S SC,图3.2 分解后的关系模式,12,在以上三个关系模式中,实现了信息的某种程度的分离,S中存储学生基本信息,与所选课程及系主任无关;D中存储系的有关信息,与学生无关;SC中存储学生选课
8、的信息,而与学生及系的有关信息无关。与SCD相比,分解为三个关系模式后,数据的冗余度明显降低。当新插入一个系时,只要在关系D中添加一条记录。当某个学生尚未选课,只要在关系S中添加一条学生记录,而与选课关系无关,这就避免了插入异常。当一个系的学生全部毕业时,只需在S中删除该系的全部学生记录,而关系D中有关该系的信息仍然保留,从而不会引起删除异常。同时,由于数据冗余度的降低,数据没有重复存储,也不会引起更新异常。,13,经过上述分析,我们说分解后的关系模式是一个好的关系数据库模式。从而得出结论,一个好的关系模式应该具备以下四个条件:1.尽可能少的数据冗余。2.没有插入异常。3.没有删除异常。4.没
9、有更新异常。,14,但要注意,一个好的关系模式并不是在任何情况下都是最优的,比如查询某个学生选修课程名及所在系的系主任时,要通过连接,而连接所需要的系统开销非常大,因此要以实际设计的目标出发进行设计如何按照一定的规范设计关系模式,将结构复杂的关系分解成结构简单的关系,从而把不好的关系数据库模式转变为好的关系数据库模式,这就是关系的规范化。规范化又可以根据不同的要求而分成若干级别。我们要设计的关系模式中的各属性是相互依赖、相互制约的,这样才构成了一个结构严谨的整体。因此在设计关系模式时,必须从语义上分析这些依赖关系。数据库模式的好坏和关系中各属性间的依赖关系有关,因此,我们先讨论属性间的依赖关系
10、,然后再讨论关系规范化理论。,3.2 函数依赖,关系模式是对关系的描述,关系模式R(U,D,DOM,F)简化为一个三元组:R(U,F)F:属性间数据的依赖关系集合。当且仅当U上的一个关系r满足F时,r称为关系模式R(U,F)的一个关系。关系关系模式关系实例关系是所涉及属性的笛卡尔积的一个子集关系模式中的各属性之间相互依赖、相互制约的联系称为数据依赖。数据依赖一般分为函数依赖、多值依赖和连接依赖。其中,函数依赖是最重要的数据依赖。函数依赖(Functional Dependency)是关系模式中属性之间的一种逻辑依赖关系。,16,函数依赖对关系模式的影响,例:描述学校的数据库:学生的学号(Sno
11、)、所在系(Sdept)系主任姓名(Mname)、课程名(Cname)成绩(Grade)单一的关系模式:Student(U、F)U Sno,Sdept,Mname,Cname,Grade,17,函数依赖对关系模式的影响(续),学校数据库的语义:一个系有若干学生,一个学生只属于一个系;一个系只有一名主任;一个学生可以选修多门课程,每门课程有若干学生选修;每个学生所学的每门课程都有一个成绩。,18,函数依赖对关系模式的影响(续),属性组U上的一组函数依赖F:F Sno Sdept,Sdept Mname,(Sno,Cname)Grade,19,关系模式Student中存在的问题,数据冗余太大浪费大
12、量的存储空间 例:每一个系主任的姓名重复出现 更新异常(Update Anomalies)数据冗余,更新数据时,维护数据完整性代价大。例:某系更换系主任后,系统必须修改与该系学生有关的每一个元组,20,关系模式Student中存在的问题,插入异常(Insertion Anomalies)该插的数据插不进去 例,如果一个系刚成立,尚无学生,我们就无法把这个系及其系主任的信息存入数据库。删除异常(Deletion Anomalies)不该删除的数据不得不删例,如果某个系的学生全部毕业了,我们在删除该系学生信息的同时,把这个系及其系主任的信息也丢掉了。,21,函数依赖对关系模式的影响(续),结论:S
13、tudent关系模式不是一个好的模式。“好”的模式:不会发生插入异常、删除异常、更新异常,数据冗余应尽可能少。原因:由存在于模式中的某些函数依赖引起的解决方法:通过分解关系模式来消除其中不合适 的函数依赖。,22,简化形式 U=SNO,SDEPT,MNAME,CNAME,GRADE根据语义得属性组U上的一组函数依赖FF=SNOSDEPT,SDEPT MNAME,(SNO,CNAME)GRADE 若只考虑函数依赖这一种数据依赖,可得关系模式STUDENT(U,F)即STUDENT(SNO,SDEPT,MNAME,CNAME,GRADE,SNOSDEPT,SDEPT MNAME,(SNO CNAM
14、E)GRADE)这个关系模式存在问题:数据冗余太大、更新异常、插入异常和删除异常。改造为三个模式:S(SNO,SDEPT,SNOSDEPT)SG(SNO,CNAME,GRADE,(SNO,CNAME)GRADE)DEPT(SDEPT,MNAME,SDEPT MNAME),规范化理论就是用来改造关系模式,通过分解关系模式来消除其中不合适的数据依赖,以解决插入异常和删除异常、更新异常和数据冗余太大问题。,23,3.2.1函数依赖的定义及性质关系模式中的各属性之间相互依赖、相互制约的联系称为数据依赖。数据依赖一般分为函数依赖、多值依赖和连接依赖。其中,函数依赖是最重要的数据依赖。函数依赖(Funct
15、ional Dependency)是关系模式中属性之间的一种逻辑依赖关系。学生关系Student(Sno,Sname,sdept)一旦学号确定,姓名和所在系也就唯一地确定下来了属性间的这种依赖关系类似于数学中的函数Sno函数决定Sname和sdept Sname和sdept函数依赖于Sno记作SnoSname,Snosdept,这类似于变量之间的单值函数关系。设单值函数Y=F(X),自变量X的值可以决定一个唯一的函数值Y。,24,下面给函数依赖的形式化定义。一.函数依赖的定义定义3.1设关系模式R(U,F),U是属性全集,F是U上的函数依赖集,X和Y是U的子集,如果对于R(U)的任意一个可能的
16、关系r,对于X的每一个具体值,Y都有唯一的具体值与之对应,则称X决定函数Y,或Y函数依赖于X,记作XY。我们称X为决定因素,Y为依赖因素。当Y不函数依赖于X时,记作:X Y。当XY且YX时,则记作:XY。对于关系模式SCDU=SNO,SN,AGE,DEPT,MN,CNO,SCOREF=SNOSN,SNOAGE,SNODEPT一个SNO有多个SCORE的值与其对应,因此SCORE不能唯一地确定,即SCORE不能函数依赖于SNO,所以有:SNO SCORE。但是SCORE可以被(SNO,CNO)唯一地确定。所以可表示为:(SNO,CNO)SCORE。,25,有关函数依赖的几点说明:1平凡的函数依赖
17、与非平凡的函数依赖。当属性集Y是属性集X的子集时,则必然存在着函数依赖XY,这种类型的函数依赖称为平凡的函数依赖。即:XY,但Y X,则称XY是平凡的函数依赖如果Y不是X的子集,则称XY为非平凡的函数依赖。即:XY,但Y X,则称XY是非平凡的函数依赖若不特别声明,我们讨论的都是非平凡的函数依赖。例:(SNO,CNAME)SNO平凡函数依赖(不反映新语义,无价值)(SNO,CNAME)GRADE非平凡函数依赖 2函数依赖是语义范畴的概念。我们只能根据语义来确定一个函数依赖,而不能按照其形式化定义来证明一个函数依赖是否成立。例如,对于关系模式S,当学生不存在重名的情况下,可以得到:SNAGE S
18、NDEPT这种函数依赖关系,必须是在没有重名的学生条件下才成立的,否则就不存在函数依赖了。所以函数依赖反映了一种语义完整性约束。,26,3函数依赖与属性之间的联系类型有关。(1)一对一联系:XY例如,当学生无重名时,SNO SN。学号身份证号(2)多对一联系:XY 例如,SNO与AGE,DEPT之间均为M:1联系,所以有SNOAGE,SNODEPT。(3)如果属性X与Y有m:n的联系时,则X与Y之间不存在任何函数依赖关系。例如,一个学生可以选修多门课程,一门课程又可以为多个学生选修,所以SNO与CNO之间不存在函数依赖关系。由于函数依赖与属性之间的联系类型有关,所以在确定属性间的函数依赖关系时
19、,可以从分析属性间的联系类型入手,便可确定属性间的函数依赖。,27,4函数依赖关系的存在与时间无关(所有关系实例都要满足函数依赖)。因为函数依赖是指关系中的所有元组应该满足的约束条件,而不是指关系中某个或某些元组所满足的约束条件。当关系中的元组增加、删除或更新后都不能破坏这种函数依赖。因此,必须根据语义来确定属性之间的函数依赖,而不能单凭某一时刻关系中的实际数据值来判断。例如,对于关系模式S,假设没有给出无重名的学生这种语义规定,则即使当前关系中没有重名的记录,也只能存在函数依赖SNOSN,而不能存在函数依赖SNSNO,因为如果新增加一个重名的学生,函数依赖SNSNO必然不成立。所以函数依赖关
20、系的存在与时间无关,而只与数据之间的语义规定有关。,28,S(SNO,SN,AGE,SEX,DEPT)SNO函数决定(SN,AGE,SEX,DEPT)或(SN,AGE,SEX,DEPT)函数依赖于SNO可记为SNO(SN,AGE,SEX,DEPT)更多例子来理解函数依赖(分析关系模式,指出存在的所有的函数依赖,先不用考虑冗余函数依赖)例1:STUDENT(学号,姓名,出生日期,系名,班号,宿舍区)F=学号(姓名,出生日期,系名,班号,宿舍区),系名宿舍区,班号系名,班号宿舍区例2:设有一教学管理数据库,其属性为:学号(S#),课程号(C#),成绩(G),任课教师(TN),教师所在系(D)。这些
21、数据有下列语义:学号和课程号分别与其代表的学生和课程一一对应;一个学生所修的每门课程都有一个成绩;每门课只有一位任课教师,但每位教师可以有多门课程;教师中没有重名,每个教师只属于一个系试根据上述语义确定函数依赖集。F=(S#,C#)G,C#TN,TN D,29,例3试从下表中确定函数依赖集,F=(工程号,材料号)(数量),(工程号,材料号)(价格),工程号开工日期,工程号完工日期 例4:设有一关系模式R(职工号,职工名,年龄,性别,单位号,单位名)假设职工无重名,试确定函数依赖集F=职工号(职工名,年龄,性别,单位号,单位名),职工名(职工号,年龄,性别,单位号,单位名),单位号单位名,30,
22、二、Armstrong公理系统,一套推理规则,是模式分解算法的理论基础用途求给定关系模式的码从一组函数依赖求得蕴含的函数依赖,31,定义5.11 对于满足一组函数依赖 F 的关系模式R,其任何一个关系r,若函数依赖XY都成立,则称 F逻辑蕴含X Y,逻辑蕴含,32,Armstrong推理规则,自反律:若Y X U,则X Y为F所蕴含。另一说法:若Y是X的子集,则XY。根据平凡的函数依赖的定义可知,一组属性函数决定它的所有子集。例如,在关系SCD中,(SNO,CNO)SNO和(SNO,CNO)CNO。增广律:若XY为F所蕴含,且Z U,则XZYZ 为F所蕴含。例如,SNO(SN,AGE),DEP
23、T U,则有(SNO,DEPT)(SN,AGE,DEPT)另一变形:若XY且WZ,则(X,W)(Y,Z)。例如,SNO(SN,AGE),DEPTMN,则有(SNO,DEPT)(SN,AGE,MN)。,33,Armstrong推理规则,传递律:若XY及YZ为F所蕴含,则 XZ为 F所蕴含例如,SNO DEPT,DEPTMN,则有SNOMN伪传递律:由XY,WYZ,有XWZ。SNOSN,(DEPT,SN)MN,有(SNO,DEPT)MN合并律:若XY,XZ则XYZ 或写成X(Y,Z)例如,在关系SCD中,SNO(SN,AGE),SNO(DEPT,MN),则有SNO(SN,AGE,DEPT,MN)。
24、分解律:由XY及 ZY,有XZ由合并性和分解性,很容易得到以下事实:XA1,A2,,An成立的充分必要条件是XAi(i=1,2,n)均成立。,34,35,由定义可知:只有当决定因素是组合属性时,讨论部分函数依赖才有意义,当决定因素是单属性时,只能是完全函数依赖。例如,在关系模式S(SNO,SN,AGE,DEPT),决定因素为单属性SNO,有SNO(SN,AGE,DEPT),不存在部分函数依赖。,36,3.传递函数依赖设有关系模式R(U),U是属性全集,X,Y,Z是U的子集,,若XY,但Y X,而YZ(Y X,Z Y),则称Z对X传递函数依赖(Transitive Functional Depe
25、ndency),记作:X Z。如果YX,则X Y,这时称Z对X直接函数依赖,而不是传递函数依赖。例如,在关系模式SCD中,SNODEPTN,但DEPTN SNO,而DEPTNMN,则有SNO MN。当学生不存在重名的情况下,有SNOSN,SNSNO,SNO SN,SNDEPTN,这时DEPTN对SNO是直接函数依赖,而不是传递函数依赖。,37,从函数依赖角度重新定义:码,设K为关系模式R中的属性或属性组合。若K U,则K称为R的一个侯选码(Candidate Key)。若关系模式R有多个候选码,则选定其中的一个做为主码(Primary key)。,38,外部码,关系模式 R 中属性或属性组X
26、并非 R的码,但 X 是另一个关系模式的码,则称 X 是R 的外部码(Foreign key)也称外码主码又和外部码一起提供了表示关系间联系的手段。,39,综上所述,函数依赖分为完全函数依赖、部分函数依赖和传递函数依赖三类,它们是规范化理论的依据和规范化程度的准则。,3.3范式,40,四、闭包的计算,函数依赖的逻辑蕴含:设F是关系模式R的一个函数依赖集,X,Y是R的属性子集,如果从F中的函数依赖能够推出XY,则称F逻辑蕴含XY,记为 F XYF的闭包F+:被F逻辑蕴含的函数依赖的全体构成的集合,称为F的闭包,记为F+。,计算函数依赖集合F的闭包F+是一件相当费时的事,一般不可行。,41,F的闭
27、包,F=X Y,Y Z,F+计算是NP完全问题 F+=X,Y,Z,XY,XZ,YZ,XYZ,X X,Y Y,Z Z,XY X,XZ X,YZ Y,XYZ X,X Y,Y Z,XY Y,XZ Y,YZ Z,XYZ Y,X Z,Y YZ,XY Z,XZ Z,YZ YZ,XYZ Z,X XY,XY XY,XZ XY,XYZ XY,X XZ,XY YZ,XZ XZ,XYZ YZX YZ,XY XZ,XZ XY,XYZ XZ,X ZYZ,XY XYZ,XZ XYZ,XYZ XYZ,42,属性集X关于F的闭包X+的计算,有关系模式R(U),设F是属性集合U上的一个函数依赖集,XU,则称所有用Armstro
28、ng推理规则推出的函数依赖XA中所有A的集合,称为属性集X关于F的闭包,记为X F+,显然X X F+例:在关系模式R(ABC)中,函数依赖集F=AB,BC中有(A)F+=ABC(B)F+=BC(C)F+=C定理:XY能由Armstrong推理规则导出的充分必要条件是Y X+其实,判断XY是否在F+中,只要判断XY能否由Armstrong推理规则导出,即判断Y X F+是否成立,这样就把F+的问题简化为计算X F+的问题。,43,计算X+的算法:,输入:有限的属性集合U,它上面的函数依赖集合F,U的一个子集X输出:X关于F的闭包X+方法:1。置初值X(0)=,X(1)=X2。如果X(0)X(1
29、),置X(0)=X(1),否则转3。对F 中的每一个函数依赖YZ,若Y X(1),置X(1)=X(1)Z,并转4。输出X(1),即为X+,44,【例】已知关系RU,F,其中U=A,B,C,D,E,F=ABC,BD,CE,ECB,ACB,求(AB)F+。设X=AB XF(0)=AB;AB为闭包初值。XF(1)=ABCD;由ABC,BD可得CD在闭包中。XF(2)=ABCDE;由CE可得E在闭包中。XF(3)=XF(2)=ABCDE;进一步求的结果与上一步结果相同,结束。(AB)F+=ABCDE=A,B,C,D,E,举例,45,1.码的定义 设有关系模式R(U),F是R上的函数依赖集,X是U的一个
30、子集,如果l XUF+且l 不存在X的真子集Y,使得YU成立,则称X是R的一个候选码即X能唯一决定一个元组,且没有多余属性.主属性(码属性):包含在候选码中的各个属性。非主(码)属性:不包含在任何候选码中的属性。2.函数依赖集的等价与覆盖关系模式R(U)上的两个函数依赖集F和G,如果满足F+=G+,则称F和G是等价的,亦称F覆盖G或G覆盖F。3.计算最小函数依赖集Fmin算法:(略),46,3.3 范式,规范化的基本思想是消除关系模式中的数据冗余,消除数据依赖中的不合适的部分,解决数据插入、删除时发生异常现象。这就要求关系数据库设计出来的关系模式要满足一定的条件。我们把关系数据库的规范化过程中
31、为不同程度的规范化要求设立的不同标准称为范式(Normal Form)。由于规范化的程度不同,就产生了不同的范式。满足最基本规范化要求的关系模式叫第一范式,在第一范式中进一步满足一些要求为第二范式,以此类推就产生了第三范式等概念。每种范式都规定了一些限制约束条件。,47,范式的概念最早由E.F.Codd提出。从1971年起,Codd相继提出了关系的三级规范化形式,即第一范式(1NF)、第二范式(2NF)、第三范式(3NF)。1974年,Codd和Boyce以共同提出了一个新的范式的概念,即Boyce-Codd范式,简称BC范式。1976年Fagin提出了第四范式,后来又有人定义了第五范式。至此
32、在关系数据库规范中建立了一个范式系列:1NF,2NF,3NF,BCNF,4NF,5NF,一级比一级有更严格的要求。各个范式之间的联系可以表示为:5NF 4NF BCNF 3NF 2NF 1NF如图4.3所示。,48,图3.3 各种范式之间的关系下面逐一介绍各级范式及其规范化。,49,3.3.1 第一范式第一范式(First Normal Form)是最基本的规范形式,即关系中每个属性都是不可再分的简单项。定义3.4 如果关系模式R,其所有的属性均为简单属性,即每个属性都是不可再分的,则称R属于第一范式,简称1NF,记作R1NF。在第2章讨论关系的性质时,我们把满足这个条件的关系称为规范化关系。
33、在关系数据库系统中只讨论规范化的关系,凡是非规范化的关系模式必须化成规范化的关系。在非规范化的关系中去掉组合项就能化成规范化的关系。每个规范化的关系都属于1NF,这也是它之所以称为“第一”的原因。,50,例:关系STUDY=学号,课程给出学生选修课程的记录:,分析:这是非规范化的关系模式(不满足第一范式的数据库模式不能称为关系数据库),这种非1NF缺点是更新、插入困难如想把9901的选修课程改为“数据结构,C语言”时面临二义性(是修改第一个元组的课程值,还是扩充第二个元组的学号属性值)若想加入一个“成绩”属性,因有“(学号,课程)成绩”,难以插入。在非规范化的关系中去掉组合项就能化成规范化的关
34、系,将上述非1NF转换为1NF:,51,然而,一个关系模式仅仅属于第一范式是不适用的。在上节中给出的关系模式SCD属于第一范式,SCD(SNO,SN,AGE,DEPT,MN,CNO,SCORE),但其具有大量的数据冗余,具有插入异常、删除异常、更新异常等弊端。为什么会存在这种问题呢?让我们分析一下SCD中的函数依赖关系,它的关系主码是(SNO,CNO)的属性组合,所以有:(SNO,CNO)SCORESNOSN,(SNO,CNO)SNSNOAGE,(SNO,CNO)AGESNODEPT,(SNO,CNO)DEPTSNO MN,(SNO,CNO)MN,52,我们可以用函数信赖图表示以上函数依赖关系
35、,如图4.4所示。,由此可见,在SCD中,既存在完全函数依赖,又存在部分函数依赖和传递函数依赖。这种情况往往在数据库中是不允许的,也正是由于关系中存在着复杂的函数依赖,才导致数据操作中出现了种弊端。克服这些弊端的方法是用投影运算将关系分解,去掉过于复杂的函数依赖关系,向更高一级的范式进行转换。,T,53,思考题:(分析以下模式是否存在以上几种异常)商品供应关系模式:SUPPLY=SNO,PNO,SCITY,STATUS,PRICE,QTY,其中:SNO供应商号,PNO零件号,SCITY供应商所在城市,STATUS供应商状态,PRICE零件价格,QTY某供应商供应的零件数量。,54,3.3.2
36、第二范式3.3.2.1 第二范式的定义定义3.5 如果关系模式R1NF,且每个非主属性都完全函数依赖于R的每个关系码,则称R属于第二范式(Second Normal Form),简称2NF,记作R 2NF。在关系模式SCD中,SNO,CNO为主属性,AGE,DEPT,MN,MN,SCORE均为非主属性,经上述分析,存在非主属性对关系码的部分函数依赖,所以SCD1NF。由SCD分解的两个关系模式S,SC,其中S的关系码为SNO,是单属性,不可能存在部分函数依赖。而对于SC,(SNO,CNO)SCORE。所以SCD分解后,消除了非主属性对关系码的部分函数依赖,S,SC均属于2NF。,学生关系S(S
37、NO,SN,AGE,DEPT,MN)选课关系SC(SNO,CNO,SCORE),55,又如在2.4.2中,讲述全码的概念时给出的关系模式TCS(T,C,S),一个教师可以讲授多门课程,一门课程可以为多个教师讲授,同样一个学生可以选听多门课程,一门课程可以为多个学生选听,(T,C,S)三个属性的组合是关系码,T,C,S都是主属性,而无非主属性,所以也就不可能存在非主属性对关系码的部分函数依赖,TCS2NF。经以上分析,可以得到两个结论:1从1NF关系中消除非主属性对关系码的部分函数依赖,则可得到2NF关系。2如果R的关系码为单属性,或R的全体属性均为主属性,则R2NF。,56,3.3.2.2 2
38、NF规范化2NF规范化是指把1NF关系模式通过投影分解转换成2NF关系模式的集合。分解时遵循的基本原则就是“一事一地”,让一个关系只描述一个实体或者实体间的联系。如果多于一个实体或联系,则进行投影分解。(即将模式中不完全函数依赖的属性去掉,将部分函数据依赖的属性单独组成新的模式)下面以关系模式SCD为例,来说明2NF规范化的过程例3.1 将SCD(SNO,SN,AGE,DEPT,MN,CNO,SCORE)规范到2NF。由SNOSN,SNOAGE,SNODEPT,(SNO,CNO)SCORE,可以判断,关系SCD至少描述了两个实体,一个为学生实体,属性有SNO、SN、AGE、DEPT、MN;另一
39、个是学生与课程的联系(选课),属性有SNO、CNO和SCORE。根据分解的原则,我们可以将SCD分解成如下两个关系,如图4.5所示。,57,SD(SNO,SN,AGE,DEPT,MN),描述学生实体;SC(SNO,CNO,SCORE),描述学生与课程的联系。SD,SC,图4.5 关系SD和SC,58,对于分解后的两个关系SD和SC,主码分别为SNO和(SNO,CNO),非主属性对主码完全函数依赖。因此,SD2NF,SC2NF,而且前面已经讨论,SCD的这种分解没有丢失任何信息,具有无损连接性。分解后,SD和SC的函数依赖分别如图4.6和4.7所示。,图4.6 SD中的函数依赖关系 图4.7 S
40、C中的函数依赖关系,59,1NF的关系模式经过投影分解转换成2NF后,消除了一些数据冗余。分析图4.5中SD和SC中的数据,可以看出,它们存储的冗余度比关系模式SCD有了较大辐度的降低。学生的姓名、年龄不需要重复存储多次。这样便可在一定程度上避免数据更新所造成的数据不一致性的问题。由于把学生的基本信息与选课信息分开存储,则学生基本信息因没选课而不能插入的问题得到了解决,插入异常现象得到了部分改善。同样,如果某个学生不再选修C1课程,只在选课关系SC中删去该学生选修C1的记录即可,而SD中有关该学生的其它信息不会受到任何影响,也解决了部分删除异常问题。因此可以说关系模式SD和SC在性能上比SCD
41、有了显著提高。,60,下面对2NF规范化作形式化的描述。设关系模式R(X,Y,Z),R1NF,但R不属于2NF,其中,X是码属性,Y,Z是非码属性,且存在部分函数依赖,X Y。设X可表示为X1、X2,其中X1 Y。则R(X,Y,Z)可以分解为RX1,Y和RX,Z。因为X1Y,所以R(X,Y,Z)=RX1,Y RX1,X2,Z=RX1,Y RX,Z,即R等于其投影RX1,Y和X,Z在X1上的自然连接,R的分解具有无损连接性。由于X1 Y,因此RX1,Y2NF。若RX,Z不属于2NF,可以按照上述方法继续进行投影分解,直到将RX,Z分解为属于2NF关系的集合,且这种分解必定是有限的。,61,3.3
42、.2.3 2NF的缺点2NF的关系模式解决了1NF中存在的一些问题,2NF规范化的程度比1NF前进了一步,但2NF的关系模式在进行数据操作时,仍然存在着一些问题:1数据冗余。每个系名和系主任的名字存储的次数等于该系的学生人数。2插入异常。当一个新系没有招生时,有关该系的信息无法插入。3删除异常。某系学生全部毕业而没有招生时,删除全部学生的记录也随之删除了该系的有关信息。4更新异常。更换系主任时,仍需改动较多的学生记录。之所以存在这些问题,是由于在SCD中存在着非主属性对码的传递依赖。分析SCD中的函数依赖关系,SNOSN,SNOAGE,SNODEPT,DEPTMN,SNO MN,非主属性MN对
43、码SNO传递依赖。为此,对关系模式SCD还需进一步简化,消除这种传递依赖,得到3NF。,62,练习题:(将以下关系模式分解成2NF)商品供应关系模式:SUPPLY=SNO,PNO,SCITY,STATUS,PRICE,QTY,其中:SNO供应商号,PNO零件号,SCITY供应商所在城市,STATUS供应商状态,PRICE零件价格,QTY某供应商供应的零件数量。SUPPLIER=SNO,SCITY,STATUS PART=PNO,PRICE SUPPLY1=SNO,PNO,QTY,63,3.3.3 第三范式3.3.3.1 第三范式的定义定义3.6 如果关系模式R2NF,且每个非主属性都不传递依赖
44、于R的每个关系码,则称R属于第三范式(Third Normal Form),简称3NF,记作R3NF。即:若关系模式R中不存在侯选码X、属性组Y以及非主属性Z(Z!Y),使得XY,YZ,Y!X,则R3NF即若R3NF,则R的每一个非主属性即不部分依赖于侯选码,也不传递依赖于侯选码。体会:3NF就是不允许关系模式的属性间有这样的非平凡函数依赖XY,其中X不包含码,Y是非主属性。X不包含码有两种情况:一种情况X是码的真子集;这是2NF也不允许的,另一种情况X含有非主属性,这是3NF限制的。第三范式具有如下性质:1如果R3NF,则R也是2NF。例:SC(SNO,CNO,SCORE)3NF,也是2NF
45、,64,2如果R2NF,则R不一定是3NF。例如,我们前面由关系模式SCD分解而得到的SD和SC都为2NF,其中,SC3NF,但在SD中存在着非主属性MN对主码SNO传递依赖,SD 3NF。对于SD,应该进一步进行分解,使其转换成3NF。SD(SNO,SN,AGE,DEPT,MN)3.3.3.2 3NF规范化3NF规范化是指把2NF关系模式通过投影分解转换成3NF关系模式的集合。和2NF的规范化时遵循的原则相同,即“一事一地”,让一个关系只描述一个实体或者实体间的联系。下面以2NF关系模式SD为例,来说明3NF规范化的过程。,65,例3.2将SD(SNO,SN,AGE,DEPT,MN)规范到3
46、NF。分析SD的属性组成,可以判断,关系SD实际上描述了两个实体:一个为学生实体,属性有SNO,SN,AGE,DEPT;另一个是系的实体,其属性DEPT和MN。根据分解的原则,我们可以将SD分解成如下两个关系,如图4.8所示。S(SNO,SN,AGE,DEPT),描述学生实体;D(DEPT,MN),描述系的实体。,66,S D,对于分解后的两个关系S和D,主码分别为SNO和DEPT,不存在非主属性对主码的传递函数依赖。因此,S3NF,D3NF。,图4.8 关系S和D,67,分解后,S和D的函数依赖分别如图4.9和4.10所示。,由以上两图可以看出,关系模式SD由2NF分解为3NF后,函数依赖关
47、系变得更加简单,既没有非主属性对码的部分依赖,也没有非主属性对码的传递依赖,解决了2NF中存在的四个问题。,68,1数据冗余降低。系主任的名字存储的次数与该系的学生人数无关,只在关系D中存储一次。2不存在插入异常。当一个新系没有学生时,该系的信息可以直接插入到关系D中,而与学生关系S无关。3不存在删除异常。要删除某系的全部学生而仍然保留该系的有关信息时,可以只删除学生关系S中的相关学生记录,而不影响系关系D中的数据。4不存在更新异常。更换系主任时,只需修改关系D中一个相应元组的MN属性值,从而不会出现数据的不一致现象。SCD规范到3NF后,所存在的异常现象已经全部消失。但是,3NF只限制了非主
48、属性对码的依赖关系,而没有限制主属性对码的依赖关系。如果发生了这种依赖,仍有可能存在数据冗余、插入异常、删除异常和修改异常。这时,则需对3NF进一步规范化,消除主属性对码的依赖关系,为了解决这种问题,Boyce与Codd共同提出了一个新范式的定义,这就是Boyce-Codd范式,通常简称BCNF或BC范式。它弥补了3NF的不足。,69,3.3.4 BC范式3.3.4.1 BC范式的定义定义3.7 如果关系模式R1NF,且所有的函数依赖XY(Y X),决定因素X都是R的一个候选码,则称R属于BC范式(Boyce-Codd Normal Form),记作RBCNF。BCNF具有如下性质:1满足BC
49、NF的关系将消除任何属性(码属性或非码属性)对候选码的部分函数依赖和传递函数依赖。也就是说,如果RBCNF,则R也是3NF。,70,2如果R3NF,则R不一定是BCNF。现举例说明。设关系模式SNC(SNO,SN,CN0,SCORE),其中SNO代表学号,SN代表学生姓名并假设没有重名,CNO代表课程号,SCORE代表成绩。可以判定,SNC有两个候选码(SNO,CNO)和(SN,CNO),其函数依赖如下:SNO SN(SNO,CNO)SCORE(SN,CNO)SCORE。唯一的非码属性SCORE对码不存在部分函数依赖,也不存在传递函数依赖。所以SNC3NF。但是,因为SNO SN,即决定因素S
50、NO或SN不是候选码,从另一个角度说,存在着码属性对候选码的部分函数依赖:(SNO,CNO)SN,(SN,CNO)SNO,所以SNC不是BCNF。正是存在着这种码属性对候选码的部分函数依赖关系,造成了关系SNC中存在着较大的数据冗余,学生姓名的存储次数等于该生所选的课程数。从而会引起修改异常。比如,当要更改某个学生的姓名时,则必须搜索出现该姓名的每个学生记录,并对其姓名逐一修改,这样容易造成数据的不一致问题。解决这一问题的办法仍然是通过投影分解进一步提高SNC的范式等级,将SNC规范到BCNF。,71,3.3.4.2 BCNF规范化BCNF规范化是指把3NF关系模式通过投影分解转换成BCNF关