第4章关系数据库设计理论.ppt

上传人：sccc

文档编号：5681124

上传时间：2023-08-09

格式：PPT

页数：37

大小：276.51KB

《第4章关系数据库设计理论.ppt》由会员分享，可在线阅读，更多相关《第4章关系数据库设计理论.ppt（37页珍藏版）》请在三一办公上搜索。

1、1,第4章关系数据库设计理论,前面介绍了关系数据库、关系模型的基本概念以及关系数据库的标准语言SQL。使用关系模型设计关系数据库，也就是面对一个现实问题，如何选择一个比较好的关系模式的集合，每个关系模式又应该由哪些属性组成。这属于数据库设计的问题，确切地讲是数据库逻辑设计的问题。本章讲述关系数据库规范化理论，这是数据库逻辑设计的理论依据。本章要求1、数据依赖：理解函数依赖，码；2、掌握范式（1NF，2NF，3NF，BCNF），灵活应用；3、关系模式的规范化,2,本章概要,前面介绍了关系数据库、关系模型的基本概念以及关系数据库的标准语言SQL。如何使用关系模型设计关系数据库，也就是面对一个现实

2、问题，如何选择一个比较好的关系模式的集合，每个关系又应该由哪些属性组成。这属于数据库设计的问题，确切地讲是数据库逻辑设计的问题。本章讲述关系数据库规范化理论，这是数据库逻辑设计的理论依据。要求了解规范化理论的研究动机及其在数据库设计中的作用，掌握函数依赖的有关概念，第一范式、第二范式、第三范式及BCNF的定义对关系进行规范化,3,图4.1 关系SCD,4,根据上述的语义规定，并分析以上关系中的数据，我们可以看出：(SNO,CNO)属性的组合能唯一标识一个元组，所以(SNO,CNO)是该关系模式的主关系码。但在进行数据库的操作时，会出现以下几方面的问题。1.数据冗余。每个系名和系主任的名字存储的

3、次数等于该系的学生人数乘以每个学生选修的课程门数，同时学生的姓名、年龄也都要重复存储多次，数据的冗余度很大，浪费了存储空间。2.插入异常。如果某个新系没有招生，尚无学生时，则系名和系主任的信息无法插入到数据库中。因为在这个关系模式中，(SNO,CNO)是主关系码。根据关系的实体完整性约束，主关系码的值不能为空，而这时没有学生，SNO和CNO均无值，因此不能进行插入操作。另外，当某个学生尚未选课，即CNO未知，实体完整性约束还规定，主关系码的值不能部分为空，同样不能进行插入操作。,5,3.删除异常。某系学生全部毕业而没有招生时，删除全部学生的记录则系名、系主任也随之删除，而这个系依然存在，在数据

4、库中却无法找到该系的信息。另外，如果某个学生不再选修C1课程，本应该只删去C1，但C1是主关系码的一部分，为保证实体完整性，必须将整个元组一起删掉，这样，有关该学生的其它信息也随之丢失。4.更新异常。如果学生改名，则该学生的所有记录都要逐一修改SN；又如某系更换系主任，则属于该系的学生记录都要修改MN的内容，稍有不慎，就有可能漏改某些记录，这就会造成数据的不一致，破坏了数据的完整性。,6,由于存在以上问题，我们说，SCD是一个不好的关系模式。产生上述问题的原因，直观地说，是因为关系中“包罗万象”，内容太杂了。那么，怎样才能得到一个好的关系模式呢？我们把关系模式SCD分解为下面三个结构简单的关系

5、模式，如图4.2所示。学生关系S(SNO,SN,AGE,DEPT)选课关系SC(SNO,CNO,SCORE)系关系D(DEPT,MN),7,S SC,图4.2 分解后的关系模式（三个关系）,8,在以上三个关系模式中，实现了信息的某种程度的分离，S中存储学生基本信息，与所选课程及系主任无关；D中存储系的有关信息，与学生无关；SC中存储学生选课的信息，而与学生及系的有关信息无关。与SCD相比，分解为三个关系模式后，数据的冗余度明显降低。当新插入一个系时，只要在关系D中添加一条记录。当某个学生尚未选课，只要在关系S中添加一条学生记录，而与选课关系无关，这就避免了插入异常。当一个系的学生全部毕业时，只

6、需在S中删除该系的全部学生记录，而关系D中有关该系的信息仍然保留，从而不会引起删除异常。同时，由于数据冗余度的降低，数据没有重复存储，也不会引起更新异常。,9,经过上述分析，我们说分解后的关系模式是一个好的关系数据库模式。从而得出结论，一个好的关系模式应该具备以下四个条件：1.尽可能少的数据冗余。2.没有插入异常。3.没有删除异常。4.没有更新异常。,10,但要注意，一个好的关系模式并不是在任何情况下都是最优的，比如查询某个学生选修课程名及所在系的系主任时，要通过连接，而连接所需要的系统开销非常大，因此要以实际设计的目标出发进行设计如何按照一定的规范设计关系模式，将结构复杂的关系分解成结构简单

7、的关系，从而把不好的关系数据库模式转变为好的关系数据库模式，这就是关系的规范化。规范化又可以根据不同的要求而分成若干级别。我们要设计的关系模式中的各属性是相互依赖、相互制约的，这样才构成了一个结构严谨的整体。因此在设计关系模式时，必须从语义上分析这些依赖关系。数据库模式的好坏和关系中各属性间的依赖关系有关，因此，我们先讨论属性间的依赖关系，然后再讨论关系规范化理论。,11,4.1 函数依赖,4.1.1函数依赖的定义及性质关系模式中的各属性之间相互关联（值相等与否）、相互制约的联系称为数据依赖。数据依赖一般分为函数依赖、多值依赖和连接依赖。其中,函数依赖是最重要的数据依赖。函数依赖（Functi

8、onal Dependency）是关系模式中属性之间的一种逻辑依赖关系。,12,下面给函数依赖的形式化定义。函数依赖的定义定义4.1设关系模式R(U，F)，U是属性全集，F是U上的函数依赖集，X和Y是U的子集，如果对于R(U)的任意一个可能的关系r，对于X的每一个具体值，Y都有唯一的具体值与之对应，则称X决定函数Y，或Y函数依赖于X，记作XY。我们称X为决定因素，Y为依赖因素。当Y不函数依赖于X时，记作：X Y。当XY且YX时，则记作：X Y。对于关系模式SCDU=SNO,SN,AGE,DEPT,MN,CNO,SCOREF=SNOSN，SNOAGE，SNODEPT一个SNO有多个SCORE的值

9、与其对应，因此SCORE不能唯一地确定，即SCORE不能函数依赖于SNO，所以有：SNO SCORE。但是SCORE可以被（SNO，CNO）唯一地确定。所以可表示为：（SNO，CNO）SCORE。,13,有关函数依赖的几点说明：1平凡的函数依赖与非平凡的函数依赖。当属性集Y是属性集X的子集时，存在着函数依赖XY,这种类型的函数依赖称为平凡的函数依赖。如果Y不是X的子集，则称XY为非平凡的函数依赖。若不特别声明，我们讨论的都是非平凡的函数依赖。2函数依赖是语义范畴的概念。我们只能根据语义来确定一个函数依赖，而不能按照其形式化定义来证明一个函数依赖是否成立。例如，对于关系模式S，当学生不存在重名的

10、情况下，可以得到：SNAGESNDEPT这种函数依赖关系，必须是在没有重名的学生条件下才成立的，否则就不存在函数依赖了。所以函数依赖反映了一种语义完整性约束。,14,3函数依赖与属性之间的联系类型有关。（1）在一个关系模式中，如果属性X与Y有1:1联系时，则存在函数依赖XY，YX，即X Y。例如，当学生无重名时，SNO SN。（2）如果属性X与Y有1:m的联系时，则只存在函数依赖XY。例如，SNO与AGE，DEPT之间均为1:m联系，所以有SNOAGE，SNODEPT。（3）如果属性X与Y有m:n的联系时，则X与Y之间不存在任何函数依赖关系。例如，一个学生可以选修多门课程，一门课程又可以为多个

11、学生选修，所以SNO与CNO之间不存在函数依赖关系。由于函数依赖与属性之间的联系类型有关，所以在确定属性间的函数依赖关系时，可以从分析属性间的联系类型入手，便可确定属性间的函数依赖。,15,4.1.2 完全函数依赖与部分函数依赖定义4.2 设关系模式R(U)，U是属性全集，X和Y是U的子集，如果XY，并且对于X的任何一个真子集X,都有X Y，则称Y对X完全函数依赖（Full Functional Dependency），记作 X Y。如果对X的某个真子集X，有XY，则称Y对X部分函数依赖（Partial Functional Dependency），记作X Y。例如，在关系模式SCD中，因为S

12、NO SCORE，且CNO SCORE，所以有：（SNO，CNO）SCORE。而SNOAGE，所以（SNO，CNO）AGE。由定义4.2可知：只有当决定因素是组合属性时，讨论部分函数依赖才有意义，当决定因素是单属性时，只能是完全函数依赖。例如，在关系模式S（SNO，SN，AGE，DEPT），决定因素为单属性SNO，有SNO（SN，AGE，DEPT），不存在部分函数依赖。,16,4.1.3 传递函数依赖定义4.3 设有关系模式R（U），U是属性全集，X，Y，Z是U的子集，若XY，但Y X，而YZ（Y X，Z Y），则称Z对X传递函数依赖（Transitive Functional Depende

13、ncy）。如果YX，则X Y，这时称Z对X直接函数依赖，而不是传递函数依赖。例如，在关系模式SCD中，SNODEPTN，但DEPTN SNO，而传递t DEPTNMN，则有 SNO MN。当学生不存在重名的情况下，有SNOSN，SNSNO，SNO SN，SNDEPTN，这时DEPTN对SNO是直接函数依赖，而不是传递函数依赖。综上所述，函数依赖分为完全函数依赖、部分函数依赖和传递函数依赖三类，它们是规范化理论的依据和规范化程度的准则，下面我们将以介绍的这些概念为基础，进行数据库的规范设计。4.1.4 码候选码、主码、关键字、外部码,17,规范化的基本思想是消除关系模式中的数据冗余，消除数据

14、依赖中的不合适的部分，解决数据插入、删除时发生异常现象。这就要求关系数据库设计出来的关系模式要满足一定的条件。我们把关系数据库的规范化过程中为不同程度的规范化要求设立的不同标准称为范式（Normal Form）,符合某一级别的关系模式的集合。由于规范化的程度不同，就产生了不同的范式。1NF,2NF,3NF,BCNF,4NF,5NF,一级比一级有更严格的要求。各个范式之间的联系可以表示为：5NF 4NF BCNF 3NF 2NF 1NF,4.2 范式,18,图4.3 各种范式之间的关系下面逐一介绍各级范式及其规范化。,19,4.2.1 第一范式第一范式（First Normal Form）是最基

15、本的规范形式，即关系中每个属性都是不可再分的简单项。定义4.4 如果关系模式R，其所有的属性均为简单属性，即每个属性都是不可再分的，则称R属于第一范式，简称1NF，记作R1NF。在第2章讨论关系的性质时，我们把满足这个条件的关系称为规范化关系。在关系数据库系统中只讨论规范化的关系，凡是非规范化的关系模式必须转化成规范化的关系。在非规范化的关系中去掉组合项就能化成规范化的关系。每个规范化的关系都属于1NF，这也是它之所以称为“第一”的原因。,20,然而，一个关系模式仅仅属于第一范式是不适用的。在4.1节中给出的关系模式SCD(SNO,SN,AGE,DEPT,MN,CNO,SCORE)属于第一范式

16、，但其具有大量的数据冗余，具有插入异常、删除异常、更新异常等弊端。为什么会存在这种问题呢？让我们分析一下SCD中的函数依赖关系，它的关系码是（SNO，CNO）的属性组合，所以有：（SNO，CNO）SCORESNOSN，（SNO，CNO）SNSNOAGE，（SNO，CNO）AGESNODEPT，（SNO，CNO）DEPTSNO MN，（SNO，CNO）MN,21,我们可以用函数信赖图表示以上函数依赖关系，如图4.4所示。,由此可见，在SCD中，既存在完全函数依赖，又存在部分函数依赖。这种情况往往在数据库中是不允许的，也正是由于关系中存在着复杂的函数依赖，才导致数据操作中出现了种弊端。克服这些弊端

17、的方法是用投影运算将关系分解，去掉过于复杂的函数依赖关系，向更高一级的范式进行转换。,22,4.2.2 第二范式第二范式的定义定义4.5 如果关系模式R1NF，且每个非主属性都完全函数依赖于R的每个关系码，则称R属于第二范式（Second Normal Form），简称2NF，记作R2NF。在关系模式SCD(SNO,SN,AGE,DEPT,MN,CNO,SCORE)中，SNO，CNO为主属性，AGE，DEPT，MN，CNO，SCORE均为非主属性，经上述分析，存在非主属性对关系码的部分函数依赖，所以SCD不是2NF。将SCD分解成两个关系模式SD(SNO,SN,AGE,DEPT,MN)和SC(

18、SNO,CNO,SCORE)，其中SD的关系码为SNO，单属性，不可能存在部分函数依赖。而对于SC，（SNO，CNO）SCORE。所以SCD分解后，消除了非主属性对关系码的部分函数依赖，SD，SC均属于2NF。,23,经以上分析，可以得到两个结论：1从1NF关系中消除非主属性对关系码的部分函数依赖，则可得到2NF关系。2如果R的关系码为单属性，或R的全体属性均为主属性，则R2NF。,24,2NF的缺点2NF的关系模式解决了1NF中存在的一些问题，2NF规范化的程度比1NF前进了一步，但2NF的关系模式SD在进行数据操作时，仍然存在着一些问题：SD(SNO,SN,AGE,DEPT,MN)1数据冗

19、余。每个系名和系主任的名字存储的次数等于该系的学生人数。2插入异常。当一个新系没有招生时，有关该系的信息无法插入。3删除异常。某系学生全部毕业而没有招生时，删除全部学生的记录也随之删除了该系的有关信息。4更新异常。更换系主任时，仍需改动较多的学生记录。之所以存在这些问题，是由于在SD中存在着非主属性对主码的传递依赖。分析SD中的函数依赖关系，SNOSN，SNOAGE，SNODEPT，DEPTMN，SNO MN，非主属性MN对主码SNO传递依赖。为此，对关系模式SD还需进一步简化，消除这种传递依赖，得到3NF。,25,4.2.3 第三范式第三范式的定义定义4.6 如果关系模式R2NF，且每个非主

20、属性都不传递依赖于R的每个关系码，则称R属于第三范式（Third Normal Form），简称3NF，记作R3NF。第三范式具有如下性质：1如果R3NF，则R也是2NF。2如果R2NF，则R不一定是3NF。3NF规范化3NF规范化是指把2NF关系模式通过投影分解转换成3NF关系模式的集合。和2NF的规范化时遵循的原则相同，即“一事一地”，让一个关系只描述一个实体或者实体间的联系。将SD(SNO,SN,AGE,DEPT,MN)拆分成S(SNO,SN,AGE,DEPT)和D(DEPT,MN),26,1数据冗余降低。系主任的名字存储的次数与该系的学生人数无关，只在关系D中存储一次。2不存在插入异常

21、。当一个新系没有学生时，该系的信息可以直接插入到关系D中，而与学生关系S无关。3不存在删除异常。要删除某系的全部学生而仍然保留该系的有关信息时，可以只删除学生关系S中的相关学生记录，而不影响系关系D中的数据。4不存在更新异常。更换系主任时，只需修改关系D中一个相应元组的MN属性值，从而不会出现数据的不一致现象。SCD规范到3NF后，所存在的异常现象已经全部消失。但是，3NF只限制了非主属性对码的依赖关系，而没有限制主属性对码的依赖关系。如果发生了这种依赖，仍有可能存在数据冗余、插入异常、删除异常和修改异常。这时，则需对3NF进一步规范化，消除主属性对码的依赖关系，为了解决这种问题，Boyce与

22、Codd共同提出了一个新范式的定义，这就是Boyce-Codd范式，通常简称BCNF或BC范式。它弥补了3NF的不足。,27,4.3 关系模式的规范化,到目前为止，规范化理论已经提出了六类范式（有关4NF和5NF的内容不再详细介绍）。各范式级别是在分析函数依赖条件下对关系模式分离程度的一种测度，范式级别可以逐级升高。一个低一级范式的关系模式，通过模式分解转化为若干个高一级范式的关系模式的集合，这种分解过程叫作关系模式的规范化（Normalization）。4.3.1 关系模式规范化的目的和原则一个关系只要其分量都是不可分的数据项，就可称作规范化的关系，但这只是最基本的规范化。这样的关系模式是合

23、法的。但人们发现有些关系模式存在插入、删除、修改异常、数据冗余等弊病。规范化的目的就是使结构合理，消除存储异常，使数据冗余尽量小，便于插入、删除和更新。,28,规范化的基本原则就是遵从概念单一化“一事一地”的原则，即一个关系只描述一个实体或者实体间的联系。若多于一个实体，就把它“分离”出来。因此，所谓规范化，实质上是概念的单一化，即一个关系表示一个实体。4.3.2 关系模式规范化的步骤规范化就是对原关系进行投影，消除决定属性不是候选码的任何函数依赖。具体可以分为以下几步：1对1NF关系进行投影，消除原关系中非主属性对码的部分函数依赖，将1NF关系转换成若干个2NF关系。2对2NF关系进行投影，

24、消除原关系中非主属性对码的传递函数依赖，将2NF关系转换成若干个3NF关系。3对3NF关系进行投影，消除原关系中主属性对码的部分函数依赖和传递函数依赖，也就是说使决定因素都包含一个候选码。得到一组BCNF关系。,29,关系规范化的基本步骤如图4.5所示。,图4.5 规范化过程,一般情况下，我们说没有异常弊病的数据库设计是好的数据库设计，一个不好的关系模式也总是可以通过分解转换成好的关系模式的集合。但是在分解时要全面衡量，综合考虑，视实际情况而定。对于那些只要求查询而不要求插入、删除等操作的系统，几种异常现象的存在并不影响数据库的操作。这时便不宜过度分解，否则当要对整体查询时，需要更多的多表连接

25、操作，这有可能得不偿失。在实际应用中，最有价值的是3NF和BCNF，在进行关系模式的设计时，通常分解到3NF就足够了。,30,4.3.2 关系模式规范化的要求关系模式的规范化过程是通过对关系模式的投影分解来实现的，但是投影分解方法不是唯一的，不同的投影分解会得到不同的结果。在这些分解方法中，只有能够保证分解后的关系模式与原关系模式等价的方法才是有意义的。下面先给出两个定义：无损连接性（Lossless Join）：设关系模式R(U，F)被分解为若干个关系模式R1(U1，F1)，R2(U2，F2)，,Rn(Un，Fn)，其中U=U1U2Un，且不存在UiUj式，Fi为F在Uj上的投影，如果R与R

26、1，R2，Rn自然连接的结果相等，则称关系模式R的分解具有无损连接性。函数依赖可以保证关系分解的无损连接性。函数依赖保持性（Preserve Dependency）：设关系模式R(U，F)被分解为若干个关系模式R1(U1，F1)，R2(U2，F2)，,Rn(Un，Fn)，其中U=U1U2Un，且不存在Ui Uj式，Fi为F在Uj上的投影，如果F所蕴含的函数依赖一定也由分解得到的某个关系模式中的函数依赖Fi所蕴含，则称关系模式R的分解具有函数依赖保持性。,31,判断对关系模式的一个分解是否与原关系模式等价可以有三种不同的标准：1分解要具有无损连接性。2分解要具有函数依赖保持性。3分解既要具有无损

27、连接性，又要具有函数依赖保持性。规范化理论提供了一套完整的模式分解方法，按照这套算法可以做到：如果要求分解既具有无损连接性，又具有函数依赖保持性，则分解一定能够达到3NF，但不一定能够达到BCNF。所以在3NF的规范化中，既要检查分解是否具有无损连接性，又要检查分解是否具有函数依赖保持性。只有这两条都满足，才能保证分解的正确性和有效性，才既不会发生信息丢失，又保证关系中的数据满足完整性约束。,32,例1 考察一个学生选修课程的关系 SC1由于课程属性的值是可分解的故SC1 1NF解决办法：将课程属性的值拆开，形成如下关系形式：SC2,33,例2 考察关系模式：A(学号，姓名，班级编号，班主任，

28、课程编号，课程名称，课时，成绩)A中有以下函数依赖关系：(学号，课程编号)成绩学号姓名学号班级编号学号班主任课程编号课程名称课程编号课时这些非主属性中，只有成绩属性是完全函数依赖于码，其它属性由于只依赖于学号属性或课程编号，故都是部分函数依赖于码，因此A 2NF。正是这种部分函数依赖，造成了当50个学生选修同一门课程时，课程的编号、名称、课时等信息被重复了50次。,34,要将关系的范式等级从1NF提升到2NF，需消除非主属性对码的部分函数依赖，解决的方法是将一个关系分解成两个或两个以上的新关系。将关系A分解成下面三个关系模式：B(学号，课程编号，成绩)C(课程编号，课程名称

29、，课时)D1(学号，姓名，班级编号，班主任)这三个关系模式中不存在部分函数依赖，故均为第二范式。分解后得到的关系模式B和C中不存在传递依赖，它们均属于3NF。而关系模式D1(学号，姓名，班级编号，班主任)中，有以下函数依赖关系：学号班级编号班级编号班主任即属性班主任传递依赖于码(学号)。因此关系D1 3NF。,35,存在问题：若某班有50名学生，班主任的信息要重复50遍，若更换班主任，必须修改50个元组。解决的办法：将D1分解成 D(学号，姓名，班级编号)E(班级编号，班主任)这两个关系模式不存在传递依赖了，它们均为第三范式。,36,小结,在这一章，我们首先由关系模式的存储异常问题引

30、出了函数依赖的概念，其中包括完全函数依赖、部分函数依赖和传递函数依赖，这些概念是规范化理论的依据和规范化程度的准则。规范化就是对原关系进行投影，消除决定属性不是候选码的任何函数依赖。一个关系只要其分量都是不可分的数据项，就可称作规范化的关系，也称作1NF。消除1NF关系中非主属性对码的部分函数依赖，得到2NF，消除2NF关系中非主属性对码的传递函数依赖，得到3NF，消除3NF关系中主属性对码的部分函数依赖和传递函数依赖，便可得到一组BCNF关系。在规范化过程中，逐渐消除存储异常，使数据冗余尽量小，便于插入、删除和更新。规范化的基本原则就是遵从概念单一化“一事一地”的原则，即一个关系只描述一个实体或者实体间的联系。规范化的投影分解方法不是唯一的，对于3NF的规范化，分解既要具有无损连接性，又要具有函数依赖保持性。,37,思考题:关系规范化现有一张二维表,表中班号、学号、课号和课名具有唯一性，即分别唯一标识一个班、一个学生和一门课程。请将上述二维表逐步规范化成为满足第三范式的一组关系。,