数据仓库与数据挖掘教程(第2版)课后习题答案 第八章.doc

上传人:laozhun 文档编号:2396168 上传时间:2023-02-17 格式:DOC 页数:9 大小:76KB
返回 下载 相关 举报
数据仓库与数据挖掘教程(第2版)课后习题答案 第八章.doc_第1页
第1页 / 共9页
数据仓库与数据挖掘教程(第2版)课后习题答案 第八章.doc_第2页
第2页 / 共9页
数据仓库与数据挖掘教程(第2版)课后习题答案 第八章.doc_第3页
第3页 / 共9页
数据仓库与数据挖掘教程(第2版)课后习题答案 第八章.doc_第4页
第4页 / 共9页
数据仓库与数据挖掘教程(第2版)课后习题答案 第八章.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《数据仓库与数据挖掘教程(第2版)课后习题答案 第八章.doc》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘教程(第2版)课后习题答案 第八章.doc(9页珍藏版)》请在三一办公上搜索。

1、 第七章作业说明等价关系、等价类以及划分的定义。等价关系:对于aA(A中包含一个或多个属性),AR,xU,yU,他们的属性值相同,即fa(x)=fb(y)成立,称对象x和y是对属性A的等价关系。等价类:在U中,对属性集A中具有相同等价关系的元素集合成为等价关系IND(A)的等价类。划分:在U中对属性A的所有等价类形成的划分表示为A=Ei | Ei=xia,i=1,2, 说明集合X的上、下近似关系定义。下近似定义:任一一个子集XU,属性A的等价类Ei=xA ,有:A-(X)=UEi|EiAEiX 或A-(X)=x|xAX 表示等价类Ei=xA中的元素x都属于X,即xA-(X),则x一定属于X。上

2、近似定义:任一一个子集XU,属性A的等价类Ei=xA ,有:A-(X)=UEi|EiAEiX 或A-(X)=x|xAX 表示等价类Ei=xA中的元素x可能属于X,即xA-(X),则x可能属于X,也可能不属于X。说明正域、负域和边界的定义。全集U可以划分为三个不相交的区域,即正域(pos),负域(neg)和边界(bnd):POSA(X)= A-(X)NEGA(X)=U- A-(X)BNDA(X) = A-(X)-A-(X)4.粗糙集定义:若 ,即 , 即边界为空,称X为A的可定义集;否则X为A不可定义的,即 ,称X为A的Rough集(粗糙集)确定度定义:其中和分别表示集合U、()中的元素个数5.

3、在信息表中根据等价关系,我们可以用等价类中的一个对象(元组)来代表整个等价类,这实际上是按纵方向约简了信息表中数据。对信息表中的数据按横方向进行约简就是看信息表中有无冗余的属性,即去除这些属性后能保持等价性,使对象分类能力不会下降。约减后的属性集称为属性约减集。6.属性集A的所有约简的交集称为A的核。记作 Core(A)是A中为保证信息表中对象可精确定义的必要属性组成的集合,为A中不能约简的重要属性,它是进行属性约简的基础。 7表6.3中,定义类别第一类人和第二类人为决策属性,身高、头发、眼睛为条件属性,身高为a,头发为b,眼睛为c,类别d。C=a,b,c,D=dIND(C)=1,2,3,4,

4、5,6,7,8,9IND(D)=1,2,3,4,5,6,7,8,9Pos C(D)=UIND(Ca)=1,3,2,4,5,9,6,7,8IND(Cb)=1,6,2,3,7,4,5,8,9IND(Cc)=1,4,9,2,3,5,6,7,8Pos (Ca) (D)=UPos (Cb) (D)=4,5,8,9Pos (Cc) (D)=2,6,7,8IND(Cb,c)(D)=1,4,6,9,2,3,5,7,8Pos ()(Cb,c)(D)=空集所以red D(C)=a,b,a,c8条件属性C和决策属性D之间的依赖度r(C,D)=|Pos C(D)| / |U|其中|Pos C(D)|表示正域Pos C

5、(D)的元素个数,|U|表示整个对象集合的个数。9依赖度r(C,D)的性质:若r=1,意味着IND(C) IND(D),即在已知条件C下,可将U上全部个体准确分类到决策属性D的类别中去,即D完全依赖于C。若0r1,则称D部分依赖于C,即在已知条件下,只能将U上那些属于正域的个体分类到决策属性D的类别中去。若r=0,则称D完全不依赖于C,即利用条件C不能分类到D的类别中去。10.属性a的重要度SGF(a、C、D)的含义是什么?答:属性重要度的定义:C、D包含A C为条件属性集,D为决策属性集,a属于a关于D的重要度定义为 SGF(a,C, D)=r(C,D)-r(C-a,D)其中r(C-a,D)

6、表示在C中缺少属性a后,条件属性与决策属性的依赖程度SGF(a、C、D)表示C中缺少属性a后,导致不能被准确分类的对象在系统中所占的比例。(2)SGF(a、C、D)性质。 1,SGF(a、C、D)0,1。2,若SGF(a、C、D)=0,表示属性a关于D是可省的,因为从属性集中去除属性a后,C-a中的消息,原来可以被准确分类为所有的对象仍可以能准确的划分到决策类中去。3. SGF(a、C、D)0,表示属性a关于D是不可省的。因为属性集C中去除属性a后,某些原来可以被准确分类的对象再不能准确划分。11.最小属性集的概念是什么?答:设C, D分别是信息系统S的条件集和决策属性集,属性集P(P是C的子

7、集)是C的一个最小属性集,当且仅当r(P,D)=r(C,D)并且P包含,P,r(P,D)r(P,D),说明若P是C的最小属性集,则P具有与C同样的区分决策的能力。 需要注意的是,C的属性集一般不是唯一的,而要找到所有的最小属性集是以个NP问题。在大多数应用中,没有必要找到所有的最小属性集。用户可以根据不同的原则来选择一个他认为最好的最小属性集。12、在数据库中获得最小属性集的步骤是什么?答:在数据库中根据决策属性将一组对象划分为各不相交的等价集,通过条件属性来决定每一个决策类,并产生每一个类的判定规则,对每个判断规则进行精简,得到具有全部条件属性区分决策属性所划分的决策类能力的集合。13、如何

8、利用集合之间的上下近似关系获得规则?答:设U中有两个划分C=Ei和D=Yj,把C视为分类条件,把D视为分类结论,(1)当EiYj时,有ij:Des(Ei)Des(Yj), Des(Ei)和Des(Yj)分别为Ei和Yj中的特征描述。当EiYj=Ei即下近似时,建立的规则ij是确定的,规则的可信度cf=1;当EiYjEi即上近似,建立的规则ij是不确定的,规则的可信度cf=(2)当EiYj=时,Ei和Yj不能建立规则;14、按照聚类的原理和方法划分有哪三种聚类算法?各种聚类算法的思想是什么?答:按聚类的原理和方法划分,可分为层次聚类、划分聚类和基于密度的聚类;层次聚类:递归地对对象进行合并或分裂

9、直至满足某终止条件;划分聚类:给定聚类数目k和目标函数F,将D划分为k个类,是目标函数在此划分下达最优,即把聚类问题过转换为一个组合最优问题,从一个初始划分开始,利用迭代控制策略优化目标函数;基于密度的聚类:单位体积内点的个数为该点的密度,根据空间密度的差别,把具有相似密度的点作为聚类。15K-均值聚类算法的计算步骤:首先随机地选取k个初始聚类中心,并把每个对象分配给离他最近的中心,从而得到一个初始聚类;然后,计算出当前每个聚类的重心作为新的聚类中心,并把每个对象重新分配到最近的中心;如果新的聚类的质量优于原先的聚类,则用新聚类代替原聚类。循环执行这一过程直至聚类质量不再提高为止。16规则的支

10、持度和可信度是什么?规则的支持度:规则AB在数据库D中具有支持度S,表示S是D中事物同时包含AB的百分比,它是概率P(AB)。规则的可信度:规则AB具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A项集的百分比,这是条件概率P(B|A)。17.关联规则的兴趣度定义是什么?说明兴趣度的作用。兴趣度为I(AB)=P(AB)/P(A)P(B)公式反应了项集A与项集B的相关程度。在兴趣度的使用中,一条规则的兴趣度越大于1说明我们对规则越感兴趣(即其实际利用价值越大);一条规则的兴趣度越小于1说明我们对这条规则的反面规则感兴趣(即其反面规则的实际利用价值越大);显然,兴趣度I不小于0。18

11、.使用apriori算法找出所有的频繁项目集。假定最小事务支持计数为2 Min-sup=2/4=0.5C1候选集:A支持度2 ,B支持度3,C支持度3,D支持度1,E支持度3D不是频繁项集L1 1-项集 A支持度2 ,B支持度3,C支持度3, E支持度3C2候选集:A,B支持度1, A,C支持度2, A,E支持度1, B,C支持度2,B,E支持度3, C,E支持度2A,B、A,E不是频繁项集L2频繁2-项集:A,C支持度2, B,C支持度2,B,E支持度3, C,E支持度2C3候选集: B,C,E=2L3频繁3-项集:B,C,E=2算法终止,L3是最大频繁项集19.实现apriori算法,说明

12、apriori算法的主要系统开销在哪里?(1)可能产生大量的候选集。当长度为1的频繁集有10000个的时候,长度为2候选集个数将会超过10M。还有就是如果要产生一个很长的规则的时候,要产生的中间元素也是巨大的。(2)必须多次重复扫描数据库,对候选集进行模式匹配,因此效率低下。20 L1频繁1-项集:项集ABCDE支持度计数23313L2频繁2-项集项集A,CA,DC,DB,CB,EC,EA,BA,E支持度计数21123211L3频繁3-项集项集A,C,DA,B,CA,C,EB,C,E支持度计数1112L4频繁4-项集项集A,B,C,E支持度计数1差异:随着最小支持度的逐渐减小,Apriori算

13、法的性能急剧降低,而FP-树算法的性能相对稳定,所需时间没有发生突变的增加,FP-树算法比Apriori算法快一个数量级,且FP-树算法对不同长度的规则都有很好的适应性。21,计算过程:第一个事物:“T0:e”只有一个事物,从L表中节点链中,项e的指针指向树中节点e,且e的计数为1,即e:1。第二个事物“T1:a,c,g,i”包含四个事物,具有四个分支,其中a为根节点,c链接到a,i链接到c,g链接到i,且计数均为1,从L表中节点链中,项,a,c,g,i的指针分别指向树中的a,c,i,g节点,因为不包含e事物,所以从R节点产生一个新分支指向a。第三个事物“T2:d,h”因为最小支持度为20%,

14、所以只有一个事物d,计数为1,因为不包含事物e,所以从R产生一个新分支指向d,从L表中节点链中,项d的指针指向树中的d节点。第四个事物“T3:b,d”因为最小支持度为20%,所以只有一个事物d,从L表中节点链中,项d的指针指向树中的d节点,d计数加1.即d:2.第五个事物“T4:d,e”包含两个事物,节点e计数加1,即e:2,,节点d链接到e,即d:1,因为已存在d:2,则有d:2指向d:1.第六个事物“T5:a,c,e,i”包含四个事物,节点e计数加1,即e:4,a链接到e,因为已存在节点a:1,所以节点a:1指向a,a计数为1,即a:1,c连接到a,i链接到c,c:1,i:1分别指向c,i

15、。c,i计数加1,即c:1,i:1.第七个事物“T6:a,c,e,f,i”因为最小支持度,所以只有四个事物,则a链接到e,c链接到a,i链接到c,e,a,c,i计数分别加1,即e:4,a:2,c:2,i:2.第八个事物“T7:a,e,g”包含三个事物,则a链接到e,g链接到a,e,a,g计数分别加1,即e:5,a:3,g:1,因为已存在g:1,所以有g:1指向新节点g:1.第九个事物“T8:a,c,e,i”包含四个事物,则a链接到e,c链接到a,i链接到c,e,a,c,i计数分别加1,即e:6,a:4,c:3,i:3.第十个事物“T9:c,e,g”包含三个事物,则产生一条新分支,a链接到e,g

16、链接到a,e,c,g计数分别加1,即e:7,c:1,g:1.因为已存在节点c:3,g:1,所以节点c:3指向新节点c:1,节点g:1指向新节点g:1.22.对上题得出的频繁项集,求出关联规则。答:不懂。23.集合论原理用于分类问题的思想是什么?答:集合论原理用于分类问题时,主要是利用集合之间的覆盖关系,构成规则知识。24.集合论原理集合论或集论是研究集合由一堆抽象物件构成的整体)的数学理论,包含了集合、元素和成员关系等最基本的数学概念。在大多数现代数学的公式化中,集合论提供了要如何描述数学物件的语言。集合论和逻辑与一阶逻辑共同构成了数学的公理化基础,以未定义的“集合”与“集合成员”等术语来形式

17、化地建构数学物件。用于解决聚类问题时,主要是按数据集中元素间的距离远近或者是相似度的大小聚集成多个类别集合。25. 关联规则是形如XY的蕴涵式,其中且, X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。集合论原理用于关联规则挖掘是计算数据项集在整个集合中和相关集合中所占的比例,大于阈值时构成数据项之间关联规则。我的大学爱情观目录:一、 大学概念二、 分析爱情健康观三、 爱情观要三思四、 大学需要对爱情要认识和理解五、 总结1、什么是大学爱情:大学是一个相对宽松,时间自由,自己

18、支配的环境,也正因为这样,培植爱情之花最肥沃的土地。大学生恋爱一直是大学校园的热门话题,恋爱和学业也就自然成为了大学生在校期间面对的两个主要问题。恋爱关系处理得好、正确,健康,可以成为学习和事业的催化剂,使人学习努力、成绩上升;恋爱关系处理的不当,不健康,可能分散精力、浪费时间、情绪波动、成绩下降。因此,大学生的恋爱观必须树立在健康之上,并且树立正确的恋爱观是十分有必要的。因此我从下面几方面谈谈自己的对大学爱情观。2、什么是健康的爱情:1) 尊重对方,不显示对爱情的占有欲,不把爱情放第一位,不痴情过分;2) 理解对方,互相关心,互相支持,互相鼓励,并以对方的幸福为自己的满足; 3) 是彼此独立

19、的前提下结合;3、什么是不健康的爱情:1)盲目的约会,忽视了学业;2)过于痴情,一味地要求对方表露爱的情怀,这种爱情常有病态的夸张;3)缺乏体贴怜爱之心,只表现自己强烈的占有欲;4)偏重于外表的追求;4、大学生处理两人的在爱情观需要三思:1. 不影响学习:大学恋爱可以说是一种必要的经历,学习是大学的基本和主要任务,这两者之间有错综复杂的关系,有的学生因为爱情,过分的忽视了学习,把感情放在第一位;学习的时候就认真的去学,不要去想爱情中的事,谈恋爱的时候用心去谈,也可以交流下学习,互相鼓励,共同进步。2. 有足够的精力:大学生活,说忙也会很忙,但说轻松也是相对会轻松的!大学生恋爱必须合理安排自身的

20、精力,忙于学习的同时不能因为感情的事情分心,不能在学习期间,放弃学习而去谈感情,把握合理的精力,分配好学习和感情。3、 有合理的时间;大学时间可以分为学习和生活时间,合理把握好学习时间和生活时间的“度”很重要;学习的时候,不能分配学习时间去安排两人的在一起的事情,应该以学习为第一;生活时间,两人可以相互谈谈恋爱,用心去谈,也可以交流下学习,互相鼓励,共同进步。5、大学生对爱情需要认识与理解,主要涉及到以下几个方面:(一) 明确学生的主要任务“放弃时间的人,时间也会放弃他。”大学时代是吸纳知识、增长才干的时期。作为当代大学生,要认识到现在的任务是学习学习做人、学习知识、学习为人民服务的本领。在校

21、大学生要集中精力,投入到学习和社会实践中,而不是因把过多的精力、时间用于谈情说爱浪费宝贵的青春年华。因此,明确自己的目标,规划自己的学习道路,合理分配好学习和恋爱的地位。(二) 树林正确的恋爱观提倡志同道合、有默契、相互喜欢的爱情:在恋人的选择上最重要的条件应该是志同道合,思想品德、事业理想和生活情趣等大体一致。摆正爱情与学习、事业的关系:大学生应该把学习、事业放在首位,摆正爱情与学习、事业的关系,不能把宝贵的大学时间,锻炼自身的时间都用于谈情说有爱而放松了学习。 相互理解、相互信任,是一份责任和奉献。爱情是奉献而不时索取,是拥有而不是占有。身边的人与事时刻为我们敲响警钟,不再让悲剧重演。生命

22、只有一次,不会重来,大学生一定要树立正确的爱情观。(三) 发展健康的恋爱行为 在当今大学校园,情侣成双入对已司空见惯。抑制大学生恋爱是不实际的,大学生一定要发展健康的恋爱行为。与恋人多谈谈学习与工作,把恋爱行为限制在社会规范内,不致越轨,要使爱情沿着健康的道路发展。正如马克思所说:“在我看来,真正的爱情是表现在恋人对他的偶像采取含蓄、谦恭甚至羞涩的态度,而绝不是表现在随意流露热情和过早的亲昵。”(四) 爱情不是一件跟风的事儿。很多大学生的爱情实际上是跟风的结果,是看到别人有了爱情,看到别人幸福的样子(注意,只是看上去很美),产生了羊群心理,也就花了大把的时间和精力去寻找爱情(五) 距离才是保持

23、爱情之花常开不败的法宝。爱情到底需要花多少时间,这是一个很大的问题。有的大学生爱情失败,不是因为男女双方在一起的时间太少,而是因为他们在一起的时间太多。相反,很多大学生恋爱成功,不是因为男女双方在一起的时间太少,而是因为他们准确地把握了在一起的时间的多少程度。(六) 爱情不是自我封闭的二人世界。很多人过分的活在两人世界,对身边的同学,身边好友渐渐的失去联系,失去了对话,生活中只有彼此两人;班级活动也不参加,社外活动也不参加,每天除了对方还是对方,这样不利于大学生健康发展,不仅影响学习,影响了自身交际和合作能力。总结:男女之间面对恋爱,首先要摆正好自己的心态,树立自尊、自爱、自强、自重应有的品格,千万不要盲目地追求爱,也不宜过急追求爱,要分清自己的条件是否成熟。要树立正确的恋爱观,明确大学的目的,以学习为第一;规划好大学计划,在不影响学习的条件下,要对恋爱认真,专一,相互鼓励,相互学习,共同进步;认真对待恋爱观,做健康的恋爱;总之,我们大学生要树立正确的恋爱观念,让大学的爱情成为青春记忆里最美的风景,而不是终身的遗憾!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号