《应用关联规则》PPT课件.ppt

上传人:小飞机 文档编号:5505641 上传时间:2023-07-14 格式:PPT 页数:29 大小:266.49KB
返回 下载 相关 举报
《应用关联规则》PPT课件.ppt_第1页
第1页 / 共29页
《应用关联规则》PPT课件.ppt_第2页
第2页 / 共29页
《应用关联规则》PPT课件.ppt_第3页
第3页 / 共29页
《应用关联规则》PPT课件.ppt_第4页
第4页 / 共29页
《应用关联规则》PPT课件.ppt_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《《应用关联规则》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《应用关联规则》PPT课件.ppt(29页珍藏版)》请在三一办公上搜索。

1、关联规则应用,1 关联规则,设I=I1,I2,Im是一组数据项集合,D是与任务相关的数据集合,也称为交易数据库。其中每个交易T是一个数据项子集,TI。关联规则是如下形式的一种蕴含:A B,表示 If conditions then result 其中AI,BI,且AB=。一般用支持度、可信度、期望可信度、作用度4个参数来描述一个关联规则的属性。,可信度:在属性集A出现的前提下,B出现的 概率P(B|A)支持度:属性集A,B同时出现的概率P(AB)期望可信度:属性集B出现的概率P(B)作用度:可信度对期望可信度的比值 P(B|A)/P(B),可信度是对关联规则准确度的衡量,支持度是对关联规则重要

2、性的衡量。显然,支持度越大,关联规则越重要。有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。作用度描述属性集A的出现对属性集B的出现有多大影响。作用度越大,说明属性集B受属性集A的影响越大。一般情况,有用的关联规则的作用度都应大于1,只有关联规则的可信度大于期望可信度,才说明A的出现对B的出现有促进作用,也说明了它们之间某种程度的相关性,如果作用度不大于1,则此关联规则就没有意义。,2 关联规则算法(Apriori算法),2.1 概念介绍项集:一个数据项的集合;K项集:一个包含k个数据项的项集;项集频度:整个交易数据库D中,包含该项集的交易记录数,也称为

3、该项集的支持度。频繁项集:满足最小支持度的项集。若一个项集的出现频度大于最小支持度阈值乘以交易记录集D中的记录数,就称该项集满足最小支持度阈值;满足最小支持度阈值所对应的交易记录数称为最小支持频度。,返回,2.2 Apriori算法,Apriori算法是一个基于两阶段频繁项集的数据挖掘方法,将关联规则挖掘算法分为两部分:一是找到所有支持度大于最小支持度的项集,称为频繁项集,二是使用第一步找到的频繁项集产生期望规则.Apriori算法的性质:如果一个项集是频繁的,则它的所有子集也是频繁的。首先,给定最小支持度及最小可信度。,返回,第一步:找频繁项集,由数据库读入所有的交易,得出候选单项集的支持度

4、,再找出频繁单项集,并利用这些频繁单项集的结合,产生候选2项集,若候选2项集的支持度大于或等于最小支持度,则该候选项集为频繁项集,即为频繁2项集,并利用频繁2项集的结合,产生候选3项集,若候选3项集的支持度大于或等于最小支持度,则该候选项集为频繁3项集,并利用高频3项集的结合,产生候选4项,最后产生频繁多项集,再结合产生下一级候选项集,直到新产生的候选项集的支持度小于给定的最小支持度,则不再结合产生新的候选项集,算法结束。,第二步:由频繁项集产生期望规则,(1)对于每个频繁项集L,产生L的所有非空子集;(2)对于L的每个非空子集S,如果其可信度大 于最小可信度,则输出规则”sL-s”,(一)A

5、priori 算法在学生成绩分析中的应用研究,学生的各科考试成绩一直以来作为国内各高等院校评价学生学业以及综合素质的重要指标,各高校经过长期的积累都储存了大量的学生成绩信息,但对成绩的分析处理一般还停留在简单的查询和统计阶段,例如统计优、良、及格、不及格等级别的人数以及计算平均成绩、标准差等指标,而对于学生取得这些成绩与课程之间的关系有无关联往往没有深入了解。如果能够合理开发利用这些数据,找到课程之间的相关关系对学生成绩的影响,必将对课程的设置与安排具有重大的指导意义。,1 研究对象,以沈阳农业大学01届计算机专业学生在校四年的学习成绩作为数据源,选取成绩数据库中计算机网络、外语、工科高数、计

6、算机基础、操作系统等8门课程作为研究对象,挖掘出某门课程对于其他课程的影响程度,为教务人员以后安排课程提供参考,为学生选课提供指导。,2 数据预处理,2.1 数据清理 原始数据库中包含全校各个专业、各个年级、各门课程的所有成绩,某些记录难免会有一些差错或者从经验上看没有关联,为了便于进行数据挖掘,只选取01 届计算机专业学生的计算机网络等8门课程成绩作为挖掘对象,去掉所有其他不必要的字段,删除空白以及数据有缺失的记录。清理后的数据表部分数据如图1 所示。,图1 原始数据表,2.2 数据转换,学生成绩是以数值形式表示的,不便于进行数据挖掘,因此对各科成绩进行离散化处理,即转换为优、良、中、及格、

7、不及格5个等级。大于90分的为“优”,8090 分之间的为“良”,7080 分之间的为“中”,6070 分之间的为“及格”,小于60 分的为“不及格”。“优、良、中、及格、不及格”5个等级分别用数字“1、2、3、4、5”表示,用“A”表示计算机网络,“B”表示数据结构,“C”表示计算机基础,“D”表示外语,以此类推。将各科目字段设置为字符型,转换后的数据表部分数据如图2所示。,图2 转换后数据表,3 研究方法,32 Apriori 算法应用用宽度优先的迭代搜索方法,首先找出频繁1-项集L1,用L1查找频繁2-项集L2,以此类推,直到求出所有的频繁项目集。若发现某频繁项集的数目为零,则停止计算。

8、最后,输出所有项目的频繁集。在该程序中依然运用了Apriori 算法的性质:如果一个项集是频繁的,则它的所有子集也是频繁的。设最小支持度为0.3,产生频繁项目集56个,从产生的频繁项集中确定它们的子集,然后根据关联规则挖掘算法原理,设最小可信度为0.6,由程序得出关联规则18个,部分规则如表1 所示。,4 结果与分析,规则1说明,数据结构成绩在8090 分之间,高级语言程序设计成绩也在8090分之间的支持度为66.8%,置信度为89.2%,说明学好数据结构课程对学好高级语言课程起到关键作用,以后安排课程时可以将数据结构安排在前,教师授课中要督促学生学好这门课程,打好基础。规则3 说明外语成绩在

9、7080 分之间,高级语言程序设计成绩在8090 分之间的支持度为61.6%,置信度为79.8%,规则4 说明计算机基础成绩在7080 分之间,高级语言程序设计在8090 分之间的支持度为72.6%,置信度为85.7%;这两个规则表示公共基础课程外语和计算机基础对学好计算机专业课也很重要,同时可以看出计算机基础成绩和外语成绩相对偏低,需要引起重视。,规则5 说明数据库原理成绩在8090 分之间,计算机网络也在8090分之间的支持度为58.4%,置信度为76.5%,规则6 说明高级语言程序设计在8090 分之间,计算机网络也在8090 分之间的支持度为56.9%,置信度为83.4%,这两个规则虽

10、然可信度和置信度都较高,但实际究竟有无关联需要深入探讨。规则2 说明计算机基础成绩在7080 分之间,工科高数在8090 分之间的支持度为55.8%,置信度为87.2%,虽然可信度和置信度都达到了要求,但根据实际经验,两者并无直接关联,实际工作中可以不予考虑。其他规则同样如此,需要决策者根据实际情况具体研究,有分析地借鉴参考。,5 结语,高等学校学生信息量巨大,运用关联规则挖掘算法进行数据挖掘,能够得到很多有价值的信息,挖掘出的规则对教务人员以及教师具有重大意义。举一反三,如果从其他信息中能够挖掘出更多的规则,例如个人成绩与班级、专业之间的关系;个人成绩与家庭、地域之间的关系等,必然对教学工作

11、起到积极的指导作用。,Apriori算法的应用,例:假设数据项集合I=I1,I2,I3,I4,I5共有5个数据项,表1给出含有这5个数据项的9条交易数据库,第一列是交易数据的标识号,第二列是交易数据所包含的项目,假定最小支持度是2,最小可信度为50%,求最大频繁项目集及其期望规则.,表1 交易数据集,注:支持度=项集频度,选择有且只有一个相同元素的两个2_项频繁集进行连接,生成3_项候选集是I1,I2,I3,I1,I2,I5,I1,I3,I5,I2,I3,I4,I2,I3,I5,I2,I4,I5,I1,I2,I4,如果一个项集是频繁的,则它的所有子集也是频繁的。所以只考虑I1,I2,I3,I1

12、,I2,I5.,生成4_项候选集是I1,I2,I3,I5,而I2,I3,I5不是频繁集,所以不存在4_项频繁集.从两个最大频繁集I1,I2,I3和I1,I2,I5,可推出侯选关联规则,再从侯选关联规则中选出大于最小可信度的关联规则即为期望的规则.,从最大频繁项集中可得候选关联规则,大于最小可信度的为关联规则(*),同理,从六个2_项频繁集可推出侯选关联规则,再从侯选关联规则中选出大于最小可信度的关联规则即为期望的规则.,SQL Server 2005:最低支持:此参数是关联规则的最小支持,低于此值的对象组将会被过滤;最小项集大小:项集的对象数低于此值将会被过滤;最小概率:此参数是关联规则的最小可信度,低于此值的规则将会被过滤;最低重要性:此参数是关联规则的作用度,通过对数的方式来取得,大于零,指标越大,规则越显著,小于零,指标越小.,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号