基于规则的分类器.ppt

上传人:牧羊曲112 文档编号:6262666 上传时间:2023-10-11 格式:PPT 页数:31 大小:286.50KB
返回 下载 相关 举报
基于规则的分类器.ppt_第1页
第1页 / 共31页
基于规则的分类器.ppt_第2页
第2页 / 共31页
基于规则的分类器.ppt_第3页
第3页 / 共31页
基于规则的分类器.ppt_第4页
第4页 / 共31页
基于规则的分类器.ppt_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《基于规则的分类器.ppt》由会员分享,可在线阅读,更多相关《基于规则的分类器.ppt(31页珍藏版)》请在三一办公上搜索。

1、数据挖掘,1,第十九讲 基于规则的分类器,主讲:王彦,2023/10/11,数据挖掘,2,基于规则的分类器,使用一组“ifthen”规则进行分类规则:(Condition)y其中 Condition 是属性测试的合取 y 是类标号左部:规则的前件或前提右部:规则的结论分类规则的例子:(胎生=否)(飞行动物=是)鸟类,2023/10/11,数据挖掘,3,基于规则的分类器:例,脊椎动物数据集,2023/10/11,数据挖掘,4,基于规则的分类器的使用,规则 r 覆盖 实例 x,如果该实例的属性满足规则r的条件r1:(胎生=否)(飞行动物=是)鸟类r2:(胎生=否)(水生动物=是)鱼类r3:(胎生=

2、是)(体温=恒温)哺乳类r4:(胎生=否)(飞行动物=否)爬行类r5:(水生动物=半)两栖类规则r1覆盖“鹰”=鸟类规则r3 覆盖“灰熊”=哺乳类,2023/10/11,数据挖掘,5,规则的质量,用覆盖率和准确率度量规则的覆盖率(coverage):满足规则前件的记录所占的比例规则的准确率(accuracy):在满足规则前件的记录中,满足规则后件的记录所占的比例规则:(Status=Single)No Coverage=40%,Accuracy=50%,Tid,Refund,Marital,Status,Taxable,Income,Class,1,Yes,Single,125K,No,2,N

3、o,Married,100K,No,3,No,Single,8,No,Single,85K,Yes,9,No,Married,75K,No,10,No,Singl,e,90K,Yes,10,2023/10/11,数据挖掘,6,如何用规则分类,一组规则r1:(胎生=否)(飞行动物=是)鸟类r2:(胎生=否)(水生动物=是)鱼类r3:(胎生=是)(体温=恒温)哺乳类r4:(胎生=否)(飞行动物=否)爬行类r5:(水生动物=半)两栖类待分类记录狐猴触发规则 r3,它分到哺乳类海龟触发规则r4和 r5-冲突狗鲨未触发任何规则,2023/10/11,数据挖掘,7,规则的分类器的特征,互斥规则集每个记录最

4、多被一个规则覆盖如果规则都是相互独立的,分类器包含互斥规则如果规则集不是互斥的一个记录可能被多个规则触发如何处理?有序规则集基于规则的序 vs 基于类的序 无序规则集 使用投票策略,2023/10/11,数据挖掘,8,规则的分类器的特征,穷举规则集每个记录至少被一个规则覆盖如果规则集涵盖了属性值的所有可能组合,则规则集具有穷举覆盖如果规则集不是穷举的一个记录可能不被任何规则触发如何处理?使用缺省类,有序规则集,根据规则优先权将规则排序定秩(rank)有序规则集又成决策表(decision list)对记录进行分类时由被触发的,具有最高秩的规则确定记录的类标号如果没有规则被触发,则指派到缺省类,

5、2023/10/11,数据挖掘,10,规则的排序方案,基于规则的序根据规则的质量排序基于类的序属于同一类的规则放在一起基于类信息(如类的分布、重要性)对每类规则排序,2023/10/11,数据挖掘,11,如何建立基于规则的分类器,直接方法:直接由数据提取规则把属性空间分为较小的子空间,以便于属于一个子空间的所有记录可以使用一个分类规则进行分类间接方法:由其他分类模型提取规则(例如,从决策树、神经网络等)例如:C4.5rules,2023/10/11,数据挖掘,12,规则提取的直接方法:顺序覆盖,基本思想依次对每个类建立一个或多个规则对第i类建立规则第i类记录为正例,其余为负例建立一个第i类的规

6、则r,尽可能地覆盖正例,而不覆盖负例删除r覆盖的所有记录,在剩余数据集上学习下一个规则,直到所有第i类记录都被删除,2023/10/11,数据挖掘,13,直接方法:顺序覆盖,顺序覆盖(sequential covering)算法 1:令E是训练记录,A是属性值对的集合(Aj,vj)2:令Yo是类的有序集y1,y2,.,yk 3:令R=是初始规则列表 4:for 每个类 yYo yk do 5:while 终止条件不满足 do 6:r Learn-One-Rule(E,A,y)7:从E中删除被r覆盖的训练记录 8:追加r到规则列表尾部:RR r 9:end while10:end for11:把

7、默认规则yk插入到规则列表R尾部,2023/10/11,数据挖掘,14,顺序覆盖:例,(a)Original data,(b)Step 1,(c)Step 2,(c)Step 3,2023/10/11,数据挖掘,15,Learn-One-Rule函数,Learn-one-rule 函数的目标是提取一个分类规则,该规则覆盖训练集中的大量正例,仅覆盖少量反例。规则增长实例删除规则评估停止准则规则剪枝,2023/10/11,数据挖掘,16,规则增长,两种策略一般到特殊从初始规则r:y开始反复加入合取项,得到更特殊的规则,直到不能再加入 特殊到一般随机地选择一个正例作为初始规则反复删除合取项,得到更一

8、般的规则,直到不能再删除问题加入/删除合取项有多种选择,如何选择?何时停止加入/删除合取项?需要评估标准,2023/10/11,数据挖掘,17,规则增长:例,特殊到一般,一般到特殊,2023/10/11,数据挖掘,18,规则评估(续),常用的度量准确率、似然比、Laplace、M-estimate、FOIL信息增益 准确率Accuracy,n:被规则覆盖的实例数,nc:被规则正确分类的实例数问题:准确率高的规则可能覆盖率太低似然比(越高越好)k是类的个数fi是被规则覆盖的类i的样本的观测频度ei是规则作随机猜测的期望频度,2023/10/11,数据挖掘,19,规则评估:例,例:60个正例和10

9、0个反例 规则r1:覆盖50个正例和5个反例(acc=90.9%);规则r2:覆盖2个正例和0个反例(acc=100%)使用准确率,r2好使用似然比r1:正类的期望频度为e+=5560/160=20.625;负类的期望频度为e=55100/160=34.375 r2:正类的期望频度为e+=260/160=0.75;负类的期望频度为e=2100/160=1.25 R(r1)=2 50log2(50/20.625)+5log2(5/34.375)=99.9 R(r2)=2 2log2(2/0.75)+0log2(0/1.25)=5.66 r1比r2好,2023/10/11,数据挖掘,20,规则评估

10、(续),考虑规则覆盖率的评估度量 n是规则覆盖的样例数,f+是规则覆盖的正例数,k是类的总数,p+是正类的先验概率 当规则的覆盖率很高时,两个度量都渐近地趋向于规则的准确率f+/n 继续前例r1的Laplace度量为51/57=89.47%,很接近它的准确率r2的Laplace度量(75%)比它的准确率小很多,2023/10/11,数据挖掘,21,规则评估(续),考虑规则的支持度计数的评估度量规则的支持度计数对应于它所覆盖的正例数 FOIL信息增益(First Order Inductive Leaner information gain)设规则r:A+覆盖p0个正例和n0个反例;规则r:A

11、B+覆盖p1个正例和n1个反例.扩展后规则的FOIL信息增益定义为 该度量与p1和p1/(p1+n1)成正比,所以它更倾向于选择那些高支持度计数和高准确率的规则 继续前例r1和r2的FOIL信息增益分别为43.12和2,因此规则r1比r2好,2023/10/11,数据挖掘,22,规则剪枝,停止条件计算增益如果增益不显著,则丢弃新规则规则剪枝类似于决策树后剪枝降低错误剪枝:删除规则中的合取项 比较剪枝前后的错误率 如果降低了错误率,则剪掉该合取项,2023/10/11,数据挖掘,23,直接方法:RIPPER,对于2类问题,选定一个类为正类,另一个为负类从正类学习规则负类时缺省类多类问题按类的大小

12、(属于特定类的实例所占的比例)对诸类排序从最小的类开始学习规则,其余类都看做负类对次小类学习规则,如此下去,2023/10/11,数据挖掘,24,直接方法:RIPPER(续),规则增长:由空规则开始只要能够提高FOIL信息增益就增加一个合取项当规则不再覆盖负实例时就停止剪枝剪枝度量:v=(pn)/(p+n)p:验证集中被规则覆盖的正实例数 n:验证集中被规则覆盖的负实例数剪枝方法:如果剪掉合取项可以提高v就剪,2023/10/11,数据挖掘,25,直接方法:RIPPER(续),建立规则集:使用顺序覆盖算找出覆盖当前正实例的最佳规则删除被规则覆盖的所有正实例和负实例当一个规则加入规则集时,计算新

13、的描述长度当新的描述长度比已经得到的描述长度多d位时,就停止增加新规则,2023/10/11,数据挖掘,26,直接方法:RIPPER(续),优化规则集:对规则集R中的每个规则 r考虑2个替换的规则:替换规则(r*):重新增长新规则编辑的规则(r):把一个新的合取项增加到规则 r 比较替换前后的规则集 选择最小化MDL的规则集对剩下的正实例,重复规则产生和优化,2023/10/11,数据挖掘,27,规则提取的间接方法,决策树从根结点到叶结点的每一条路径都可以表示为一个分类规则 路径中的测试条件构成规则前件的合取项,叶结点的类标号赋给规则后件,2023/10/11,数据挖掘,28,间接方法:C4.

14、5rules(续),从未剪枝的决策树提取规则规则产生对每个规则 r:A y,考虑替换规则 r:A y 其中 A 由删除A的一个合取项得到比较r与所有r的悲观误差如果r的悲观误差小,则剪枝重复该过程,直到不能改进,2023/10/11,数据挖掘,29,间接方法:C4.5rules,规则定序不是对规则定序,而是对规则的子集定序(class ordering)每个规则子集是一组具有相同规则后件(class)的规则计算每个子集的描述长度描述长度=L(error)+g L(model)g 是参数,考虑规则集中冗余属性(缺省值g=0.5),2023/10/11,数据挖掘,30,基于规则的分类器的特征,表达能力与决策树一样高容易解释容易产生能够快速对新实例分类性能可与决策树相媲美,数据挖掘,31,第十九讲 结束,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号