关联规则分析及应用.ppt

上传人:小飞机 文档编号:6091943 上传时间:2023-09-23 格式:PPT 页数:24 大小:2.10MB
返回 下载 相关 举报
关联规则分析及应用.ppt_第1页
第1页 / 共24页
关联规则分析及应用.ppt_第2页
第2页 / 共24页
关联规则分析及应用.ppt_第3页
第3页 / 共24页
关联规则分析及应用.ppt_第4页
第4页 / 共24页
关联规则分析及应用.ppt_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《关联规则分析及应用.ppt》由会员分享,可在线阅读,更多相关《关联规则分析及应用.ppt(24页珍藏版)》请在三一办公上搜索。

1、Data Mining关联规则分析及应用,2012-10-12,1,目录,基本概念,关联规则挖掘过程,分类,关联规则的价值衡量,4,1,2,3,挖掘算法,关联规则的应用,5,6,2012-10-12,2,绪论,在购买铁锤的顾客当中,有70的人同时购买了铁钉。年龄在40 岁以上,工作在A区的投保人当中,有45的人曾经向保险公司索赔过。在超市购买面包的人有70%会购买牛奶,2012-10-12,3,绪论,2012-10-12,4,一、基本概念,设 I=I1,I2,In 是项的集合。任务相关数据D:是事务(或元组)的集合。事务T:是项的集合,且每个事务具有事务标识符TID。项集A:是T 的一个子集,

2、加上TID 即事务。项集(Items):项的集合,包含k个项的项集称为k-项集,如二项集I1,I2。支持度计数(Support count):一个项集的出现次数就是整个数据集中包含该项集的事务数。,2012-10-12,5,一、基本概念,D,T,A,B,In(n=1,2,)指具体项目,如购物篮分析中:I1=苹果I2=面包I3=牛奶I4=尿布I5=啤酒Support-count(I1)=6,2012-10-12,6,一、基本概念,关联规则:形如 A=B 的蕴涵式,其中A I,BI,并且 AB=。支持度:关联规则在D中的支持度(support)是D中事务同时包含A、B的百分比,即概率。规则代表性、

3、重要性衡量 Support(A B)=P(A B)=support _ count(AB)count(T)频繁项集:若一个项集的支持度大于等于某个阈值。,2012-10-12,7,一、基本概念,置信度c:是包含A的事务中同时又包含B的百分比,即条件概率。规则准确性衡量 confidence(A B)=P(B|A)强关联规则:同时满足用户定义的最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强规则。,2012-10-12,8,=,9,二、关联规则挖掘过程,两个步骤:找出所有频繁项集。由频繁项集生成满足最小信任度阈值的规则。挖掘模式:,2012-10-12,9,min

4、_sup,min_conf,二、关联规则挖掘过程,关联规则挖掘举例:假定数据包含频繁项集M=I1,I2,I5。可以由M 产生哪些关联规则?,2012-10-12,10,二、关联规则挖掘过程,M 的非空真子集有I1,I2、I1,I5、I2,I5、I1、I2和I5。则结果关联规则如下,每个都列出置信度。,2012-10-12,11,67622,I1I2I3I4I5,二、关联规则挖掘过程,I1 I2 I5,I1 I5 I2,I2 I5 I1,I1 I2 I5,I2 I1 I5,I5 I1 I2,2012-10-12,12,confidence=2/4=50%confidence=2/2=100%co

5、nfidence=2/2=100%confidence=2/6=33%confidence=2/7=29%confidence=2/2=100%,二、关联规则挖掘过程,如果最小置信度阈值为70%,那么只有第2、3、6个规则可以作为最终的结果输出,因为只有这些是产生的强关联规则。,2012-10-12,13,I1 I5 I2,I2 I5 I1,I5 I1 I2,confidence=2/2=100%confidence=2/2=100%confidence=2/2=100%,二、关联规则挖掘过程,对强关联规则的批评:eg:,2012-10-12,14,在5000个学生中,3000个打篮球,375

6、0个喝麦片粥,2000个学生既打篮球又喝麦片粥。打篮球=喝麦片粥 40%,66.7%是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。打篮球=不喝麦片粥 20%,33.3%这个规则远比上面那个要精确,尽管支持度和置信度都要低的多。,二、关联规则挖掘过程,兴趣度(作用度):描述了项集A对项集B的影响力的大小,即A与B的相关程度。P(AB)P(A)P(B)若I(A B)=1,即P(A)P(B)=P(AB),A与B相互独立;若I(A B)1,表示A出现和B出现是正相关的。意味着A的出 现蕴含B的出现。小结:只有兴趣度大于1,该规则才具有实际价值。,2012-10-12,1

7、5,I(A B)=,三、关联规则的分类,基于规则中处理的变量的类别布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;B.数值型:数值型关联规则可以和多维关联或多层 关联规则结合起来,对数值型字段进行处理。eg:性别=“女”=职业=“秘书”性别=“女”=avg(收入)=2300,2012-10-12,16,华南理工大学经贸学院,三、关联规则的分类,基于规则中处理的变量的类别布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;B.数值型:数值型关联规则可以和多维关联或多层 关联规则结合起来,对数值型字段进行处理。eg:性别=“女”=职业=“

8、秘书”性别=“女”=avg(收入)=2300,2012-10-12,17,三、关联规则的分类,基于规则中数据的抽象层次:单层关联规则:所有的变量都没有考虑到现实的数据是具有多个不同的层次的;多层关联规则:对数据的多层性已经进行了充分的考虑。层:大类是否细分的问题,如上衣可以细分为 衬衣、夹克、风衣等。eg:IBM台式机=Sony打印机 台式机=Sony打印机,2012-10-12,18,三、关联规则的分类,2012-10-12,19,分层示例:,三、关联规则的分类,2012-10-12,20,基于规则中数据的维数:单维关联规则:只涉及到数据的一个维,如用户购买的物品;多维关联规则:要处理的数据

9、将会涉及多个维。eg:啤酒=尿布 性别=“女”=职业=“秘书”,四、关联规则的价值衡量,对关联规则的评价与价值衡量涉及两个层面:A.系统客观的层面 使用“支持度和信任度”框架可能会产生一些不正确的规则。B.用户主观的层面只有用户才能决定规则的有效性、可行性。如果把某些约束条件与算法紧密结合,既能提高数据挖掘效率,又能明确数据挖掘的目标。,2012-10-12,21,五、关联规则的挖掘算法,2012-10-12,22,Apriori算法 挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。不足:产生大量候选频繁集、多次扫描数据库FP-Tree算法 优点:不产生候选频繁集、只两次扫描数据库其他算法,六、关联规则的应用,气象预测,医疗诊断,购物分析,2012-10-12,23,Thank You!,2012-10-12,24,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号