《关联规则简介与Apriori算法课件.ppt》由会员分享,可在线阅读,更多相关《关联规则简介与Apriori算法课件.ppt(35页珍藏版)》请在三一办公上搜索。
1、,关联规则简介,关联规则简介与Apriori算法关联规则简介关联规则丶关联规则(Association rules)反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中个事物就能够通过其他事物预测到。首先被Agrawal,mielins ki and swan在1993年的SIGMOD会议上提出关联规则挖掘是数据挖掘中最活跃的硏究方法之典型的关联规则发现问题是对超市中的购物篮数据(Market Basket)进行分析。通过发现顾客放入购物篮中的不同商品之间的关系来分析顾客的购买习惯。案例“尿布与啤酒”的故事丶美国的沃尔玛超市对一年多的原始交易数
2、据进行了详细的分析,得到一个意外发现:与尿布一起被购买最多的商品竟然是啤酒。借助于数据仓库和关联规则,商家发现了这个隐藏在背后的事实:美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布,而30%40%的丈夫在买完尿布之后又要顺便购买自己爱喝的啤酒。有了这个发现后超市调整了货架的设置,把尿布和啤酒摆放在一起销售,从而大大增加了销售额。,关联规则丶关联规则(Association rules)反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中个事物就能够通过其他事物预测到。首先被Agrawal,mielins ki and swan在1993
3、年的SIGMOD会议上提出关联规则挖掘是数据挖掘中最活跃的硏究方法之典型的关联规则发现问题是对超市中的购物篮数据(Market Basket)进行分析。通过发现顾客放入购物篮中的不同商品之间的关系来分析顾客的购买习惯。,案例“尿布与啤酒”的故事丶美国的沃尔玛超市对一年多的原始交易数据进行了详细的分析,得到一个意外发现:与尿布一起被购买最多的商品竟然是啤酒。借助于数据仓库和关联规则,商家发现了这个隐藏在背后的事实:美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布,而30%40%的丈夫在买完尿布之后又要顺便购买自己爱喝的啤酒。有了这个发现后超市调整了货架的设置,把尿布和啤酒摆放在一起销售,从
4、而大大增加了销售额。,案例70%购买了牛奶的顾客将倾向于同时购买面包某网上书店向用户推荐相关书籍互联网:碎片化生喧哗一一网络时代的字化生存浅:互网如长理论2.0(超经世导是平的南的常识李开,案例在买了一台PC之后下一步会购买?!出RFHTH无所,案例在保险业务方面,如果出现了不常见的索赔要求组合,则可能为欺诈,需要作进一步的调查在医疗方面,可找出可能的治疗组合;在银行方面,对顾客进行分析,可以推荐感兴趣的服务等等,关联规则基本模型什么是规则?规则形如如果.那么.(Gf6hen),前者为条件,后者为结果。例如一个顾客,如果买了可乐,那么他也会购买果汁。如何来度量一个规则是否够好?有两个量,置信度
5、(Confidence)和支持度(Support。假设有如下表的购买记录,关联规则基本模型置信度顾客项日橙汁,可乐2牛奶,橙汁,空气清洁器橙汁,洗洁精橙汁,洗洁精,可乐空气清洁器置信度表示了这条规则有多大程度上值得可信。设条件的项的集合为A,结果的集合为B。置信度计算在A中,同时也含有B的概率(即:A,then b的概。即Confidence(AB=PBA。例如计算“如果 Orange则Coke的置信度。由于在含有“橙汁”的4条交易中,仅有2条交易含有“可乐”。其置信度为0.5。,关联规则基本模型支持度顾客项日橙汁,可乐2牛奶,橙汁,空气清洁器345橙汁,洗洁精橙汁,洗洁精,可乐空气清洁器支持度计算在所有的交易集中,既有A又有B的概率。例如在5条记录中,既有橙汁又有可乐的记录有2条。则此条规则的支持度为25=04,即 Support(AB=P(AB现在这条规则可表述为,如果一个顾客购买了橙汁,则有50%(置信度)的可能购买可乐。而这样的情况(即买了橙汁会再买可乐)会有40%(支持度)的可能发生。,关联规则的相关概念定义1项目与项集设|=i1,i2,im是m个不同项目的集合,每个k(k=1,2,m)称为一个项目(tem)项目的集合称为项目集合(teaset),简称为项集。其元素个数称为项集的长度,长度为k的项集称为k-项集(k-teaset),