关联规则分析ppt课件.ppt

上传人:牧羊曲112 文档编号:1315212 上传时间:2022-11-08 格式:PPT 页数:22 大小:299KB
返回 下载 相关 举报
关联规则分析ppt课件.ppt_第1页
第1页 / 共22页
关联规则分析ppt课件.ppt_第2页
第2页 / 共22页
关联规则分析ppt课件.ppt_第3页
第3页 / 共22页
关联规则分析ppt课件.ppt_第4页
第4页 / 共22页
关联规则分析ppt课件.ppt_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《关联规则分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《关联规则分析ppt课件.ppt(22页珍藏版)》请在三一办公上搜索。

1、,关联规则分析(association analysis),超市例子,例3.1 (Groceries.txt) 这是一个超市购物例子(Hahsler et al., 2006),数据中有9835笔交易,涉及169种商品。每个交易为一个顾客的购买记录,而每种商品是一个二分变量,比如,购买用1代表,未购买用0代表。通过对数据的初步计算,我们发现在单项计数中,全牛奶(whole milk)的频数最高,为2513(频率接近26%),而其次为:其它蔬菜(other vegetables)为1903,面包(rolls/buns)为1809,苏打(soda)为1715,酸奶(yogurt)为1372等等。超

2、过5%的顾客购买的商品频率显示在图3.1中。此外,还可以知道分别买不同数量商品的顾客人数,购买1至9种商品的人数展示在下表中:,library(arules)data(Groceries)summary(Groceries)itemFrequencyPlot(Groceries, support = 0.05, cex.names = 0.8) #图3.1,超过5%的顾客购买的商品名字和频率,术语,每一个观测称为一个事务或交易(transaction)每一个二分变量称为一个项目或项(item)事务数据集、项目集或项集(itemset)用X表示一个项目或者项目集,用Y表示与X没有交的另一个项目或

3、项目集,那么记号“X=Y”表示X和Y同时出现的一个规则(rule)在X=Y中,称X为前项(也称为条件项或左项,antecedent, left-hand-side or LHS of the rule),而称Y为后项(也称为结果项或右项,consequent,right-hand-side or RHS of the rule)。,信息,X=Y的支持度(support) X=Y的置信度(confidence) X=Y的提升(lift),记s(Z)表示事务Z在包含N个事务的整个事务数据集中的频数,用A表示事务包含X的事件,而B表示事务包含Y的事件(X和Y没有交) ,则:,library(arul

4、es)data(Groceries)summary(Groceries)itemFrequencyPlot(Groceries, support = 0.05, cex.names = 0.8) #图3.1fsets 1.2)inspect(SORT(x, by = support)1:5) #第三章表inspect(SORT(x, by = confidence)1:5)#第三章表#inspect(SORT(x, by = lift)1:5),library(arules);w=read.table(f:/adbook/shopping.txt,header=TRUE,sep=t);a=w1

5、:10;dim(a)1 786 10 names(w) 1 “Ready.made” “Frozen.foods” “Alcohol” “Fresh.Vegetables” “Milk” 6 “Bakery.goods” “Fresh.meat” “Toiletries” “Snacks” “Tinned.goods” a=as.matrix(a); trans2 - as(a, transactions); summary(trans2)#数据概况,图示数据itemFrequencyPlot(trans2, support = 0.1, cex.names = 0.8),fsets - ec

6、lat(trans2, parameter = list(support = 0.05,maxlen=10)#求频繁项集rules = apriori(trans2, parameter = list(support = 0.01,confidence = 0.6)#求规则,求得规则:rules = apriori(trans2, parameter = list(support = 0.01,confidence = 0.6)查看规则:inspect(rules1:3)筛选规则:x=subset(rules, subset = rhs %in% Milk &lift 1.2)规则排序:ins

7、pect(SORT(x, by = confidence)1:3),连续变量(先变成分类变量),data(AdultUCI)#library(arules)attributes(AdultUCI)$class; attributes(AdultUCI)$names;dim(AdultUCI);AdultUCI1:2, 连续变量处理:删除AdultUCIfnlwgt - NULLAdultUCIeducation-num - NULL分级,连续变量,AdultUCIage 0), Inf), labels = c(None, Low, High)AdultUCIcapital-loss 0),

8、Inf), labels = c(none, low, high)Adult - as(AdultUCI, transactions);Adult,summary(Adult)itemFrequencyPlot(Adult, support = 0.5, cex.names = 0.8),rules = apriori(Adult, parameter = list(support = 0.01,confidence = 0.6)x=subset(rules, subset = rhs %in% income=large &lift 1.2)inspect(SORT(x, by = confi

9、dence)1:5)inspect(SORT(x, by = lift)1:5),例3.2 (Adult.txt)美国普查局政府网站的数据库的例子。原本有48842个观测及15个变量。这15个变量经过挑选并转换成115个二分变量。,library(arules)data(Adult)summary(Adult)rules 1.2)rulesIncomeLarge 1.2)inspect(SORT(rulesIncomeSmall, by = confidence)1:3)inspect(SORT(rulesIncomeLarge, by = confidence)1:3),Shuttle数据(需要变成二分变量的数据),library(MASS);shuttle1:10,summary(shuttle)library(arules)w 1.2)r.usenoauto 1.2)inspect(SORT(r.useauto, by = confidence)1:3)inspect(SORT(r.usenoauto, by = confidence)1:3),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号