《数据分析方法-以关联分析为例.ppt》由会员分享,可在线阅读,更多相关《数据分析方法-以关联分析为例.ppt(16页珍藏版)》请在三一办公上搜索。
1、大数据分析方法以关联分析为例,目录,大数据是什么大数据分析五个方面关联分析,大数据,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。截至2012年,单一数据集的大小从数兆字节(TB)至数十兆亿字节(PB)不等。经济的开发成长促进了密集数据科技的使用。全世界共有约46亿的移动电话用户,并有10至20亿人链接互联网。自1990年起至2005年间,全世界有超过10亿人进入中产阶级,收入的增加造成了识字率的提升,更进而带动信息量的成长。全世界通过电信网络交换信息的容量在1986年为281兆亿字节(PB),1993年为471兆字节,2000年时
2、增长为2.2艾字节(EB),在2007年则为65艾字节。根据预测,在2013年互联网每年的信息流量将会达到667艾字节。,1.,Wikipedia,大数据,2.,2011 年,新生成的和复制的信息量估计超过了 1.8 ZB(泽字节);而在 2013 年,这一数字估计可达 4 ZB.,1ZB=1024EB=1024*1024PB=1024*1024*1024TB,ZB与TB相差的数量级等于TB与KB之间相差的数量级.,大数据应用的威力,3.,医疗保险和医疗补助服务中心已经开始在要求支付前用预测分析软件来标示看似报销欺诈的凭据。欺诈预防系统有助于实时甄别高风险医疗保健提供者的欺诈、浪费与滥用行为,
3、它已经终止、阻止或确认了 1.15 亿 美元的欺诈性支付,在该程序上头一年花的每 1 美元带来了 3 美元的成本节约。在阿富汗战争最激烈的那几年,美国国防高级研究计划局派遣了数据科学家团队和可视化技术团队到战地。在一个名为 Nexus 7 的计划中,这些团队被直接派进作战部队,用他们的工具帮助指挥官解决特定的作战计划。在其中一个地区,Nexus 7 的工程师将卫星数据和监测仪数据融合,观察交通工具是如何在道路网中流动,这使其更容易定位并摧毁简易爆炸装置。,-白宫2014“大数据”白皮书,大数据分析五个方面,4.,1.预测性分析能力 数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根
4、据可视化分析和数据挖掘的结果做出一些预测性的判断。2.数据质量和数据管理 数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。3.可视化分析 不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。4.语义引擎 我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。5.数据挖掘算法 可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的
5、算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。,关联分析,关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。,5.,关联分析,关联分析研究的关系有两种:简单关联关系和序列关联关系。,简单关联关系,购买面包的顾客中80%会购买牛奶。面包和牛奶作为一种早餐的搭配是大家所接受的,二者没有共同属性,但是二者搭配后就是一顿美味早餐。商场购买时,如果你把这两样摆在一起时,就会刺激顾客的潜意识联系了二者的关系,并刺激购买。这是一
6、种简单的关联关系。,6.,关联分析,序列关联关系,比如买了iphone手机的顾客中80%会选择购买iphone手机保护壳,这就是序列关联关系,一般没人先去买个保护壳再去买手机。这是存在先后的时间上的顺序的。,7.,关联分析研究的关系有两种:简单关联关系和序列关联关系。,关联分析,8.,关联算法的三个概念,1.支持度(Support)就是数据集中包含某几个特定项的概率。比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次,那么此关联的支持度为5%。2.置信度(Confidence)就是在数据集中已经出现A时,B发生的概率,置信度的计算公式是:A与B同时出现的概率/A出现的概率。3.提高
7、度(Lift,也称兴趣度)即商品之间的亲密关系。当提高度指标大于1时,表明商品之间可能具有真正的关联关系。提高度数据越大,则商品之间的关联意义越大。如果提高度小于1.0时,表明商品之间不可能具有真正的关联关系。在某些情况下,提高度会出现负值,此时商品之间很有可能具有相互排斥的关系,体现在购物篮中,就是这些商品从来不会出现在同一个购物篮中。,关联分析案例,-购物篮分析,在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来,美
8、国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润。,9.,关联分析,-关联分析阶段,10.,1.第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。以一个包含A与B两个项目的2-itemset为例,我们可以求得包含A,B项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则A,B称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k
9、-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再试图产生长度超过k的项目集Large k+1,直到无法再找到更长的高频项目组为止。2.第二阶段是要产生关联规则。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小可信度(Minimum Confidence)的条件门槛下,若一规则所求得的可信度满足最小可信度,则称此规则为关联规则。例如:经由高频k-项目组A,B所产生的规则,若其可信度大于等于最小可信度,则称A,B为关联规则。,关联分析,-关联分析阶段,11.,就“啤酒尿布”这个案例而言,使
10、用关联规则挖掘技术,对交易资料库中的记录进行资料挖掘,首先必须要设定最小支持度与最小可信度两个门槛值,在此假设最小支持度min-support=5%且最小可信度min-confidence=65%。因此符合需求的关联规则将必须同时满足以上两个条件。若经过挖掘所找到的关联规则 尿布,啤酒满足下列条件,将可接受尿布,啤酒 的关联规则。用公式可以描述为:Support(尿布,啤酒)5%and Confidence(尿布,啤酒)65%。其中,Support(尿布,啤酒)5%于此应用范例中的意义为:在所有的交易记录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence
11、(尿布,啤酒)65%于此应用范例中的意义为:在所有包含尿布的交易记录资料中,至少有65%的交易会同时购买啤酒。因此,今后若有某消费者出现购买尿布的行为,我们将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据尿布,啤酒关联规则而定,因为就过去的交易记录而言,支持了“大部分购买尿布的交易,会同时购买啤酒”的消费行为。,关联分析案例,-购物篮分析,-数据关联的意义,1.购物篮大于商品,传统零售业里考核员工的主要指标是商品销售额。老板会将商品销售指标下发到个人,每个人都只会关注自己的“一亩三分地”,卖啤酒的只管闷头卖啤酒,卖尿布的只管闷头卖尿布,每个柜台只管自己的商品是否能进入客户手中的购物篮。
12、卖啤酒的不关心购物篮中的尿布,卖尿布的也漠视购物篮中的啤酒,只要别漏了自己柜台的东西,长此以往商店的整体效益当然不会好了,效益不好就要裁员,零售店无法扩大。反观沃尔玛的卖场管理体系中,购物篮是主要的管理对象,而不仅仅是商品。为什么沃尔玛会以购物篮为管理重点?沃尔玛认为商品销售量的冲刺只是短期行为,而零售企业的生命力取决于购物篮。一个小小的购物篮体现了客户的真实消费需求和购物行为,每一只购物篮里都蕴藏着太多的客户信息。零售业的宗旨是服务客户,沃尔玛认为商店的管理核心应该是以购物篮为中心的顾客经营模式,商品排名只能体现商品自身的表现,而购物篮可以体现客户的购买行为及消费需求,关注购物篮可以使门店随
13、时掌握客户的消费动向,从而使门店始终与客户保持一致。,12.,关联分析案例,-购物篮分析,-数据关联的意义,购物篮的表现形式就是我们常说的“客单价”,客单价的高低直接反映了零售企业的经营效益。根据AC尼尔森2006年对国内零售企业的调查发现,从周一到周五正常工作日,同样一个万米经营面积的大卖场,国内卖场的平均客单价是29元,家乐福、沃尔玛、欧尚等国际零售巨头卖场的客单价为75元,好又多、大润发、乐购等台资卖场客单价为50元。到了周末(周六、周日)的差距更大,国内卖场客单价为35元,台资卖场客单价为80元,外资卖场可以达到 149元。客户在购物时的心理行为是产生商品之间关联关系最基本的原因,因此在找到购物篮规律时,必须要从客户消费心理层面解释这些关联关系。,2.购物篮方面的差距,13.,Thanks!,