《《客户数据挖掘》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《客户数据挖掘》PPT课件.ppt(58页珍藏版)》请在三一办公上搜索。
1、第9章数据挖掘与客户关系管理,案例 卓越亚马逊的推荐系统,学习目标,通过本章的学习,将能够:理解数据挖掘的含义熟悉数据挖掘的功能熟悉数据挖掘的主要技术掌握数据挖掘的业务流程了解客户关系管理对数据挖掘的需求理解数据挖掘在客户关系管理中的作用,4,有价值的知识,可怕的数据,数据挖掘背景,5,数据爆炸,知识贫乏,苦恼:淹没在数据中;不能制定合适的决策!,数据,知识,决策,数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。,数据挖掘(Data Mining),数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人
2、们事先不知道的、但又是潜在有用的信息和知识的过程。,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。,数据挖掘,数据挖掘的特点,数据挖掘与传统分析方法的区别,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。,数据挖掘所得到的信息应具有先未知,有效和可实用三个特征:,先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,有效信息是指符合实际情况且具有一定的代表性,可实用是指可以指导企业的营销决策,数据挖掘的特点,数据挖掘是在
3、没有明确假设的前提下去挖掘信息、发现知识 数据挖掘所得到的信息应具有先未知、有效和可实用三个特征数据源必须是大量的、真实的、有噪声的发现的是用户感兴趣的知识 发现的知识要可接受、可理解、可运用 并不要求发现放之四海皆准的知识,仅支持特定的发现问题,客户接触,客户信息,客户数据库,统计分析与数据挖掘,客户知识发现,客户管理,知识发现:从数据中深入抽取隐含的、未知的和有潜在用途的信息,从商业数据到商业智能,数据挖掘的应用,神经网络 Neural Networks,聚类分析 Clustering,序列分析 Sequence Analysis,决策树 Decision Trees,倾向性分析,客户保留
4、 客户生命周期管理 目标市场 价格弹性分析,客户细分 市场细分,倾向性分析 客户保留 目标市场 欺诈检测,关联分析 Association,市场组合分析 套装产品分析 目录设计 交叉销售,数据挖掘的应用,数据挖掘技术的分类,回顾分析:注重解决过去和现在的问题,如:两年来不同地区、人口和产品情况下的各销售部门销售业绩分析,预测分析:在历史信息的基础上预测某些事件和行为,如:建立预测模型来描述客户的流失率,分类:根据某种标准将数据库记录分类到许多预先定义好的类别,如:信用卡公司将客户记录分为好、中、差三类 分类可以产生规则:如果一个客户收入超过5000万元,年龄在4555岁之间,居住在某地区,那么
5、他的信用等级为好。,数据挖掘技术,数据挖掘技术的分类,聚类:根据某些属性将数据库分割为一些子集和簇,如:在了解客户的过程中,尝试使用从未使用过的属性分割人群以发现潜在客户的簇,关联:通过考察记录来识别数据间的密切关系,关联关系常常表现为规则,常用于超市购物篮分析如:所有包含A和B的记录中有60同时包含C。,时间序列:用于帮助识别与时间有关的模式,如:通过对客户多次购物行为的分析可以发现购物行为在时间上的关系 常用于产品目录营销的分析,数据挖掘的一般目的就是检测、解释和预测数据中定性的和或定量的模式,数据挖掘技术,数据挖掘方法学,模式,数据库中一个事件或事件的结合,这些事件比预期的要经常发生,其
6、实际发生率明显不同于随机情况下的可期望发生率。,模式是数据驱动的,一般只反映数据本身,模型,对构建事件的源时的历史数据库的描述,并且能够成功地应用于新的数据,以便对缺少的数据作出预测或对期望的数据作出说明。,模型的一般表现形式,数学方程式,描述各客户段的规则集,计算机表示方式,模式可视化,数据挖掘技术,数据挖掘方法学,取样,根据问题的需要采用随机取样的方法从数据库中抽取数据进行挖掘,有助于迅速发现模式、创建模型,数据本身的处理过程需要验证,验证模型,模型创建过程需要保证正确,模型应用的验证,在依据一些历史数据建造模型后,将模型应用于未参与建造模型的其他类似的历史数据,比较其模型输出结果与实际结
7、果。,数据挖掘技术,经典方法,统计,统计可以通过对类似下列问题的回答获得模式,在我的数据库中存在什么模式,某个事件发生的可能性是什么,那些模式是重要的模式,统计的一个重要价值就是它提供了对数据库的高层视图,这种视图提供了有用的信息,但不要求在细节上理解数据库的每一条记录。,数据挖掘方法,经典方法,最近邻,通过检测与预测对象最接近的对象的状况对预测对象进行预测,原理:,某一特定对象可能与其他某一或某些对象比其 它一些第三对象更接近;,相互之间“接近”的对象会有相似的取值,根据其中一个对象的取值,预测其最近邻对象的预测值,商业 应用:,文献检索,市场篮子分析,应用 评价:,最近邻的数量,最近邻的距
8、离,决定最近邻预测的可信度,数据挖掘方法,现代方法,基础理论,有指导的学习(Supervised Learning),归纳 概念 分类标准与模型 分类,有指导的学习的目的:建立分类模型,用模型确定新数据实例的类别,训练数据(Training Data)与检验集(Test Set),用于创建模型的数据实例称为训练数据,用于检验模型的准确度的数据实例称为检验集,数据挖掘方法,有指导的学习(Supervised Learning),淋巴肿,数据挖掘方法,有指导的学习(Supervised Learning),淋巴肿,发 烧,No,No,Yes,Yes,咽炎,敏感症,感冒,淋巴肿、发烧是有意义的属性,
9、嗓子痛、充血、头痛是无意义的属性,数据挖掘方法,有指导的学习(Supervised Learning),淋巴肿,发 烧,No,No,Yes,Yes,咽炎,敏感症,感冒,未知分类的数据实例(检验集),数据挖掘方法,无指导的学习(Unsupervised Learning),为没有预先定义分类标准的数据建立模型,ABC投资公司客户表,数据挖掘方法,无指导的学习(Unsupervised Learning),区分在线投资者和经纪人投资者的特征是什么,一个新客户未开设交易保证金帐户,如何确定其将来是否会开设这种帐户,能建立一个预测新投资者月均交易数的模型吗,女性和男性投资者有什么不同的特征,交易方式,
10、交易保证金帐户,月均交易数,性别,数 据 挖 掘 问 题,属 性,哪些属性相似性决定ABC公司的客户分组,属性值的哪些不同之处分隔了客户数据库,有指导的学习,无指导的学习,数据挖掘方法,现代方法,决策树(Decision Tree),决策树是一种有指导学习的数据挖掘方法,决策树的组成,决策节点、分支、叶子,根节点,分支,叶子,Debt10%of Income,Debt=0%,GoodCreditRisks,BadCreditRisks,GoodCreditRisks,Yes,Yes,Yes,NO,NO,NO,Income$40K,节点,决策树的分支过程就是对数据进行分类的过程,利用几个变量(每
11、个变量对应一个问题)来判断数据所属的类别。在分支后,要使不同分支之间数据的差异尽可能大、同一分支内的数据尽量相同。这一分割过程也就是数据的“纯化”过程。,数据挖掘方法,决策树的算法步骤,假设T为训练实例集选择一个最能区别T中实例的属性创建一个决策节点,它的值为所选择的属性创建该节点的分支,每个分支代表所选属性的一个唯一值使用分支的值,将数据实例分割为子类对于步骤5所创建的各个子类:如果子类中的数据实例满足以下条件,可按此决策树对新数据实例指定类别 分割中只包含一条数据实例 分割中所有数据实例的属性都相同 继续分割得到的改进不明显 如果子类不满足上述条件,则设T为当前子类数据实例集合,返回步骤
12、2,数据挖掘方法,决策树的属性选取,属性选取标准:,最大化反映数据差异,使树的层次和节点数最小,淋巴肿,发 烧,No,No,Yes,Yes,咽炎,敏感症,感冒,数据挖掘方法,淋巴肿,发 烧,No,No,Yes,Yes,敏感症,敏感症,咽炎,No,Yes,头 痛,淋巴肿,感冒,发 烧,淋巴肿,No,Yes,咽炎,No,Yes,数据挖掘方法,决策树的属性选取,属性选取标准:,最大化反映数据差异,使树的层次和节点数最小,信用卡促销数据库,选取收入段为根节点,选取寿险促销为输出属性,沿着每个分支有两个类,选取最频繁出现的类,收入段,2Yes2No,4Yes1No,3No 1Yes,2Yes,23万,3
13、4万,45万,56万,训练集分类的正确性为111573,数据挖掘方法,决策树(Decision Tree):例,信用卡促销数据库,选取信用卡保险为根节点,选取寿险促销为输出属性,沿着每个分支有两个类,选取最频繁出现的类,信用卡保险,6Yes6No,3Yes 0No,No,Yes,训练集分类的正确性为91560,数据挖掘方法,决策树(Decision Tree):例,信用卡促销数据库,选取数值型属性年龄为根节点,选取寿险促销为输出属性,依照年龄排序,对照输出属性进行数据分割,选择数据分割点,年 龄,9Yes3No,0Yes 3No,43,43,以年龄43结合寿险促销Yes,训练集分类的正确性为1
14、21580,数据挖掘方法,决策树(Decision Tree):例,信用卡促销数据库,年 龄,Yes(61),No(21),43,43,性 别,F M,信用卡保险,Yes(20),No(30),No Yes,信用卡数据库的三节点决策树,训练集分类的正确性为131587,数据挖掘方法,决策树(DecisionTree):例,信用卡促销数据库,信用卡保险,Yes(52),No(41),No,Yes,性 别,F M,Yes(30),信用卡数据库的两节点决策树,训练集分类的正确性为121580,数据挖掘方法,决策树(Decision Tree):例,信用卡促销数据库检验集,年 龄,Yes(61),No
15、(21),43,43,性 别,F M,信用卡保险,Yes(20),No(30),No Yes,信用卡数据库的三节点决策树,数据挖掘方法,现代方法,K平均值算法,K-平均值算法是一种简单而有效的无指导学习的统计聚类方法,将一组数据划分为不相关的簇,算 法 步 骤,选择一个K值,用以确定簇的总数,在数据集中任意选择K个数据实例,作为初始的簇中心,试用简单的欧氏距离将其它数据实例赋予距离它们最近的簇中心,试用每个簇中的数据实例,计算每个簇的新的平均值,如果新的平均值等于次迭代的平均值,终止该过程。否则,用新平均值作为簇中心并重复步骤35。,点A(x1,y1)与点B(x2,y2)之间的欧氏距离计算式为
16、,数据挖掘方法,K平均值算法:例,K-平均值输入属性,1.选择K=2,即将所有数据实例分为两个簇,2.选择实例1作为第1个簇的中心,实例3作为第2个簇的中心,3.计算各数据实例与C1、C2之间的欧氏距离,Dist(C11)=0.00 Dist(C21)=1.00 C1Dist(C12)=3.00 Dist(C22)=3.16 C1Dist(C13)=1.00 Dist(C23)=0.00 C2Dist(C14)=2.24 Dist(C24)=2.00 C2Dist(C15)=2.24 Dist(C25)=1.41 C2Dist(C16)=6.02 Dist(C26)=5.41 C2,4.迭代结
17、果得到以下两个簇簇C1包含实例1、2,簇C2包含实例3、4、5、6,Y,数据挖掘方法,K平均值算法:例,K-平均值输入属性,5.重新计算每个簇的中心,对于C1:x=(1.0+1.0)/2=1.0 y=(1.5+4.5)/2=3.0 对于C2:x=(2.0+2.0+3.0+5.0)/4=3.0 y=(1.5+3.5+2.5+6.0)/4=3.375 因此,新的簇中心为C1=(1.0,3.0)C2=(3.0,3.375),Y,X,6.由于簇中心改变,进行第2次迭代,K平均值算法:例,K-平均值输入属性,Dist(C11)=1.50 Dist(C21)=2.74 C1Dist(C12)=1.50 D
18、ist(C22)=2.29 C1Dist(C13)=1.80 Dist(C23)=2.125 C1Dist(C14)=1.12 Dist(C24)=1.01 C2Dist(C15)=2.06 Dist(C25)=0.875 C2Dist(C16)=5.00 Dist(C26)=3.30 C2,第2次迭代的结果导致了簇的变化:C1包含实例1、2和3,C2包含4、5和6,Y,X,K平均值算法:例,K-平均值输入属性,7.重新计算每个簇的中心,对于C1:x=(1.0+1.02.0)/3=1.33 y=(1.5+4.51.5)/3=2.50 对于C2:x=(2.0+3.0+5.0)/3=3.33 y=
19、(3.5+2.5+6.0)/3=4.00 因此,新的簇中心为C1=(1.33,2.50)C2=(3.33,4.00),8.由于簇中心改变,继续进行第3次迭代,Y,X,K平均值算法:例,数据实例与它们所对应的簇中心之间的误差平方和最小,K平均值算法的几个应用,K平均值算法的最优聚类标准,Y,X,Y,X,Y,X,现代方法,关联规则(Association Rules),关联规则的表现形式,关联规则是一种无指导学习的数据挖掘中最普遍的知识发现,是指在行为上具有某种关联的多个事物在一次事件中可能同时出现,从而在多个事物中建立联系规则的方法。,“如果怎么样、怎么样、怎么样,那么就会怎么样”,关联规则的构
20、成,前件“如果怎么样、怎么样、怎么样”,后件“那么就怎么样”,如果买了西装,就会买领带,如果买精显彩电,就会买家庭影院系统,规则的构成,如果怎么样、怎么样、怎么样,就会怎么样,前件,激发条件,后件,结果,规则表现为在前件所有条件成立的前提下,后件结果会以某一正确概率出现,关联规则(Association Rules),规则的置信度和支持度,关联规则(Association Rules),规则的置信度又称为规则的正确率,是指在前提出现的情况下,后件出现的概率,规则的支持度又称为规则的覆盖率,是指包含规则出现的属性值的交易占所有交易的百分比,例:如果客户买牛奶,那么他们也会买面包,置信度:在100
21、00次交易中客户购买了牛奶,而且其中的5000个交易也同时购买了面包,则上述规则的置信度为50001000050 支持度:在超市一个月的客户交易中,共有600000次交易,其中购买牛奶的交易为60000次,支持度为6000060000010,规则的生成,关联规则(Association Rules),决策树方法,规则1:如果客户参加了信用卡保险,那么他就会参加寿险促销(置信度33100,支持度31520),规则2:如果一个男性客户没有参加信用卡保险,那么他也不会参加寿险 促销(置信度4580,支持度51533)规则3:如果一个女性客户没有参加信用卡保险,那么她可能会参加寿险促销(置信度5771
22、,支持度71547)规则4:如果是一个女性客户,那么她可能会参加寿险促销(置信度6875,支持度81553),信用卡保险,Yes(52),No(41),No,Yes,性 别,F M,Yes(30),规则的生成,现代方法,关联规则(Association Rules),最近邻方法,规则:如果一个客户处于的状况,那么他可能是一个逃款者,关联规则可以使用传统的方法生成,但适当提供的属性很多时,因为每条规则的结果可能包含大量的前提条件,使用传统方法会变得不切实际。,规则的生成,现代方法,关联规则(Association Rules),apriori方法,apriori方法步骤:,1.设置最小的属性值支
23、持度要求,apriori方法是通过生成条目集,按照一定的准则要求从中选择规则的方法。,条目集是指符合一定支持度要求的“属性值”的组合,2.生成条目集,3.使用生成的条目集来创建规则,规则的生成,现代方法,关联规则(Association Rules),apriori方法:例,1.设置最小的属性值支持度要求(30),2.生成条目集,单项条目集合,规则的生成,现代方法,关联规则(Association Rules),apriori方法:例,双项条目集合,规则的生成,现代方法,关联规则(Association Rules),apriori方法:例,确定最小置信度(如50),利用双项条目集合生成规则,
24、3.使用生成的条目集来创建规则,规则1:如果杂志促销Y,那么寿险促销Y(57)置信度5771,支持度71070,规则2:如果寿险促销Y,那么杂志促销Y(55)置信度55100,支持度51050,规则的生成,关联规则(Association Rules),市场篮子分析就是一种关联规则的表现,时间序列分析是一种反映客户行为在时间上的关联性的关联规则,规则的应用,关联规则(Association Rules),以前件为目标,归纳所有前件一样的规则,分析后件的营销效果,设计促销方案(完善前件),例,收集所有前件为文具、复读机的规则,分析这些商品打折是否促进其他高利润商品的销售,从而调整商品结构、设计促
25、销方案,规则的应用,关联规则(Association Rules),以后件为目标,归纳所有后件一样的规则,分析什么因素与后件有关或对后件有影响,设计前件促成后件,例,收集到所有后件为西装的规则,可以帮助我们了解西装的销售受哪些因素的影响或与哪些因素相关,从而可以考虑将这些因素集合在一起而产生促销效果。,规则的应用,关联规则(Association Rules),规则的置信度和支持度,规则很少是正确的,但可以经常使用,规则很少是正确的,而且很少被使用,规则多数情况下是正确,但很少被使用,规则多数情况下是正确的,而且可以经常使用,以置信度或支持度为目标,案例:Bell Atlantic公司,Bel
26、l Atlantic的数据挖掘系统非常成功,不仅为他们的业务开展带来很大的方便,而且节省了许多开支。Bell Atlantic的电话服务目前已经覆盖了美国14个州,拥有商业电话、住家电话帐户近亿个。Bell Atlantic 数据挖掘系统的首要任务就是尽快地追收拖欠的电话费,同时尽量减少收债部门的成本。,案例:Bell Atlantic公司,软件系统的选择非常重要。经过反复挑选后,Bell Atlantic采用了SAS统计软件系统建立数据挖掘系统,然后在SAS环境中利用SAS宏程序建立挖掘系统。然后是建立SAS格式库。许多数据需要格式化,比如年龄,可以从20到100岁,需要分成不同的组,这都需要利用模式来进行数据转换。有的数据不是连续变量,比如婚姻状况(单身/已婚),也需要进行一些变换才可以进行计算。日期也是需要模式化的,不同计算机系统记录日期方法不同,需要把日期转换成一致的方法。在金融保险行业日期这个变量非常重要,因为很多客户的行为都记录在日期里面了。电话公司里记帐、付款的日期也非常重要。,