《多变量分析资料课件.ppt》由会员分享,可在线阅读,更多相关《多变量分析资料课件.ppt(47页珍藏版)》请在三一办公上搜索。
1、第十章 多变量分析,一、多变量分析的作用,简化数据结构,选择变量子集合主成分分析、因子分析、聚类分析对数据进行分类处理,分类研究,构造分类模式因子分析、判别分析、聚类分析构造模型:探索企业经营活动的数量规律预测模型:回归分析;描述模型:聚类分析、因子分析等。,二、聚类分析方法及其应用,1.聚类分析(Cluster Analysis)的基本原理也称集群分析,是研究“物以类聚”的一种统计方法。是应用最为广泛的一种分类工具。测量研究目标之间的相似性,根据相似的程度将研究目标进行分类。通过聚类分析,可以将性质相近的个体归为一类,性质差异较大的个体属于不同的类,使得类内个体具有较高的同质性,类间个体具有
2、较高的异质性。聚类类型:R型聚类:对变量进行聚类。Q型聚类:对样本进行聚类。,测量研究目标相似性的方法:两目标之间的距离,判断准则:距离最短,两目标的关联系数,判断准则:相似系数最大,2.聚类分析的方法逐项分类法(集合法):首先将所有的研究样本作为一个或几个大类,然后逐渐分解成多类直至单个样本。系统分类法(分离法):从单个样本开始,逐渐按最小距离或最大相似系数进行归类。,3.聚类分析示例例:某公司对顾客饮用啤酒的习惯和态度进行调查,其中两个问题如下:“您每月大约喝多少瓶啤酒?”“您对饮酒就是人生的快乐这句话的看法如何?”(采取“同意10不同意1”10 个量级层次)其中对五位顾客的调查结果如下表
3、所示。,将顾客按啤酒饮用量和态度分类的聚类分析如下:解:1.数据变换(极值变换)(所用的两组数据单位不同,需要进行标准化处理),2.计算各样本之间的距离,G1 G2 G3 G4 G5,3.类别合并:选择最短距离并将相应的两类合并为一新类别,然后计算新类别与剩下各类的距离。,G1 G2 G3 G4 G5,因为,mind4,0,d5,0,所以记G6=G4,G5,根据D1,6minD1,4,D1,5调整距离矩阵得:,G1 G2 G3 G6,因为,mind3,1,d6,1,所以记G7=G3,G6,调整距离矩阵得:,G1 G2 G7,因为,mind1,2,d2,2,所以记G8=G1,G2,4.绘制聚类分
4、析图,距离,顾客,1,2,3,4,5,0.04,0.09,0.1,0.29,如果把顾客分为两类,则第一类顾客包括1和2,第二类顾客包括3、4、5。第一类顾客的特点是啤酒饮用量大且认为酒是人生很快乐的事,第二类顾客相反。,聚类分析应用案例,在便利店内供应cappuccino咖啡,有服务员提供顾客需要的服务,最干净的加油站浴室:美孚公司将会更换新型的动力设施,所有这些都是公司市场营销策略提升的一部分。在此之前,美孚公司的主要策略都是降价,但是公司发现盈利性并不好,现在对超过2000个驾驶人员的调查研究,公司发现除了降价之外另有策略。美孚公司研究发现,汽油的消费者有5种类型,分别如下:道路卫士(ro
5、ad warriors):用油量大,关心信用卡、便利店和洗车服务,这类顾客占顾客总数的16%。真正蓝领(true blues):他们钟情于某一品牌,有时对某个加油站特别中意。这一类的消费者占到总数的16%,F3第三代(generation F3):他们希望加油站同时提供食品和燃料,要求快速的服务,这些年轻的消费者占到总数的27%居家人士(homebodies):这些人开车带小孩到处逛,他们使用方便和舒适的加油站,他们占消费者总数的21%。价格敏感者(price shoppers):对品牌和加油站不忠诚,他们只找最便宜的加油站,这类消费者占总数的20%。由于只有20%的消费者对价格敏感,按照美孚
6、公司高级管理人员Border Walker的说法,美孚公司的新策略是“向消费者推出优质的产品和服务”。美孚公司希望价格仍然有相当的竞争性,但是不再对价格战感兴趣。美孚公司相信顾客将会放弃低价而倾向于“好的购买体验”。当然,美孚公司在制定新的策略的过程中,市场细分时采用了聚类分析的方法。假设分析和策略是正确的,美孚公司可以得到的回报将是巨大的,每加仑提价2美分对于美孚来说意味着年收入增加1.18亿美元,每股盈利增加30美分。Source:“mobile bets drivers pick cappuccino over low price”the Wall Street Journal,Jan.
7、30,1995,PROBLEM?,在实际问题的分析过程中,人们往往希望尽可能多地收集关于分析对象的数据信息,进而能够对他有比较全面、完整的把握和认识。于是对某个分析对象的描述就会有许多指标。但如果收集的变量指标非常多,虽然能够全面地对事物有精确的度量,但却给实际的统计分析工作带来了较大的问题。(统计工作异常繁琐,相当多的信息重叠)。人们想到是否可以通过减少相应指标来解决上述问题,但这又必然造成某些重要信息的丢失。,三、因子分析方法及其应用,1.因子分析的作用以最少的信息丢失,将原始的众多指标综合成几个较少的综合指标,这些指标称为因子变量。2.因子分析的基本原理因子分析的出发点是用较少的相互独立
8、的因子变量来代替原有变量的绝大部分信息。,因子分析是一种主要用于数据化简和降维的多元统计分析方法。在面对诸多具有内在相关性的变量时,因子分析试图使用少数几个随机变量来描述这许多变量所体现的一种基本结构,从而将数据降至一个可以掌握的水平(a manageable level)。这既便于问题的分析,易于抓住问题的本质所在,同时也为后续的统计分析奠定了基础。,将每个原始的测评变量用(不可观测的)公共因子及特殊因子线性表示:,或者,式中:Xi是原始变量(i=1,2,m)Fj是公共因子(j=1,2,p)是Xi的特殊因子,aij是第i个变量Xi与第j个公共因子Fj之间的相关系数,称为因子载荷。,因子分析的
9、几个相关概念,因子载荷:在各公共因子不相关的前提下,因子载荷aij就是第i个原始变量和第j 个公共因子的相关系数,即表示xi依赖Fj的比重,反应了第i个原始变量在第j个公共因子上的相对重要性。公共因子Fj的方差贡献:衡量因子Fj重要程度的一个量。,设有n个被调查者,m个原始调查变量,则调查结果矩阵为:,另设m个原始调查变量,因子分析是,假设有p个因子(pm),,他们是原始变量的线性组合,这样就把原有的m个变量简化为P个综合因子。在因子分析中可依据每个样本的原始数据,由上式计算每个样本的因子得分,并可由因子得分对样本进行分类。而在因子分析中则主要是将各原始变量作为P个新因子的线性组合,上式称为因
10、子模型,其b称为因子载荷系数。因子载荷表示各因子与原始变量之间相关性的大小,是两者之间的相关系数。,3.因子分析的步骤及示例,i=第i个被调查者,i=1,n;j第j个变量,j=1m;,(1)收集原始资料,建立原始信息矩阵:,发出320张评分表,请顾客对A1、A16等十六家商店打分。每家各有20名顾客为其打分,将表格汇总后得到数据矩阵(部分):,(2)对x矩阵中的数据进行标准化处理,使指标具有可比性。,(3)计算各观察变量之间的相关系数R,xij,xik第i个被调查者对应于变量j和k值,(4)求相对应于相关系数矩阵的特征方程|R-E|0的特征向量以及特征值,并按大小顺序排序。,判断准则可采取下列
11、之一:1)希望所取得的因子的累计方差贡献率达到80%或85%以上。,(5)确定因子个数,因子方差贡献的大小,反映了该因子对原测评变量的概括能力或解释能力。,2)当增加一个新因子时其因子方差贡献率在5%以下时,则停止增加新因子,因新增加因子时变量的解释过小,已经无意义。3)凡因子的特征值大于1者均列出,小于1者则剔除。取因子的个数为测评变量个数的三分之一。陡坡试验(screen test)因子方差的大小和与之对应的因子个数构成因子点,将因子点连接所成曲线通常呈如下形状:,因子方差,因子个数,将曲线陡的一边看成是一座山的迎面坡,在山脚下有一条,二条或更多条的线段,这些线段的角度越来越趋于0。当一批
12、碎石沿陡坡滚下时,它们在山脚下的线上堆积起来,形成碎石堆,而所确定的公共因子则被认为是第一个碎石堆形成以前的那些因子(点)。,因前两个因子F1、F2的因子累计方差贡献率为(5.725+2.671)10=84.9%,由决定因子个数的判别准则1可知,取两个因子就足够了,利用判别准则2、3可得到同样的结论。,(6)计算因子载荷,相关矩阵最大的特征值5.725,与其对应的特征向量为(0.53,0.52,0.73,0.7,0.65,0.521,0.518,0.72,0.722,0.66)。则,同样可计算得:,共性方差,特殊方差,(7)因子旋转当因子载荷的(横向比较)绝对值大小比较接近时,很难看清哪些变量
13、对哪些因子有意义,这样对公共因子的解释就变得含糊不清,因此,需要对因子载荷矩阵进行数学变换,使得因子载荷的绝对值尽量向两极分化,尽量接近于0和1。因子旋转有正交旋转及斜交旋转两种,正交旋转适用于公共因子相互独立的情况,而斜交选择则可处理因子间彼此相关的情况。目前使用较多的是最大方差旋转(正交旋转)。进行最大方差旋转时,旋转角度的确定公式为:,另外,还可采取几何法,设新的因子载荷矩阵为:,则:,顺时针旋转,逆时针旋转,本例中,将10个变量点标在因子轴上,可以看出,将因子轴旋转33.5度能实现目的。且是顺时针旋转。所以,旋转后的新因子载荷表,说明:旋转后,对测评变量总的概括能力并没有提高。旋转前后
14、每个变量的共性方差均相同。旋转前后因子累计方差贡献率保持相同。如果公共因子个数多于两个,则可以对每两个公共因子逐次进行旋转。,(7)因子命名1)从第一个变量开始水平移动找出最大的载荷,并用“*”标出。2)检查所标出的载荷是否具有意义 标准:统计尺度:载荷只有在某些指定的水平尺度上才具有统计意义,如a=0.05,说明对于小于100的样本,只有大于0.3的载荷才认为它具有统计意义。实用尺度:由于因子载荷的平方反映了因子所占变量的方差比例,如0.3的载荷反映变量方差的9%,通常将有意义的载荷截止点放在0.35左右。,3)观察载荷表,各列标有*的载荷所对应的变量即是对该列公共因子有意义的变量4)将各列
15、中表标有*载荷所对应的变量集中起来,根据这些变量所具有的共同特征命名该列的共同因子。,(8)因子得分由新因子载荷矩阵可以看出:变量X3、X4、X5、X8、X9、X10在公共因子F1上的载荷均大于0.5,X1、X2、X6、X7在F2上的载荷均大于0.5,且为正,所以:,因为每家商店各有20名顾客为其打分,用这20名顾客在这10个项目上的评分均值作为该商店在这10个项目上的代表值。这样,16家商店就得到16组数据,将这些数据标准化后代入上面两个式子就得到各商店在“环境”和“方便”两方面的得分情况。根据得分在因子空间中作图。,环境因子F1,方便因子F2,13 117,95 4 16,6 15 2 1
16、2,1 3 8 14 10,第一类商店1,3,8,14,10:这些商店不论在方便顾客或购物环境方面,都给顾客留下很好的印象。第二类商店4,5,9,16:这些商店在方便顾客和购物环境等方面都做得很差。第三类商店13,7,11:在方便顾客方面做得好但在购物环境方面还有待改进。第四类商店2,6,12,15:购物环境好但在方便顾客这方面做得不够。,因子分析的结论经过发现,我们知道影响商店形象的十个测评项目可以用“环境因子”和“方便因子”来概括。这说明:商店的环境和是否方便是影响商店形象的最主要因素。环境因子对测评变量数据的概括能力为48.6%,大于方便因子36.3%,说明顾客更看重的是商店的环境。,因
17、子分析的实际应用,1消费者使用习惯和态度研究(U&A)在U&A研究中,对消费者对产品的态度探查往往需要使用因子分析,探查影响消费者产品态度的基本因子,并在此基础上,利用各因子进行聚类分析对消费群进行细分,从而达到市场细分的目的。在这里,基本因子在消费群的细分中具有基础性的作用。例如,选取有关啤酒饮用的20个态度语句,采用5级量表法(1-非常不满意,5-非常满意)对消费者进行了产品态度调查,因子分析的结果给出了影响产品态度的6个态度因子:1)男子气概;2)品牌转换;3)有吸引的额外利益的啤酒;4)独自在家饮;5)社会认可;6)品牌试验者/社交饮用者。再如,因子分析的结果表明,新车的购买者主要关注
18、购车因子包括经济性、方便性、性能、舒适度和豪华性五个方面,由此可以产生五个细分市场。,2、生活形态研究(life-style)3、品牌形象和特性研究(brand-imagine&attributes)产品调研中,经常需要品牌形象和产品属性。在这一方面,因子分析同样可以发挥重要的作用。例如。顾客是如何评价银行的呢?对15个有关银行特性的变量的因子分析结果表明,传统服务(包括贷款利率、社会声望等)、方便性(包括服务速度、ATM机的位置等)、可见度(包括亲友推荐、社会活动的参与度等)以及能力(包括雇员能力、辅助服务可得性等)是评价银行时所使用的四个评价因子。4、满意度研究(CSR),四、判别分析方法
19、及其应用,1.判别分析所研究的问题(归类研究)可能用户和非用户;经常购买者和非经常购买者;忠诚使用者和非忠诚使用者;新产品的早期使用者和后期使用者;消费者心目中喜爱的品牌和不喜爱的品牌;消费者信任度高的商场和信任度低的商场;重度使用者、中度使用者、轻度使用者;等等。,2.判别分析的基本原理 是在已知被研究对象已分为若干类的情况下,利用某种技术建立函数式,确定新的被研究对象属于已知类型中的哪一类。(1)确定判别函数,式中:yi第i个研究对象的判别值;xji第i个研究对象在第j个因素上的观察值;bj第j个因素的比重或判别系数。,(2)确定判别临界值yc 如果yi yc,第i个研究对象为第1组;yi
20、 yc,第i个研究对象为第2组,3.判别分析的步骤确定研究问题;确定分析样本和验证样本;估计判别函数或后验概率;评价判别模型的效果;检验模型的显著性;解释分析的结果;检查判别的效果。正确判定的比率应超过随机分类比率的25%,即如果将研究对象分成n类,则正确判定的比率应超过100%/n+25%,才能考虑接受判别分析的结果。,4.判别分析示例远东公司在新产品没有大量上市之前,将新产品寄给12个国家的进口代理商,并附意见调查表要求对该公司产品给予评估。评估的因素有三:式样、包装和耐久性。评分采用10分制,每一进口商并被要求说明是否愿意购买,结果如表所示:解:(1)计算两组平均值及平均差向量D 购买组
21、的平均值:式样:8.29;包装:6.43;耐久性:6非购买组的平均值:式样:3.2;包装:3.8;耐久性:4,(2)计算两组数据的离差矩阵及共方差矩阵购买组的离差矩阵:,非购买组的离差矩阵:,判别函数为:,购买组的共方差矩阵:,(3)计算两组数据的联合共方差矩阵,(4)确定判别系数,非购买组的共方差矩阵:,(5)检验判别函数:F检验零假设是:两个类别的判别得分的均值是相同的,a=0.01,自由度(n1+nj-v-1),查F表得F*=7.59因为F F*,上述判别函数准确率达99%。,(6)确定判别临界值,(7)对新的研究对象进行判别,如果yi yc,该代理商为可能购买者;如果yi yc,该代理商为可能非购买者。,