《多元统计分析之因子分析.ppt》由会员分享,可在线阅读,更多相关《多元统计分析之因子分析.ppt(68页珍藏版)》请在三一办公上搜索。
1、多 元 统 计 分 析 方 法 因 子 分 析,引言,事物的表现是多方面的,事物之间的相互作用也是交叉重叠和具有层次性的,所以我们期望对事物进行准确描述的时候总会陷入一种两难:一方面,对事物的各种表现的观测越全面,对事物的认识就越准确和越完整;另一方面,对事物的观测越全面,得到的描述变量就越多,对事物的特性的表述却变得更加困难了!,显然,在高维度空间中描述事物比在低维度的空间中描述事物更客观,却更困难。这一矛盾如何解决呢?统计学提供了最有效的方法和手段,即下面要学习因子分析。,一、基本理论,三、因子分析的基本步骤,目录,四、因子分析的spss实例应用,二、因子分析模型,一、基本理论,1.什么是
2、因子分析?因子分析是将具有错综复杂关系的变量(或样本)综合为少数几个因子,以再现原始变量和因子之间的相互关系,探讨多个能够直接测量,并且具有一定相关性的实测指标是如何受少数几个内在的独立因子所支配,并且在条件许可时借此尝试对变量进行分类。,2.因子分析的基本思想,根据变量间相关性的大小把变量分组,使得同组内的变量之间的相关性(共性)较高,并用一个公共因子来代表这个组的变量,而不同组的变量相关性较低(个性)。,因子分析将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子。,3.因子分析的目的,因子分析的目的,通俗来讲就是
3、简化变量维数。即要使因素结构简单化,希望以最少的共同因素(公共因子),能对总变异量作最大的解释,因而抽取得因子越少越好,但抽取的因子的累积解释的变异量越大越好。,例:在企业形象或品牌形象的研究中,消费者可以通过一个由24个指标构成的评价体系,评价百货商场的24个方面的优劣。但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。而这三个公共因子可以表示为:,xi=ai1F1+ai2F2+ai3F3+i(i=1,2,3.24)称 F1、F2、F3 是不可观测的潜在因子,也称为
4、公共因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分i,称为特殊因子。,二、因子分析模型,因子分析是通过研究多个变量间相关系数矩阵(或协方差矩阵)的内部依赖关系,找出能综合所有变量的少数几个综合指标,这几个综合指标是不可测量的,但它更能反映事物的本质,通常称为因子。各个因子间是独立的、互不相关,所有变量都可以表示成公因子的线性组合。,1.数学模型,设有N个样本,P个指标,X=(x1,x2,.,.xp)T为随机向量,要寻找公共因子为F=(F1,F2,.,FM)T,则模型:X1=a11F1+a12F2.+a1mFm+1X2=a21F1+a22F2.+a2mFm+2:Xp=
5、ap1F1+ap2F2.+apmFm+p被称为因子模型。,矩阵A=(ai j)称为因子载荷矩阵,ai j为因子载荷,其实质就是公因子Fi和变量Xj 的相关系数。为特殊因子,代表公因子以外的影响因素所导致的(不能被公共因子所解释的)变量变异,实际分析时忽略不计。上述模型表示成矩阵形式为:X=AF+。,对求得的公因子,需要观察它们在哪些变量上有较大的载荷,再据此说明该公因子的实际含义。但对于分析得到的初始因子模型,其因子载荷矩阵往往比较复杂,难以对公因子Fi 给出一个合理的解释,此时可以考虑进一步做因子旋转,以求旋转后能得到更加合理的解释。,因子分析得到的模型有两个特点:其一,模型不受量纲的影响;
6、其 二,因子载荷不是唯一的,通过 因子轴的旋转,可以得到新的因子载荷阵,使意义更加明显。,2.各统计量的意义,(1)特征值(Eigenwalue):它可以被看成是公因子响力度的指标,代表引入该因子后可以解释平均多少个原始变量的信息。如果特征值小于,说明该因子的解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于作为纳入标准。,(2)累计贡献率:前 k个主成分的累计贡献率指按照方差贡献率从大到小排列,前 k 个主成分累计提取了多少的原始信息,即前面 k 个主成分累计提取了x1,x2,xp多少的信息。一般来说,如果前 k 个主成分的累计贡献率达到85%,表明前 k 个主成分包
7、含了全部测量指标所具有的主要信息,这样既减少了变量的个数,又便于对实际问题的分析和研究。,(3)因子载荷ai j:因子载荷ai j为第 i 个变量在第 j个因子上的载荷,实际上就是 xi 与Fj 的相关系数,表示变量 xi 依赖因子Fj 的程度,或者说反映了第 i个变量 xi 对于第 j 公因子Fj 的相对重要性。其绝对值越大,则表示公因子Fj 与xi 的关系越密切。,(4)变量共同度:变量共同度也称为公共方差,记为hj2,表示全部公因子对变量xi 的总方差所作出的贡献,或者变量xi 的信息能够被k 个公因子所描述的程度,数值在01之间。取值越大,说明该变量能被公共因子解释的信息比例越高。变量
8、xi 的共同度为因子载荷矩阵A 中第i 行元素的平方和,即:hi2=,(j=1,2,3,k),如果大部分变量的共同度都在0.8上,则说明提取出的公因子已经基本反映了各原始变量80%以上的信息,因子分析效果理想。,(5)公因子的方差贡献:,公因子Fj 的方差贡献定义为因子载荷矩阵中第 j 列元素的平方和,即:Sj=(i=1,2,3,k)它所反映的是该因子对所有原始变量总方差的解释能力,其值越大,说明该因子的重要性越高。,三、因子分析的基本步骤,因子分析中需要解决两个问题:一是如何来构造少量的并且能够尽可能的反映原有信息的因子;二是如何对析取出的因子进行命名解释。其基本步骤如下:,1.确定待分析的
9、原始变量是否适合进行因子分析,即进行因子分析的前提假设是否满足。2.因子提取3.因子旋转4.计算因子得分,1.确定待分析的原始变量是否适合进行因子分析,由于因子分析是从众多原始变量中构造出少数几个有代表意义的因子,这就要求原变量之间具有较强的相关性。如果原变量间不存在相关关系,或者说没有共同成分的话,就无法、也没有必要再去析取因子,因为原变量本身就已经是最小的不能再缩减的变量集。,因此,因子分析时,需要对原变量进行相关分析。如果在计算出的相关矩阵,大部分相关系数都小于0.3,并且未通过统计检验,则变量不适合于进行因子分析。,此外,SPSS的因子分析过程也提供了用于检验变量是否合适于做因子分析的
10、方法:,方法一:KMO检验,KMO(Kaiser-Meyer-Olkin)检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。主要应用于多元统计的因子分析。KMO检验是依据变量间的简单相关与偏相关的比较。,其计算公式为所有原变量简单相关系数的平方和除以简单相关系数平方和加偏相关系数平方和。即:其中,是变量i和j的简单相关系数,是变量i和变量j的偏相关系数。,(0KMO1),如果KMO值越接近1,则越适合于做因子分析,如果KMO越小,则越不适合于做因子分析,其判断标准如下:0.9KMO:非常适合0.8KMO0.9:适合0.7KMO0.8:一般0.6KMO0.7:不太适合KMO0.5:不合适
11、,方法二:巴特利特(Bartlett)球形检验,该检验首先假设变量相关矩阵为单位阵(对角线为1、非对角线为0),然后检验实际相关矩阵与此差异性。如果差异性显著,则拒绝单位阵假设,即认为原变量间的相关性显著,适合于作因子分析,否则不能作因子分析。,方法三:反映象相关矩阵检验,将偏相关矩阵中的每个元素取反,得到反映像相关矩阵。如果原变量间相互作用较大,则控制了这些相互作用后的偏相关系数较小,此时反映像相关矩阵中的元素的绝对值比较小,则适合于做因子分析,反之则不适合于作因子分析。,2.因子提取,因子提取方法 因子分析中,析取因子的方法有许多种,在“抽取”对话框中的“方法”下拉列表框中,可以选择不同的
12、分析方法。(1)主成分法:为默认选项,也是最常用的使用方法之一。,此方法将原有的P个相关变量Xi作线性变换后转成另一组不相关的变量Yi,即:y1=u11x1+u21x2+up1xpy2=u12x1+u22x2+up2xpyP=u1Px1+u2Px2+uppxp该方程组要求:u1k2+u2k2+u3k2+upk2=1(k=1,2,3,p),系数uij依照两个原则来确定:yi与yj(ij,i,j=1,2,3,p)互不相关;y1是x1,x2,x3,xp的一切线性组合(系数满足上 述方程组)中方差最大的;y2是与y1不相关的 x1,x2,x3,xp的一切线性组合中方差次大的;yP是与y1,y2,y3,
13、yp都不相关的x1,x2,x3,xp的一切线性组合中方差最小的;即 y1,y2,y3,y4,yp为原有变量的第1、第2、第3和第p个主成分。,通过选取前面几个方差最大的主成分,一方面能够用较少变量反映原有变量的绝大部分信息(一般方差的累计贡献率应大于85%),另一方面减少了数据分析和处理的复杂程度。(2)未加权的最小平方法:该方法使实际的相关阵 和再生的相关阵之差的平方和达到最小。,(3)广义最小二乘法:该方法实际也是使实际的相关阵和再生的相关阵之差的平方和达到最小。但是对相关系数要进行加权,权重为其单值的倒数,这样单值高的变量,其权重比单值低的变量的权重小。,(4)最大似然法。该方法要求数据
14、服从多变量正态分布,此时它生成的参数估计值最接近观察到的相关阵,在样本量较大时使用较好。,(5)主轴因子分解:该方法从原始变量的相关性出发,使得变量间的相关程度能够尽可能地被公因子解释。该方法重在解释变量的相关性,确定内在结构,而对于变量方差的解释不太重视。,(6)因子分解法:此法将变量看成是从潜在变量空间中抽取出的样本,在计算中尽量使得变量的 信度达到最大。,(7)映像因子分解:该方法把一个变量看作是其他变量的多元回归,据此概念提取公因子。,事实上,如果变量数和样本量都大,而且相关性也高,则各种因子提取法的结果基本相同,区别仅仅在于其分析思想不同。主成分法是最常用的方法,在多数情况下也是最佳
15、的选择;如果样本量极大(1500以上),则极大似然法的结果稍为更精确些;如果数据不好(样本小,或变量少),因子法或映像因子法可能更好;当对各种方法的原理不太清楚或者适用条件不明的情况下,主成分法仍然是最好的选择。,因子个数的确定,根据特征值确定因子数:一般选取特征值大于1的公因子,因为如果特征值小于1,说明该公因子的解释力度太弱,还比不上直接引入一个原变量的平均解释力度大。但是这一点在因子分析中并不是绝对的,在实际应用中,可以将累计贡献率、特征值大小与碎石图等综合起来考虑,必要时也可以保留特征值小于1,但是在专业上有明确含义的公因子。,也可以根据因子的累计方差贡献率确定因子数:通常选取累计方差
16、贡献率大于85%的特征值个数为因子个数。另外,还可以通过直观观察碎石图的方式确定因子的个数。,3.因子旋转,根据前述分析,因子分析得到的每个公共因子都对原变量中的每一变量作出一定解释,而解释程度的大小反映在因子载荷矩阵A 的元素结构上。一般我们可以得到每一列的因子载荷中有一些是比较大的,而另一些比较小,就可以知道该列对应的因子主要解释了哪些变量,以此确定该公共因子的主要特征和内涵。,但有时,因子载荷的大小差异不是非常明显,此时公共因子的命名和解释就比较困难。这时可以使用因子矩阵旋转对因子矩阵作变换,使得旋转之后的载荷矩阵在每一列上元素的绝对值尽量地拉开大小距离,增加因子载荷的差异性,提高因子的
17、可解释性。最常用的因子旋转是最大方差法,因为此种方法使因子载荷获得最佳分化。,因子旋转方法有正交旋转和斜交旋转两大类:,(1)最大方差正交旋转(Varimax):最常用的旋转方法,使各因子仍然保持正交的状态,但尽量使得各因子的方差差异达到最大,即相对的载荷平方和达到最大,从而方便对因子的解释。,(2)四次方最大正交旋转(Quartimax):该方法对各因子方差差异化的效果显然更强,同时倾向于减少和每个变量有关联的因子数,从而简化对原变量的解释。,(3)最大平衡值法(Equamax):该方法的特点正好介于最大方差正交旋转和四次方最大正交旋转之间。它使每个因子具有高载荷的变量数最小和需要解释的变量
18、的因子数最小。,(4)直接Obimin法:直接斜交旋转法,需要首先指定一个因子映像的自相关范围,在Delta框中输入 值,该值的取值上限为0.8。当Delta=0时(系统默认值),斜交程度最大,可以取负值,负值越小,因子间斜交程度变得越小。,(5)Promax:最常用的斜交旋转方法,是在最大方差正交旋转的基础上再进行斜交旋转。旋转后允许因子间存在相关,这种旋转方式往往是在有具体的结果倾向时选用,它可以按分析者的目的将因子分解为最希望的形式。适用于大数据集的因子分析。但是在实际应用中,由于斜交旋转的结果太容易受研究者主观意愿的左右,所以建议尽量采用默认的正交旋转。,4、计算因子得分,在因子分析实
19、际应用中,当因子确定以后,便可计算各因子在每个样本上的具体数值,这些数值称为因子得分,形成的变量称为因子变量。,计算因子得分的途径是用原有变量描述因子,第j个因子在第i个样本上的值可表示为:Fj=j1x1+j2x2+j3x3+jpxp(j=1,2,3,m),但是在因子分析中,由于具体的算法可以不是主成分方法,因此不一定能像主成分分析一样,直接从因子载荷矩阵得到公因子的表达式,此时只能采用估计的方法求得。估计因子得分的方法有多种,有一般有回归法、Bartleet(巴特利特)和Anderson-Rubin估计法等回归法,但最常用的是默认的回归法。,四、因子分析的spss实例应用,现希望对全国30个
20、省、市、自治区(未包括港澳台地区,重庆包含在在四川里)经济发展基本情况的八项指标进行分析。具体采用的指标有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品价格指数、工业总产值,数据文件见 factor1.sav。操作步骤如下:(见上机操作),输出结果分析:,下图为8个原始变量之间的相关系数矩阵,可见许多变量之间直接的相关性比较强,的确存在信息上的重叠。该结果确认了信息浓缩的必要性。,下图为KMO和球形Bartlett检验结果。KOM和球形Bartlett检验用于因子分析的适用性检验。KMO检验变量间的偏相关是否较大,Bartlett球形检验是判断相关阵是否
21、是单位阵。由Bartlett检验的显著性为0.000.05,因此不为单位阵,应拒绝各变量独立的假设,即变量间具有较强的相关性。但是KMO统计量为0.620,小于0.7,说明各变量间信息的重叠程度可能不是特别高,有可能做出的因子分析模型不是很完善,但还是值得尝试的。,下图为公因子方差,它表示各变量中所含原始信息能被提取的公因子所表示的程度,可见几乎所有变量的共同度都在80%以上,因此按在默认数量提取出来的这几个因子对各变量的解释能力是比较强的。,下图是采用默认设置抽取特征值大于1的成分的结果,从中可以看出抽取了3个因子,但可以解释总变异量的89.55%。表格在最右侧给出了旋转后各因子的载荷情况。
22、由于默认只提取了前3个公共因子,因此旋转会基于所提取的这3个因子进行。在旋转后,3个公因子的方差贡献率均发生了变化,彼此差距有所缩小,显然信息量进行了重新分配,但仍然保持从大到小的排列顺序,而且累计方差贡献率仍是89.55%,和旋转前完全相同。,本例中是按照特征值大于1的默认标准提取了3个公因子,但这个标准是否合适呢?这可以利用碎石图(Scree Plot)来协助判断。,Scree 一词来自地质学,表示在岩石断层斜坡下方发现的小碎石,这些碎石可能是因风化、水流等从其他地点带来,因此其地质学价值不高,可以忽略。碎石图用于显示各因子的重要程度,其横轴为因子序号,纵轴表示特征值大小。它将因子按特征值
23、从大到小依次排列,从中可以直接观察出道哪些是最主要的因子。前面陡坡对应 较大的特征值,作用明显;后面的平台对应较小的特征值,其影响较弱。本例中可见前三个因子的散点位于陡坡上,而后五个因子散点形成了平台,且特征值均小于1,因此至多考虑前三个公因子即可。,旋转前的成份矩阵,从下图我们可以发现,提取的三个成分各自主要解释了哪些原始变量不是很清楚,因为光从因子载荷来看,它们之间的差异并不是很明显,此时我们就需要进行因子旋转。,该表反映的是各因子在各变量上的载荷,即各因子对各变量的影响度:,ZX1=0.911F1+0.163F2+0.213F3+1ZX2=0.884F1+0.385F2+0.120F3+
24、2:ZX8=-0.510F1+0.257F2+0.794F3+8注意:在该表达式中,各变量不是原始变量,而是标准化变量。i表示特殊因子,是除了这三公因子外影响该变量的其他因素,其对该变量的影响程度为:1-变量共同度,旋转后的成份矩阵,下图是经过旋转后的成分矩阵,可以看出表格按照系数大小进行了排序,而且过小的系数也被抑制输出,使得结果更清晰易读,但是内容实际上是相同的。,由旋转成分矩阵可以看出第一公因子在前4个原始变量有较大的载荷,主要从GDP、固定资产投资、货物周转量和工业总产值反映经济发展状况,可以命名为总量因子。第二公因子在第5个和第6个原始变量上有较大载荷,从居民消费水平和职工平均工资方
25、面反映经济发展水平,因此命名为消费因子。第三公因子在最后两个原始变量上有较大载荷,表现为居民消费价格指数和商品价格指数方面,因此命名为价格因子。与未旋转前相比较,旋转后各公因子的意义显然更加明确合理,也有利于对数据的解读与应用。,成分转换矩阵,转换矩阵用于计算旋转后各因子的特征值,将旋转前各个因子的特征值矩阵与转换矩阵相乘,即得旋转后各个因子特征值。,成份得分系数矩阵,在SPSS中,可以利用“得分”对话框中的“显示因子得分系数”复选框在结果中直接输出因子系数矩阵,本例结果如下:,根据上图可以直接写出各公因子的表达式,F1=0.306Zx1+0.025Zx2+0.270Zx3-0.025Zx4+0.248Zx5+0.070Zx6+0.070Zx7+0.317Zx8F2=0.011Zx1+0.387Zx2+0.129Zx3+0.415Zx4-0.319Zx5+0.180Zx6-0.098Zx7+0.026Zx8F3=0.047Zx1+0.040Zx2+0.075Zx3+0.096Zx4-0.139Zx5+0.653Zx6+0.0462Zx7+0.123Zx8,下图表示的是各因子间的协方差矩阵,因为是按正交提取的,所以各因子间的协方差为零。,Thank You!,