《主成分分析模型.ppt》由会员分享,可在线阅读,更多相关《主成分分析模型.ppt(33页珍藏版)》请在三一办公上搜索。
1、第二讲 主成分分析模型与因子分析模型,一、主成分分析模型,这种将多个指标化为少数互相无关的综合指标的统计方法就叫主成分分析或称为主分量分析.也是数学上处理降维的一种方法.例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等等十几个指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多,而是从多种指标中综合成几个少数的综合指标,做为分类的型号,利用主成分分析将十几项指标综合成3项指标,一项是反映长度的指标,一项是反映胖瘦的指标,一项是反映特体的指标。在商业经济中用主成分分析可将复杂的一些数据综合成几个商业指数形式,如物价指数、生活费用指数、商业活动指数等等。,主成
2、分分析综合评价法具有以下优点:第一,可消除评价指标之间的相关影响。因为主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越高,主成分分析效果越好。第二,可减少指标选择的工作量,对于其它评价方法,由于难以消除评价指标间的相关影响,所以选择指标时要花费不少精力,而主成分分析由于可以消除这种相关影响,所以在指标选择上相对容易些。第三、主成分分析中各主成分是按方差大小依次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前面方差较大的几个主成分来代表原变量,从而减少了计算工作量。,2、基本思想 主成分分析就是设法将原来众多具有一定相关性的指标(比如p个指标),重
3、新组合成一组相互无关的综合指标来代替原来指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性组合即第一个综合指标记为F1,自然希望F1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用F1的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合。,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用
4、数学语言表达就是要求Cov(F1,F2)=0,称F2为第二主成分,依此类推,可以制造出第三、四第p个主成分。不难想像这些主成分之间不仅不相关,而且它们的方差依次递减。因此,在实际工作中,就挑选前几个最大的主成分(一般取信息量包含85%以上的前几个指标),虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息,因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。,3、数学模型设有n个样品,每个样品观测项指标(变量):X1,X2,Xp,得到原始资料数据矩阵:,用数据矩阵X的p个向量(即p个指标向量)
5、X1,Xp作线性组合(即综合指标向量)为:,上述方程要求:,且系数由下列原则确定:(1)Fi与Fj()不相关;(2)F1是X1,X2,Xp的一切线性组合中方差中最大的,F2是与F1不相关的X1,X2,Xp的一切线性组合中方差中最大的,Fp是F1,F2,Fp-1都不相关的X1,X2,Xp的一切线性组合中方差中最大的。可以证明,满足上述条件的主成分F1,F2,Fp线性组合中的系数向量 恰好是X的协方差矩阵的特征值对应的特征向量。也就是说,数学上可以证明使Var(F1)达到最大,这个最大值是在的第一个特征值所对应特征向量处达到。,依此类推,使Var(Fp)达到最大,这个最大值是在的第p个特征值所对应
6、特征向量处达到。这里要说明两点:一个是数学模型中为什么作线性组合?基于两种原因:1)数学上容易处理;2)在实践中效果好。另一个需要说明的是每次主成分的选取使Var(Fi)最大,如果不加限制就可使Var(Fi),则就无意义了,而常用的要求是:,设的特征根分别为:,定义:称第一主成分的贡献率为,由于,所以。因此第一主成分的贡献率就是第一主成分的方差在全部方差 中的比值。这个比值越大,表明第一主成分综合X1,Xp信息的能力越强。前两个主成分的累计贡献率定义为,前k个主成分的累计贡献率定义为。如果前k个主成分的贡献率达到85%,表明取前k个主成分包含了全部测量指标所具有的信息,这样既减少了变量的个数又
7、便于对实际问题的分析和研究。,值得指出的是:当协方差阵未知时,可用其估计值S(样本协方差阵)来代替。设原始资料矩阵为:,则,而相关系数矩阵:,显然,当原始变量X1,Xp标准化后,则,实际应用时,往往指标的量纲不同,所以在计算之前先消除量纲的影响,而将原始数据标准化,这样一来S和R相同。因此一般求R的特征根和特征向量,并且不妨取。因为这时的R与 只差一个系数,显然 与 的特征根相差n倍,但它们的特征向量不变,它并不影响求主成分。,4、主成分分析的步骤,(1)将原始数据标准化(目的是消除不同量纲、正逆指标的影响)设原始数据矩阵为,按下式进行标准化(其中Y为标准化后的数据),(2)计算相关系数矩阵R
8、,(3)求相关系数矩阵的特征根及对应的特征向量,(4)写出主成分,(5)将k个主成分进行综合,综合成单个指标,并得出最后排序结果主成分进行综合常用的有以下三种方法。,将k个主成分综合成单指标评价,通常有以下三种方法。第一种方法,将累计贡献率达到85%的k个主成分F1,F2,Fk做线性组合,并以每个主成分Fi的方差贡献率 作为权数构造一个综合评价函数:以v为评估指数,依据对每个评价对象计算出的v值大小进行综合排序。,第二种方法,只用第一个主成分作评估指数,即v=F1。理由是,第一主成分与原始变量X1,X2,Xp综合相关度最强,如果想以一个综合变量来代替原来所有变量,则最佳选择应该是F1;另一方面
9、由于第一主成分F1对应于数据变异最大的方向也就是使数据信息损失最小,精度最高的一维综合变量。但是值得注意的是使用这种方法是有前提条件的,即要求所有评估指标变量都是正相关的,也就是说对所有变量均有同增、同减的趋势。,第三种方法,根据变量的重要性程度不同赋予不同的权数,重要的变量权数取得大些,不重要的变量权数取得相对小些。即令 这时 因此,1p个变量的方差分别为:由于一部分在系统评估中更为重要的变量被赋予更大的权数,因此在这些指标上,变量的变差被拉长,于是在求第一主成分时,这些指标会得到更多的重视。然后,对标准化又加权后的数据阵 计算协方差矩阵,求 的最大特征值 和特征向量,令,最后按 进行排序比
10、较或分类划级。,二、因子分析模型,1、什么是因子分析 因子分析是主成分分析的推广和发展。它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。例如,某公司对100名招聘人员的知识和能力进行测试,出了50道题的试卷,其内容包括的面较广,但总的来讲可归纳为六个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一方面称为因子,显然这里所说的因子不同于回归分析中因素,,因为前者是比较抽象的一种概念。而后者有着极为明确的实际意
11、义,如人口密度、工业总产值、产量等。假设100人测试的分数为,可以用上述六个因子表示成线性函数:,其中F1,F2,F6表示六个因子,它对所有Xi是共有的因子,通常称为公共因子,它们的系数ai1,,ai6称为因子载荷,它表示第i个应试人员在六个因子方面的能力。i是第i个应试人的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定,仔细观察这个模型与回归模型在形式上有些相似,实质很不同。,这里的F1,F6的值是未知的,并且有关参数的统计意义更不一样。因子分析的任务,首先是估计出aij和方差,然后将这些抽象因子Fi赋予实际背景的解释或说法以命名。利用综合出的少数因子,以再现原始变量和因子之间
12、的相互关系,以达到降维的目的。,2、基本思想 因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性较低。,3、数学模型(正交因子模型),用矩阵表示为:X=AF+,且满足1)mp2)Cov(F,)=0 即F和是不相关的3),即F1,Fm不相关且方差皆为1,即1,p不相关,且方差不同,其中 是可实测的p个指标所构成p维随机向量,是不可观测的向量。F称为X的公共因子或潜因子,即前面所说的综合
13、变量,可以把它们理解为在高维空间中的互相垂直的m个坐标轴;aij称为因子载荷是第i个变量在第j个公共因子上的负荷,如果把变量Xi看成m维因子空间中的一个向量,则aij表示Xi在坐标轴Fj上的投影,矩阵A称为因子载荷矩阵;称为X的特殊因子,通常理论上要求的协方差阵是对角阵,中包括了随机误差。,因子分析的目的就是通过模型X=AF+以F代替X,由于mp,从而达到简化变量维数据的愿望。因子分析和主成分分析有许多相似这处,在求解过程中二者都是从一个协方差阵出发,但这两种模型是有区别的。主成分分析的数学模型实质上是一种变换,而因子分析模型是描述原指标X协方差阵结构的一种模型,当m=p时,就不能考虑,此时因
14、子分析也对应一种变量变换,但实际应用中,m都小于p,且为经济起见总是越小越好。另外在主成分分析中每个主成分相应的系数aij是唯一确定的,与此相反在因子分析中每个因子的相应系数不是唯一的,即因子载荷不是唯一的。从因子分析的数学模型上看,它与多变量回归也有类似之处,但本质的区别是因子分析模型作为“自变量”的F是不可观测的。,4、因子模型中公共因子、因子载荷和变量共同度的统计意义 假定因子模型中,各变量的公共因子、特殊因子都已经是标准化(均值为0、方差为1)的变量(1)因子载荷的统计意义已知模型:,两端右乘Fj得:,于是:,在标准化下有:,因为各因子不相关,所以相关系数为0故因子载荷aij的统计意义
15、就是第i个变量与第j个公共因子的相关系数即表示Xi依赖Fj的份量(比重)。因此用统计学的术语应该叫着权,但由于历史原因,心理学家将它叫着载荷,即表示第i个变量在第j个公共因子上的负荷,它反映了第i个变量在第j个公共因子上的相对重要性。(2)变量共同度的统计意义 所谓变量共同度定义为因子载荷阵A中第i行元素的平方和,即,为了说明它的统计意义,将下式两边求方差,即,由于Xi已经标准化了,所以有,此式说明了Xi的方差由两部分组成:第一部分为共同度,它刻划全部公共因子对变量Xi的总方差所作的贡献,越接近于1,说明该变量的,几乎全部信息都被所选取的公共因子说明了,如=0.97,说明Xi的97%的信息被所
16、选取的m个公共因子说明了,也就是说由原始变量空间转为因子空间转化的性质越好,保留原来信息量多,因此 是Xi的方差的重要组成部分。当 时,说明公共因子对Xi影响很小,主要由特殊因子来描述。第二部分 是特定变量所产生的方差,称为特殊因子方差仅与变量Xi本身的变化有关,它是使Xi的方差为1的补充值。,(3)公共因子Fj的方差贡献的统计意义将因子载荷矩阵中各列元素的平方和记为,称Sj为公共因子Fj对X的贡献,即Sj表示同一公共因子Fj对诸变量所提供的方差贡献之和,它是衡量公共因子相对重要性指标。5、因子载荷阵的估计方法 建立某个实际问题的因子模型,关键是要根据样本数据矩阵估计因子载荷矩阵A。对A的估计
17、方法有很多,这里仅介绍使用较为普遍的主成分法。设随机向量 的协方差矩阵为,为的特征根,e1,ep为对应的标准下交化特征向量,则根据线性代数的知识可分解为:,上面的分解式恰是公共因子与变量个数一样多且特殊因子的方差为0时,因子模型中协方差矩阵的结构。又因为因子模型为:X=AF,其中D(F)=I所以,对照的分解式,则因子载荷矩阵A的第j列应该是,也就是说除常数 外,第j列因子载荷恰是第j个主成分的系数ej,故称为主成分分析法。,6、因子旋转 建立因子分析模型的目的不仅要找出公共因子以及对变量进行分组,更重要的是要知道每个公共因子的意义,以便对实际问题作出科学的分析,如果每个公共因子的涵义不清,不便
18、于进行实际背景的解释,这时根据因子载荷矩阵的不唯一性,可对因子载荷矩阵实行旋转,即用一个正交矩阵右乘A(由线性代数知道,一个正交变换对应坐标系的一次旋转),使旋转后的因子载荷矩阵结构简化,便于对公共因子进行解释。所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷,而在其余,公共因子上载荷比较小。这种变换因子载荷矩阵的方法称为因子旋转。旋转的方法有多种,如正交旋转、斜交旋转等,这里仅介绍常用的最大方差正交旋转。7、因子得分 因子分析的数学模型是将变量表示为公共因子的线性组合:,由于公共因子能反映原始变量的相关关系,用公共因子代表原始变量时,有时更有利于描述研究对象的特征,因而往往需要反过来将公共因子表示为变量的线性组合,即,称上式为得分因子函数。用它来计算每个样品的公共因子得分。由于因子得分Fj的值是待估的,我们仅知道利用样本值可得因子载荷阵,由因子载荷矩阵的意义,即,因此,因子得分计算公式为:,8、因子分析法计算步骤:第一步:将原始数据标准化,以消除量纲的影响;第二步:建立指标间的相关系数矩阵R;第三步:求R的特征值与特征向量;第四步:建立因子载荷矩阵A;第五步;对因子载荷矩阵实行方差最大旋转,根据旋转后的因子载荷进行指标分类并解释经济现象;第六步:计算因子得分。,