SPSS在主成分分析报告中地应用.doc

资源描述

《SPSS在主成分分析报告中地应用.doc》由会员分享，可在线阅读，更多相关《SPSS在主成分分析报告中地应用.doc（17页珍藏版）》请在三一办公上搜索。

1、wordSPSS在主成分分析中的应用摘要主成成分分析是一种对数据进展分析的技术，最重要的应用是对原有数据进展简化。本文首先对主成成分分析方法的原理进展了简单的阐述。介绍了进展主成成分分析的工具SPSS，并以分析全国31个省市的8项经济目标为例，给出了详尽的分析。实验结果明确，主成成分分析能有效的将原有的复杂数据降维，同时包含原数据的大局部信息。关键词 SPSS 主成分分析经济开展指标1 主成分分析的原理。主成分分析是设法将原来众多具有一定相关性比如P个指标，重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。最经典的做法

2、就是用F1 选取的第一个线性组合，即第一个综合指标的方差来表达，即Var(F1)越大，表示F1 包含的信息越多。因此在所有的线性组合中选取的 F1 应该是方差最打的，故称 F1为第一主成分。如果第一主成分不足以代表原来 P 个指标的信息，再考虑选取F2 即选第二个线性组合，为了有效地反映原来信息，F1 已有的信息就不需要再出现再 F2 中，用数学语言表达就是要求 Cov(F1, F2)=0，如此称 F2 为第二主成分，依此类推可以构造出第三、第四，第P个主成分。主成分模型：满足以下条件：1. 每个主成分系数平方和为1即：2. 主成分之前互不相关即：3. 主成分方差依次递减，即二利用SPS

3、S进展主成成分分析实例以全国31个省市的8项经济指标为例，进展主成分分析。第一步：录入或调入数据图1。图1 原始数据未经标准化第二步：打开“因子分析对话框。沿着主菜单的“AnalyzeData ReductionFactor的路径图2打开因子分析选项框图3。图2 打开因子分析对话框的路径图3 因子分析选项框第三步：选项设置。首先，在源变量框中选中需要进展分析的变量，点击右边的箭头符号，将需要的变量调入变量Variables栏中图3。在本例中，全部8个变量都要用上，故全部调入图4。因无特殊需要，故不必理会“Value栏。下面逐项设置。图4 将变量移到变量栏以后设置Descriptives选项。

4、单击Descriptives按钮图4，弹出Descriptives对话框图5。图5 描述选项框在Statistics栏中选中Univariate descriptives复选项，如此输出结果中将会给出原始数据的抽样均值、方差和样本数目这一栏结果可供检验参考；选中Initial solution复选项，如此会给出主成分载荷的公因子方差这一栏数据分析时有用。在Correlation Matrix栏中，选中Coefficients复选项，如此会给出原始变量的相关系数矩阵分析时可参考；选中Determinant复选项，如此会给出相关系数矩阵的行列式，如果希望在Excel中对某些计算过程进展了解，可选

5、此项，否如此用途不大。其它复选项一般不用，但在特殊情况下可以用到本例不选。设置完成以后，单击Continue按钮完成设置图5。设置Extraction选项。打开Extraction对话框图6。因子提取方法主要有7种，在Method栏中可以看到，系统默认的提取方法是主成分.因此对此栏不作变动，就是认可了主成分分析方法。在Analyze栏中，选中Correlation matirx复选项，如此因子分析基于数据的相关系数矩阵进展分析；如果选中Covariance matrix复选项，如此因子分析基于数据的协方差矩阵进展分析。对于主成分分析而言，由于数据标准化了，这两个结果没有分别，因此任选其一即可

6、。在Display栏中，选中Unrotated factor solution非旋转因子解复选项，如此在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言，这一项选择与否都一样；对于旋转因子分析，选择此项，可将旋转前后的结果同时给出，以便比照。选中Scree Plot“山麓图，如此在分析结果中给出特征根按大小分布的折线图形如山麓截面，故得名，以便我们直观地判定因子的提取数量是否准确。在Extract栏中，有两种方法可以决定提取主成分因子的数目。一是根据特征根Eigenvalues的数值，系统默认的是。我们知道，在主成分分析中，主成分得分的方差就是对应的特征根数值。如果默认，如此所有方差大

7、于等于1的主成分将被保存，其余舍弃。如果觉得最后选取的主成分数量不足，可以将值降低，例如取；如果认为最后的提取的主成分数量偏多，如此可以提高值，例如取。主成分数目是否适宜，要在进展一轮分析以后才能肯定。因此，特征根数值的设定，要在反复试验以后才能决定。一般而言，在初次分析时，最好降低特征根的临界值如取，这样提取的主成分将会偏多，根据初次分析的结果，在第二轮分析过程中可以调整特征根的大小。第二种方法是直接指定主成分的数目即因子数目，这要选中Number of factors复选项。主成分的数目选多少适宜？开始我们并不十分清楚。因此，首次不妨将数值设大一些，但不能超过变量数目。本例有8个变量，因

8、此，最大的主成分提取数目为8，不得超过此数。在我们第一轮分析中，采用系统默认的方法提取主成分。图6 提取对话框需要注意的是：主成分计算是利用迭代Iterations方法，系统默认的迭代次数是25次。但是，当数据量较大时，25次迭代是不够的，需要改为50次、100次乃至更多。对于本例而言，变量较少，25次迭代足够，故无需改动。设置完成以后，单击Continue按钮完成设置图6。设置Scores设置。选中Save as variables栏，如此分析结果中给出标准化的主成分得分在数据表的后面。至于方法复选项，对主成分分析而言，三种方法没有分别，采用系统默认的“回归Regression法即可。

9、图7 因子得分对话框选中Display factor score coefficient matrix，如此在分析结果中给出因子得分系数矩阵与其相关矩阵。设置完成以后，单击Continue按钮完成设置图7。其它。对于主成分分析而言，旋转项Rotation可以不必设置；对于数据没有缺失的情况下，Option项可以不必理会。全部设置完成以后，点击OK确定，SPSS很快给出计算结果图8。图8 主成分分析的结果第四步，结果解读。在因子分析结果Output中，首先给出的Descriptive Statistics，第一列Mean对应的变量的算术平均值，计算公式为第二列Std. Deviation对

10、应的是样本标准差，计算公式为第三列Analysis N对应是样本数目。这一组数据在分析过程中可作参考。接下来是Correlation Matrix(相关系数矩阵)，一般而言，相关系数高的变量，大多会进入同一个主成分，但不尽然，除了相关系数外，决定变量在主成分中分布地位的因素还有数据的结构。相关系数矩阵对主成分分析具有参考价值，毕竟主成分分析是从计算相关系数矩阵的特征根开始的。相关系数阵下面的Determinant=1.133E-0.4是相关矩阵的行列式值，根据关系式可知，det(I)=det(R),从而Determinant=1.133E-0.4=1*2*3*4*5*6*7*8。这一点在后面将

11、会得到验证。在munalities(公因子方差)中，给出了因子载荷阵的初始公因子方差Initial和提取公因子方差Extraction，后面将会看到它们的含义。在Total Variance Explained(全部解释方差) 表的Initial Eigenvalues初始特征根中，给出了按顺序排列的主成分得分的方差(Total)，在数值上等于相关系数矩阵的各个特征根，因此可以直接根据特征根计算每一个主成分的方差百分比% of Variance。由于全部特征根的总和等于变量数目，即有m=i=8，故第一个特征根的方差百分比为1/m=3.755/8=46.939，第二个特征根的百分比为2/m=2

12、.197/8= 27.459，其余依此类推。然后可以算出方差累计值Cumulative %。在Extraction Sums of Squared Loadings，给出了从左边栏目中提取的三个主成分与有关参数，提取的原如此是满足1，这一点我们在图6所示的对话框中进展了限定。图8 特征根数值衰减折线图山麓图主成分的数目可以根据相关系数矩阵的特征根来判定，如前所说，相关系数矩阵的特征根刚好等于主成分的方差，而方差是变量数据蕴涵信息的重要判据之一。根据值决定主成分数目的准如此有三：i 只取1的特征根对应的主成分从Total Variance Explained表中可见，第一、第二和第三个主成分对应

13、的值都大于1，这意味着这三个主成分得分的方差都大于1。本例正是根据这条准如此提取主成分的。ii 累计百分比达到80%85%以上的值对应的主成分在Total Variance Explained表可以看出，前三个主成分对应的值累计百分比达到89.584%，这暗示只要选取三个主成分，信息量就够了。iii 根据特征根变化的突变点决定主成分的数量从特征根分布的折线图Scree Plot上可以看到，第4个值是一个明显的折点，这暗示选取的主成分数目应有p4图8。那么，终究是3个还是4个呢？根据前面两条准如此，选3个大致适宜但小有问题。在ponent Matrix成分矩阵中，给出了主成分载荷矩阵，每一列载荷

14、值都显示了各个变量与有关主成分的相关系数。以第一列为例，0.885实际上是国内生产总值GDP与第一个主成分的相关系数。将标准化的GDP数据与第一主成分得分进展回归，决定系数R2=0.783图9，容易算出R=0.885，这正是GDP在第一个主成分上的载荷。下面将主成分载荷矩阵拷贝到Excel上面作进一步的处理：计算公因子方差和方差贡献。首先求行平方和，例如，第一行的平方和为这是公因子方差。然后求列平方和，例如，第一列的平方和为s12=0.88492+0.60672+这便是方差贡献图10。在Excel中有一个计算平方和的命令sumsq，可以方便地算出一组数据的平方和。显然，列平方和即方差贡献。事实

15、上，有如下关系成立：相关系数矩阵的特征根方差贡献主成分得分的方差至于行平方和，显然与前面公因子方差munalities表中的Extraction列对应的数据一样。如果我们将8个主成分全部提取，如此主成分载荷的行平方和都等于1图11，即有hi=1，sj=j。到此可以明白：在munalities中，Initial对应的是初始公因子方差，实际上是全部主成分的公因子方差；Extraction对应的是提取的主成分的公因子方差，我们提取了3个主成分，故计算公因子方差时只考虑3个主成分。图9 国内生产总值GDP的与第一主成分的相关关系标准化数据图10 主成分方差与方差贡献图11 全部主成分的公因子方差和方差

16、贡献提取主成分的原如此上要求公因子方差的各个数值尽可能接近，亦即要求它们的方差极小，当公因子方差完全相等时，它们的方差为0，这就达到完美状态。实际应用中，只要公因子方差数值彼此接近不相差太远就行了。从上面给出的结果可以看出：提取3个主成分的时候，居民消费的公因子方差偏小，这暗示提取3个主成分，居民消费方面的信息可能有较多的损失。至于方差贡献，反映对应主成分的重要程度，这一点从方差的统计学意义可以得到理解。在图11中，将最后一行的特征根全部乘到一起，得0.0001133，这正是相关系数矩阵的行列式数值在Excel中，求一组数据的乘积之和的命令是product。最后说明ponent Score C

17、oefficient Matrix成分得分系数矩阵和ponent Score Covariance Matrix成分得分协方差矩阵，前者是主成分得分系数，后者是主成分得分的协方差即相关系数。从ponent Score Covariance Matrix可以看出，标准化主成分得分之间的协方差即相关系数为0jk或1j=k，这意味着主成分之间彼此正交即垂直。初学者常将ponent Score Coefficient Matrix表中的数据当成主成分得分或因子得分，这是误会。成分得分系数矩阵的数值是主成分载荷除以相应的特征根得到的结果。在ponent Matrix表中，将第一列数据分别除以1=3.75

18、5,第二列数值分别除以2=2.197,，立即得到ponent Score Coefficient；反过来，如果将ponent Score Coefficient Matrix表中的各列数据分别乘以1=3.755，2=2.197,，如此可将其复原为主成分载荷即ponent Matrix中的数据。实际上，主成分得分在原始数据所在的SPSS当前数据栏中给出，不过给出的都是标准化的主成分得分(图12a)；将各个主成分乘以相应的即特征根的二次方根可以将其复原为未经标准化的主成分得分。a.标准化的主成分得分 b. 非标准化的主成分得分图12 两种主成分得分计算标准化主成分得分的协方差或相关系数，结果与po

19、nent Score Covariance Matrix表中的给出的结果一致见图13。第一因子第二因子第三因子第一因子1第二因子0.00000 1第三因子0.00000 0.00000 1图13 主成分得分之间的相关系数矩阵第五步，计算结果分析。从ponent Matrix即主成分载荷表中可以看出，国内生产总值、固定资产投资和工业产值在第一主成分上载荷较大，亦即与第一主成分的相关系数较高；职工工资和货物周转量在第二主成分上的载荷绝对值较大，即负相关程度较高；消费价格指数在第三主成分上的载荷较大，即相关程度较高。因此可将主成分命名如下：第一主成分：投入产出主成分；第二主成分：工资物流主成分；第三

20、主成分：消费价格主成分。问题在于：一方面，居民消费和商品零售价格指数的归类比拟含混；另一方面，主成分的命名结构不清。因此，有必要作进一步的因子分析。参考文献1 Lindsay I Smith. (2002) “A tutorial on Principal ponents Analysis2 Jonathon Shlens. (2005) “A Tutorial on Principal ponent Analysis3 Will, Todd (1999) “Introduction to the Singular Value Deposition Davidson College. 4 Be

21、ll, Anthony and Sejnowski, Terry. (1997) “The Independent ponents of Natural Scenes are EdgeFilters. Vision Research 37(23), 3327-3338.5 T.F. Cootes and C.J.Taylor (2004) “Statistical Models of Appearance for puter Vision6 X翠平苏光大 (2000)“人脸识别技术综述中国图像图形学报第五卷A版第11期7 何国辉甘俊英 (2006)“PCA类内平均脸法在人脸识别中的应用研究计算机应用研究2006年第三期8 牛丽平付仲良魏文利 (2006)“人脸识别技术研究电脑开发与应用2006年第五期17 / 17

展开阅读全文