主成份分析和因子分析实例.ppt

上传人:牧羊曲112 文档编号:5178270 上传时间:2023-06-11 格式:PPT 页数:63 大小:814.50KB
返回 下载 相关 举报
主成份分析和因子分析实例.ppt_第1页
第1页 / 共63页
主成份分析和因子分析实例.ppt_第2页
第2页 / 共63页
主成份分析和因子分析实例.ppt_第3页
第3页 / 共63页
主成份分析和因子分析实例.ppt_第4页
第4页 / 共63页
主成份分析和因子分析实例.ppt_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《主成份分析和因子分析实例.ppt》由会员分享,可在线阅读,更多相关《主成份分析和因子分析实例.ppt(63页珍藏版)》请在三一办公上搜索。

1、主成份分析和因子分析实例,主成份分析的基本思想 假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,Xp,主成分分析就是要求p个指标的综合指标F1,F2,Fk(kp),而这些新的指标要充分反映原指标的信息,并且相互独立。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。,各个主成分分析是原始指标的线性组合,满足如下的条件:,主成分之间相互独立,即无重叠的信息。即,主成分的方差依次递减,重要性依次递减,即,每个主成分的系数平方和为1。即,设X的协方差阵为,1,2,p为的特征根,不妨假设1 2 p,可以证明:第一主成份的方差为1,线性组合的系数为

2、1所对应的特征单位向量。进一步可以证明,为各个特征根所对应的标准正交向量所组成的矩阵,因子分析的基本思想,因子分析也是一种数据简化的方法。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个不可观测变量来多个变量的相关关系。这几个不可观测变量能够反映原来众多变量的主要信息,这些不可观测的潜在变量称为因子。,基本的因子分析模型:,称 为公共因子,是不可观测的变量,系数称为因子载荷。是特殊因子,是不能被前m个公共因子包含的部分。并且满足:,即不相关;,即 互不相关,方差为1。即 互不相关,方差不一定相等,AnalyzeDataReductionFctor进入因子分析和主成份

3、分析对话框,13,例1:利用2007年全国31省市自治区经济发展情况的八项指标做主成份分析。,Descriptive框:选择描述性统计量。,Statistics:Univariate descriptives 输出原始变量的均值、标准差等单变量的描述统计量。Initial solution 给出因子提取前,分析变量的公因子方差。对于主成份分析来说,这些值是分析变量的相关(协方差)矩阵对角线的元素。Correlation Matrix 相关矩阵栏 Coefficients 给出原始分析变量间的相关系数矩阵。Significance levels给出每个相关系数相对于0的单尾假设检验的显著性水平。

4、Determinant 给出相关系数矩阵的行列式值。,Inverse 给出相关系数矩阵的逆矩阵。Reproduced 再生相关矩阵。此项给出因子分析后的相关矩阵,还给出残差,即原始相关阵与再生相关阵的差。Anti-image 给出反映像相关矩阵KMO and Bartlett test of sphericity 要求进行KMO检验和球形Bartlett检验。KMO是用来比较变量间相关系数的大小。如果KMO接近1,表示适合做因子分析,如果KMO接近0,表示不适合做因子分析。球形Bartlett检验是检验相关矩阵是否是单位矩阵,表明数据是否合适做因子模型。,Extraction按钮:用于设置因子

5、提取方法、迭代收敛条件、公因子数等。,Method:选择因子提取方法,共有七种因子提取方法,默认为主成份法。七种方法分别是:Principal Components:主成份法;Unweighted least squares:未加权最小二乘法Generalized least square:综合最小平方法Maximum likelihood:最大似然估计法Principal axis factoring:主轴因子法Alpha factoring:因子法Image factoring:映像因子法。,Analyze Correlaton Matrix 使用相关矩阵进行因子分析。如果原始变量的量纲不

6、同选择此项。Covariance Matrix 使用协方差矩阵进行因子分析。Extract 因子提取选项。Eigenvalues over 指定提取的因子的特征根应具有的范围。Number of factors 指定提取公因子的数目。,Display 指定与因子提取相关的输出项。Unrotated solution 要求显示未经旋转的因子提取结果。Scree plot 显示碎石图。Maximum iterations for Convergence 指定因子分析收敛的最大迭代次数,默认值为25.,Rotation 按钮,Method 选择旋转的方法。None 不进行旋转。Varimax 方差最

7、大旋转。是一种正交旋转。它使得每个因子具有最高载荷的变量数最小。Direct Oblimin 直接斜交旋转。如果指定此项需要输入Delta值,越接近于0,斜交程度越深。Quartmax 四次最大正交旋转。四次方最大法通过使因子载荷矩阵中每一行的因子载荷平方的方差达到最大。四次方最大旋转是从简化载荷矩阵的行出发,通过旋转初始因子,使每个变量只在一个因子上又较高的载荷,而在其它的因子上尽可能低的载荷。如果每个变量只在一个因子上有非零的载荷,这时的因子解释是最简单的。,Equamax 平均正交旋转。是方差最大旋转和四次最大旋转的结合。可以使在一个因子上有较高载荷的变量数和变量中需要解释的因子数最少。

8、Promax 斜交旋转方法。允许因子之间彼此相关,它比直接斜交旋转更快,因此适用于大数据集的因子分析。DisplayRotated solution 给出旋转后的因子载荷矩阵和因子转换矩阵。对于斜交旋转除显示以上两项外,还显示因子之间的相关矩阵。,Loding plots 因子载荷散点图。给出以因子为坐标轴的各变量的载荷散点图。如果有两个因子,给出原始变量旋转以后的散点图。如果多于三个因子,则给出基于前三个因子的三维载荷散点图。如果只提取一个因子则不会给出散点图。Scores 因子得分对话框。Save as variable 将因子得分最为新变量保存在数据文件中。,2,Method 指定计算因

9、子得分的方法。Regression 回归法。Bartlett 巴特利特法(加权最小二乘法)。Anderson-Rubin 安德森-鲁宾法。是为了保证因子的正交性,而对Bartlett做的调整。因子得分的均值为0,方差为1,且彼此不相关。Display factor score coefficient matrix 显示因子得分系数矩阵,是标准化的得分系数。,Options,2,Sorted by size 载荷系数按其数值的大小排列并构成因子载荷矩阵。使在同一个因子上具有较高载荷的变量排在一起,便于观察。Suppress absolute values less than 不显示那些绝对值小于

10、所指定值的载荷系数。输入0-1之间的数,默认值为0.1。选择此项可以突出载荷较大的变量,便于得出结论。,Initial 列表示各变量的方差。Extraction列表示每个变量被公共因子提取的方差,即共同度。,因子分析结果,上表为未经旋转的因子载荷矩阵。国内生产总值0.968第一公因子0.238第二公共因子。,再生相关矩阵:它是因子分析后的相关矩阵。即根据各个变量的公共因子表达式所计算的变量之间的相关系数矩阵。残差为原始相关矩阵与再生相关矩阵的差。,旋转后的因子载荷矩阵。相对于未旋转前因子载荷的元素更加极端。,上表为因子旋转时的因子转换矩阵。,成分得分系数矩阵,上表给出了用原始变量表示主成份得分

11、的系数信息。,标准化第一主成份(第一公因子)0.221标准化后的国内生产总值0.187标准化后的城乡存款余额,未标准化第一主成份0.221标准化后的国内生产总值0.187标准化后的城乡存款余额,未标准化第二主成份-0.046标准化后的国内生产总值0016标准化后的城乡存款余额,上表为因子得分的协方差矩阵,由此可见各个因子之间是完全正交的。,例2:用主成份分析研究影响我国物价波动的因素。受国内经济波动、居民收入及财富变化、生产成本价格上涨、国际石油、粮食等原材料价格的影响使得我国物价的波动变得极其复杂。由于物价的波动不是取决于某一种因素,或某几个指标,而是受多方面因素的影响。而且随着我国市场化程

12、度的深化以及经济全球化进程的加快,我国物价的波动不仅反映了国内市场中总供给和总需求的矛盾,而且受国际经济的影响,尤其是国际市场价格的影响也越来越大。因此选取能够反映上述因素的15个经济变量,进行因子分析。,4个公因子对原始变量方差的累计贡献率为85.89%,可见通过因子分析实现了将15维数据变量降至4维的目的。,代表成本因素的各上游价格指数在公因子F1上有较高的载荷,可称为成本因子;而代表居民需求增长的两个收入变量在公因子F3上有较高的载荷,可称为需求因子;表示货币因素的3个变量在公因子F2上有较高的载荷,可称为货币因子;而代表财富变化的股票指数在公因子F4上有较高的载荷,称为财富因子。但还有

13、一些变量的载荷并不是很明确,我们可以通过因子旋转得到实际意义更加明确的因子模式。,旋转后的各公因子的载荷可以看出各因子所代表的意义更明确:代表成本因素的各上游价格指数和G7PPI的变化在公因子F1上有较高的载荷,可称 F1为成本因子,同时也表明我国价格的变化,尤其是原材料类价格的变化和国际PPI的变化有较高的相关性;而代表居民需求增长的两个收入变量在公因子F3上有最高的载荷,可称 F3为需求因子;而表示包括GDP增长率在内的货币因素在公因子F2上的载荷都是最大的,可称 F2为货币因子;而代表财富变化的股票指数和表示国际经济形势的G7GDP指数同比增速在公因子F4上载荷最大,称为财富因子和国际经

14、济因子。通过观察旋转后的因子载荷,可以发现各因子所代表实际意义更明确。,要考察物价波动,通过观察可以发现CPI在各公因子的载荷分别为0.77、0.08、0.54和0.12,可见代表成本和需求变动的因子和对CPI变化的解释能力是最强的,即在样本区间内物价波动受成本推动和需求拉动的影响较大,其中成本推动占主导地位。,例3:用主成份法构建我国出口景气指数。由于出口同多个产业相关,并涉及投资、生产等经济环节,因此选取多个与出口相关的指标合成出口景气指数,从而综合反映出口的波动水平。目前应用较广泛的景气指数方法有扩散指数(DI)方法、合成指数(CI)方法,还有应用主成分分析、状态空间模型、Markov动

15、态因子转移模型、Probit模型等方法来构建景气指数的方法。在构建某一产业部门的景气指数时,主要应用主成分分析方法。,由于中国出口商品总值同比增长率直接反映了中国的出口状况,因此将出口总值增长率作为基准指标。一致指标是指该指标的波动与当前出口的景气变动大体一致。先行指标是指在经济波动达到高峰(或低谷)前,超前出现峰和谷的指标。滞后指标是指那些转折点(峰或谷)滞后于经济波动的指标,其作用在于它的峰和谷的出现可以确认经济波动的高峰或低谷确已出现。,将收集到的指标进行数据处理,计算相应的增长率序列,并将其进行季节调整,然后利用时差相关分析方法、K-L信息量方法、峰谷对应法等多种方法筛选出了15个景气

16、指标,分别构成中国出口的先行、一致、滞后指标组。本文所选取的一致指标包括加拿大、香港、美国、澳大利亚、韩国、OECD等国家和地区的进口商品总额。由于上述国家和地区都为中国的前10大贸易伙伴,中国向他们的出口额占到出口总额将近90%,而欧盟、美国和香港也是中国贸易顺差的三大来源地;因此他们的进口总额同中国出口额是密切相关的。,计算结果表明:一致指标组的第一主成分的贡献率达到70.38%,较充分地代表了一致指标组的变动状况,因此将第一主成分作为出口一致合成指数。一致指标组各指标的特征向量都在0.30.4之间,对合成指数的贡献较为平均。,先行指标组的第一主成分的贡献率为51.21%,还未能充分解释先

17、行指标组的变动。第一和第二主成分的累积贡献率达到了69.60%,解释了先行指标组的大部分变动。,第一主成分中,加权广义货币指数、固定资产投资、美国狭义货币指数、OECD狭义货币指数的特征向量的分量分别为0.41、0.45、0.56和0.49,这表明先行指标组的第一主成分主要包含了上述四个指标的信息。在第二主成分中,外商直接投资的特征向量分量为0.88,这说明先行指标组第二主成分主要受外商直接投资影响。,例4 研究影响住宅价格波动因素的因子分析模型。影响住宅价格波动的因素有宏观经济因素、政策因素、市场的供给、需求和资本因素以及消费者和投资者的心理因素等,本文选择与这些因素相关的14项指标进行分析

18、,各项指标经过标准化处理,进行因子分析结果如下表:,其中,资金来源中的自筹资金增长率、国内贷款增长率,资金来源合计增长率、五年期利率等代表资金可获得性的指标在因子f1上有较高的载荷,并且全国住宅土地交易价格指数在因子f1上也有较高的载荷,因此,用因子f1代表资本可获得性和土地交易价格;同样,可以发现因子f2对各供给因素的载荷较高(如:建筑材料购进价格指数、住宅完成投资额增速、新开工面积增速、竣工面积增速等),因此因子f2代表供给因素;因子f3对需求因素(如:个人可支配收入、销售面积和M1增长率等)的载荷较高,代表需求因子;而资金来源中的外商投资增长率和金融机构建筑业贷款增长率等在因子f4上有较

19、高的载荷,因此因子f4也代表资本可获得性。,pe表示商品住宅销售价格的增长率,用商品住宅销售价格指数(上年同期=100)-100来代表。利用普通最小二乘法得到下面的结果:,利用表中列出的4个公共因子代表14个相关变量,进一步分析这些因素对我国住宅价格波动的影响。建立下面的回归分析模型:,t=(1.56)(29.76)(3.85)(1.48)(2.48),t=(14.0)(-7.8)R 2=0.998 D.W.=2.03,由于因子f2在回归结果中不显著,因此从式中剔除掉。表明在本轮的住宅价格上涨中,供给因素的影响较弱。而代表资本可获得性的因子f1和因子f4对价格波动有正的影响,需求因子f3对住宅

20、价格波动也有正的影响。因此,可以得出结论认为近几年我国住宅价格的上涨主要受两方面因素影响:(1)由于缺乏较好的融资渠道,民间大量闲置资本流入房地产住宅投资市场,产生较大的投机需求,造成市场需求虚高;(2)住房制度改革以后释放出的对住宅的大量需求。而实际上,房地产开发资金合计从1998年的5030亿元增加到2005年的25360亿元,在7年的时间里增长了5倍多。而且在表中可以看到住宅土地交易价格在因子f 1中有较高的载荷。综上所述,在调控我国住宅价格波动的过程中,紧缩“银根”和“地根”起着重要的作用。,对应分析,因子分析分为R型因子分析和Q型因子分析。一般来说两种因子分析是分开进行的。这一方面会

21、漏掉一些指标和样本之间的信息,另一方面Q型因子分析的工作量较大对应分析是借助列联表独立检验中卡方统计量的计算方法对原始数据矩阵进行转换,得到规格化的概率矩阵,使数据资料具有对称性,将R型因子分析和Q型因子分析建立起联系,在做R型因子分析的同时完成Q型因子分析。另外根据R型因子分析和Q型因子分析之间的关系,在同一个坐标轴中将指标和样本同时反映出来,图形中临近的变量点可归为一类,临近的样本点归为一类。而且属于同一类型的样本点可用邻近的变量点来表征。,对于本例的数据形式,需要定义三个变量,行和列的变量是分类变量,第三个变量是对应行和列的实际观测值。应该首先选择Dataweight cases命令来进

22、行定义权重变量。将表明分类中的频数的变量作为权重变量引入Frequency Variable的框下。,选择AnalyzeData ReductionCorrespondence Analysis,(1)从变量表中选择行、列变量分别送入Row和 Column 对话框中。(2)Define Range 分别定义行、列变量参与分析的变量范围。,Category Constraints 用于对分类进行进一步的设置。可以强行限制某两个或多个分类得分相同(即等同于分类合并);也可以设置某些分类为追加分类,这些分类不进入分析。,上表是对应分析的汇总表。主要用来说明需要用多少个维度(因子)进行解释。前5列分别为:维数、奇异值、惯量、卡方检验值和P值。惯量相当于因子分析中的特征根,奇异值是惯量的平方根。惯量最为重要,因为惯量说明了对应分析中各个维度的结果能够解释两个变量关系的程度。维数最多为各变量最少分类数减1.,上边为各个省份在两个维度上的得分值,也就是坐标值。Mass列为每一个类别所占的百分比。,上表为不同的支出类别在两个维度上的得分,也就是坐标值。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号