多元统计学-2主成分分析.ppt

上传人:小飞机 文档编号:6456443 上传时间:2023-11-01 格式:PPT 页数:23 大小:523.50KB
返回 下载 相关 举报
多元统计学-2主成分分析.ppt_第1页
第1页 / 共23页
多元统计学-2主成分分析.ppt_第2页
第2页 / 共23页
多元统计学-2主成分分析.ppt_第3页
第3页 / 共23页
多元统计学-2主成分分析.ppt_第4页
第4页 / 共23页
多元统计学-2主成分分析.ppt_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《多元统计学-2主成分分析.ppt》由会员分享,可在线阅读,更多相关《多元统计学-2主成分分析.ppt(23页珍藏版)》请在三一办公上搜索。

1、主成分分析,唐启义Tel:139 58168331浙江大学农业与生物技术学院,1.基本思想:用较少的变量表示原来的样本;2.目的:是样本数据信息损失最小的原则下,对高维变量进行降维。3.参数估计:一般是求相关矩阵的特征值和相应的特征向量(主成分分析法),取前几个计算主成分。4.应用:应用较少变量来解释各个样本的特征(数据降维、综合平价)。,主成份分析例子,一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平

2、衡等等。,主成份分析起源,在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:,主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。在研究中,为了全面系统的分析和研究问题,必须考虑许多指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。,在力求数据信息丢失最少的原则下,对高维变

3、量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。,(1)基于相关系数矩阵主成分分析。(2)主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。(3)如何解释主成分所包含的专业意义。,主成分分析数学模型 多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。,主成分分析的几何解释,平移、旋转坐标轴,主成分分析综合能力,1)贡献率:第i个主成分的方差在全部方差中所占比重,称为贡献

4、率,反映了原来P个指标多大的信息,有多大的综合能力。,2)累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重来描述,称为累积贡献率。,我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,Fk(kp)代替原来的P个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。,根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括起来说,主成分分析主要有以下几方面的应用。1主成分分析能降低所研究的数据空间的

5、维数。即用研究m维的Y空间代替p维的X空间(mp),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。,主成分分析的应用,2.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n

6、个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位。3由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。,主成分分析例子,x1-城镇单位在岗职工平均工资(元)x2-各市固定资产投资(万元)x3-各市进口总额(万美元)x4-社会消费品零售总额(万元)x5-各市工业增加值(亿元)x6-财政收入(亿元)。,分析结果,主成分分析误用,将主成分分析用于综合评价。即在主成分分析结果出来之后,将前m个特征值较大的主成分y1,ym,按照公式 计算m个主成分的“综合值”。这里i是第i个主成分的特征值,p为变量数。然后根据综合值进行排序、解释。,系数正负号互换同样满

7、足主成分分析结果的正交和单位化要求。这种正负号互换对该主成分所表达的统计含义没有影响,但是如果几个成分相加,情况就不一样了。如令本例中第二主成分y2=-y2,不同情况下按特征值加权相加可以得到:(4.6412y1+1.1007y2)/5.7419=0.363x1+0.359x2+0.328x3+0.176x4+0.399x5+0.364x6(4.6412y1+1.1007y2)/5.7419=0.072x1+0.377x2+0.389x3+0.396x4+0.299x5+0.382x6这里每个变量指标的权重发生了改变,计算处理的综合值也不一样。,主成分回归分析,进行多元线性回归分析时,经常碰到自变量之间强相关,即多重共线性问题。这时可通过主成分回归求回归系数,解决自变量多重共线性问题。主成分既保留了原指标的绝大部分信息,又有主成分之间互不相关的特点。主成分回归的具体步骤是:采用多重回归分析,进行共线性诊断;进行主成分分析确定所需主成分数;进行主成分回归分析,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号