环境主成份分析.ppt

上传人:牧羊曲112 文档编号:6314103 上传时间:2023-10-16 格式:PPT 页数:48 大小:3.41MB
返回 下载 相关 举报
环境主成份分析.ppt_第1页
第1页 / 共48页
环境主成份分析.ppt_第2页
第2页 / 共48页
环境主成份分析.ppt_第3页
第3页 / 共48页
环境主成份分析.ppt_第4页
第4页 / 共48页
环境主成份分析.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《环境主成份分析.ppt》由会员分享,可在线阅读,更多相关《环境主成份分析.ppt(48页珍藏版)》请在三一办公上搜索。

1、第10章 环境主成分分析简介,Principal Component Analysis(PCA),1、什么是主成分分析?,我们来看一个例子:小学各科成绩的评估可以用下面的综合成绩来体现:a1语文a2数学a3自然a4社会科学 确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总和就相对于新的综合变量主成分,什么是主成分分析?,推而广之,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合起来处理,这就是PCA。这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。,什么是主成分分析?,由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多

2、数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。主成分分析(Principal Component Analysis,简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。,2、主成分分析原理,根据方差最大化原理,用一组新的、线性无关且相互正交的向量来表征原来数据矩阵的行(或列)。这组新向量(主成分)是原始数据向量的线性组合。具体来讲就是:通过对原始数据的平移、尺度伸缩(减均值除方差)和坐标旋转(特征分解),得到新的坐标系(特征向量)后,用原始数据在新坐标系下的投影(点积)来替

3、代原始变量。,为什么要根据方差确定主成分?,情形II下总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息。,对主成分的要求,上例可见,用总分有时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原始的情况和差异。根据总分所对应的方差可以确定其代表了多大比例的原始数据(分数)信息。一般来说,人们希望能用一个或少数几个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。,主成分分析的目的,压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。

4、即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。这样就可以消除原始变量间存在的多重共线性,克服由此造成的运算不稳定、矩阵病态等问题。所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。,主成分的特点,主成分是原变量的线性组合;各个主成分之间互不相关;主成分按照方差从大到小依次排列,第一主 成分对应最大的方差(特征值);每个主成分的均值为0、其方差为协方

5、差阵 对应的特征值;不同的主成分轴(载荷轴)之间相互正交。,主成分的特点,如果原来有p个变量,则最多可以选取p个主成分,这p个主成分的变化可以完全反映原来全部p个变量的变化;如果选取的主成分少于p个,则这些主成分的变化应尽可能多地反映原来全部p个变量的变化。,PCA的优点 它能找到表现原始数据阵最重要的变量的组合 通过表示最大的方差,能有效地直观反映样本之间的关系 能从最大的几个主成分的得分来近似反映原始的数据阵的信息,主成分得分(潜变量latent variable),PC(1)=a11X1+a12X2+a1pXpPC(2)=a21X1+a22X2+a2pXp.PC(m)=am1X1+am2

6、X2+ampXp,选择加权系数a11,a1p时要能使PC(1)得到最大解释方差的能力,而PC(2)则是能对原始数据中尚未被PC(1)解释的差异部分拥有有最大解释能力,若以此类推,我们可以找出m个PC出來(mp),主成分轴、载荷向量,原始数据前的加权系数决定了新的综合变量主成分(得分)的大小和性质,通常称为主成分轴或者载荷向量(载荷轴、载荷系数)。主成分分析的关键就是确定这些系数,这些系数构成了新的坐标系,将原始变量在新的坐标系下投影就可求得新坐标系下的变量值(主成分得分)。,三变量主成分分析示意图,PC1=a1xi1+a2xi2+a3xi3PC2=b1xi1+b2xi2+b3xi3,对三维空间

7、下的一组样本(设样本数为n),其原始变量的坐标系为x1,x2,x3,在对原始坐标系经过坐标平移、尺度伸缩、旋转等变换后,得到一组新的、相互正交的坐标轴v1,v2,可使原始变量在新坐标系上的投影值(分别称为第一、第二主成分)的方差达到最大。其中v1,v2称为第一、第二载荷轴。对于m维空间,载荷轴的个数最多为m。,主成分变换将三维空间的样本显示在二维空间,3、主成分的求解步骤 i)对原始数据矩阵进行标准化处理 相当于对原始变量进行坐标平移与尺度伸缩:,ii)求协方差矩阵Z iii)特征分解 相当于将原来的坐标轴进行旋转得到新的坐标 轴U:Z的特征值组成的对角阵 UZ的特征向量按列组成的正交阵,它构

8、成 了新的矢量空间,作为新变量(主成分)的坐 标轴,又称为载荷轴。,特征值表示新变量(主成分)方差的大小得到的特征矢量的方差比前一个特征矢量的更小,也就是依次递减特征矢量相互正交,即不相关,iv)确定主成分个数(1)根据累积贡献率 当 大于某个阈值时,可认为主成分数目为m。(2)根据其它准则*特征值大于1.0的因子数定为主成分数。*利用特征值与因子数目的曲线,到某一因子数后,特征值减小幅度变化不大,此转折点的因子数即为主成分数m。*保留那些与一个以上变量有重大关系的因子。,v)求主成分得分新的变量值 F阵的每一行相当于原数据矩阵的所有行(即原始变量构成的向量)在主成分坐标轴(载荷轴)上的投影,

9、这些新的投影构成的向量就是主成分得分向量。,主成分分析在spss中的实现,给权重给各值,SPSS用于环境主成分分析举例,KMO(Kaiser-Meyer-Olkin)检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。KMO统计量是取值在0和1之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0.KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析。Kaiser给出了常用的kmo度量标准:0.9以上表示非常适合;

10、0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。Bartlett 球度检验:巴特利特球度检验的统计量是根据相关系数矩阵的行列式得到的,如果该值较大,且其对应的相伴概率值小于用户心中的显著性水平,那么应该拒绝零假设,认为相关系数矩阵不可能是单位阵,即原始变量之间存在相关性,适合于做主成份分析;相反,如果该统计量比较小,且其相对应的相伴概率大于显著性水平,则不能拒绝零假设,认为相关系数矩阵可能是单位阵,不宜于做因子分析。,R 相关矩阵0.6 表明适合进行主因子分析。Bartlett 检验拒绝0假设,也认为适合进行主因子分析。,方差贡献(特征值),特征向量,e7e5e8e1e6e2e3e4,F1=0.577x1+0.577x2+0.577x3,主成分分析评价结果,第一季度:第二季度:第三季度:第四季度:,e7e5e8e1e6e2e3e4,课后习题,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号