《主成分分析讲》PPT课件.ppt

上传人:牧羊曲112 文档编号:5457270 上传时间:2023-07-09 格式:PPT 页数:15 大小:331.49KB
返回 下载 相关 举报
《主成分分析讲》PPT课件.ppt_第1页
第1页 / 共15页
《主成分分析讲》PPT课件.ppt_第2页
第2页 / 共15页
《主成分分析讲》PPT课件.ppt_第3页
第3页 / 共15页
《主成分分析讲》PPT课件.ppt_第4页
第4页 / 共15页
《主成分分析讲》PPT课件.ppt_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《《主成分分析讲》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《主成分分析讲》PPT课件.ppt(15页珍藏版)》请在三一办公上搜索。

1、每个人都会遇到有很多变量的数据。比如:全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。用主成分分析来解决这一类问题。它(principal component analysis)是因子分析(factor analysis)的一个特例。,主 成 分 分 析,1.问题的提出,主成分分析(principal component analysis,PCA)是一种最古老的多元统计分析技术。Pearcon1于1901年首次引入主成分分析的概念,Hot

2、elling2在30年代对主成分分析进行了发展。主成分分析是数理统计学中多元分析中的一个常用方法。所谓多元分析就是统计中讨论多元随机变量统计方法的总称。多元分析在地质、生物、医学、气象等方面资料分析以及计算机模式识别方面有广泛的应用,已成为数理统计学中的一个重要方面。主成分分析实质上是研究多指标怎样用较少的指标去近似描述它或者给多个指标进行重要程度的排队。,2.应用,主成分分析的中心目的是将数据降维,以排除众多信息共存中相互重叠的信息。它是将原变量进行转换,使少数几个新变量是原变量的线性组合,同时,这些变量要尽可能多地表征原变量的数据结构特征而不丢失信息。新变量互不相关,即正交。,在文献中有许

3、多种叫法,如本征矢量投影(eigen vector projection),奇异值分解(singular value decomposition),Karhunen Love展开(expandion)和K-L投影(K-L projection)等等,实际上均为主成分分析。,3.1两维空间中的主成分分析,在二维空间有一组测试点,如图1所示。这组数据在二维平面上的分布大致为一椭圆形。若拟将二维降为一维,实际上就是将二维空间上的点投影到一维空间中的一条线上。假若没有约束条件,其投影方向将有无穷个。如何得到最佳投影,在数学上,主成分分析为我们提供了一条途径。,图1 6个测试点在二维平面上的分布图.图中

4、为这些测试点的重心,主成分分析的基本思想是,在一维空间中的这条线必须包含原数据的最大方差。更准确些说,沿着这条线,使方差达到最大;而其他方向,使方差达到最小。从几何学观点看,这条线的方向应沿着椭圆的主轴。从代数学的观点看,这些点的分布可以表达成它们到其重心 距离之平方加和.,图1 6个测试点在二维平面上 的分布图.图中为这些测试点的重心,式中 为数据点重心到点i距离的平方。现在引入一直线L,6个数据点在L上的投影分别为1,2,6,那么 可按下式分解:,即,其中,第一部分即为沿直线方向的方差,必须使之达到最大;第二部分即为沿其他方向的方差,必须使之达到最小。,这些点的分布可以表达成它们到其重心

5、距离之平方加和,3.2 m 维空间中的主成分分析,在m 维空间中,新变量,表达为:,其系数矩阵为:,新变量和老变量x的列矢量分别为:,由此,转换可写为:,=Vx,同样,在m维主成分的系数也必须满足:,(1)对于每两两主成分k和r,vk 1v r 1+v k 2vr 2+v km v r m=0,此点意味着两个矢量正交。,(2)对于每一个主成分r,此点意味着每一矢量必须是单位长度。,综合上述两点,我们有:,式中 为V的转置矩阵;I为单位阵,类似于二维空间,在m 维空间同样可将新变量ur的方差-协方差阵(以后简称为协方差阵)表达为原变量x的协方差阵的函数:,式中Cu和Cx分别为新变量ur和原变量x

6、的协方差阵。,前边已经提及,我们称新变量为主成分,它们是原变量的线性组和,且彼此正交。对于某一主成分,原变量的系数是相应本征矢量的坐标。某一变量的载荷(loading)定义为该变量在组合式中的系数乘以相应于该主成分本征值的平方根。但实际中,也常称系数本身为载荷。载荷越大,说明此变量与那个主成分越“相同”。因而,载荷可视为变量与主成分的相关性。,取协方差阵Cx的第二个最大本征值所相应的本征矢量v2,它和1不相关,且可满足上述第二个条件.余类推,直到求得全部m个本征值及与之相应的本征矢量.,在m 维空间中,可得m个主成分。在实际应用中一般可取前边几个对偏差量贡献大的主成分,这样可使高维空间的数据降

7、到低维如二维或三维空间,非常益于数据的观察,同时损失的信息量还不会太大。取前P个主成分的数据为,一般推荐比率%80%。,另外,当数据的来源不一,不同变量间数值差异较大时应作标准化处理。即变量与均值之差被标准偏差来除。,下边,我们给出一数字例子。8个试样的测定值(yi)及减去均值后相应的值(xi)示表5.2.,表5.2 8个试样的测定值(yi)及减去均值后相应的值(xi),1=155.61 1=0.7000 x1+0.7140 x2+0.0134x32=24.15 2=0.1446x1-0.1600 x2+0.9765x33=1.96 3=0.6993x1-0.6816x2-0.2152x3,由

8、计算可得本征值及相应的本征矢量:,x1,x2和x3在PC1和PC2二维坐标系统中的散点图示于图2。由图2可见,x1和x2靠得很近,说明x1和x2能够提供的信息是相似的,二者必然是正相关。另外,由图5.2还可以看出,PC1主要解释的是x1和x2,而PC2主要解释的是x3。,图2 x1,x2和x3在PC1和PC2二维坐标系统中的散点图,主成分分析方法可以作为选取综合评价指标的方法。它是建立在统计分析的基础上,通过求解相关系数矩阵确定主成分,其步骤如下:(1)建立一个比较全面的指标体系,使之基本上反映事物的全貌。(2)根据历史数据的统计,分析各项指标间的相互关系,确立指标间的相关系数矩阵。(3)求解相关系数矩阵的特征根与特征向量,并求出指标的累积贡献率。(4)这类问题上会有一定的效果。确定累积贡献率的水平系数。(5)确定综合评价指标。选取综合评价指标问题,是我们在研究问题过程中经常碰到的,主成分分析方法在解决,4.主成分分析方法步骤,5.主成分分析的目的,压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。这样就可以消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号