数理统计12主成分分析.ppt

上传人:小飞机 文档编号:6297300 上传时间:2023-10-14 格式:PPT 页数:42 大小:619KB
返回 下载 相关 举报
数理统计12主成分分析.ppt_第1页
第1页 / 共42页
数理统计12主成分分析.ppt_第2页
第2页 / 共42页
数理统计12主成分分析.ppt_第3页
第3页 / 共42页
数理统计12主成分分析.ppt_第4页
第4页 / 共42页
数理统计12主成分分析.ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《数理统计12主成分分析.ppt》由会员分享,可在线阅读,更多相关《数理统计12主成分分析.ppt(42页珍藏版)》请在三一办公上搜索。

1、第七章,主成分分析与因子分析,多元问题的复杂性:指标(变量)多,指标间存在相关性。问题能否构造出一些综合指标使满足如下条件 指标个数尽可能少,指标间相互独立,尽可能多地包含原指标所含的关于总体的信息。例如做一件上衣要测量的指标有身长、袖长、胸围、腰围、肩宽、肩厚等等十几项指标。某服装厂生产一批新型服装,需将十几项指标综合为3项指标(分别反应长度、胖瘦、特体),用作分类的型号。,7.1 主成分分析,主成分(主分量)分析是将原来众多具有相关性的指标化为少数几个相互独立的综合指标的一种统计方法。,化高维为低维 降维 化相关为独立 追源,1、主成分的求法,设 为 维随机向量,,那么如何将这 个指,标综

2、合成很少的几个指标,且要尽可能反映原来指标的作用,又彼此不相,关呢?一个自然的方法是寻找指标,的一个综合指标 线性组合。,我们先来考虑第一个综合指标,其中 是待定的常向量。现在的任务是选取适,当 的使得 最大限度地反映原来指标用,,这就相当于要求 要有尽可能大的方差,即选,取 使得,尽可能地大。,说明 是 的无界函数。,然而不能通过加大向量 的长度使 的方差变,因为对任意的常数,有,因此如果对 不加,大,,即只要 变长 倍,相应的方差就扩大 倍,也,限制,问题就会变得毫无意义。,一个自然的限,制是令,即要求 是单位向量。,问题变为:在 的条件下,求使,达到最大的。,定理1,设总体 的均值和协方

3、差阵分别为,是总体 的 个指标,令,其中,则使得 的方差,和,达到最大的 正好是矩阵 的最大特征根 所,对应的特征向量。,证明,用Lagrange乘数法来证明。令,则有,令,可得,这样就有,由于,根据克莱姆法则知,上述齐次线性,方程有非零解的充要条件是系数行列式为零,,即,这说明 是矩阵 的特征根,且由 可知,是对应于 特征根 的特征向量。,又由,可知欲使 的方差 最大,只要取,为的最大特征根即可,这样 就是对应的单,位特征向量。,第一个综合指标为,其中 是的对应于矩阵 最大特征值 的单位,特征向量,称 为第一主成分。,若协方差矩阵 即是非负定的,由矩阵论,知它有 个非负的特征根,不妨设为,是

4、对应的 个特征向量。,自然 应为 的第二大特征根 所对应的单位,特征向量,并称 为第二主成分。,类似地,第二个综合指标可以取为,重复以上过程,可得 的第 个综合指标,称为 的第 个主成分。,总之,我们可得到 个主成分,且,其中 是协方差阵 的非零特征根并,有,而 是,对应的单位特征向量。,若用矩阵可表示如下,其中,且,即矩阵 是行正交矩阵。,因此,主成分分析也可以看作是对原来,的 个指标 进行了一次正交变,换,而得到 个互不相关的综合指标,即主,成分,寻找总体 的主成分就转化为求 的协差阵 的特征值和相应的单位特征向量问题。,求主成分的步骤:,1.,求 的协方差阵 的特征值,记为,2.,求 对

5、应的单位特征向量,3.,获得第 个主成分,在实际应用时,经常会遇到 个指标的量,纲不尽相同,或取值差异很大的问题,处理,的一般方法是先将各指标进行标准化,即,的协差阵为,即为相关矩阵,其中,求 的主成分就是求 的特征值和相应,的单位特征向量,然后可得 的分量的线性,组合,即为所求的主成分。,2主成分的几何意义,3、贡献率和主成分的解释,构造综合指标的目的是想用尽可能少的主,成分,来代替原有的 个指标,,且能对原始资料所具有的意义做出合理的解释。,那么到底应该选择多少主成分才合理呢?下面,就来讨论总体主成分个数的选取问题,对样本,主成分也有类似的分析。,设 维总体 的协方差阵为,的第 个主成分为

6、,由于这些主成分 时互不相关的,因,此有,这说明 的“总方差”(即个分量的方差之和),等于 个互不相关的随机变量 的方,差之和,其中 具有最大的方差,,次之且,有方差,具有最小方差,这样主成,分依次集中了 各分量的变化的主要部分,第,一主成分 的方差最大,即是以变化最大的方,向向量为系数所得到的线性函数作为,比值,表明了方差 在“全部方差”中所占的比重,,显,然这个比值越大,表明 这个变量“综合”原始,资料 的能力越强。通常称这个比值,为第一主成分的贡献率。类似地称,为第 个主成分的贡献率。而称,为前 个主成分的累计贡献率。,这就是说,贡献率约达,则对应的主成分,反映 的能力就越强,反之则弱。

7、因此,在实,用常常略去那些贡献率小的主成分。经验指出:,一般要求前 个主成分的累计贡献率超过70%,就足够了。这样就可以用前 个不相关的主成,分 的变化来刻画 的 个相关分量,的变化,即就是说可以用低维指标,来反映高维指标,的变化特性。,协方差阵 和相关矩阵 往往是未知的。这时,在实际问题中,所研究的总体 的均值,需对总体进行抽样,设样本为,取 和 的估计分别为,样本均值,4、样本主成分,样本相关矩阵,设 的特征值为,对应的单位特征向量为,则称,为 的第 个样本主成分。,样本协方差阵,同样地,若记 的特征值为,对应的单位特征向量为,则称,为 标准化变量的第 个样本主成分,其中,对于样本,可以得

8、到相应的主,成分的样本,为了区别起见,将这小节的主成分统称为,样本主成分;而上一小节的主成分统称为总体,主成分。,服装的定型分类问题:为了较好地满足市场的需要,服装生产厂要了解所生产的一种服装究竟设计几种型号合适,这些型号的服装应按这样比例分配生产计划才能达到较好的经济效益。现对128个成年男子按16项指标进行测量,16项指标是:1、身长 2、坐高 3、胸围 4、头高 5、裤长 6、下裆 7、手长 8、领围 9、前胸 10、后背 11、肩厚 12、肩宽 13、袖长 14、肋围 15、腰围 16、腿肚,5、主成分分析实例,原始数据矩阵应是16128阶的矩阵,如第一行向量,即是128人按身长量出的

9、尺寸。第二列向量,是第二个男子按上述16项指标量出的尺寸。,1)样本相关系数矩阵 首先计算各指标的均值与样本标准差,指标 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16,样本均值 164.5 90 85.7 138.1 96 75.5 19.4 35.8 36 34.8 12.2 20.7 15.1 73.2 86.3 50.1,样本标准差 6.8 3.7 3.2 6.5 4.9 4.4 1.1 1.6 2.6 2.6 1.1 1.4 3.4 4.2 3.7 2.9,比较表中标准差:标准差大的指标依次为身高、头高。标准差小的指标为手长、领围、肩厚、肩宽。,2)标准

10、化处理 将Y经过标准化处理,得数据矩阵X,从而可得样本相关阵R,由于矩阵R是对称的,因此只列出下三角形部分元素。,在以上表中若取前三个特征值的累计方差贡献率可达到70%,不妨就取这前三个特征值可求其相应的特征向量。,1身长 0.34 0.20 0.012坐高 0.27 0.14-0.06 3胸围 0.23-0.33 0.144头高 0.34 0.18 0.035裤长 0.33 0.20 0.036下档 0.29 0.27-0.037手长 0.29 0.19 0.028领围 0.19-0.37-0.159前胸 0.09 0.07 0.6310后背 0.15-0.17-0.5311肩厚 0.10-

11、0.35-0.2012肩宽 0.24-0.02-0.3113袖长 0.32 0.11-0.0214肋围 0.18-0.37 0.2515腰围 0.27-0.27 0.1416腿肚 0.16-0.36 0.24,第一特征向量 第二特征向量 第三特征向量,4)主成份:第一主成份:,第二主成份:,第三主成份:,5)主成份的含义 从三个特征向量 的取值特点我们来分析和解释各主成份的含义,(1)第一主成份F1的系数皆为正,故此F1表示各指标尺寸同时大或同时小。这就是说,身材魁梧的人,他的各种指标相应的尺寸都比较大,而身材矮小的人,各种指标相应的尺寸都比较小。因此把第一主成份F1看成是刻画尺寸大小的因子。

12、,(2)、第二主成份F2的系数有正有负,其绝对值的大小相差不太大,系数为正的有:身长(X1)、坐高(X2)、头高(X4)、裤长(X5)、下裆(X6)、手长(X7)、袖长(X13)。系数为负的有:胸围(X3)、领围(X8)、后背(X10)、肩厚(X11)、肋围(X14)、腰围(X15)、腿肚(X16),显然,正系数反映“长”的尺寸,负系数反映“围”的尺寸。因此第二主成份F2主要反映人的胖瘦情况,所以把它看成是刻画形状的因子。由于F1和F2所刻画的是两种不同性质的因子,故在人的身材高矮大致相同时可通过F2来分胖瘦。,(3)第三主成份F3的系数多数取值很小,接近于0,只有两个系数绝对值比较大,前胸(X9)、后背(X10)。所以可把第三个主成份F3视作反映特殊体型的因子,如在身材高矮的程度和胖瘦的程度大致相同时,通过F3来区分各种特殊体型,如驼背等畸形。通过对主成份的含义说明,可见F1、F2、F3这三个主成份确实反映了男子的体型的主要信息,因此用这三个具有代表性的指标代替原有16指标,设计各种型号服装,对满足各类消费者的需要有重要的指导意义。,例7.1 社区调查数据的主成分分析。调查了12个社区,五个变量。使用 SPSS 处理。,5、主成分分析实例,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号