实用统计方法-第一讲主成分分析.ppt

上传人:小飞机 文档编号:6269758 上传时间:2023-10-12 格式:PPT 页数:48 大小:227.50KB
返回 下载 相关 举报
实用统计方法-第一讲主成分分析.ppt_第1页
第1页 / 共48页
实用统计方法-第一讲主成分分析.ppt_第2页
第2页 / 共48页
实用统计方法-第一讲主成分分析.ppt_第3页
第3页 / 共48页
实用统计方法-第一讲主成分分析.ppt_第4页
第4页 / 共48页
实用统计方法-第一讲主成分分析.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《实用统计方法-第一讲主成分分析.ppt》由会员分享,可在线阅读,更多相关《实用统计方法-第一讲主成分分析.ppt(48页珍藏版)》请在三一办公上搜索。

1、前 言,统计是什么?,统计是什么?,统计是人类思维的一个归纳过程站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过而且平均每10个轿车载有12个人于是,你认为小汽车和自行车在这个路口的运载能力为24:100这是一个典型的统计思维过程,统计是什么?,一般来说,统计先从现实世界收集数据(信息),如观测路口的交通然后,根据数据作出判断,称为模型模型是从数据产生的模型也需要根据新的信息来改进不存在完美的模型模型的最终结局都是被更能够说明现实世界的新模型所取代,统计学可以应用于几乎所有的领域:,精算,农业,动物学,人类学,考古学,审计学,晶体学,人口统计学,牙医学,生态学,经济计量学,教育学

2、,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理科学,市场营销学,医学诊断,气象学,军事科学,核材料安全管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,社会学,调查抽样,分类学,气象改善,博彩等。,统计是什么?,一句话,统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。,以归纳为主要思维方式的统计不是以演绎为主的数学。统计可应用于各个不同学科,在有些学科已经有其特有的方法和特点;如生物统计(biostatistics)、

3、经济计量学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计。,你想过下面的问题吗?,当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?疾病传播时,如何能够通过感染者入院前后的各种因素得到一个疾病传染方式的模型呢?,可以想象出的统计应用例子,如何确定观众/听众是否忠实于某节目(专栏)如何

4、对电视节目排名次什么因素影响一个节目的收视率如何按照各种不同环境估计某商店的顾客人数如何按照各种指标评价雇员如何把地区(市县镇等)按照各种指标分类如何确定红楼梦第几回不是曹雪芹所写如何确定一个产品的可靠性如何进行偏差较少的民意调查如何根据一些财务数据发现漏税的嫌疑单位?,统计的一些做法,统计可以指导我们收集数据.当拥有来自一些变量(指标)的数据或记录,但缺乏模型来描述这些变量之间关系的情况下,可用统计方法建立模型.在有了一定的模型时,统计可以确定手中数据是否令人信服地支持某种论点.模型也用来对未来进行预测.统计直观的图表展示,可以使各个领域的专家容易理解,统计需要的知识,数学的几乎所有内容(不

5、一定事先知道需要什么)用计算机做统计计算其他(对象)领域的知识,统计和数学的区别,数学思维是以演绎为主统计思维是以归纳为主,兼有演绎统计各领域利用几乎所有存在的数学内容.但统计本身的数学是为具体目标服务的,自己一般不形成数学体系,第一讲 主成分分析,Principal Component Analysis(PCA),主成分分析的基本原理 主成分分析的计算 主成分分析应用实例 几个问题,在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,变量太多,这无疑会增加分析问题的难度与复杂性,而且在许多实际

6、问题中,多个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?,问题的提出:,事实上,这种想法是可以实现的,主成分分析方法就是综合处理这种问题的一种强有力的工具。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。,一、主成分分析的基本原理,假定有n个样本,每个样本共有p个变量,构成一个np阶的数据矩阵,当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的

7、变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。,定义:记x1,x2,xP为原变量指标,z1,z2,zm(mp)为新变量指标,系数lij的确定原则:zi与zj(ij;i,j=1,2,m)相互无关;,z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,xP的所有线性组合中方差最大者,或者说是对原始数据中尚未被z1解释的差异部分拥有最大的解释能力;zm是与z1,z2,zm1都不相关的x1,x2,xP,的所有线性组合中方差最大者。则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xP的第一,第二,第m主

8、成分。,从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,p)在诸主成分zi(i=1,2,m)上的载荷 lij(i=1,2,m;j=1,2,p)。因此主成分分析的关键就是确定这些系数。从数学上容易知道,从数学上可以证明,它们分别是的协方差(相关)矩阵的m个较大的特征值所对应的特征向量。,二、主成分的计算,基本概念(P60)协方差(covariance)方差标准差,相关系数(correlation coefficient)协方差数据矩阵的每一列对应一个变量的n个测量值,任意两列之间可以计算两变量间的协方差cov(i,j),i=j时,,协方差矩阵,相关系数矩阵,rij(i,j

9、=1,2,p)为原变量xi与xj的相关系数,rij=rji.,协方差矩阵与相关矩阵的关系 P58,两者有何区别和联系?何为标准化?为什么要标准化?,计算步骤(以相关矩阵为例),第一步:计算相关系数矩阵,第二步:计算特征值与特征向量 解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;,分别求出对应于特征值的特征向量,要求=1,即,其中表示向量 的第j个分量。,计算主成分贡献率及累计贡献率 贡献率:,累计贡献率:,一般取累计贡献率达8595%的特征值所对应的第一、第二、第m(mp)个主成分。,MATLAB的一个命令,pc,variance,t2=princomp(X),输入

10、数据矩阵:x1 x2 xp,一般地,要求n p。模型:,要求 m p。,zm,输出变量:,pc 主分量zi的系数(ci1,cip);注意:pcTpc=单位阵 variance是score对应列的方差向量,即相关系数矩阵R的特征值;容易计算方差所占的百分比 percent-v=100*variance/sum(variance);t2表示检验的t2-统计量(主要用于方差分析),三、主成分分析方法应用实例,例1:有3个变量X1,X2与X3(p=3),其16次(n=16)观测值见下表:,相关矩阵为:相关阵R的特征值分别为2.077,0.919,0.004,前两个主成分的累计贡献率为99.866%。这

11、说明第三个主成分所起作用非常小,可以只要两个主成分。课后练习:用MATLAB求本例中16个样本的第一、第二主成分值及其对应的载荷向量。,下面,我们根据表1给出的数据,对某农业生态经济系统做主成分分析。,表1 某农业生态经济系统各区域单元的有关数据,步骤如下:(1)将表中的数据作标准差标准化处理,然后将它们代入公式计算相关系数矩阵(见表2)。,表2相关系数矩阵,(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表3)。由表3可知,第一,第二,第三主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第一、第二、第三主成分z1,z2,z3即可。,表3特征值及主成分贡

12、献率,(3)对于特征值=4.6610,=2.0890,=1.0430分别求出其特征向量e1,e2,e3,再用公式计算各变量x1,x2,x9在主成分z1,z2,z3上的载荷(表4)。,表4 主成分载荷,第一主成分z1与x1,x5,x6,x7,x9呈显出较强的正相关,与x3呈显出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第一主成分z1是生态经济结构的代表。第二主成分z2与x2,x4,x5呈显出较强的正相关,与x1呈显出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第二主成分z2代表了人均资源量。,分析:,显然,用三个主

13、成分z1、z2、z3代替原来9个变量(x1,x2,x9),描述农业生态经济系统,可以使问题更进一步简化、明了。,第三主成分z3,与x8呈显出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第三主成分在一定程度上代表了农业经济结构。另外,表4中最后一列(占方差的百分数),在一定程度反映了三个主成分z1、z2、z3包含原变量(x1,x2,x9)的信息量多少。,几个问题的思考。,Q1:什么是主成分分析?,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合起来处理,这就是PCA。根据方差最大化原理,用一组新的、线性无关且相互正交的向量来表征原来数据矩阵的行(或列)

14、。这组新向量(主成分)是原始数据向量的线性组合。这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。,什么是主成分分析?,由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。主成分分析(Principal Component Analysis,简称PCA)是一种常用的基于变量协方差(相关)矩阵对信息进行处理、压缩和抽提的有效方法。,Q2:为什么要根据方差确定主成分?,情形II下总分的方差为0,显然不能反映三个学生各科成绩各有所长的

15、实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息。,Q3:为什么要进行主成分分析?,消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题压缩变量个数,剔除冗余信息,使模型更好地反映真实情况。PCA分析在很多领域有广泛应用(模式识别、化学组分的定量分析、多元物系的组分数目确定、动力学反应机理的确定等),Q4:主成分分析有哪些特点,主成分是原变量的线性组合;各个主成分之间互不相关;主成分按照方差从大到小依次排列,第一主 成分对应最大的方差(特征值);每个主成分的均值为0、其方差为协方差阵 对应的特征值;不同的主成分之间不相关,即它们直接的协方差为零。,主成分分析有哪些特点,如果原来有p个变量,则最多可以选取p个主成分,这p个主成分的变化可以完全反映原来全部p个变量的变化,有课本的定理2.1.2,即对于变量标准化后的相关矩阵,结论是什么?见课本定理2.1.3。如果选取的主成分少于p个,则这些主成分的变化应尽可能多地反映原来全部p个变量的变化。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号