《主成分分析》PPT课件.ppt

上传人:小飞机 文档编号:5457269 上传时间:2023-07-09 格式:PPT 页数:69 大小:1.13MB
返回 下载 相关 举报
《主成分分析》PPT课件.ppt_第1页
第1页 / 共69页
《主成分分析》PPT课件.ppt_第2页
第2页 / 共69页
《主成分分析》PPT课件.ppt_第3页
第3页 / 共69页
《主成分分析》PPT课件.ppt_第4页
第4页 / 共69页
《主成分分析》PPT课件.ppt_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《《主成分分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《主成分分析》PPT课件.ppt(69页珍藏版)》请在三一办公上搜索。

1、第七章 主成分分析,PCA的基本思想一般模型与算法PCA的SPSS实现PCA的应用,principle component analysis,Origins of PCA,Pearson(1901)首先引入Hotelling(1933)发展成熟,One of the most widely used multivariate techniques.,一、PCA的基本思想,主成分分析:一种通过降维技术把多指标化为少数几个综合指标的多元统计分析方法。综合指标通常表示为原指标的线性组合,且为了使这些新指标所含的信息不重叠,要求各新指标之间互不相关,What does PCA do?,例:研究55个国

2、家运动员径赛能力,用8项径赛成绩-原始数据矩阵:x558,经PCA得到新数据阵:z552:选取2个主成分,其中第一主成分表示综合能力指标,第二主成分表示短跑能力,正交旋转,哪个国家运动员实力最强?,What About the New Data?,综合了原指标的信息,原指标相关性很强,新指标互不相关,PCA的实质简化数据,用尽可能少的变量(主成分)反映原始数据中尽可能多的信息,以简化数据,突出主要矛盾。反映原始数据特征的指标:方差-离散度主成分:原始变量的最优加权线性组合最优加权:第一主成分:寻找原始数据的一个线性组合,使之具有最大方差(数据离散度最大的方向)第二主成分:寻找原始数据的一个线性

3、组合,使之具有次大方差,且与第一主成分无关,x1,x2,一个简单的两变量例,售电量和利润:不同供电局在这两个指标上的离散度都很大。忽略哪个指标都会给评估带来较大偏误!,1,2,正交旋转,样品间距离不变,第一主成分:寻找原始数据的一个线性组合,使之具有最大方差(数据离散度最大的方向),第一主成分,第二主成分,第一主成分包含的信息量显然大于第二主成分,因而忽略第二主成分信息损失不大,各国运动员100m和200m成绩,计算下列变量方差:X100m和X200m0.707*X100m+0.707X200m0.167*X100m+0.986X200m,二、PCA的模型与算法,设:x为标准化变量,原始数据阵

4、,PCA目标:找到原始数据方差最大的线性组合设:线性组合系数为p1=1,2,pT即:要找一个 使z=Xs=1x1+2x2+pxp具有最大方差,对于标准化变量,样本方差阵=样本相关阵,上式的解就是R的特征根12p,其相应的特征向量1、2、p就是权重向量,权重向量与Xs相乘得到的向量z1=Xs1、z2=Xs2、zp=Xsp,就是Xs的主成分,且有:,其中最大的特征根1对应的主成分z1称为第一主成分,其方差最大,其次是第二主成分z2、第三主成分z3。有p个变量,就有p个主成分。,注意:R是对称阵,两不同特征根对应的特征向量相互正交。,第i个主成分的方差就是相应的特征根。因为第一个特征根最大,所以第一

5、主成分方差最大,由于各主成分彼此不相关,因此,所有主成分之和的方差等于所有特征根之和,即:,所有主成分方差之和解释了原始数据全部方差,正交阵,主成分得分矩阵,特征根和特征向量的求法,例:三标准化变量x1、x2、x3,n=300,注意:这里主成成得分是非标准化的,特征向量,主成分得分Z=XsU,数据,主成分分析:对原始数据阵进行正交旋转,使得第一主成分能保留原始数据的最大方差,第二主成分保留次大方差,且主成分之间不相关,我们可以忽略方差贡献小的主成分从而达到降维的目的。,:第i个主成分的方差贡献率,:前k个主成分的累计贡献率,方差贡献率累计贡献率,保留一个主成分可解释68.3%的方差,保留两个主

6、成分可解释92.3%的方差,Conceptual Model,主成分载荷阵,标准化的主成分Z与原始数据阵Xs的相关系数矩阵,反映各主成分与原始变量x的相关程度,有助于解释各主成分的含义。,变量共同度:载荷阵第i行前c个元素的平方和,反映了前c个主成分对xi方差的解释程度,从载荷阵可看出:z1与各x正相关,综合评价;z2与x2正相关,与x3负相关,反映样本在这两个指标方面的差距,.72552+.66962=0.975:前两个主成分揭示了x2方差的97.5%,三、PCA的SPSS实现,SPSS过程:1)analyzedata reduction factor(顺序点击菜单项,打开Factor对话框

7、)。2)在对话框中指定分析变量,如图1所示。,主成分分析用SPSS中的因子分析过程。,图1,3)在图1对话框点击Extraction按钮,出现图2对话框,选择主成分提取法。,图2,默认选项:分析相关矩阵、显示未旋转因子解,主成分选取原则:特征根1,特征根变化曲线,主成分个数选取原则,因子提取方法,分析相关阵还是协方差阵,按照特征根值的大小选取,直接指定主成分个数,4)点击score,确定主成分得分,将各主成分得分作为变量保存,显示因子(主成分)系数矩阵,分析结果:,提取两个主成分,变量共同度,载荷阵,主成分分析例1,对55个国家径赛成绩作主成分分析步骤:第一次分析:计算特征根,确定提取主成分个

8、数提取主成分,计算主成分得分运用主成分得分做样本分析综合评价异常点分析,应该保留几个主成分?,特征根准则:特征根1累计方差准则:如累计方差贡献率95%,几点说明1:,特征根变化曲线(Scree criterion):Scree plot:特征根随其个数的变化曲线 寻找曲线变平坦的拐点,数据,保留2个特征根vs保留4个特征根,累计贡献率88%,累计贡献率97%,最终结果:,注意:此处主成分得分系数矩阵不是U,主成分的解释分析载荷阵,第一主成分与除200m外的各变量均高度相关,从系数看,各变量权重相差不大,因而可以看成是综合评分。第二主成分则主要反映200m(短跑)成绩,变量共同度,loading

9、,利用两个主成分分析各国运动员情况,-2,0,2,4,主成分提取方法,相关矩阵vs 方差-协方差矩阵分析相关矩阵:针对标准化变量进行主成分分析。,分析方差-协方差矩阵:针对非标准化变量进行主成分分析。,几点说明2:,两者有区别:主成分分析追求最大化方差协方差阵:方差数量级大的变量的影响会淹没数量级小的变量的影响(尽管其离散度可能并不小)大象和兔子相关阵:可以克服变量计量单位不同、数量级相差较大带来的问题,更好地反映方差模式。缺点:可能放大了不重要变量的影响。用哪种方法:根据研究问题的性质、目的和经济解释,前例:相关阵与协差阵主成分比较,R,R,主成分分析案例:2003年广东省各地区电信业发展状

10、况综合分析,调查对象的选取广东省21个地级市2003年度电信业发展数据七个主要指标X1:电信业务总量(万元)X2:每百人拥有固定电话数(门)X3:每百人拥有移动电话数(个)X4:国际互联网用户(万户)X5:互联网用户使用时长(万分钟)X6:长途电话通话量(万次)X7:长途电话通话时长(万分钟),第一主成分:总量因素,城市电信业务规模,第二主成分:平均量成分,电话人均普及状况,各城市电信发展水平的评价:排名,四、PCA的应用,主成分回归:当回归分析的解释变量中存在多重共线或解释变量个数相对于样本数过多时综合评价降维或化简变量分组结构筛选数据,找出特异点,1.Principal Component

11、s Regression,Standard regression problem with response y and regressors X1,X2,Xp.X1,X2,Xp may be exactly collinear or nearly so.Least squares estimates of regression coefficients are not possible,or not reliable in that case.Can use Principal Components to address the problem.,特征根与多重共线诊断,一道考题:多元回归分析

12、中,常用病态指数(多元回归模型的自变量协方差阵的最大特征根与最小特征根之比)作为多重共线的判别指标,变态指数越大,多重共线越严重。请用主成分分析解释其合理性。,例 医院生产率,因变量:manhrs解释变量:load,xray,beddays,stay,elgpop,散点图,主成分回归(对协方差阵):,首先找出解释变量的主成分,然后作因变量对主成分的回归。(1)对协方差阵做主成分分析,保留几个主成分?,1 2 load 0.006780 0.032034 xray 0.978406-.206686 beddays 0.206532 0.977801 elgpop 0.004544 0.01265

13、4 stay 0.000033 0.000488,求特征向量1、2:,计算主成分得分,zi=faci-i1/2,注意:SPSS给出的主成分得分是标准化分,需转化成非标准化分.,方法二:用SPSS的标准化主成分得分计算主成分得分,(2)主成分回归:做manhrs对主成分z1、z2的回归,对相关阵提取主成分,系数结构与协方差主成分完全不同,主成分回归:先将Manhrs标准化,作Manhrss对标准化主成分回归,(1),(2),(2)代入(1),(3),(3)非标准化:,0.233的含义?,一般回归法:删除变量,模型比较?,方差阵主成分回归结果:,相关阵主成分回归结果:,Important Comp

14、arison,Reflecting on PCRAll about summarizing the variability in the regressor spaceNo attention paid to the intended use for the variatesReflecting on OLSNo attention paid summarizing the variability in the regressor spaceAll about attention paid to the intended use for the variates(maximizing corr

15、elation),Upshot,2.Intelligent Index Formation,从调查或实验数据创建综合评价指标May have answers to p questions,say X1,X2,Xp.And you may want to summarize these p responses with one number(“index”)that best captures the diversity in responses.E.g.is common to add the responses,or average them,perhaps being sensitive

16、to questions that are reverse coded.Already should be clear to you that a simple averaging may not be the best way to summarize the original p questions.,综合评价例:人的“认知需要”,认知需要:一个人喜欢或执迷于思考问题、解决问题的程度如何判断某个人是否具有“认知需要”?通常可以进行测验:让被测者回答一些问题,然后根据其答案做出判断。,Cacioppo,Petty and Kao(1984),C1:I prefer complex to si

17、mple problemC2:I like to have the responsibility of handling a situation that requires a lot of thinkingC3:Thinking is not my idea of funC4:I would rather do sth.requiring little thought than sth.that is sure to challenge my thinking abilitiesC6:I find satisfaction in deliberating hard for long hour

18、sC17:Its enough for me that sth.gets the job done:I dont care how or why it worksC18:I usually end up deliberation about issues even when they do not affect me personally,3.Reduction of Dimension,Often able to replace the original variables X1,X2,Xp with a few new variables,say,U1,U2,Uk where k is much smaller than p.By plotting the first two or three pairs of these new variables you can often see structure you wouldnt otherwise be able to see(e.g.clustering).分组结构筛选数据,找出特异点,of,什么情况适宜用主成分分析?,变量间有较强的相关性,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号