2015数模提高班专题3-多元统计分析.ppt

上传人:小飞机 文档编号:5406622 上传时间:2023-07-04 格式:PPT 页数:91 大小:1.59MB
返回 下载 相关 举报
2015数模提高班专题3-多元统计分析.ppt_第1页
第1页 / 共91页
2015数模提高班专题3-多元统计分析.ppt_第2页
第2页 / 共91页
2015数模提高班专题3-多元统计分析.ppt_第3页
第3页 / 共91页
2015数模提高班专题3-多元统计分析.ppt_第4页
第4页 / 共91页
2015数模提高班专题3-多元统计分析.ppt_第5页
第5页 / 共91页
点击查看更多>>
资源描述

《2015数模提高班专题3-多元统计分析.ppt》由会员分享,可在线阅读,更多相关《2015数模提高班专题3-多元统计分析.ppt(91页珍藏版)》请在三一办公上搜索。

1、2015数学建模提高班-多元统计分析之主成分分析专题,梦想点燃激情,激情成就未来,李有梅 2015/4/12,大数据分析无处不在!Data mining美剧纸牌屋是美国视频网站Netflix基于大数据投资拍摄的电视剧。随着这个经典案例被越来越频繁地提及,人们开始意识到数据分析对于影视创作的价值,无论从剧本选择、导演演员选择,还是拍摄、后期制作乃至营销,都会产生深刻的影响,近期谷歌也发布了基于搜索大数据的票房预测报告。海量数据的新时代正在改变电影业原有的游戏规则,如何应用大数据提升行业运营效率,开始成为关键。当然也有反方的声音,比如梦工厂CEO卡森伯格就表示,电影创作要靠创造力,不能仅靠数据分析

2、。再比如金融产品的精确营销,对潜在客户的定位分析。数据分析的目的:分类或聚类、图形图像的恢复与识别、综合评价等,从2014美赛题谈起:,体育画报,一个体育爱好者杂志,正在寻找上个世纪的最优秀的大学男女教练。建立数学模型来选择以下体育项目:校园曲棍球,曲棍球,橄榄球,棒球或垒球,篮球,足球中最好的大学男女教练(以前或者现在)。在你的模型中时间因素是否对挑选产生影响?比如1913年和2013年的指教是否会有不一样的评价?请清楚的表述你的评选标准。讨论你的模型应用的广泛性,比如在性别上和运动项目上。给出用你的模型得到的3个不同运动项目中最好的5个教练。如何选择评价体系?客观性、准确性、指标的重要性,

3、加权的依据?,统计分析是数据分析的主要工具完整的数据分析过程包括数据的采集(数据可靠性、完备性、相关性,各种数据类型如极大型指标、极小型指标、居中型指标,时变的或静态的等等)数据的整理数据的分析(模型的适用性)统计学为数据分析过程提供了一套完整的科学的方法论。统计软件为数据分析提供了手段。,数据分析整理,研究对象的复杂性,需要通过各种方式来收集数据,希望能从大量的数据中发现研究对象的本质特征。调查收集到的原始统计资料常常是大量的。它必须经过加工整理,如分类归并汇总,按时间前后或按数值大小重新排列等,才容易发现数据的规律性,并便于做进一步的统计分析。格式标准化、异常数据清除、错误纠正、缺损值处理

4、,整理好的数据具有如下结构:,对象的观察值样本,指 标(属性),x11x21x31xn1,数据是信息载体,需要分析数据的主要特征。一些简单的统计指标可以对研究对象的做一些定量刻画。,大数据、云计算,希望从数据中验证某种推断或提炼某种特征。一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标;另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律;,主成分分析概述,在地区或企业经济效益的评价中,涉及的指标往往很多。如给定30个地区的经济发展8项指标:GDP,居民消费水平、固定资产投资、职

5、工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。如何研究经济发展状况和地区差异?变量太多增加问题的复杂性,也给合理分析问题和解决问题带来困难;虽然每个变量都提供了一定的信息,但其重要性有所不同,在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息有一定的重叠。,大的化学和药品公司生产过程要测量100多个过程变量,包括不同场合下的温度、压力及重量等。如何形象化显示重要变量又能够灵敏检测变异的发生?所有这些应用背景归结为:研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多元共线性而无法得出正确结论。问题

6、实质均为数据化简、信息浓缩或者说降维,即将分散在多个变量中的同类信息集中、提纯,从而便于分析、解释和利用。,高维数据如何降维且尽可能少损失信息?,降维最简单的方法就是保留一个变量,舍弃其余的变量;对所有变量平均加权;-除非所有变量具有同样方程,否则不合理基于某种标准做加权平均;-何种标准?主成分分析是解决这些问题一种有效途径-主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标,便于进一步分析尽可能保留原始变量的信息,且彼此不相关。,主成分分析(Principal Component Analysis,PCA)用于辨识数据中模式的一种方法(模式识别

7、),目的是突出数据间的相似和差异,而这些特征在高维数据中难以得到(无法给出图形表示);PCA的主要优势是能够处理高维数据,通过减少数据维数实现数据压缩,同时不损失过多的信息;能有效处理“维数灾难”(Curse of Dimensionality)问题;在图像处理、经济学、统计学等各个领域得到了广泛应用。,专题 主成分分析,1 预备知识:基本概念复习2 主成分分析数学原理3 用Matlab SPSS做主成分分析(实例)4 用SPSS做主成分分析(实例)5 作业,基于样本的统计指标,(1)单变量的均值(mean)均值作为一组数据的代表,反映该组数据平均水平,计算公式如下:性质1:,Matlab命令

8、:mean(x),(2)方差(variance)方差用于衡量数据的集中或分散程度,公式为:Matlab命令:var(x)标准差(standard deviation)是观测值与均值间的平均距离,公式为:Matlab命令:std(x),图1.不同方差数据示意图:变异性越大,说明指标对各种场景的遍历性越强,提供的信息越充分,信息量越大。,(3)两个变量的协方差(covariance)协方差用于衡量数据的协变趋势,公式为:记为 若若X和Y的均值为零,协方差如果X与Y是不相关的,二者之间的协方差就是0 matlab命令:cov(x,y),P个变量时的协方差矩阵,C=,(4)相关系数(correlati

9、on coefficient)相关系数是对于变量而言,第j个和第k个变量之间的相关系数公式为:相关系数大小在区间-1,1之间,也可写为:(标准化变换不改变相关系数),数据预处理:标准化假定有n组样本,m个变量,其原始数据矩阵X为:对矩阵进行标准化,其公式为:从而使得矩阵的每一列均值为0,方差为1标准化2,标准化的优点:消除数据量纲的影响;例如:杭州市的温度:-1045大气压力:105Pa湿度:0%100%怎么分析温度、大气压力和湿度对心情的影响?,矩阵代数1.特征向量向量(3,2)T表示二维平面中从原点(0,0)指向点(3,2)的一个箭头,而矩阵可以认为是转移矩阵;经转移矩阵变换后还是自身(倍

10、数)的向量称为矩阵的特征向量;一般对单位特征向量进行处理。,2.特征值与特征向量成对出现协方差矩阵是非负定,存在正交矩阵(由单位正交化特征向量组成),使其与对角矩阵相似。,PCA的数学原理,假定我们有 p 个相关变量X1,X2,Xp的n 次观察值;PCA的主要目标是寻找m个变量Xi的线性组合Fi(m p),,来解释Xi的方差-协方差结构,并且Fi 之间不相关。即用少量的p个变量说明原变量组的大部分变异性。正像前面所讲,一般目的是数据压缩、数据解释或其他研究的中间步骤。先从二维情形讲起。,二维时如何提取主成分?,以最简单的二元正态变量来说明主成分的几何意义.,其 n 个样本点,的散布大致为一个椭

11、圆.,n 个点的,在平面上作一个坐标变换,即按,坐标 X1 和 X2 呈现某种线性相关性.,逆时针方向旋转角度.,在坐标系 X1 OX2 中,,取新坐标轴,在椭圆长轴方向取F1,短轴方向取F2.,根据旋轴变换公式新老坐标之间有关系,n 个点的坐标 F1 和 F2 几乎不相关.,在坐标系 F1 OF2 中,,在 F1 轴上的方差达到最大,在此方向上所含的有关 n 个,样品间差异的信息是最多的,故,称 F1 为 第一主成分.,在和 F1 正交的轴 F2 上方差较,小,称 F2 为 第二主成分.,因此,用一维空间代替二维空,间时,选用 F1 可使信息的损失降到最小.,这种系统简化方法体现了抓事物主要

12、矛盾的哲学思维.,=?,Good,Better,F=T X=1 X1+2 X2+.+p Xp其中=(1,2,.,p)T 是一组权重向量单位向量 1+2+.+p=1 标准:极大化观测值在F变量上投影的方差,即即寻找 使得F的方差最大,给定原始数据矩阵:,最大目标值恰好是1,即此时F方差是1,因此PCA的目标就是寻找,可以证明,就是矩阵的具有最大特征值1的特征向量方向a1。新变量称为“第一主成分(Principal Component)”.由于一个主成分不足以代表原来的p个变量的信息。因此需要寻找第二个乃至第三、四个主成分,原则上,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两

13、个主成分的协方差为零,几何上就是这两个主成分的方向正交。可证第二个向量就是具有第二大特征值2的特征向量方向a2;以此类推。新变量按其重要性的降序排列;,设原始 样本点变量 型数据资料阵,其中,求线性组合(主成分),Fi表示第i个主成分,也即,PCA的数学模型,满足条件,主成分分析和因子分析的关系,主成分的几个性质,矩阵为,的特征值为,单位特征向量为,令,相应的,说明,主成分就是以协方差矩阵的单位特征向量,之间互不相关,主成分的名次是按特征根取值大小的顺,为系数的线性组合,主成分方差为的特征值,主成分,序排列的.主成分分析将原始p个变量的方差和表示为p个相互独立的变量的方差和。,.,推论1,推论

14、2,主成分的总方差,若是相关系数矩阵,对角元都为1,推论4,推论5,推论3,原始变量与主成分之间的相关系数(因子载荷)载荷矩阵的列向量是特征向量的若干倍。,主成分系数大未必相关系数大。解释主成分时可同时考虑二者。,按照行来看载荷矩阵,第i个变量的方差能够被所有主成分载荷的平方和解释。若取部分主成分,该平方和被称为变量共同度,指变量方差被主成分解释的比例。,特征根:它可以被看成是主成分影响力度的指标,代表引入该主成分后,可以解释多大程度的原始变量的信息。主成分FK的方差贡献率,表明主成分的方差在总方差中的比重。这个值越大,表明这个主成分携带的原始变量的信息越多。方差贡献率,在进行综合评价时,解决

15、了各变量的权重问题,具备客观性。,主成份的选取与使用条件,方差贡献率,第 k 个主成分的方差贡献率,前 k 个主成分的累积方差贡献率,在解决实际问题时,一般不是取 p个主成分,而是根据累计贡献率的大小取前 k个,累计贡献率达到85%;这样就基本包含了全部测量指标所具有的信息,这样即减少了变量的个数有便于对实际问题的分析和研究.,使用条件,主成分分析适宜用于大样本的场合.,主成分分析要求变量之间有一定的相关关系:,特征向量可正可负,具体情况具体分析,还要注意是否存在反向因子,比如奔跑得分,取值越小得分越高。若存在,在综合评价中要取倒数。,方法用途主成分评价:当进行多指标的综合评价时,应用主成分方

16、法将多指标中的信息集中为若干个主成分,然后加权求和,得到综合评价指数。主成分回归:通过对存在共线性的自变量进行主成分分析,从而在提取多数信息的同时解决共线性问题。降维,作为复杂研究的中间步骤。,2023年7月4日,文彤老师,37,在建立多元线性回归方程时,由于自变量间存在多重共线性,常常会发现某些自变量的系数极不稳定,当增减变量时,其值会出现很大变化,甚至出现与实际情况相悖的符号,以致难以对所建回归方程给予符合实际的解释。主成分回归分析 Principal Component Regression(PCR)是一种多元回归分析方法,旨在解决自变量间存在多重共线性问题。它通过主成分变换,将高度相关

17、的变量的信息综合成相关性低的主成分,然后以主成分代替原变量参与回归.,主成分分析的算法,设有n个样品,每个样品观测p项指标,将原始数据写成矩阵,将原始数据标准化(这里为了书写方便,不妨设上边矩阵已标准化了)。,建立变量的相关系数阵,求得特征根 及相应的单位特征向量,写出主成分,包括对主成分的解释,5.Matlab和SPSS实例分析,例1.在企业经济效益的评价中,涉及的指标往往很多。为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,原始数据见表3-1,即样品数n=28,变量数p=9。,续

18、表,clear load czsr2003.txt n,p=size(czsr2003);MEAN=mean(czsr2003);%求各变量的均值STD=std(czsr2003);%求各变量的标准差MEAN=ones(n,p)*diag(MEAN);STD=ones(n,p)*diag(STD);x=(czsr2003-MEAN)./STD;%原始数据标准化,原始数据标准化,R=cov(x);注释:由于数据已经过标准化处理,故x的协方差矩阵等于其相关系数矩阵,即R=corrcoef(x).,2.建立变量的协方差矩阵,V,D=eig(R);注释:函数eig的功能是对矩阵R进行正交对角化变换,矩

19、阵D是以R的特征值为对角元的对角矩阵(对角元按从小到大的顺序排列),矩阵V是正交变换矩阵。,3.求得特征根及相应的单位特征向量,%计算主成份的方差贡献率和累计方差贡献率DD=;%将特征值对角矩阵D改写为列向量DDfor i=p:-1:1%此处要注意eig函数的输出D中特征值的排列顺序DD=DD;D(i,i);end OFFER=DD/sum(DD);%计算特征值的方差贡献率 cumOFFER=cumsum(DD)/sum(DD);%计算特征值的方差累计贡献率 OUTCOME=DD,OFFER,cumOFFER%综合输出计算结果 PCACOV=V(:,end:-1:end-2)%输出正交单位化的

20、特征向量矩阵V的前3列,OUTCOME=6.1499 0.6833 0.6833 1.4729 0.1637 0.8470 0.6974 0.0775 0.9245 0.3178 0.0353 0.9598 0.1900 0.0211 0.9809 0.1160 0.0129 0.9938 0.0291 0.0032 0.9970 0.0243 0.0027 0.9997 0.0024 0.0003 1.0000,OUTCOME=DD,OFFER,cumOFFER%综合输出计算结果,选取主成分 根据特征值的方差累计贡献率,取前2个(贡献率达84.70%)或前3个(贡献率达92.45%)主成分即

21、可。PCACOV=V(:,end:-1:end-2)%输出正交单位化的特征向量矩阵V的后3列,PCACOV=0.3756 0.2595-0.0141 0.3934-0.1344-0.0853 0.3753-0.2653-0.1074 0.0935-0.7113-0.5223 0.1746-0.4913 0.8022 0.3721 0.1650-0.2246 0.3616 0.2254 0.0424 0.3513 0.0524 0.0830 0.3626 0.1268 0.0747,(3)分析并命名主成分,对所选主成分作经济解释。主成分分析的关键在于能否给主成分赋予新的意义,给出合理的解释,这个

22、解释应根据主成分的计算结果结合定性分析来进行。主成分是原来变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用。,线性组合中个变量的系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的经济意义,要结合经济专业知识,给出恰如其分的解释,才能达到深刻分析经济成因的目的。,第一主成分的线性组合中除了100元工业总产值实现利税和100元销售收入实现利税外,其余变量的系数相当,所以第一主成分可看成是x1,x2,x3,x6,x7,x

23、8,x9 的综合变量。可以解释为第一主成分反映了工业生产中投入的资金、劳动力所产生的效果,它是“投入”与“产出”之比。第一主成分所占信息总量为68.3%,在我国目前的工业企业中,经济效益首先反映在投入与产出之比上,其中固定资产的有效所产生的经济效益更大一些。第一主成分的系数取为0.3756 0.3934 0.3753 0.0935 0.1746 0.3721 0.3616 0.3513 0.3626,第二主成分是把工业生产中所得总量(即工业总产值和销售收入)与局部量(即利税)进行比较,反映了“产出”对国家所作的贡献。这样,在抓企业经济效益活动中,就应注重投入与产出之比和产出对国家所作的贡献,抓

24、住了这2个方面,经济效益就一定会提高。第二主成分的系数取为0.2595-0.1344-0.2653-0.7113-0.4913 0.1650 0.2254 0.0524 0.1268,第三主成分又如何解释呢?第三主成分的系数取为-0.0141-0.0853-0.1074-0.5223 0.8022-0.2246 0.0424 0.0830 0.0747,如何解释第二、三主成分主成份系数的负号,可能需要更多的经济学理论的支持。主成分分析本质上是一种矩阵变换过程,并不要求各主成分都具有实际意义,含义也未必十分明确,有一定的主观性。更进一步需要学习因子分析理论。,通常为了分析各样品在主成分所反映的经

25、济意义方面的情况,还将标准化后的原始数据带入主成分表达式计算出各样品的主成分得分,由各样品的主成分得分(当主成分个数为2时)就可在二维空间中描出各样品的分布情况。,按照方差贡献率标准,选择k=3个主成分,下图给出各样本的主成分得分,按照方差贡献率加权求综合评分,按照综合评分排序评价ZZ,I=sort(Z,descend);Scatter(ZZ,I)对主成分综合加权本质上等同于对原始指标加权。,Matlab Statistics Toolbox主成分分析函数及应用,用原始数据进行主成份分析【函数与语法】PC=princomp(x)PC,SCORE,latent,tsquare=princomp(

26、x)【参数说明】x 原始数据矩阵(样本点变量)PC 主成分系数向量(列)SCORE 样本点的主成分得分 latent x的协方差矩阵的特征值 tsquare 每一个样本点的HotellingT2统计量的值注意:princomp函数没有数据标准化的功能。【应用czsr2003.txt】PC,SCORE,latent,tsquare=princomp(x),2.用原始标准化数据的协方差矩阵进行主成分分析【函数与语法】PC=pcacov(R)PC,latent,explained=pcacov(R)【参数说明】R 原始数据相关系数矩阵(样本点变量)PC 主成分系数向量(列)latent 相关矩阵R的

27、特征值 explained 每一个主成分的方差贡献率【应用czsr2003.txt】PC,latent,explained=pcacov(R),二、利用SPSS进行主成分分析,SPSS没有提供主成分分析的专用功能,只有因子分析的功能。但是因子分析和主成分分析有着密切的联系。因子分析的重要步骤因子的提取最常用的方法就是“主成分法”。利用因子分析的结果,可以很容易地实现主成分分析。具体来讲,就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向量。即:其中,zij为第j个特征向量的第i个元素;aij为因子载荷阵第i行第j列的元素;j为第j个因子对应的特征根。然后再利用计算出的特征向量来计算主成分。,

28、下面用spss对前例做主成分分析,图3,下面学习选项设置:,3.1 设置Descriptives选项。单击Descriptives按钮,弹出Descriptives对话框。,在Statistics栏中选中Univariate descriptives复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initial solution复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。在Correlation Matrix栏中,选中Coefficients复选项,则会给出原始变量的相关系数矩阵(分析时可参考)。设置完成以后,单击Continu

29、e按钮完成设置。,3.2 设置Extraction选项。打开Extraction对话框(图6)。因子提取方法主要有7种,在Method栏中可以看到,系统默认的提取方法是主成分(Principal components),因此对此栏不作变动,就是认可了主成分分析方法.,按需修改,在Analyze栏中,选中Correlation matirx复选项,则因子分析基于数据的相关系数矩阵进行分析;如果选中Covariance matrix复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了,这两个结果没有分别,因此任选其一即可。,选中Scree Plot(“山麓”图),则

30、在分析结果中给出特征根按大小分布的折线图(形如山麓截面,故得名),以便我们直观地判定因子的提取数量是否准确。需要注意的是:主成分计算是利用迭代(Iterations)方法,系统默认的迭代次数是25次。但是,当数据量较大时,25次迭代是不够的,需要改为50次、100次乃至更多。对于本例而言,变量较少,25次迭代足够,故无需改动。,3.3 Scores设置选中Save as variables栏,则分析结果中给出标准化的主成分得分(在数据表的后面)。至于方法复选项,对主成分分析而言,三种方法没有分别,采用系统默认的“回归”(Regression)法即可。选中Display factor score

31、 coefficient matrix,则在分析结果中给出因子得分系数矩阵及其相关矩阵。设置完成以后,单击Continue按钮完成设置。,选中Display factor score coefficient matrix,则在分析结果中给出因子得分系数矩阵及其相关矩阵。设置完成以后,单击Continue按钮完成设置,对于主成分分析而言,旋转项(Rotation)可以不必设置;对于数据没有缺失的情况下,Option项可以不必理会。全部设置完成以后,点击OK确定,SPSS很快给出计算结果。,其中Communalities(变量共同度)给出了该次分析从每个原始变量中提取的信息,表格下面的注示表明,该

32、次分析是用Factor analysis模块默认的信息提取方法即主成分分析完成的。可以看到x8外,主成分几乎包含了各个原始变量至少80%的信息。,输出结果1,69,输出结果2,Total Variance Explained表则显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在本例中修改设置,保留3个主成分,这3个主成分集中了原始9个变量信息的92.447%,可见效果是比较好的。,由输出结果2看到,前面2个主成分、的方差和占全部方差的比例为84.7%。我们就可以选取 为第一主成分,为第二主成分,且这两个主成分之方差和占全部方差的84.7%,即基本上保留了原来指标的

33、信息,这样由原来的9个指标转化为2个新指标,起到了降维的作用。当我们选择3个主成分时,就保留了原变量信息的92.4%,输出结果3:主成分矩阵(因子载荷矩阵),标准X1=0.931*标准prin1-0.315*标准prin2*-0.012*标准prin3事实上,这里的主成分是解释原变量的公因子。,如果选择所有的主成分就得到如上的成分矩阵(载荷矩阵),行平方和为变量的共同度,列平方和为主成分(公因子)的方差贡献(特征值),只取前三个因子时的变量共同度,输出结果4:因子得分系数矩阵,未标准化第一、二主成分与原始变量的关系式如下:,如何还原未标准化的主成分系数?操作步骤将因子得分系数矩阵中的数据输入S

34、PSS数据编辑窗口,分别命名为a1、a2,a3。(2)为了计算一个特征向量,点击菜单项中的Transform-Computer,调出Computer variable对话框,在对话框中输 入等式:prin1=a1*SQRT(1),1是第一个主成分相应的特征根点击OK按钮,即可在数据编辑窗口中得到以prin1为变量名的第一特征向量。再次调出Computer variable对话框,在对话框中输入等式:prin2=a2*SQRT(2),点击OK按钮,得到以prin2为变量名第二特征向量。,将各个主成分得分乘以相应的sqrt()即特征根的二次方根可以将其还原为未经标准化的主成分得分.这里同样使用co

35、mpute命令还原为主成分得分pscore1=FAC1_1*SQRT(1),输出结果5:标准化主成分得分得分在原始数据所在的SPSS当前数据栏中给出。,综合评价:重新进入Compute对话框,在Target Variable 栏中输入Z,在Numeric expression栏中输入表达式如下:(0.68332*pscore1+0.16365*pscore2+0.07749*pscore3)/0.92447点击OK,分别按pscore1,pscore2,pscore3,Z进行排序,整理结果。,二、主成分分析实例,下表是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是:X1:

36、年末固定资产净值,单位:万元;X2:职工人数据,单位:人;X3:工业总产值,单位:万元;X4:全员劳动生产率,单位:元/人年;X5:百元固定资产原值实现产值,单位元;X6:资金利税率,单位:%;X7:标准燃料消费量,单位:吨;X8:能源利用效果,单位:万元/吨。,表1:某市工业部门13个行业8项指标,我们要考虑的是:如何从这些经济指标出发,对各工业部门进行综合评价与排序?我们先计算这些指标的主成分,然后通过主成分的大小进行排序。表6.2和表6.3分别是特征根(累计贡献率)和特征向量的信息。利用主成分得分进行综合评价时,从特征向量我们可以写出所有8个主成分的具体形式:,表2 特征根和累计贡献率,

37、表3 特征向量,表4 各行业主成分得分及排序,我们以特征根为权,对8个主成分进行加权综合,得出各工业部门的综合得分,具体数据见表6.4。综合得分的计算公式是:根据上式可计算出各工业部门的综合得分,并可据此排序。从上表可以看出,机器行业在该地区的综合评价排在第一,原始数据也反映出机器行业存在明显的规模优势,另外从前两个主成分得分上看,该行业也排在第一位,同样存在效益优势;而排在最后三位的分别是皮革行业、电力行业和煤炭行业。,【作业】全国重点水泥企业经济效益综合评价例。利用主成分综合评价全国重点水泥企业的经济效益。原始数据(数据来自1984年中国统计年鉴)见表5-10。,表5-10,1.利用一般的Matlab命令将数据标准化;2.利用Matlab命令计算出相关矩阵的方差及特征值;3.写出主成分的线性表达式;4.利用统计工具箱中命令得到如上结果;5.利用SPSS进行主成分分析;6.对得到的结果作出解释。,需要完成:,作业2,文件pcaexe.xls是世界上55个国家和地区某年7个田径项目上的女子记录。要求1.分别用matlab和spss做主成分分析,并解释第一主成分和第二主成分的意义。2.基于第一主成分对个国家和地区排序。3.基于主成分综合评价排序。,因子分析的几个概念,有m个公因子的正交因子模型:,返回,系数矩阵称为载荷矩阵。此时变量的方差被分解成两部分,,谢 谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号