主成分分析ppt课件.pptx

上传人:牧羊曲112 文档编号:1392486 上传时间:2022-11-18 格式:PPTX 页数:66 大小:892.43KB
返回 下载 相关 举报
主成分分析ppt课件.pptx_第1页
第1页 / 共66页
主成分分析ppt课件.pptx_第2页
第2页 / 共66页
主成分分析ppt课件.pptx_第3页
第3页 / 共66页
主成分分析ppt课件.pptx_第4页
第4页 / 共66页
主成分分析ppt课件.pptx_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《主成分分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《主成分分析ppt课件.pptx(66页珍藏版)》请在三一办公上搜索。

1、主成分分析,11.1 什么是主成分分析及其基本思想,问题的提出: 在对某一事物进行实证分析研究中,为了更全面准确反映出事物的特征及其发展规律,往往考虑与其有关系的多个指标,因此会产生的问题: (1)为避免漏掉重要信息而考虑尽量多的指标 (2)随着考虑指标的增多增加了问题的复杂性,并且多指标之间不可避免会造成信息的大量重叠(相关性),这种重叠有时甚至会掩盖事物的真正特征与内在规律。 目的:,11.1 什么是主成分分析及其基本思想,主成分分析(Principal Component Analysis,PCA)也称为主分量分析,是一种数据降维技术,主成分分析正是研究如何将多个具有较强相关性指标化为少

2、数几个综合指标来解释原来变量绝大多数信息的一种多元统计方法。把转化生成的综合指标称之为主成分。,11.1 什么是主成分分析及其基本思想,例1:某厂商要做一件上衣,需要测量很多尺寸,如 身长,体重,袖长,胸围,腰围,肩宽,肩厚等十几项指标 将多种指标综合成几个少数的综合指标,作为分类的型号,可综合成3项指标:一项反映长度的指标,一项反映胖瘦的指标,一项反映特体的指标。,例2:医学研究中常常需要对患者的健康状况等进行评价,而这类评价要求内容全面,多个测量指标,最后产出综合评价结果。将多个指标进行综合总会面临以下问题: 1. 各指标量纲不同,不能直接相加; 2. 各指标间存在相关,直接相加产生信息重

3、叠; 3.相加时需要考虑各指标的权重。,主成分分析的基本思想: 设法将用原来众多具有一定相关性的指标(比如p个)重新组合成一组新的相互无关的综合指标来代替原来指标,同时根据实际需要,从中取几个较少的综合指标(主成分)尽可能多地反映原来指标的信息。,11.1 什么是主成分分析及其基本思想,注: 通常数学上的处理:新的综合指标是原来p个指标的线性组合。指标“信息量”的表达用方差来表示,方差越大,表示该指标包含的信息越多。 因此,在所有的线性组合中选取方差最大的F1作为第一主成分,将方差次大的F2作为第二主成分,且要求Cov(F1,)=0,保证F1中的信息不出现在F2中,以此类推,构造第三、第四,第

4、p主成分。,11.1 什么是主成分分析及其基本思想,11.1 什么是主成分分析及其基本思想,实际工作中,挑选前几个最大的主成分代替原来的指标信息,虽然会损失一部分信息,但是由于我们抓住了主要矛盾,在实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。,原始指标的线性组合,综合指标间不相关,且方差递减,第一主成分,第二主成分,第p主成分,选取前几个最大的主成分代替原来指标的信息,尽可能多地找出相关指标作为原始指标,主成分分析流程图:,11.2 主成分分析数学模型及几何解释,上述方程组要求:,11.2 主成分分析数学模型及几何解释,11.2 主成分分析

5、数学模型及几何解释,用数学语言描述就是要求:,11.2 主成分分析数学模型及几何解释,注:(1)数学模型中用线性组合基于两种原因:数学上容易处理和在实践中效果好。(2)每次主成分的选取使Var(Fi)最大,如果不加限制就可使Var(Fi)趋于无穷大,就没有意义了,常用的限制要求就是:,主成分分析的几何解释,平移、旋转坐标轴,如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。,根据旋转变换的公式:,旋转变换的目的是为了使得n个样品点在Fl轴方向上的离 散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某问题时,

6、即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。,11.3 总体主成分的推导及性质,(1)主成分的推导:求主成分就是寻找X的线性函数 使相应的方差尽可能地大,即使,11.3 总体主成分的推导及性质,11.3 总体主成分的推导及性质,11.3 总体主成分的推导及性质,11.3 总体主成分的推导及性质,上述推导表明: X1,X2,Xp的主成分就是以的特征向量为系数的线性组合,它们互不相关,其方差为的特征根。 主成分的名词是按照特征根取值大小的顺序排列的。 在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前K个。,

7、11.3 总体主成分的推导及性质,定义: 称第一主成分的贡献率为 ,由于 ,所以, 因此,第一主成分的贡献率及时第一主成分方差在全部方差中的比值,这个比值越大,表明第一主成分综合X1,X2,Xp信息的能力越强。,11.3 总体主成分的推导及性质,前K个主成分的贡献率(累计贡献率)定义为: 如果前k个主成分的贡献率达到85%,表明取前k个主成分基本包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题的分析和研究。,11.3 总体主成分的推导及性质,(2)主成分性质性质1性质2,11.3 总体主成分的推导及性质,性质3,11.3 总体主成分的推导及性质,性质4,11.3 总体主成

8、分的推导及性质,性质5 此性质说明:上表中Fk对应的每一列关于各变量相关系数的加权平方和为k即Var(Fk)。,11.3 总体主成分的推导及性质,11.4 有关问题的讨论,(一)从协差阵出发还是从相关阵出发求主成分 从协差阵出发求原始数据的协差阵的特征值特征向量的过程。 从相关阵出发求原始数据的相关阵(标准化数据的协差阵)的特征 值特征向量的过程。 从协差阵出发和从相关阵出发所求得的主成分一般来说是有差别的,而且这种差别有时候还很大。,11.4 有关问题的讨论,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,一般不直接由其协差阵出发而应该考虑将数据标准化。 原始数据标准化处理后倾向于各

9、个指标的作用在主成分的构成中相等。数据标准化的过程实际上就是抹杀原始变量离散程度差异的过程,标准化后各变量方差相等均等于1,而实际上方差也是对数据信息的重要概括形式,即对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。,11.4 有关问题的讨论,因此从相关阵出发求主成分有其不足之处,实际问题中不可盲目将数据标准化处理,可分别从协差阵和相关阵出发进行求解并研究其结果的差别,看是否有显著差异并分析产生差异的原因,以确定用哪种结果更为可信。,11.4 有关问题的讨论,(二)主成分分析不要求数据来自正态总体 与很多多元统计分析方法不同,主成分分析不要求

10、数据来自于正态总体,主成分分析实际上就是对矩阵结构的分析,主要用到矩阵运算及矩阵对角化技术。,11.4 有关问题的讨论,(三)主成分分析与重叠信息 主成分分析适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般当原始数据大部分变量的相关系数都小于0.3时,运用主成分分析不会取得很好的效果。,11.4 有关问题的讨论,主成分分析对重叠信息的剔除是无能为力的。在实际选取初始变量进入分析时,对原始变量存在多重共线性的问题,应用主成分分析方法时要慎重。要考虑选取的初始变量是否合适,如果出于避免漏掉某些

11、信息而特意选取了过多存在重叠信息的变量时,就要注意应用主成分分析得到的结果。 如果所得样本协差阵的最小特征值接近于0,就意味着原始变量之间存在着多重共线性,即原始变量存在着不可忽视的重叠信息。,11.5 由样本数据求主成分,例1. 测得10名幼儿的身高,体重如下表,求主成分。,1.求相关系数矩阵Rr11=r22=1, r12=r21=0.9547,2.求R的特征根,解方程:,即(1-)*(1-)-0.9547*0.9547=0得两个根 1.9547和0.0453,记为: 1=1.9547,2=0.0453,3.求特征向量Li1=1.9547所对应的特征向量用下式解: l11+0.9547l12

12、=1.9547l11 0.9547l11+l12=1.9547l12 l112+l122=1 得l11=0.7071, l12=0.7071, 第一主成分为:C1=0.7071X 1+0.7071X2 同样的方法,用2=0.0453可计算出第二主成分,此处略。,11.5 由样本数据求主成分,设样本观测矩阵为Xn*p,样本主成分计算步骤: 1.将原始数据标准化(可选) 2.求原始数据的协差阵或相关阵R 3.求(或R)的特征根和特征向量 4写出主成分,11.5 由样本数据求主成分,练习:,41,主成分分析的逻辑框图见 图5-3:,【例5.2】 数据集Employee data为Midwestern

13、银行在1969-1971年之间雇员情况的数据,共包括474条观测及如下10个变量:Id(观测号)、Gender(性别)、Bdate(出生日期)、Educ(受教育程度(年数)、Jobcat(工作种类)、Salary(目前年薪)、Salbegin(开始受聘时的年薪)、Jobtime(受雇时间(月)、Prevexp(受雇以前的工作时间(月)、Minority(是否少数民族)。下面我们用主成分分析方法处理该数据,以期用少数变量来描述该地区居民的雇佣情况。,2022/11/18,中国人民大学六西格玛质量管理研究中心,42,目录 上页 下页 返回 结束,11.6主成分分析的上机实现,SPSS软件FACTO

14、R模块提供了主成分分析的功能。下面先以SPSS软件包自带的数据Employee data.sav为例介绍主成分分析的上机实现方法,在SPSS软件的安装目录下可以找到该数据集;然后,我们举一个实际的例子介绍主成分分析的具体应用。,2022/11/18,11.6主成分分析的上机实现,进入SPSS软件,打开数据集Employee data.sav。依次点选AnalyzeData ReductionFactor.进入Factor Analysis(因子分析)对话框。(在SPSS软件中,主成分分析与因子分析均在Factor Analysis模块中完成。此时,数据集Employee data.sav中的变

15、量名均已显示在左边的窗口中,依次选中变量educ、salary、salbegin、jobtime、prevexp并点向右的箭头按钮,这五个变量便进入variables窗口(此时若选中variables窗口中的变量,则窗口左侧的箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点击右侧的OK按钮,即可得到如下输出结果5-1。,11.6主成分分析的上机实现,输出结果11-1(1),Communalities给出了该次分析从每个原始变量中提取的信息,表格下面的注示表明,该次分析是用Factor analysis模块默认的信息提取方法即主成分分析完成的。可以看到除受教育程度信息损失较大外,主成分几乎包

16、含了各个原始变量至少90%的信息。,输出结果11-1(2),Total Variance Explained表则显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在本例中看到当保留3个主成分为宜,这3个主成分集中了原始5个变量信息的90.66%,可见效果是比较好的。,输出结果11-1(3),SPSS默认是从相关阵出发求解主成分,且默认保留特征根大于1的主成分,实际上,对主成分的个数我们可以自己确定,【例11.2】在企业经济效益的评价中,设计的指标往往很多。为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立

17、核算的工业企业的经济效益评价中,涉及到9项指标,原始数据见表11-7,即样品数n=28,变量数p=9。,表11-7,续表5-7,表5-8,首先标准化原始数据,标准化后的数据见表5-8。,5.7主成分分析的上机实现,续表5-8,将表5-8数据导入spss软件,依次点选Analyze-Data Reduction-Factor进入Factor Analysis对话框。(在spss中,主成分分析与因子分析均在Factor Analysis模块中完成。)如图5-4所示:,5.7主成分分析的上机实现,输出结果5-4,输出结果5-5,由输出结果5-4看到,前面2个主成分 、 的方差和占全部方差的比例为84

18、.7%。我们就选取 为第一主成分,为第二主成分,且这两个主成分之方差和占全部方差的84.7%,即基本上保留了原来指标的信息,这样由原来的9个指标转化为2个新指标,起到了降维的作用。,SPSS软件得到因子载荷矩阵如下图:,对SPSS的因子分析模块运行结果输出的Component Matrix的第 列的每个元素分别除以第 个特征根的平方根 就得到主成分分析的第 个主成分的系数。结果如下表:,(11.13),其中, 表示对原始变量标准化后的变量。,由上表得到前2个主成分, , 的线性组合为:,由上表得到前2个主成分, , 的线性组合为:,对所选主成分作经济解释。主成分分析的关键在于能否给主成分赋予新

19、的意义,给出合理的解释,这个解释应根据主成分的计算结果结合定性分析来进行。主成分是原来变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用。线性组合中个变量的系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的经济意义,要结合经济专业知识,给出恰如其分的解释,才能达到深刻分析经济成因的目的。,我们所取的例子中有9个指标,这9个指标有很强的依赖性,通过主成分计算后,我们选择了2个主成分,这两个主成分有着明显的经济意义。第一

20、主成分的线性组合中除了100元工业总产值实现利税和100元销售收入实现利税外,其余变量的系数相当,所以第一主成分可看成是 的综合变量。可以解释为第一主成分反映了工业生产中投入的资金、劳动力所产生的效果,它是“投入”与“产出”之比。第一主成分所占信息总量为68.3%,在我国目前的工业企业中,经济效益首先反映在投入与产出之比上,其中固定资产所产生的经济效益更大一些。第二主成分是把工业生产中所得总量(即工业总产值和销售收入)与局部量(即利税)进行比较,反映了“产出”对国家所作的贡献。这样,在抓企业经济效益活动中,就应注重投入与产出之比和产出对国家所作的贡献,抓住了这2个方面,经济效益就一定会提高。,

21、5.7主成分分析的上机实现,通常为了分析各样品在主成分所反映的经济意义方面的情况,还将标准化后的原始数据带入主成分表达式计算出各样品的主成分得分,由各样品的主成分得分(当主成分个数为2时)就可在二维空间中描出各样品的分布情况。,将表5-8数据代入式(5.13)式,得到28个省、市、自治区的主成分得分,见表5-9。将这28各样品在平面直角坐标系上描出来,进而可进行样品分类。主成分得分图见图5-6。,5.7主成分分析的上机实现,表5-9,续表5-9,图5-6,由图5-6可看出,分布在第一象限的是上海、北京、天津、广西这4个省,这四个省、市、自治区的经济效益在全国来说属于比较好的,其中上海的经济效益最好。分布在第四象限的江苏、浙江、安徽、福建、山东、湖北、广东七个省、市、自治区。因为第四象限的主要特征是第一主成分,第一主成分占信息总量的比重最大,所以这七个省的经济效益也算比较好。分布在第二象限和第三象限的地区可属同一类,经济效益较差。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号