毕业设计(论文)基于主成分分析的免费师范生生源多因素分析.doc

上传人:仙人指路1688 文档编号:3980157 上传时间:2023-03-30 格式:DOC 页数:23 大小:801KB
返回 下载 相关 举报
毕业设计(论文)基于主成分分析的免费师范生生源多因素分析.doc_第1页
第1页 / 共23页
毕业设计(论文)基于主成分分析的免费师范生生源多因素分析.doc_第2页
第2页 / 共23页
毕业设计(论文)基于主成分分析的免费师范生生源多因素分析.doc_第3页
第3页 / 共23页
毕业设计(论文)基于主成分分析的免费师范生生源多因素分析.doc_第4页
第4页 / 共23页
毕业设计(论文)基于主成分分析的免费师范生生源多因素分析.doc_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《毕业设计(论文)基于主成分分析的免费师范生生源多因素分析.doc》由会员分享,可在线阅读,更多相关《毕业设计(论文)基于主成分分析的免费师范生生源多因素分析.doc(23页珍藏版)》请在三一办公上搜索。

1、分类号: 本科生毕业论文(设计)题目: 基于主成分分析的免费师范生生源多因素分析_作 者 单 位 计算机科学学院 基于主成分分析的免费师范生生源多因素分析 (陕西师范大学计算机科学学院, 陕西 西安710062)摘 要:应用主成分分析原理,以少数的综合变量取代原有的多维变量,使数据结构简化,把原指标综合成几个主成分,再以这几个主成分的贡献率为权数进行加权平均,构造出一个综合评价函数。本文以目前国家正在实施的免费师范生政策为背景,对陕西师范大学的免费师范生进行了系统性的问卷式抽样调查,并对调查结果进行整理统计和主成分分析,从而提取出免费师范生生源变化的主要影响因素(即特征)。本文所应用的学科为模

2、式识别,涉及到的理论方法是特征选择与特征提取,同时深刻理解K-L变换的定义、概念,以及在特征提取中的应用。关键词:主成分分析 综合评估 特征选择 特征提取Based on Principal Component Analysis in the Various Source of Tuition-free Normal College StudentGao Yuliang(College of Computer Science,Shaanxi Normal University,Xian 710062,Shaanxi, China)Abstract: The theory of principl

3、e component analysis can use less comprehensive variables to instead of the multivariate variables, this method can simplify the structure of the data and aggregate the original index into several principal components.Regarding the contribution rate of this principal component as right, count weight

4、ed average and make up a comprehensive assessment function. The paper take the present country policy of Tuition-free Normal College Student as a background,then the students in the Shaanxi Normal University has been carried on a systematic questionnaire and it uses the theory to analysis the statis

5、tical results, thus extract the major effect factors(That is characteristic) to the changing source of tuition-free Normal College Student. The related subjects is Pattern Recognition, in this process, the feature selection and extraction are also used. At the same time , according to the analysis,

6、it needs to understand something as definitions, concepts of Karhunen-Loeve Transform and its application in feature extraction. Key words: principle component analysis comprehensive assessmentfeature selection feature extraction1.绪论41.1 课题的背景及提出的意义41.1.1课题提出的背景41.1.2课题提出的意义41.2 研究现状41.2.1 主成分分析理论简介

7、41.2.2 理论原理及基本思想51.2.3 主成分分析理论在实验研究的应用情况52.主成分分析的前提62.1模式识别62.2样品与特征62.3特征提取62.4特征选择72.5 K-L变换73.主成分分析的设计与实现73.1基本概念73.2主成分分析方法的设计83.3主成分分析方法的计算步骤103.4主成分分析方法的实例103.5主成分分析方法的优缺点124.关于免费师范生生源问题分析134.1研究方法134.2生源分析过程144.2.1原始数据的标准化处理144.2.2计算相关系数矩阵154.2.3计算R的特征值与特征向量164.2.4确定主成分个数164.2.5综合评价174.3计算机分析

8、相关代码195 结论21结束语21附录 【参考文献】21致 谢221.绪论 1.1 课题的背景及提出的意义 1.1.1课题提出的背景2007年国家决定在六所教育部直属的师范大学进行师范生免费教育,在这一政策实施三年以来,事实已经证明这六所大学(北京师范大学、华东师范大学、东北师范大学、华中师范大学、陕西师范大学、西南大学)的生源较之以前发生了明显的变化,至于是什么原因引起了这个变化呢?不外乎是个人、家庭、社会等诸多方面的因素直接或间接导致的,在这些因素中,大多数人也肯定是由于同样的某些理由使他们选择了报读上述院校,鉴于这个事实,本文就选用主成分分析方法去探讨免费师范生生源多因素这一问题。1.1

9、.2课题提出的意义免费师范生生源因素众多,而基于主成分分析的免费师范生生源多因素分析的目的则在于在我们对这种分析方法的原理充分理解下,灵活地运用一种科学理论去解释现实问题,培养理论联系实际的能力。同时,在免费师范生生源问题日益得到社会各界重视的前提下,运用一种科学理论去分析这一热门话题,一方面得出的结论具有较高的可信度,反之,另一方面如果结论和人们的直观感觉相一致,也同时对主成分分析方法的科学性和合理性进行了验证。1.2 研究现状1.2.1 主成分分析理论简介主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。在实际课题中,为了全面分析问题,往往提出

10、很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的问题时,变量个数太多自然就增加课题的复杂性。在很多情形,变量之间是有一定的相关关系的,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映的信息方面尽可能保持原有的信息。它是模式识别学科中特征选择所运用到的方法之一。1.2.2 理论原理及基本思想 设法将原来众多具有一定相关性变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多

11、地反映原来变量的信息的统计方法,这即是主成分分析理论的原理之所在,它也是数学上处理降维的一种方法。 通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四

12、,第m个主成分,这m个主成分包含原来P个指标的所有信息。1.2.3 主成分分析理论在实验研究的应用情况 “多元统计分析”是近几十年来迅速发展起来的一门学科。随着微机的普遍使用及统计软件的推广普及,回归分析、判别分析、聚类分析因子分析、对应分析等等,各种多元统计方法已广泛应用于自然科学各学科乃至社会科学各个领域。主成分分析是一种常用的多元统计分析方法,相对于其他统计学方法,它更强调用数据本身来指导分析过程,而不是依赖于事先给定的某些假设。 主成分分析在地震预测中的应用。根据主成分分析可以得到反应地震强度异常特征的综合指标形,发现该指标在2次地震前出现明显的异常变化,震后异常恢复,综合指标形可以较

13、好地反映地震活动异常增强的特征。 主成分分析在生命科学研究中的应用。生物样品特征谱的复杂多变性,对生物的每一个细小特征都进行处理分析已经是不现实的一种方法,因此很多的统计分析方法自然就被排除了,而主成分分析对于高维度的分子生物学数据则似乎是一种最恰当的分析方法。主成分分析在经济评价中的应用。在研究较复杂的经济问题时,利用多元统计分析中的主成分分析,可从多个经济指标中找出起支配作用的共同因素,从而抓住主要矛盾,以较少的变量进行定量分析,对企业的经济效益进行公正的评价。 此外,主成分分析方法已经被作为一种科学的分析方法广泛地运用于工农业生产、环境保护、商业盈利等等,并且主成分分析方法的应用领域会随

14、着技术的进步越来越广阔。2.主成分分析的前提2.1模式识别所谓模式识别技术,是随着现代科学技术的发展,特别是计算机技术的发展而形成的一种模拟人的各种识别能力和方法的技术。它基本上属于一种自动判别和分类的理论。模式识别当前主要运用在地球环境的调查研究、生物医学工程、生产管理自动化、军事侦查等领域。模式识别技术是在计算机上实现的,而计算机只识别数字和字符,故所有模式都必须首先数值化或符号化,才能进行自动识别,也就是说前提是对模式的特征测量数值化。2.2样品与特征在模式识别中,被观测的每个对象成为一个样品。对每个样品必须确定一些与识别有关的因素,作为研究的根据;每个因素成为一个特征。例如,在研究地震

15、危险区域划分时,每个样品是一块区域,与之对应的特征可以取该区域内的各项地质地貌特征,如主活动断裂数,主活动断裂的端点及交汇点个数,区域内的最大高程等。又如,在医学诊断中,每个样品是一个患者,特征便可取与诊断有关的各项病理指标等,如体温、血压、白血球数目等。2.3特征提取 模式识别建立在对模式特征量化的基础上,也就是说,首先要对表征模式的各种特征加以量测或量化,得到每一模式的特征数值集合或特征向量,然后根据不同类型模式具有不同的特征数值集合,进行自动辨别。 特征的引入通常要经过一个从少到多,又从多到少的过程。所谓从少到多,是指在设计识别方案的初期阶段应尽量多地列举出各种可能与分类有关的特征,这样

16、可以充分利用各种有用的信息,改善分类效果,这一步骤称为特征提取或特征抽提,如利用K-L变换的分类来进行特征提取。 这里产生的问题是特征数值向量的分量个数很多(或维数很多),但是否都能有效地代表各类模式,针对不同的对象,是否都需要那么多特征来进行辨别,这是需要考虑的问题。由于模式识别是由计算机自动处理的来完成的,在模式维数很高的情况下,计算量太大,且识别精度并不一定随着维数增多而提高,因此就很有必要对已有的众多特征进行选择与提取,也就是说需要选择最有代表性的特征,另外,针对不同的研究对象,还需要进行不同的特征组合。2.4特征选择为了使特征数目从多到少,需要进行所谓的特征选择。特征选择通常包括两方

17、面的内容:一方面是对单个特征的选择,即对每个特征分别进行评价,从中找出那些对识别作用最大的特征,如K-W检验、直方图方法、不确定性选择等等;另一方面是从大量原有特征出发,构造少数有效的新特征,有时也称为降维映射,如主成分分析、对应分析。在模式识别技术中最常使用的特征选择方法就是降维映射方法,而降维对分方法中所得到的新特征D,D是原有特征X1,X2,X3的二次函数,因此这种映射称为非线性映射。目前比较普遍使用的降维映射方法仍然是线性映射,即各个新特征Yi(i=1,2,v,vn)与旧特征X1,X2,,Xn之间的关系为 Yi=Ai1+Ai2X2+AinXn,i=1,2,v 其中各Aij是常数在本文的

18、免费师范生生源多因素分析中,我们采用的是线性映射的主成分分析这一方法来进行特征选择这一过程。2.5 K-L变换 K-L变换(Karhunen-Loeve Transform)是建立在统计特性基础上的一种变换,K-L变换的突出优点是相关性好,是均方误差意义下的最佳变换,它在数据压缩技术中占有重要地位,但需要先知道信源的协方差矩阵并求出特征值。求特征值与特征向量并不是一件容易的事,维数较高时甚至求不出来。即使能借助计算机求解,也很难满足实时处理的要求,而且从编码应用看还需要将这些信息传输给接收端。这些因素造成了K-L变换在工程实践中不能广泛使用。人们一方面继续寻求解特征值与特征向量的快速算法,另一

19、方面则寻找一些虽不是“最佳”、但也有较好的去相关与能量集中的性能且容易实现的一些变换方法。而K-L变换就常常作为对这些变换性能的评价标准。3.主成分分析的设计与实现3.1基本概念设有一批样品,假定对每个样品取n个特征,即X=(x1,x2,xn)T,要求构造n个新特征y1,y2,yn,并使得它们满足以下1)、2)、3)3个条件:1) 每个新特征是原有各特征的线性组合,即 yi=ui1x1+ui2x2+uinxn,i=1,2,n, 或yi=uT iX,ui=(ui1,ui2,,uin)T,i=1,2,n,其中uij是常数,2) 各个新变量之间是互不相关的,即相关系数为零,即 r(yi,yj)=0,

20、 i,j=1,2,n; ij 3) u1使y1的方差达到极大值,u2使y2的方差达到次大,即 var(y1)var(y2)var(yn)0 需要注意的是上述方差达到极大须加上某种限制,否则线性组合的权值无穷大就没有意义了,实际问题常规定ui12 +ui22+uin2 =1以方便计算。满足以上条件的新特征y1,y2,yn,分别称为样品点的第1、2、n个主成分,其中样品的数学模型如下:X=(x1,x2,xn)T=,m为样品的个数.由以上的变换可以看出主成分是原变量的线性组合,是对原变量信息的一种改组,主成分不增加总信息量,也不减少总信息量。3.2主成分分析方法的设计怎样求出样本数据的的主成分y1,

21、y2,yn,或者说怎样求出各个ui,首先求出全体样品点特征的协方差矩阵Sx或者是相关系数矩阵R,其表示如下:或R(相关系数矩阵R算法见相关书籍) 通过对同一原始数据的协方差矩阵和相关系数矩阵主成分分析进行比较研究,发现二者的应用与研究目的有关,若不加区别,将会暴露各自的优点与不足。因此,在实际应用中,选择哪种矩阵进行主成分分析,应视具体的研究目的而定,下面的问题讨论均以协方差矩阵为例。这里S的下表x表示这是对应于旧特征x1,x2,xn的协方差矩阵,求出的n个特征值,和与之对应的特征向量u1,u2,un,每个是一个数,而与之对应的特征向量ui是一个列向量ui(ui1,ui2,uin)T,它们之间

22、的关系是 Sxui=ui, i=1,2,n 关于样品协方差的定义如下:在N个样品中,第i个特征和第j个特征的之间的协方差为,则可以用如下公式求出,Sij= 表示样品点中第i个特征的均值,由此协方差公式可以的出Sx是对称矩阵,即,因而在计算时只要求出它的上三角形或下三角形部分即可,并且Sx主对角线元素就是特征的方差。 在求和ui就相当于解以上方程,具体解法可在各种计算方法中找到。如果我们在解方程时还要求正交归一条件成立,即uT iuj=0且uT iui=1成立,则各个ui就是唯一确定的。现在我们需要说明的是用以上方法求出的各个ui就可以满足前面所说的3个条件1)、2)、3)。令 yi=uT iX

23、,i=1,2,n,则也就是要满足如下关系:=或Y=UX 于是y1,y2,yn就是由x1,x2,xn经线性变换而得到的新特征。可以证明,当经过上述形式的线性变换后,如果对应于X的协方差矩阵是Sx,那么对应于Y的协方差矩阵就是Sy=USxUT,注意到UT的每列恰好是Sx的一个特征向量并利用条件就可以得到:SxUT=UT 其中是以,为主对角线元素的对角阵,再利用教归一条件又可得到: Sy=USxUT=UUT= 这就是说:新特征y1,y2,yn两两之间的协方差为零,即它们是不相关的。这样,我们已经找到了解决主成分分析问题的关键,即求原始协方差矩阵的特征值和特征向量,整个思路中需要注意的是三条件的作用:

24、条件1)是现行条件,反映新旧特征之间的关系是简单的,易于计算的,条件2)是不相关性,表明每个新特征有着独立的作用,条件3)是方差极大条件,主成分按序对原有样品的反映依次减弱。3.3主成分分析方法的计算步骤下面,我们来详细叙述主成分分析的计算步骤。假定原始资料矩阵已知。1) 根据样品协方差公式求出原有特征的协方差矩阵Sx或相关系数矩阵R;2) 用任意一种计算方法求出Sx或R的全部特征值,和对应的特征向量u1,u2,un,并对求出的特征值按从大到小的顺序排列,即,特征向量也应按照对应特征值的顺序排列。这时已经可以求出n个新特征y1,y2,yn,它们满足条件Y=UX,其中U等于矩阵(u1,u2,un

25、)的转置,而且Sy=是对角阵。在Sx中,主对角线之和S11+S22+Snn等于原有各特征方差之和。在Sy中,分别等于新特征y1,y2,yn的方差,而且+之值仍然等于S11+S22+Snn.3) 由表达式可以看出主成分的个数最多有n,否则主成分分析数据就毫无意义,由于总方差不增不减,y1,y2等前几个综合变量的方差较大,而yn-1,yn等后几个综合变量的方差较小。严格说来,只有前几个综合变量才称得上主成分,后几个综合变量实为次成分。为了便于问题的分析,实践中总是对最终得到的主成分进行取舍,如何进行取舍,我们定义第i个主成分yi的方差贡献率为/(+) 而前m(mn)个主成分y1,y2,ym的累计方

26、差贡献率计求解如下: (+)/(+) 保留多少个主成分取决于保留部分的累计方差贡献率,实践中,粗略规定一个百分比便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留,如当前m个主成分的累计方差贡献率已经足够大,如超过85%时,就可以只选取前m个主成分的作为新的特征,我们认为前m个主成分基本包含了原来的样品信息,这时有关系:=3.4主成分分析方法的实例主成分分析方法在各个领域都有广泛的应用,特别是在日常生活中对一些简单指标的快速分析,如我们知道生产服装有很多指标,比如袖长、肩宽、身高等十几个指标,服装生产时,不可能按照这么多指标来做,怎么办呢?一般情况,生产者考虑几个综合指标

27、,诸如标准体形、特形等,利用主成分分析方法分析类似问题时,使我们在研究复杂问题时,容易抓住主要矛盾,简化问题求解过程。下面以两个简单的例子说明主成分分析方法的过程及步骤:假设有两批样品,每批样品数为N=4,特征数为n=2,两批样品的原始资料见下表, 两批样品的原始资料样品集样品集样品特征X1 X2 X3 X4样品特征X1 X2 X3 X4x1x21 -1 2 -21 -1 2 -2x1x21 -1 2 -2-1 1 2 -2根据上面所讲的计算步骤,首先计算每批样品的协方差矩阵,结果为: :特征值=20/3,=0 特征向量u1=(1/,1/)T,u2=(-1/,1/)T :特征值=16/3,=4

28、/3 特征向量u1=(1/,1/)T,u2=(-1/,1/)T 由此可知,对于两组样品利用主成分分析所得的新特征都是: 即 新特征y1,y2所表示的变换即将主成分所在的坐标系旋旋转45。,如下图 x2 x2 y2 y1 y2 y1 2 2 1 1 -2 -1 1 2 x1 -2 -1 1 2 x1 -1 -1 -2 -2 下面分别对两组数据计算主成分的累计方差贡献率,对PA有:/(+)=100%,/(+)=0即只用第一主成分y1已包含了原数据的全部信息,这一点在本例中是显而易见的,因为全部的四个点都分布在y1轴上.对PB有: /(+)=80%,/(+)=20%即只用第一主成分y1时,要损失原有

29、信息的20%.接下来我们将两组数据合并为一组,再进行一次主成分分析,合并后的样数为N=10,协方差矩阵、特征值、特征向量如下:特征值=36/7,=4/7,特征向量u1、u2与上面的相同,组在合并两个样本数据后只有协方差与特征值发生变化,其累计贡献率如下: /(+)=90% , /(+)=10%即此时只用第一主成分y1时,要损失原有信息的10%,通过上面的例子可以看出,主成分的最少可以为一个,并且第一个主成分也有可能100%包含原来指标的所有信息,这是最理想的一种情形,实际上,处理问题时我们总会按序多取几个主成分以保证累计贡献率足够大。到这里,关于主成分分析方法就基本完成,但是在分析实际问题时仍

30、然还会有一些额外的处理,比如说具体实践问题时,为了消除各项指标由于量纲单位不同所带来的不可比性,将各项指标先用相应的方法进行标准化处理,以方便分析过程,而上述所给的例子就没有这个问题,只是单纯的数学式的方法求解过程。再者,实际中,在得出各主成分后,有时将累计贡献率达到85%的前m个主成分做线性组合,并以每个主成分的方差贡献率做系数构造一个综合评价函数等等。3.5主成分分析方法的优缺点主成分分析方法的不足在于有时的数据标准化处理丢失了原有信息,另外该方法是对原有数据的线性组合,实际中指标之间、主成分与原始数据之间有时都呈现非线性关系,这样用主成分分析方法去分析这类数据,必然导致评价结果与事实偏差

31、很大。但是,总体来看,主成分分析方法克服了多重共线性问题,抓住了分析问题的主要矛盾,简化了计算过程,对很多问题来说,都是一种有效实用的分析方法,这也是该方法应用领域越来越广阔的原因之一。4.关于免费师范生生源问题分析4.1研究方法目前,免费师范生政策已经在国家实施三年,社会对该项政策的关注也越来越明显,主要体现在究竟该政策能否对国家的师资队伍进行充实,能否对教育事业的发展起到振兴作用,而这一点就和免费生选择这几所免费院校的初衷直接相关,也就是说生源多因素问题对这项政策的结果有着实质性的影响。2011年7月将是第一批免费师范生走向教育工作岗位的时间,很快这项政策的利弊都能展现在公众的眼前,考虑到

32、科学分析问题的前瞻性及免费师范生生源分析还是一个比较新颖的研究课题,本小节就针对生源问题进行主成分分析问题。对陕西师范大学的若干年级、院系进行有针对性的问卷式调查,本次共抽查涵盖2007、2008、2009三个年级至少八个院系的300名免费师范生,学生对问卷进行五分钟的作答,最终收集到的有效问卷为273份。每份问卷中包含24个(依次用X1、X2、X3、X24表示)涉及到生源问题的相关指标(问卷内容见下表):调查内容主要为家庭影响、个人因素、社会舆论三大方面。在调查问卷的设计过程中,我们充分考虑了不同群体对于免费师范生的看法,尽量多地列举了各种可能存在的影响因素,最大限度地利用各种有用的信息,以

33、便于问卷的调查面足够的广泛和有目标性,最后从50个问题中挑选除了有代表性的24个问题展开调查,从上面的问卷可以看出调查内容已经体现绝大多数学生报考免费院校的原因,也就是说此问卷的结果是有效的,可以用以分析问题的一个依据。(点击截图连接,查看原始数据)此外,主成分分析时量纲的选取对结果影响很大,但本例中并不涉及到量纲问题,注意上述问题的选项是以A、B、C、D、E、F等表示的,并且不同的问题选项数目也是不同的,为了使主成分分析过程基简化,可以对统计结果的进行一下简单的变换,这里只在统计结果时用1、2、3、4、5、6代替A、B、C、D、E、F(注:主成分分析时,量纲的不同有时要用到相关的公式,对数据

34、的每一个结果都进行原始数据的标准化处理),统计结果见附件,截图如下:原始变量矩阵Xnp经标准化处理后变为新矩阵Znp,标准化过程如下:Zij=(i=1,2,N; j=1,2,p N为样品数,p为特征数目)其中=,若使用相关系数矩阵,则相关系数矩阵R的求解如下:R=,rjk= j,k=1,2,p接下来就是求相关系数矩阵R的特征值与特征向量,其算法在前面已经详细讲述过,这里就不再赘述。上述截图中题号(行)表示一个样品的所有各项特征(X1-X24),而列则表示所有样品的某一特征数据,最后一行均值表示所有样品点中每项特征的总体均值,结果精确到小数点后一位。4.2生源分析过程 针对有24个特征指标的27

35、3份样品,我们在分析的第一步就是要设法对该27324原始数据矩阵进行标准化处理,然后求解相关系数矩阵,之后计算特征值与特征向量,得出主成分的贡献率及累计贡献率后对主成分个数进行取舍,最后如果有必要可以计算各主成分的载荷。4.2.1原始数据的标准化处理这里我们直接用Matlab软件对273个原始样本数据进行标准化处理,虽然本例不涉及到量纲问题,但标准化后的数据易于分析,最后得到的27324标准化矩阵截图如下: 点击截图连接查看标准化后的原始数据 对原始数据的标准化,在各种多元统计软件中都会存在,如spss、matlab等,目的在于消除实际数据中遇到的量纲问题,标准化后的数据均值为0,方差为1,这

36、样不同指标的数据就可以放在一个矩阵中了。这里完整的标准化数据请看附表excel中的标准化后的数据。4.2.2计算相关系数矩阵对上面得出的标准化矩阵,求出24个特征两两之间的相关系数矩阵R,矩阵R是一个主对角线均为1的对称矩阵,该24阶对称方阵如下:由相关系数矩阵可以看出第4个和第5个特征的相关性比较大,它们都是关于父母亲学历的特征。同时第6个和第7个相关性也比较大,它们都是关于父母亲职业的特征。4.2.3计算R的特征值与特征向量 特征值按从大到小排如下:3.15657 2.13621 1.66121 1.41735 1.31562 1.24011 1.17476 1.12663 1.01916

37、 0.954273 0.930201 0.885342 0.818742 0.784441 0.744995 0.684749 0.635164 0.603475 0.563465 0.526402 0.490919 0.434193 0.373412 0.322606 对应于相应特征值的特征向量如下:4.2.4确定主成分个数 由各个特征值所计算出来的贡献率由大到小依次为: 13.15% 8.90% 6.92% 5.91% 5.48% 5.17% 4.89% 4.69% 4.25% 3.98% 3.88% 3.69% 3.41% 3.27% 3.10% 2.85% 2.65% 2.51% 2.

38、35% 2.19% 2.05% 1.81% 1.56% 1.34% 一般的主成分分析由累积贡献率不低于85%来确定主成分的个数,这里通过计算可以看出前17个值的和为86.19%,若将主成分个数定为17个,分析仍显繁杂,这里我们采取累积贡献率不低于71%来确定主成分个书,图示如下: 分量编号 特征值 贡献率 累积贡献率 1 3.15657 13.15% 13.15% 2 2.13621 8.90% 22.05% 3 1.66121 6.92% 28.97% 4 1.41735 5.91% 34.88% 5 1.31562 5.48% 40.36% 6 1.24011 5.17% 45.53% 7

39、 1.17476 4.89% 50.42% 8 1.12663 4.69% 55.11% 9 1.01916 4.25% 59.36% 10 0.954273 3.98% 63.34% 11 0.930201 3.88% 67.22% 12 0.885342 3.69% 70.91% 13 0.818742 3.41% 74.32% 14 0.784441 3.27% 77.59% 15 0.744995 3.10% 80.69% 16 0.684749 2.85% 83.54% 17 0.635164 2.65% 86.19% 18 0.603475 2.51% 88.70% 19 0.56

40、3465 2.35% 91.05% 20 0.526402 2.19% 93.24% 21 0.490919 2.05% 95.29% 22 0.434193 1.81% 97.10% 23 0.373412 1.56% 98.66% 24 0.322606 1.34% 100%4.2.5综合评价 这里我们得到前12个主成分的表达式如下: y1=0.012598x1-0.18782x2-0.12962x3+0.283764x4+0.265504x5+0.249046x6+0.18712x7-0.38983x8-0.16819x9-0.09475x10-0.24184x11-0.24848x12+0.072682x13-0.19081x14-0.05003x15+0.124847x16-0.27187x17-0.19753x18+0.142663x19-0.26515x20-0.30218x21+0.263069x22-0.09579x23+0.058289x24y2=0.085992x1+0.15156x2+0.272794x3-0.35002x4-0.40103x5-0.29597x6-0.32763x7-0.21656x8-0.31737x9-0.05175x10-0.07484x11-0.29629x12-0.1765x13-0.18528x14-0.07729x15+

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号