《钢铁行业股票的聚类分析.docx》由会员分享,可在线阅读,更多相关《钢铁行业股票的聚类分析.docx(19页珍藏版)》请在三一办公上搜索。
1、钢铁行业股票的聚类分析摘要随着经济的发展,人们已经越来越关心股票这一高风险高收入的投资项目,对此,本文运用多元统计办法,通过考察钢铁行业的一些相关指标数据,运用聚类分析理论中最成熟的系统巨雷方法,对这些指标数据进行分析,得出结论,帮助投资者选择最佳股票。关键词:总资产,主营业务收入,聚类分析,风险性1. 导言股票至今已有将近400年的历史,它最早出现在资本主义国家,是社会化大生产的产物。发展到现在,股份有限公司已经成为资本主义国家最基本的企业组织形式;股票已经成为资本主义国家业筹资的重要渠道和方式,亦是投资者投资的基本选择方式;而股票的发行和市场交易亦已成为资本主义国家证券市场的重要基本经营内
2、容,成为证券市场不可缺少的重要组成部分。同时,股份公司,股票和股票市场不是资本主义所持有的。我国是一个社会主义国家,在发展有计划商品经济的条件下,同样可以利用股份公司的企业组织形式,股票筹资的方式和股票市场的调节机制,为发展社会主义的有计划的商品经济服务。对国家来说,股票具有多方面的积极作用,它可以广泛地动员,积聚和集中社会的闲散资金,可以为改革完善我国的企业组织形式探索一条新道路,可以促进我国经济体制改革的深化发展,还可以扩大我国利用外资的渠道和方式,增强对外的吸纳能力等。同时有利于股份制企业建立和完善自我约束,自我发展的经营管理机制,有利于股份制企业筹集资金,满足生产建设的资金需要。对广大
3、的投资者来说,可以开拓投资渠道,扩大投资的选择范围,适应了投资者多样性的投资动机,交易动机和利益的需求,一般来说能为投资者提供获得较高收益的可能性。但是由于股票价格既受政治,经济,市场因素的影响,亦受技术和投资者行为因素的影响,因此,股票股票价格经常处在频繁的变动之中。股票价格频繁的变动扩大了股票市场的投机性活动,使股票市场的风险性增大。股票投资是一种风险与收益相当的投资行为,所以对于股票的选择必须慎重考虑。本文就钢铁这一行业的股票进行分析。考虑同一行业在国际和国内环境的相似性,以及国家政策的同等性,在文中只对该上市公司及其股票的一些指标进行分析,得出相应的结果。并提出一些建议。2. 模型分析
4、的原理及其思想2.1聚类分析的基本思想聚类分析又称集群分析,是研究如何将客观事物合理分类的一种数学方法。它是根据食物本身的特性对被研究对象进行分类,使同一类中的个体有较大的相似性,不同类中的个体有较大的差异。它与判别分析同属类分析问题。聚类分析根据分类对象的不同,可分为样本聚类和变量聚类。样本聚类在统计学中又称为Q型聚类,它是根据被观测的对象的各种特性,对各变量值进行分类。变量聚类在统计学中又称为R型聚类,反映同一事物特点的变量有很多,我们往往选择部分变量对事物的某一方面进行研究。与多元分析的其他方法相比,聚类分析是从事物数量上的特征出发对事物进行分类,是数值分析学和多元统计技术结合的结果,是
5、一种较粗糙的、理论并非完善的分析方法,但是其使用简便,分类效果较好,是常用的探索性分析工具,解决许多实际问题,所以很受人们的重视,同回归分析、判别分析一起被成为多元统计分析的三大方法。2.2聚类分析的分类聚类分析主要包括有:二阶段聚类、K中心聚类、层次聚类(系统聚类)1、 二阶段聚类;二阶段聚类模型是一种新型的分层聚类算法,目前一般应用在数据挖掘与多元统计的交叉领域模式分类中,其算法适用任何尺度的变量。2、 K中心聚类:K中心聚类为一种快速聚类方法,适合处理大样本数据。K中心聚类要求聚类变量为数值变量,研究者事先需要制定分类数K,各分类中心的初值可以由研究者指定,也可以由程序自动给出。K中心聚
6、类采用迭代算法,不断调整各分类中心位置,直到收敛。3、 层次聚类(也称系统聚类)是实际工作中使用最多的一种方法。层次聚类法的层次含义是:开始时每个样品各看成一类,将距离最近的两类合并;重新计算新类与其他类的距离,再将距离最近的两类合并;再计算新类与其他类的距离,这样一步步地进行下去,每一步减少异类,直至所有的样品都合并成一类为止。整个聚类过程可绘成聚类图。类与一类之间的距离有各种不同的定义方法,定义不同即产生不同的算法,而不同的算法可能聚得不同的结果。选用何种结果合适,可以结合专业知识帮助判断。(1) 类间平均法,倾向合并偏差较小的类。(2) 类内平均法,倾向合并偏差较小的类(3) 最邻近距离
7、法,适用于非常离散的资料(4) 最远距离法,为前两种方法的折中(5) 中心法,分类效果较差,但稳健,对异常值不敏感(6) 离差平方和法,倾向得到各类样品数目接近的分类结果分类效果好但对异常值敏感。2.3分析方法这次设计用的是聚类分析方法中理论比较成熟的系统聚类法。有雨类与类之间有以上几种距离的定义,所以系统聚类法主要有五种,分别为最短距离法、最长距离法、重心法、类平均法以及离差平均和法。本次分析用了五种方法对数据进行分析后选取一种最好的方法进行分析。3原始数据及其数据分析3.1相关原始数据表一原始数据总资产主营收入净利润增长率每股净资产净资产收益率主营业无收入增长率每股资本公积金大钢不锈452
8、.23178.65759.485.4638.43210.122.2008安阳钢铁159.2749.33721.723.382.9441.780.387鲁银投资15.678.44649.821.472.1336.150.144南钢股份100.0950.776144.036.2463.671.2055武钢股份490.85124.1604.62.996.02649. 030.7368菜钢股份159.9669.38549.156.213.8621.541.477柳钢股份102.6446.78456.776.0954.9745.111.4646凌钢股份34.9216.01331.545.273.1512
9、.90.8365华凌股份389.3892.63330.874.712.6431.521.8373济南钢铁160.1176.93325.844.256.1837.91.4288唐钢股份291.0795.69313.614.34.7754.341.4273杭钢股份9132308.825.182.0917.981.1401安泰股份37.537.92250.863.282.7344.130.8879承德钒钛108.630.23221.523.311.7958.591.162韶钢松山128.3632.16213.714.071.769.791.0413本钢板材259.577.03207.045.2323
10、1.9289.472.7758八一钢铁92.2426.68185.254.191.671.531.4495宝钢股份1778.4429.75156.384.854.3228.661.8749鹏博士5.931.6153.051.4710.939.570.329广钢股份44.1412.87145.412.130.9243.530.8744三钢股份56.1721.89128.634.6948.511.3253包钢股份151.6348.31120.522.312.5339.450.6733宁夏恒力12.841.38115.132.4420.33225.381.1763鞍钢股份627.95160.1711
11、1.675.487.3632.632.1653邯郸钢铁242.8459.8492.414.122.1915.21.6586马钢股份585.4899.4379.533.1211.3130.320.8448ST长钢20.087.0875.710.814-1.4810.340.103大冶特钢29.7212.7466.283.1155.579.811.0807西宁特钢69.5910.6252.872.94812.03782.421.0905新华股份7.392.2643.881.8626.990.2721首钢股份170.2362.6741.852.6741.827.051.1422酒钢股份77.7440
12、.6421.834.761.7453.611.1548抚顺特钢47.0410.7820.942.98603973.111.4118新型铸管93.9531.2720.884.04093.3914.181.4594福星科技49.364.7412.086.851.930.352.7588大连金牛36.67.048.193.780.2212.671.9529法尔胜38.964.87.722.60760.618.321.2287攀钢钢钒212.2146.8610.13.492.1836.961.4499贵绳股份12.132.191.084.531.3211.142.8937重庆钢铁103.1127.65
13、02.922.4300.661总资产(亿元)主营收入(亿元)每股净资产(元)每股资本公积金(元)3.2结果分析1、下面将数据输入到spss的编辑器,进行数据处理。过程如下:首先把数据输入到spss的编辑器,在菜单栏中选Analyze中的classify命令,再classify子菜单里的hierarchical cluster(即系统聚类法),在stastistics里选中agglomeration schedule和proximity matrix并且在range of solutions中选3到7类;在plot中选dendrogram,cecle中选all clusters,orientat
14、ion中选vertical;在method中选wards method,standardize 中选z cscores和by variable。运行spss得到成员聚类表。表2成员聚类表根据上表给出的结果我选择聚为六类,因为它最符合实际。表3个案处理摘要图表4成员聚类表表5聚类过程结果2.通过对数据进行聚类分析,可以看到分为六类结果比较令人满意,其具体的分类结果如下:第一类包括:太钢不锈第二类包括:安阳钢铁、鲁银投资第三类包括:南钢股份、武钢股份、菜钢股份、凌钢股份、华菱股份、济南钢铁。唐钢股份。安泰集团、承德钒钛、韶钢松山、八一钢铁、鹏博士、广钢股份、三钢闽光、包钢股份、宁夏恒力、鞍钢股份、
15、邯郸钢铁、ST长钢、大冶特钢、西宁特钢、新华股份、首钢股份、酒钢宏兴、抚顺特钢、新兴铸管、法尔胜、攀钢钢钒、重庆钢铁第四类包括:本港板材、福星科技、大连金牛、贵绳股份第五类包括:包钢股份第六类包括:马钢股份回顾分析指标,我们不难发现,就整体而言,几乎所有的上市其股票行情相当,也就是说,除了少数具有明显优势或者劣势的公司以外,钢铁行业的整体实力都维持在同一层次上。就太钢不锈来说,到07年3月31号为止,太钢不锈向投资者交了一份满意的答案:2006年,公司实现主营业务收入400亿元,同比上期增长了68.78%,实现净利润24亿元,同比增长幅度高达212.04%,净资产收益率达到18.25%,200
16、6年控股股东太原集团向太钢不锈注入优质资产,由此,太钢不锈一跃实现了钢铁主业资产“一体化”。收购效益相当明显。与此同时,新产品的开发也使太钢不锈业绩斐然。由此引起太钢不锈股票前景一片大好。对于宝钢股份,其总资产以及主营业务收入在当前都排名第一,但是净利润排到十九,相对与总体净利润来说,成为负利润。并且,在往前看,06年12月31号,其情形基本相同。宝钢股份从总体上已经形成一定的固定形式,不能灵活的变动,再加上其管理阶层的人员变动不少,使其很难进步,但实力仍然雄厚。尤其是宝钢股份试制成X120管线,被认为是目前世界上最高强度的管线钢。马钢股份可以说是上市比较早的钢铁公司,实力雄厚其总资产和主管业
17、务收入始终保持在前五名,尽管它的净利润仍为负数,但是就最近的几次总体数据来看,它一直是呈现积极的增长阶段,前景也可观。再看本钢板材、福星科技、大连金牛、贵绳股份这四支股票,后三支股票无论在主营业务收入、总资产,还是在净利润上,都不能和其他的一些股票相提并论,而且是长期在这样的状态下,一直很难改变现状,其趋势亦只能维持在这个状态。对于本钢板材,其效益比上面三个好,但是其前景同样不是很乐观。以它的净利润来说,在短短三个月内,由原来的第三名下降到十六名。可见一斑。4、 总结以及建议通过以上的分析,可以知道,包钢股份是比较传统的钢铁公司,其股份相对来说比较大对于这样的股票,它无论是涨还是跌,幅度都不会
18、很大;而对于马钢股份,它具有传统钢铁行业的优点,同时也能够对公司内部进行一定的灵活变动,有相当的潜力;本钢板材。福星科技。大连金牛、贵绳股份这三支股票并不可取;与此相反,太钢不锈却是有着很好的潜力,对于第二类股票,由于处于总体均衡位置,实际来说有一定的投资效果,但不明显。另外要注意的事,以上分析知识在假设同行业间面临同样的国际国内形式的情况下进行的,没有考虑到很多其他的因素,比如说地方保护政策,环境因素等等。因此这只是一种初步的估计,与现实之间仍然存在一定的差异。股票市场千变万化,国际、国内的重要商业变动都可以随时使它发生变化,因此在实际选择股票的时候,必须多方面考虑,每一种情况都要分析明白。
19、同时自身心理因素对股票的选择也有一定的影响。参考文献1卢璇等译,实用多元统计分析,北京,清华大学出版社,20012方开泰,实用多元统计分析,上海,华东师范大学出版社,19893王学仁,王松桂,实用多元统计分析,上海科学技术出版社,19904宇传华,spss与统计分析,北京,电子工业出版社,20075卢纹岱,spss for windows 统计分析M北京:电子工业出版社,2000年学生成绩的主成分分析摘要对一个人的智育能力判断标准是什么呢?这个问题是值得研究的我们不能根据自己个人喜好来判断,必须要客观综合地给出一个判断。本文通过运用主成分分析对学生成绩分析得出比较方法,用来解决智育能力判断的问
20、题。本文主要部分是数据选取、数据分析、结论分析。通过对学生各科成绩做主成分分析,得出每门课程的贡献来对结论作出解释。关键词:数据选取 数据分析 主成分分析引言大学生本科教育水平是高还是低,我相信很多人对这一问题是持有保留的态度。随着经济的不断发展,无论经济管理类行业还是高新技术行业,各种市场需要的人才越来越多,然而人数的增加并没有影响市场对人才判断的标准,而是越来越严格。中国大学本科教育有着自己特点,取得了一定程度上的成就。在教育中注重的事理论方面的培养。就因为这种社会学习风气的影响下,形成了一种对需求人才的判断标准。但是我觉得这种标准时存在一定的弊端。虽然大学教育在不断改善,为了满足社会对各
21、种人才的需要,大学本科教育业增加很多各方面的知识课程来提高学生的能力;但是只是一些表面上工作的改善时没有用的,我国对大学生素质的判断还保留着以前那套作风,还是对人才素质的判断标准定在了某些方面,并没有从本质上改善。对一个大学生能力素质方面的判断,并不能再只从单方面,而是通过对学生各方面的综合能力分析比较再定标准。大学本科生时人才市场的主要部分。而一个人的能力,我相信在艰苦但富有意义的四年大学生活中得到了充分的体现。因此对大学生能力判断,也是对社会人才的判断近似定了个标准和判断方法。大学生能力究竟怎样判断比较呢?很多人是把他们某一方面拿来比较。例如:把两个学生各自相对较强的项目拿来比较就对他们两
22、个人的能力高低做出判定,这是一个很不科学的方法。在现在大学教育中,学生需要的各种专业知识越来越多,因此开设学习科目也很多,单从某一方面成绩来比较根本不能很好地做出分析。科目一般都分专业选修、专业必修、公共基础等等。个人对这些科目分类看法不一样,兴趣爱好不一样,都影响着他们各科的成绩,因此拿某些科目来比较是很不科学的。我们必须把学生在大学四年的总体成绩做比较后才能对他们智育能力做出判断。选取做比较的人为了避免专业不同带来的差异,就必须是来自同一专业学习相同科目的。因此我选取了统计系2002 级学生做比较对象,把他们从2002 年2005 年各门成绩做比较数据。学生成绩中包括专业选修、专业必修和一
23、些公共基础课程。通过用主成分分析的方法,利用SPSS 软件对数据进行上机实现分析,计算出每个人在各因子中的因子得分,然后对他们各自的因子得分加权平均,得出结果后再对他们进行有效的排名。这种比较方法相信比从单方面进行比较具有更好的说服力。2.1 主成分分析主成分分析(principal components analysis)是由霍特林于1933 年首先提出的,主成分分析利用降维的思想,在损失很少信息的前提下把多个指标转化成几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线形组合,且各个主成分之间各不相关,这就使得主成分比原始变量具有更优越的性能。这样
24、在研究复杂问题的时候就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,结实事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。2.1.1 主成分分析的基本思想在对某一事物进行实证研究的时候,为了全面、准确的反映出事物的特征极其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中称为原始变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠。这中信息的重叠有时候甚至会抹杀事物的真正特征和内在规律。基于上述问题,人们就希
25、望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原始变量的少数几个线形组合来解释原来变量绝大多数信息的一种多元统计分析方法。既然研究某一问题涉及的众多变量之间有一定的相关性,就必须存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线形组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下其到降维和简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:1. 每个主成分都是各原始变量的线形组合。2. 主成分数目大大少于原始变量的数目。3
26、. 主成分保留了原始变量的绝大部分信息4. 各主成分之间互不相关。设某一事物的研究涉及p个指标,分别用表示,这p个指标构成的1 2 , ,., P X X Xp维随机向量.设随机对X的均值为,协方差阵为X = (X1,X 2 ,.,X P ) ,对X进行线性变换,可以形成新的综合变量,用Y表示,既其可由原来的变量线性表示,满足下式:p p Y X X X 1 11 1 12 2 1 = + + .+ p P Y X X X 2 21 1 22 2 2 = + + .+ P P p PP P Y = X + X + .+ X在基于一定原则的情况下,综合变量、. 分别称为原始变量的第一、1 Y 2
27、 Y p Y第二、第P 个主成分。通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展的一些深层次的启发,把研究工作引向深入。2.1.2 求解主成分的方法求解主成分的方法主要有两种,一是从原始变量的协方差矩阵结构入手,二是从原始变量的相关性矩阵结构入手。一从协方差矩阵出发求解主成分设矩阵A = A ,将A 的特征值依大小顺序排列,不妨设1 2 , ,., n , 为矩阵A 各特征值对应的标准正交特征向量,则对1 2 . n 1 2 , ,., p 任意向量x 有0 1 0max , min x x
28、 nx Ax x Axx x x x 当随机向量的协方差阵为X = (X1,X 2 ,.,X p ) , 为的特征1 2 . p 值, 为矩阵A 各特征值对应的标准正交特征向量,则第i 个主成分为1 2 , ,., p (i=1,2,p) 1 1 2 2 . i i i pi p Y = X + X + + X所以我们把的协方差矩阵的非零特征值0 对1 2 , ,., P X X X 1 2 . p 应的标准化特征向量分别作为系数向量, 1 2 , ,., p 分别称为随机向量X 的第一主成分、第二主成1 1 2 2 , ,., p p Y = X Y = X Y = X分、第p 主成分.于是
29、随机向量X 与随机向量Y 之间存在关系Y X X = = 1 12 2. .ppXXX = 二从相关系数矩阵出发求解主成分首先数据矩阵元素进行标准化i i ,i=1,2,p; ;iiiZ X=1( ) /ni ii x n= 1( ) /( 1)ni ii x x n= 式中, 和分别表示变量的期望与方差,于是有, = LLM M ML于是对原始变量X 进行如下标准化:= ( 2 )1(X )显然有:1 12 1 2 1( ) 0cov( ) ( ) ( )E ZZ R因此,原始变量的相关矩阵实际是对原始变量标准化后的协方1 2 , ,., P X X X差阵。由相关阵求主成分的过程与主成分个
30、数的确定准则实际上是与由协方差阵出发求主成分的过程与主成分个数的确定准则是一致的。求得的主成分与原始变量表示为:3数据的提取要使分析结果有很好的说服力,数据就必须要有真实性,而且不失一般性.不能只取某些人或者某些成绩来比较.于是我选取了统计系2002 级全部学生从2002 年到2005 年五个学期所学科目的成绩做分析数据,这样数据才具有分析价值和参考意义.41 数据的处理通过把数据用SPSS 软件上机实现得出以下结果:表3.1总方差解释表总方差解释成分旋转载荷平方和总和方差百分比累积百分比1 3.175192 19.84495 19.844952 2.454631 15.34145 35.18
31、643 2.093123 13.08202 48.268424 1.679715 10.49822 58.766635 1.305402 8.15876 66.925396 1.155123 7.21952 74.14491表3.1 表示主成分分析后主成分提取和主成分旋转的结果.图3.2图图3.2 表示主成分碎石图。它的横坐标为主成分数。纵坐标表示主成分的特征值。可见前两个主成分特征值变化非常明显,到了第三个特征值以后,特征值变化趋于平稳。表3.3成分矩阵表3.3 是按照前面的主成分载荷矩阵结果。未经过旋转的载荷矩阵中,主成分变量在许多变量上都有较高的载荷。上表给出的标准化原始变量用住成分线性
32、表示的近似表达式如下:标准化英语 + + 0.165 5 0.087 60.214 1 0.359 2 0.690 3 0.043 4prin prinprin prin prin prin+ 标准化高等代数 + + 0.229 5 0.050 60.070 1 0.350 2 0.706 3 0.234 4prin prinprin prin prin prin+ + 标准化数学分析 + + + 5 0.040 60.085 1 0.114 2 0.125 3 0.908 4 0.090prin prinprin prin prin prin + 标准化毛概 +标准化思想道德 + + 5 0
33、.922 60.036 1 0.072 2 0.021 3 0.001 4 0.073prin prinprin prin prin prin + 标准化体育 + + +0.364 5 0.103 60.113 1 0.558 2 0.478 3 0.189 4prin prinprin prin prin prin+ + 标准化大学物理 + + + 0.104 5 0171 60.661 1 0.265 2 0.225 3 0.177 4prin prinprin prin prin prin + 标准化数值分析 + + + 5 0.212 6标准化实变函数 + + + 0.013 5 0.
34、124 60.213 1 0.786 2 0.176 3 0.237 4prin prinprin prin prin prin + 标准化复变函数 + + + 0.240 5 0.183 60.671 1 0.273 2 0.128 3 0.134 4prin prinprin prin prin prin+ 标准化概率论 + + + 0.081 5 0.111 60.543 1 0.628 2 0.137 3 0.145 4prin prinprin prin prin prin + 标准化数理统计 + + +0.039 5 0.179 60.467 1 0.654 2 0.069 3 0
35、.153 4prin prinprin prin prin prin+ 标准化随机过程 + + + 0.304 5 0.099 60.723 1标准化统计计算,表3.4成分得分系数矩阵上表是主成分得分系数矩阵。表格为标准化主成分用标准化后的原始变量线性边式的系数矩阵。如下:标准化prin1=标准化英语0.091+标准化高等代数0.070-标准化数学分析0.192-标准化毛泽东概论0.133-标准化思想0.055+标准化体育0.029+标准化物理0.199-标准化数值分析0.266+标准化常微分0.391+标准化实变函数0.062+标准化复变函数0.184-标准化概率论0.274+标准化数理统计
36、0.101+标准化随机过程0.028+标准化多元0.376+标准化统计计算0.082标准化prin2=标准化英语0.365+标准化高等代数0.095+标准化数学分析0.060-标准化毛泽东概论0.153-标准化思想0.154-标准化体育0.021+标准化物理0.264-标准化数值分析0.076-标准化常微分0.183+标准化实变函数0.031+标准化复变函数0.515-标准化概率论0.054+标准化数理统计0.322+标准化随机过程0.369-标准化多元0.214-标准化统计计算0.059标准化prin3=标准化英语0.525+标准化高等代数0.390+标准化数学分析0.385-标准化毛泽东概
37、论0.038-标准化思想0.013-标准化体育0.050+标准化物理0.175+标准化数值分析0.003+标准化常微分0.068-标准化实变函数0.146+标准化复变函数0.091+标准化概率论0.058-标准化数理统计0.105-标准化随机过程0.149-标准化多元0.122+标准化统计计算0.88标准化prin4=标准化英语0.46-标准化高等代数0.228+标准化数学分析0.045+标准化毛泽东概论0.748-标准化思想0.023+标准化体育0.056-标准化物理0.026+标准化数值分析0.005-标准化常微分0.149+标准化实变函数0.394+标准化复变函数0.006-标准化概率论
38、0.082-标准化数理统计0.166-标准化随机过程0.094-标准化多元0.11+标准化统计计算0.195标准化prin5=标准化英语-0.248+标准化高等代数0.084+标准化数学分析0.117-标准化毛泽东概论0.002+标准化思想0.735+标准化体育0.042+标准化物理0.217-标准化数值分析0.131-标准化常微分0.101-标准化实变函数0.095-标准化复变函数0.107+标准化概率论0.158-标准化数理统计0.135-标准化随机过程0.041+标准化多元0.228-标准化统计计算0.032标准化prin6=标准化英语0.033-标准化高等代数0.130+标准化数学分析
39、0.010+标准化毛泽东概论0.107+标准化思想0.058+标准化体育0.808+标准化物理0.049+标准化数值分析0.165+标准化常微分0.192-标准化实变函数0.11+标准化复变函数0.080-标准化概率论0.151+标准化数理统计0.076-标准化随机过程0.173-标准化多元0.056-标准化统计计算0.24842 数据结果的分析与结论表3.1 显示了各主成分解释原始变量总方差的情况.SPSS默认保留特征根大于1的主成分,在本例分析中选取了6 个主成分.这6 个主成分集中了原始信息量的74.145%.图3.2 是主成分碎石图,表示的是主成分数和特征值.表3.3 是各门成绩的载荷
40、矩阵.通过表可以看出第一和第二个主成分中数值分析、常微分、数理统计、多元分析、概率论、随机过程做主要贡献,这些都是我们专业必修;第三和第四个主成分是英语、高等代数、数学分析,这些是我们的基础课程;第五和第六个主成分是思想道德和体育这是我们公共必修课程.prin1,prin2,prin3,prin4,prin5,prin6 表示主成分。从图结果可以看出专业必修,基础课程,公共课都有一定的贡献比率.如果单从某些课程来解释成绩就会忽略了其他一些主成分的贡献,这样是不合理的。表3.4 是用原始变量表示主成分的系数信息。通过表格信息可以得出各主成分标准化后的表达式,表达式显示每个主成分都与所选科目有一定
41、联系,都是由全部科目标准化后与其系数乘积加权,也就是说每个科目都与主成分有一定联系。通过几个表格的信息已经表明我们在做比较的时候不能只选取学生的某些科目来比较,应该综合学生的所学科目做综合性分析比较,这样才不失实际性。通过对成绩的做主成分分析表明,应该对学生主成分得分加权求和,对所得综合分数做学生排名会比较好。其中综合得分数算式是:74.1454 6.22174.1453 7.25074.1452 7.83574.1451 8.41774.14539.142Prin通过上式对所选学生成绩得分进行加权后进行排名,所得结果如下:5模型的改进和建议模型的优点是在做主成分分析的时候选用了多方面的课程做
42、综合性的比较分析,比只选取某方面做比较更具有实际性.但是在选取主成分时候,由于每个学生的成绩有很多因素影响,学生成绩的高低也存在着主观因素,我只选取6 个主成分,贡献率只达到了74.145%.这是有点不够的.如果选取的主成分多一点,主成分个数多一点,那么准确率会比较高.但是这样在计算时候会比较繁琐,当全部学生的成绩按照正态分布时候,所算出来结果应该会更精确.6参考文献1张尧庭,方开泰.多元分析引论.北京科学出版社.19822方开.实用多元分析.上海华东师范大学出版社.19893何晓群.现代统计分析方法与应用.北京中国人民大学出版社,19984 武汉理工大学教务处5I.T.Jolliffe, Principal Component Analysis ,by Springer-VerlagNew York, Inc ,19866宇传华主编SPSS 与统计分析电子工业出版社.1995