《基于多元统计分析武汉城市圈农业经济发展水平研究本科毕业论文.doc》由会员分享,可在线阅读,更多相关《基于多元统计分析武汉城市圈农业经济发展水平研究本科毕业论文.doc(14页珍藏版)》请在三一办公上搜索。
1、基于多元统计分析武汉城市圈农业经济发展水平研究摘要:本文首先介绍了主成分分析和聚类分析的基本原理,然后运用数理统计中的多元统计分析方法对湖北武汉城市圈各地市农业经济发展水平进行综合评价和区域研究分析,首先建立评价指标体系,然后运用SPSS(统计分析软件)和EXCEL进行一系列的数学处理和分析。在数据分析中运用了主成分分析和因子分析方法分析了各地市在湖北武汉城市圈的农业经济中的地位,同时作出综合评价以及提出了利用聚类分析的方法来评价各地市农业经济地位等级的设想以及分区研究。最后分析了各地市农业经济存在差异的原因,并且提出了湖北武汉城市圈发展区域经济以及平衡区域经济差异的基本策略。关键词:主成分分
2、析;因子分析;聚类分析;武汉城市圈 一、前言近年来,国务院对各省各地市的农业经济高度重视,农业经济是整个国民经济的基础,农业经济的发展水平、发展步伐决定整个国民经济发展。不同地市的资源和环境条件有很大的差别,资源的利用也有早有晚,湖北武汉城市圈各地市的农业经济发展水平表现出明显的区域差异。长期以来,人们仅以农作物播种面积和粮食总产量为依据将不同地市的农业经济进行区域划分,在过去这种方法在整个农业经济发展的规划中起了重要的作用。但是,近几年,随着各地农业经济形势的巨大变化,这种简单的划分已不能再反映湖北武汉城市圈农业经济发展的区域差异现状。因此,为了对湖北武汉城市圈各地市农业经济发展情况和发展水
3、平正确、合理地分析,在农业经济发展水平评价中运用新的方法是十分必要的。本文运用科学的多元统计分析方法对湖北武汉城市圈各地市的农业经济发展水平进行综合评价和分区研究。二、主成分分析原理和模型(一)主成分分析原理主成分分析是设法将原来众多具有一定相关性 (比如 P 个指标) , 重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来 P 个指标作线性组合, 作为新的综合指标。最经典的做法就是用 F1(选取的第一个线性组合, 即第一个综合指标) 的方差来表达, 即 Var(F1)越大, 表示 F1 包含的信息越多。因此在所有的线性组合中选取的 F1 应该是方差最大的, 故称
4、F1 为第一主成分。如果第一主成分不足以代表原来 P 个指标的信息, 再考虑选取 F2 即选第二个线性组合, 为了有效地反映原来信息, F1 已有的信息就不需要再出现在 F2中, 用数学语言表达就是要求 Cov(F1, F2)=0, 则称 F2 为第二主成分, 依此类推可以构造出第三、 第四, , 第 P 个主成分。(二)主成分分析数学模型F1=a11ZX1+a21ZX2+ap1ZXpF2=a12ZX1+a22ZX2+ap2ZXpFp=a1mZX1+a2mZX2+apmZXp其中 a1i, a2i, ,api(i=1,m)为 X 的协方差阵的特征值多对应的特征向量, ZX1, ZX2, , Z
5、Xp 是原始变量经过标准化处理的值, 因为在实际应用中, 往往存在指标的量纲不同, 所以在计算之前须先消除量纲的影响,而将原始数据标准化, 本文所采用的数据就存在量纲影响。A=(aij)p m=(a1,a2, am,), Rai= iai, R 为相关系数矩阵, i、ai是相应的特征值和单位特征向量, 12 p0 。进行主成分分析主要步骤如下:1.根据研究问题选取指标与数据;2.进行指标数据标准化( SPSS 软件 Factor 过程自动执行) ;3.进行指标之间的相关性判定;4.确定主成分个数m;5.确定主成分Fi表达式;6.进行主成分 Fi命名;7.计算综合主成分值并进行评价与研究。(三)
6、聚类分析原理聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法
7、包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。三、研究思路与方法评价农业经济发展水平和分区研究的方法有很多种,为了能反映各地市农业经济发展水平和差异,本文采用数理统计中的多元统计方法进行评价和分区研究。全文运用SPSS(统计分析软件)和EXCEL软件,首先采用主成分分析的方法对原始数据进行一系列数学处理并且得到相应的综合评价指标,然后用系统聚类分析的方法进行各地市农业经济水平的划分和区域分类。(一)初始指标的选取衡量一个地区的农业经济发展水平,需要考察多个
8、指标,由于经济指标的复杂性和多样性,各指标必须满足3个原则:指标能够客观的反映出各地市农业经济的主要方面;指标的地域差异明显;指标之间基本上相互独立。根据湖北农业经济的特点以及研究比较,本文选取以下7个初始指标:农林牧渔业增加值(x1)、农作物播种面积(x2)、粮食总产量(x3)、非粮食物总产量(x4)、农业机械总动力(x5)、农村用电量(x6)、化肥施用量(x7)(表1)。表 1 武汉城市圈主要农业经济指标设区市农林牧渔业增加值x1(万元)农作物播种面积x2(亩)粮食总产量x3(万吨)非粮食物总产量x4(万吨)农业机械总动力x5(千瓦)农村用电量x6(万千瓦时)化肥施用量x7(吨)武汉市12
9、91500208120001181700750001938100127475.9161500黄石市375200.87390005467003140049710086142.744100鄂州市32020041260002436002610041340024173.0119900黄冈市15328003181200027964001467001721900183194.4297300孝感市1180600246000001972700121600184670055729.0204000咸宁市6836001528400090150060600107930030199.39106800仙桃市4028009
10、0210005445004080092090034289.5175300潜江市37970068240003331002580068180015507.9684600天门市404300107800005201002450099380015610.9572400 资料来源:2008年湖北统计年鉴(二)主成分分析和因子分析进行农业经济发展水平评价和分区研究需要对多个变量进行大量的资料收集和数据分析,但在很多情况下,许多变量之间可能存在相关性,这使所得到的统计数据的信息在一定程度上有所重叠,从而影响评价和分区研究的科学性。主成分分析和因子分析都是利用降维的思想将多个初始指标转化为少数几个彼此间互不相关
11、的综合指标进行分析和研究,这些综合指标不仅是原来多个初始指标的线性组合,而且保留了原始变量的主要信息,比初始指标更具有优越性。利用SPSS软件依次计算了相关矩阵、特征根和特征向量、方差分解主成分提取分析以及初始因子载荷矩阵,计算综合得分然后排名。1. 对标表1数据进行分析得到指标间相关系数矩阵(表2)。由相关矩阵可以看出以上7个指标彼此之间存在较强的相关性,即这7个指标所反映的信息具有重叠的部分,为了消除重叠部分的多余信息,因此将原7个变量综合为少数几个变量,这几个综合变量应尽可能多地反映原有变量的信息,并且不包含重叠信息。表2 相关系数矩阵Z1Z2Z3Z4Z5Z6Z7Z11.000.968.
12、923.934.928.817.906Z2.9681.000.974.967.901.779.896Z3.923.9741.000.988.804.777.933Z4.934.967.9881.000.832.734.937Z5.928.901.804.8321.000.617.756Z6.817.779.777.734.6171.000.733Z7.906.896.933.937.756.7331.0002.方差分解主成分提取分析表(表3)。一般取累计贡献率达到85%以上的少数几个主成分就可以代表原来绝大部分的信息,从表3可以看出前3个累计贡献率已达到98.275%,即这3个主成分包含了原来
13、7个指标可以大大提高分类的效果。表3 方差分解主成分提取分析表表4 初始因子载荷矩阵Component MatrixaComponent1VAR00001.984VAR00002.987VAR00003.975VAR00004.974VAR00005.889VAR00006.824VAR00007.9393.从表 3 可知农作物播种面积、粮食总产量、非粮食物总产量、农业机械总动力、农村用电量、化肥施用量这几个指标存在着的关系不显著,但与农林牧渔业增加值存在着显著关系。可见许多变量之间直接的相关性比较强, 证明他们存在信息上的重叠。主成分个数提取原则为主成分对应的特征值大于 1的前 m个主成分。
14、特征值在某种程度上可以被看成是表示主成分影响力度大小的指标, 如果特征值小于 1, 说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大, 因此一般可以用特征值大于 1 作为纳入标准。通过表 4(方差分解主成分提取分析)可知, 提取 2 个主成分, 即 m=1, 从表4(初始因子载荷矩阵)可知 农林牧渔业增加值、 农作物播种面积、粮食总产量、非粮食物总产量、农业机械总动力、农村用电量、化肥施用量在第一主成分上有较高载荷, 说明第一主成分基本反映了这些指标的信息。所以提取一个主成分是可以基本反映全部指标的信息, 所以决定用一个新变量来代替原来的七个变量。但这个新变量的表达还不能从输出窗
15、口中直接得到, 因为 “Component Matrix”是指初始因子载荷矩阵, 每一个载荷量表示主成分与对应变量的相关系数。用表 4(主成分载荷矩阵)中的数据除以主成分相对应的特征值开平方根便得到主成分中每个指标所对应的系数。将初始因子载荷矩阵中的两列数据输入(可用复制粘贴的方法)到数据编辑窗口(为变量B1) , 然后利用 “TransformCompute Variable”, 在 Compute Variable对话框中输入 “A1=B1/SQR(4.28)” 即可得到特征向量 A1。将得到的特征向量与标准化后的数据相乘, 然后就可以得出主成分表达式。F=0.47564 Z1+0.477
16、1Z2+0.4713Z3+0.4708Z4+0.4297Z5+0.3983Z6+0.453886 Z7 从上述结果可以看出各主成分与7个原始指标均成正相关关系。第1主成分与农林牧渔业增加值、非粮食物总产量、农业机械总动力和化肥施用量4个指标有较大的相关性,可以把F解释为上述七个农业经济发展水平的综合指标。综合因子得分和各地市排序。从以上分析结果可以分别对1个主成分计算因子得分进行排序,但使用不同的非主成分进行得分排序,所得结果不尽相同,所以在对各地市的农业经济发展水平进行综合评价时应当考虑主成分。F表示各市农业经济发展的综合得分。将因子得分大小排列各市农业经济发展水平的名次(表5)。表5 武汉
17、城市圈城市农业得分及排名地 市得 分 F排名次序武汉市0.6364523黄石市0.2572697鄂州市0.1310299黄冈市0.9600531孝感市0.7470112咸宁市0.452354仙桃市0.2744626潜江市0.2075238天门市0.3188475 (三)系统聚类分析本文采用k-均值型聚类分析方法,根据表5对9个城市总得分比较,得出聚类结果(表6)直观地反映了湖北武汉城市圈9个地市之间农业经济发展水平的相似性和差异性。表6 SPSS软件计算城市聚类分析结果Initial Cluster CentersCluster123VAR00001.64.96.13Final Cluster
18、 CentersCluster123VAR00001.61.96.24Number of Cases in each ClusterCluster13.00021.00035.000Valid9.000Missing.000根据表6的分类,我们可以把9个地市划分为3个发展水平层次:武汉市、孝感市和咸宁市划分为第一类;黄冈市划为第二类;黄石市、鄂州市、仙桃市、潜江市以及天门市划分为第三类。湖北武汉城市圈农业经济发展水平的差异有明显的地域联系和差异。表7 各城市所属类别地 市得 分Cluster武汉市0.6364521黄石市0.2572693鄂州市0.1310293黄冈市0.9600532孝感市0
19、.7470111咸宁市0.452351仙桃市0.2744623潜江市0.2075233天门市0.3188473 那么根据上面的类,将各个城市的农业发展情况划分为农业发达城市、农业较发达城市和农业不发达城市。相对应上面类型号即为:类型1是农业较发达城市,类型2是农业发达城市和农业不发达城市。四、总结本文运用多元统计分析的方法对湖北武汉城市圈各地市农业经济发展水平进行定的探索性。通过主成分分析和因子分析的综合因子总得分以及聚类分析农业经济发展水平参差不齐,并且可以将他们分为4个经济发展水平层次域,这一结果是合理的,事实上也与湖北武汉城市圈各城市的实际情况基本一致。形成湖北武汉城市圈各地市农业经济差
20、异的原因多种多样,湖北武汉城市圈农业经济的发展应针对这些经济区域和城市各自略。虽然湖北武汉城市圈各地市之间的经济差异是不可避免的,并且在当前经济发展将长期存在,但是,有目的、有步骤地调整各地市之间的农业经济水平展,并且同时处理好农业经济和其他经济的协调发展是很有必要的。参考文献:1湖北统计局.湖北统计年鉴. http:/bbs.jjxj.org/统计年鉴/湖北统计年鉴2008/index.html2何晓群.现代统计分析方法与应用M.北京:中国人民大学出版社,1998.3方开泰.实用多元统计分析M.上海:华东师大出版社,1986.4郑远强.海南省经济发展的区域差异分析J.海南大学学报,2004(6).5黄薇等.北京区域经济状况分析J.数理统计与管理,2003(7).6江莹.天津市各区县经济发展水平评价J.数理统计与管理,2002(1).