《主成分分析在能源消耗中的应用毕业论文.doc》由会员分享,可在线阅读,更多相关《主成分分析在能源消耗中的应用毕业论文.doc(14页珍藏版)》请在三一办公上搜索。
1、毕业论文题 目 主成分分析在能源消耗中的应用 学生姓名 学 号 学 院 专 业 统 计 指导教师 二 一 一 年 五 月 二 十 五 日目 录0 引言21建立模型21.1主成分分析的思想21.2主成分分析31.3回归分析与预测72 结论103建议10参考文献11致 谢12附录13 主成分分析在能源消耗中的应用 摘要:通过文献回顾提炼出对能源需求有重大影响的因素,基于中国1991年2009年的统计数据,利用主成分分析法消除了各影响因素间的多重共线性,结果表明经济发展水平和市场化水平显著影响能源需求。在此基础上建立了主成分回归模型对能源需求进行预测,并通过实际检验说明了该模型的预测效果较好。关键词
2、:能源需求;主成分分析;回归模型0 引言 中国地大物博、资源丰富,自然资源总量排世界第七位,能源资源总量约4万亿吨标准煤,居世界第三位。煤炭的资源量为为10024.9亿吨,石油的资源量为930亿吨,天然气的资源量为38万亿立方米,而石油和天然气储量只占资源量的约20%和约3%;水力的可开发装机容量为3.78亿千瓦,居世界首位;新能源与可再生能源资源丰富,风能资源量约为16亿千瓦,可开发利用的风能资源约2.53亿千瓦,地热资源的远景储量为1353.5亿吨标准煤,探明储量为31.6亿吨标准煤,太阳能、生物质能、海洋能等储量更是属于世界领先地位。但相对总人口规模巨大的中国来说,仍然是不多的。国内外许
3、多能源机构或相关机构对能源需求进行过研究, 得出了一些比较常用并且实用的分析方法,可以分为为时间序列预测法和回归预测法两大类1。时间序列预测法是一种考虑变量随时间变化规律并用该变量以往的统计资料建立数学模型做外推预测方法。由于时间序列预测法所需要的只是序列本身的历史数据,因此,这类方法应用非常广泛,具体方法有时间序列分解分析法,引动平均法,指数平滑法,趋势外推法,自适应过滤法,平稳时间学列预测法,灰色预测法,状状态空间模型和卡尔曼滤波。国内学者如杜雨潇 2运用回归移动平均模型对能源需求进行建模与分析,就是属于这种方法的范畴。回归预测法是用研究变量和变量之间相关关系的一种数理统计方法,应用回归分
4、析从一个或几个自变量的值去预测因变量的值。回归预测中的因变量和自变量在时间上时并进关系,即一边两的预测值要有并进的自变量来旁推。这类方法不仅考虑了时间因素,而且考虑了变量之间的因果关系。具体方法有一元线性回归预测法,多元线性回归预测法,非线性回归预测法等。本文就采用了回归预测法,建立了能源消耗量与影响因素之间的模型。 全球性的能源危机已经愈演愈烈,随着中国经济的快速发展,对能源的依赖越来越大,因而搞好能源需求预测为能源规划及政策的制定提供科学依据有着重要的理论及现实意义。林伯强3建立了包括中国能源消费量、国内生产总值、能源价格和结构变量的中国能源需求协整误差校正模型, 实证分析了上述变量间存在
5、长期均衡关系这样分析不是很精确。经过反复思考,本文认为能源消耗量影响国内生产总值,国内生产总值是因变量,而能源消耗量是自变量,所以将这个因素剔除。所以本文从上述变量中选取了能源价格和结构变量(包括煤炭消费比重、石油消费比重、天然气消费比重、水电核电风电消费比重)这些因素,并加入了工业占国民经济的比重、镇人口占总人口比重、能源的利用效率这些因素,利用主成分分析法分析这八个因素对能源消耗的影响,并作出定量分析。1建立模型1.1主成分分析的思想4主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,XP(比如p个指标),重新组合成一组较少个数的互不相关的
6、综合指标Fm来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。设F1表示原变量的第一个线性组合所形成的主成分指标,即,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,XP的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与
7、F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不相关的X1,X2,XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、Fm为原变量指标X1、X2XP第一、第二、第m个主成分。根据以上分析得知:(1) Fi与Fj互不相关,即Cov(Fi,Fj) = 0,并有Var(Fi)=aiai,其中为X的协方差阵(2)F1是X1,X2,Xp的一切线性组合(系数满足上述要求)中方差最大的,即Fm是与F1,F2,Fm1都不相关的X1,X2,XP的所有线性组合中方差最大者。F1,F2,Fm(mp)为构造的新变量指标,即原变量指标的第一、
8、第二、第m个主成分。 由以上分析可见,主成分分析法的主要任务有两点:(1)确定各主成分Fi(i=1,2,m)关于原变量Xj(j=1,2 , p)的表达式,即系数( i=1,2,m; j=1,2 ,p)。从数学上可以证明,原变量协方差矩阵的特征根是主成分的方差,所以前m个较大特征根就代表前m个较大的主成分方差值;原变量协方差矩阵前m个较大的特征值(这样选取才能保证主成分的方差依次最大)所对应的特征向量就是相应主成分Fi表达式的系数,为了加以限制,系数启用的是对应的单位化的特征向量,即有= 1。(2)计算主成分载荷,主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度: 1.2主成分分析本文数
9、据来源于2010年的中国统计年鉴5(1991-2009),燃料价格指数以1991年为基期。影响我国能源需求的因素较为复杂,以下几个方面的因素可以反映对能源需求的主要影响,理由如下: 工业占国民经济的比重 工业是消耗能源的主要行业,其能源消耗量通常占总消耗量的60%左右,本文采用工业占国民经济的比重作为反映产业结构的指标参与分析。(镇人口占总人口比重):城镇居民和农村居民的能源尤其是制造业, 其能源消耗量通常占总消耗量的60%左右。利用方式和消费水平有很大差别。城镇具有较完善的能源供应基础设施,本文将人口结构(以城镇人口占总人口比重表示)作为影响能源需求的一个重要因素进行分析。煤炭:中国是世界上
10、极少数几个以煤炭为主要能源的国家之一,用煤炭消费比重这一指标来反映能源消费结构对能源需求的影响。(石油):随着近几年石油价格的上涨和储备量的消耗,石油对能源的消耗量也起到了重要的指标作用(天然气):作为污染性较低的能源之一,天然气一直很受国家的重视。(水电、核电、风电):水电、可能。风电近几年得到了较好的发展,能有效反映能源需求量的变化(能源的利用效):能源的消费量与能源的利用效率密切相关。燃料价格指数:中国的能源价格形成机制是有管理的市场定价, 价格仍然起着调节市场供需的作用。本文采用燃料价格指数作为反映价格的指标, 用以检验中国能源市场的价格调节作用。由于选取的影响因素较多,各因素之间可能
11、存在一定程度的相关关系。本文采用相关矩阵法对各个影响因素是否存在多重共线性进行检验。相关系数矩阵法的检验结果如表1所示。表1:相关关系矩阵工业占国民经济的比重镇人口占总人口比重煤炭消费比重石 油天然气水电、核电、风电能源的利用效燃料价格指数工业占国民经济的比重1.000.464-.329.153.249.452.760.025镇人口占总人口比重.4641.000-.745.317.883.844.685-.426煤炭消费比重-.329-.7451.000-.838-.454-.829-.582.594石 油.153.317-.8381.000-.075.417.330-.475天然气待添加的隐
12、藏文字内容2.249.883-.454-.0751.000.724.449-.276水电、核电、风电.452.844-.829.417.7241.000.673-.535能源的利用效.760.685-.582.330.449.6731.000-.291燃料价格指数.025-.426.594-.475-.276-.535-.2911.000由表1可以看出各个影响因素之间的相关系数较高,存在多重共线性。在多元线性回归中,当自变量存在严重的多重共线性时,用最小二乘法得到回归系数的估计值的方差将会很大,导致估计精度会降低,稳定性也可能变差,这样势必影响回归方程预测数据的可靠性。我们可以采用主成分分析方
13、法来解决多重共线性的问题。利用SPSS6软件对19年的原始数据进行主成分分析,输出结果如下表2、表3所示。由于2009年的能源利用效率是缺失的,本文用历年能源利用效率的平均值进行填补。表2:解释的总方差成份初始特征值提取平方和载入合计方差的(%)累积 (%)合计方差的(%)累积 (%)工业占国民经济的比重4.59757.46757.4674.59757.46757.467镇人口占总人口比重1.48118.51575.9821.48118.51575.982煤炭消费比重1.10513.81189.7931.10513.81189.793石 油.4765.95195.744天然气.1782.228
14、97.972水电、核电、风电.1471.83699.808能源的利用效.015.192100.000燃料价格指数2.155E-162.693E-15100.000提取方法:主成分分析由表2可见,提取两个主成分时,第一主成分F1、第二主成分F2,第三主成分F3的贡献率分别是57.467%和18.515%以及13.811%,累计贡献率是89.793%,符合累计方差贡献率大于85%的原则。表3:主成分载荷矩阵成份F1F2F3工业占国民经济的比重.933.046-.141镇人口占总人口比重.917.227-.224煤炭消费比重-.898.380-.054石油消费比重.797.280.382天然气消费比
15、重.697.444-.540水电、核电、风电消费比重-.583.523.299能源的利用效.557-.715.338燃料价格指数.554.473.625提取方法:主成分分析;已提取了成份从表3(主成分载荷矩阵)可以看出,工业占国民经济的比重和镇人口占总人口比重,煤炭消费比重,石油消费,天然气消费比重和水电、核电、风电消费比重,在第一主成分上有较高载荷,说明第一主成分F1基本反映了这些指标的信息。能源的利用效在第二主成分上有较高载荷,说明第二主成分F2基本反映了这个指标的信息。燃料价格指数在第三主成分上有较高载荷,说明第三主成分F3基本反映了这个指标的信息。因此,提取三个主成分可以基本反映全部指
16、标的信息。由于工业占国民经济的比重和镇人口占总人口比重,煤炭消费比重,石油消费,天然气消费比重和水电、核电、风电消费比重均与经济发展水平密切相关。所以,第一主成分F1代表经济发展水平由于能源的利用效与国家科学技术发展水平有关。所以,第二主成分F2 代表科学技术发展水平 由于燃料价格指数反映了市场水平。所以,第三主成分F3主要包含燃料价格指数的信息,代表市场化水平。表4:因子得分系数矩阵成分F1F2F3工业占国民经济的比重.120.319.566镇人口占总人口比重.200.153-.203煤炭消费比重-.195.257-.049石 油.121-.483.306天然气.152.300-.488水电
17、、核电、风电.203.031-.127能源的利用效.173.189.346燃料价格指数-.127.353.271表4是因子得分系数矩阵,由表4可得到主成份表达式为(X1-X8分别为原始变量x1-x8的标准化变量):由EXCEL表格对上述表达式进行计算得出结果 表5表5F1F2F31991-4.10778.9713267.815381992-3.963579.7684869.060021993-6.1092488.6585577.297351994-4.255582.9145371.668571995-2.5410583.1002773.186981996-0.5666378.3960570.1
18、67919970.7075876.3630769.7663319981.6092473.7859767.1592319991.7915573.8472967.1401620001.5140276.4983269.3996820012.8238274.7371467.0630620023.3670273.7374366.1231720032.316377.8820968.1301120042.1325380.6619770.3811820052.6034581.2875269.4946320062.9782281.0893668.5043420073.2567180.7680566.996520
19、083.0919583.3338968.2893620094.8101176.065860.726951.3回归分析与预测7将能源消耗量与主成分之间的关系用散点图表示出来,如图一图一上图中VAR00004为能源消费总量,VAR00004为第一主成分F1,VAR00004为第二主成分F2,VAR00004为第三主成分F3 。有图一可以看出,能源与三个主成分之间可以建立多元线性回归模型8。以第一主成份F1、第二主成份F2, 第三主成分F3为自变量,以能源消费总量(Y)为因变量(数据来源同上,单位为万吨标准煤)建立回归模型。利用SPSS软件进行回归计算,得输出结果如下表6、表7、表8所示。表6:模型
20、汇总模型RR方调整R方标准估计的误差1.994a.987.9858240.64364预测变量:常量,主成分2,主成分1由表6可知,复相关系数R=0.994,拟合优度R2=0.987,调整后的拟合优度为0.985。表7:Anova模型平方和df均方FSig.1回归7.829E1032.610E10384.294.000a残差1.019E9156.791E7总计7.931E1018预测变量:常量,第一主成分,第二主成分,第三主成分;因变量:能源消费总量由表7的方差分析表可知F统计量值为384.294,相应的Sig.是F值的实际显著性概率p值,此处Sig.0.001,若给定=0.01,则p,说明回归
21、方程效果显著。表8:系数模型非标准化系数标准系数tSig.B标准误差1(常量)-263456.00561345.990-4.295.001主成分116870.521873.446.81419.315.000主成分216345.152706.720.97723.128.000-12518.8551038.307-.615-12.057.000由表8回归系数表可得,自变量F1的t统计量为19.315,相应的Sig.是t值的实际显著性水平即p值,此处Sig.0.001,若给定=0.01,则p,说明自变量F1的回归系数高度显著;自变量F2的t统计量为23.128,相应的Sig.即p值,若给定=0.01
22、,则p,说明自变量F2的回归系数也高度显著。自变量F3的t统计量为-12.057,相应的Sig.即p值,若给定=0.01,则p,说明自变量F3的回归系数也高度显著。且有表7所得相应系数,可得回归方程为:Y=-263456.005+16870.521F1+16345.1527F2 -12518.855F3表9:回测表年份能源消费总量预测值相对误差1991103783109084.10.0510791992109170108953.20.001991993115993114941.10.009071994122737122793.70.0004621995131176135744.50.03482
23、71996135192129958.20.038711997135909123252.70.093121998136184128978.90.052911999140569133295.60.051742000145531143658.40.012872001150406166220.50.1051452002159431170810.50.0713762003183792195704.80.0648172004213456209861.30.016842005235997239129.20.0132722006258676254610.10.0157220072805082729330.02
24、72008291448295907.30.01532009306647300768.20.01917用所得回归方程进行回测,计算结果见下表9。由表9可知,1991年2009年这19年的平均相对误差为3.66%,且近几年的相对误差都比较小2 结论第一主成分F1代表的经济发展水平(工业占国民经济的比重和镇人口占总人口比重,煤炭消费比重,石油消费,天然气消费比重和水电、核电、风电消费比重)对能源的消耗量有着积极的影响,经济发展水平越高,能源消耗量越大第二主成分F2 的代表科学技术发展水平(能源的利用效)能够有效的越高能源利用效率,从模型看出,科学技术的发展推动了能源的消耗量。第三主成分F3代表市场化
25、水平(燃料价格指数),通过模型可以看出,价格消费者的行为产生显著影响,价格指数越高,消耗量越小。在研究经济问题时,特别是当所研究的问题涉及到时间序列数据时,由于经济变量往往随时间存在共同的变化趋势,故多元回归方程的自变量之间很容易出现多重共线性。对于经济时序数据来说,要想通过增加或改变样本数据来消除这种共线性往往是不可能的。如果剔除一些自变量,所得的回归方程又不能体现因变量与这些自变量的关系。所以本文应用主成分分析方法来解决这个问题,消除了影响能源需求的8个主要因素之间的多重共线性, 结果表明经济发展水平,科学技术发展水平,和市场化水平对能源需求的影响作用显著。在此基础上用三个主成份与因变量建
26、立了回归模型,使问题得到简化,且通过实际检验说明了这是一种实用有效的方法。本文的创新之处在于运用SPSS等软件对数据进行分析建模,分析了单一因素对能源需求的影响和不同因素之间存在的关系,运用多种检验方法进行验证。3建议通过完成本次论文,对于我国中长期能源工业发展的战略举措我提出了几点自己的意见:1优化产业结果,建立循环发展模式中国必须走新型工业化道路,实现资源节约型的循环经济增长模式。我国也已经把发展循环经济作为编制“十一五”规划的重要指导原则。建立循环经济型发展模式,对提高资源的利用率、缓解资源短缺、减轻环境污染压力,将发挥巨大效力。2加强节能技术研究和管理政府要借鉴发达国家的先进做法,加大
27、节能技术尤其是煤的利用技术的支持力度,并迅速应用于生产中,以实际行动实现节能。要把节约能源放在首位,实行全面、严格的节约能源制度和措施,显著提高能源利用效率。3重视煤的发展,大力开发油气和可再生能源煤在中国的能源消费中占主体地位,因此煤在能源问题中是占第一位的,无沦是技术研究还是政策、法规的制定都要首先考虑煤的发展。同时加大油气资源和可再生能源的开发力度,避免煤在能源消费中比重进一步上升。4. 控制燃料价格的不正常增长。实行宏观调控政策,稳定市场价格,促进我国经济建设的健康稳定性发展。5强化节能宣传和教育政府应该在电视、广播、网站、报纸等各种媒体上宣传节能,同时学校和社会应加强对公民尤其是学生
28、的节能教育,从思想上认识到节能的重要性。参考文献1徐国详,统计预测和决策M.上海财经大学出版社,2008, P3.2杜雨潇.基于ARIMA模型对我国能源需求的预测J.统计教育,2008,(9):59-61.3 林伯强.结构变化、效率改进与能源需求预测J.经济研究,2003,(5):57-65.42010中国统计年鉴.中华人民共和国国家统计局.国家统计出版社。5吴诚鸥 秦伟良.近代实用多元统计分析 M.气象出版社, 2007.8,119-123.6高祥宝等.数据分析与SPSS应用M.北京:清华大学出版社,2007. 7何晓群,刘文卿.应用回归分析M.中国人民大学出版社,59-72.8吴诚鸥 秦伟
29、良.近代实用多元统计分析 M.气象出版社, 2007.8,53-65Principal component analysis of energy consumption Xiao JingCollege of Math & Physics, Nanjing University of Information Science & Technology, Nanjing, 210044, ChinaABSTRACTThrough literature review of energy demand extracts significant impact factors, based on Chin
30、a in 1991 2007 statistics data, using principal component analysis method eliminates between affecting factors of the multiple linear, and the results show that the level of economic development and marketization level remarkable influence energy demand. Based on the principal component regression m
31、odel to predict energy needs, and through the actual inspection shows that the prediction effect is good.Key words: Energy demand ;Principal component analysis;Regression model 附录能源消费总量(万吨标准煤)工业占国民经济的比重镇人口占总人口比重煤炭消费比重石 油天然气水电、核电、风电能源的利用效燃料价格指数199110378337.126.9476.117.12.04.865.90109.1199210917038.2
32、27.4675.717.51.94.966.00111.0199311599340.227.9974.718.21.95.267.32135.1199412273740.428.5175.017.41.95.765.20118.2199513117641.029.0474.617.51.86.171.05115.3199613519241.430.4873.518.71.86.070.19103.9199713590941.731.9171.420.41.86.469.76101.3199813618440.333.3570.920.81.86.569.2895.8199914056940.0
33、34.7870.621.52.05.969.2596.7200014553140.436.2269.222.22.26.469.04105.1200115040639.737.6668.321.82.47.569.3499.8200215943139.439.0968.022.32.47.369.0497.7200318379240.540.5369.821.22.56.569.40104.8200421345640.841.7669.521.32.56.770.91111.4200523599741.842.9970.819.82.66.871.55108.3200625867642.243.9071.119.32.96.771.24106.0200728050841.644.9471.118.83.36.870.77104.4200829144841.545.6870.318.33.77.771.55110.5200930664739.746.5970.417.93.97.892.1