毕业设计（论文）基于线性最优预测模型的石油消费量预测.doc

资源描述

《毕业设计（论文）基于线性最优预测模型的石油消费量预测.doc》由会员分享，可在线阅读，更多相关《毕业设计（论文）基于线性最优预测模型的石油消费量预测.doc（39页珍藏版）》请在三一办公上搜索。

1、重庆科技学院毕业设计（论文）题目基于线性最优预测模型的石油消费量预测院（系）数理学院专业班级应数普2008-01 指导教师严羿鹏职称讲师评阅教师职称 2012年 5 月 30 日学生毕业设计（论文）原创性声明本人以信誉声明：所呈交的毕业设计（论文）是在导师的指导下进行的设计（研究）工作及取得的成果，设计（论文）中引用他（她）人的文献、数据、图件、资料均已明确标注出，论文中的结论和结果为本人独立完成，不包含他人成果及为获得重庆科技学院或其它教育机构的学位或证书而使用其材料。与我一同工作的同志对本设计（研究）所做的任何贡献均已在论文中作了明确的说明并表示了谢意。毕业

2、设计（论文）作者（签字）：年月日摘要当今时代，能源问题仍然是世界各国普遍关注的一个战略问题。目前我国已成为世界第二大能源消费国，而石油工业是我国国民经济的重要基础和支柱产业，在宏观经济的发展中占有举足轻重的地位。研究中国石油消费量，对于未雨绸缪的实现中国能源战略安全，保证中国经济社会稳定发展，具有重大意义。本文主要介绍了线性模型和时间序列预测模型在中国石油消费量预测中的应用。首先建立一般线性模型，根据模型残差项的不同情况，选择不同的模型和方法对石油消费量进行预测；然后建立时间序列预测模型，选择自回归模型对石油消费量进行预测；最后，结合参考文献，对各模型的预测结果进行分析对比。研究结果显示

3、，建立的模型既符合统计学意义也符合经济学意义，各模型预测结果的相对误差都在可接受范围内，可以很好地对石油消费量进行短期预测。在应用中可以结合实际情况，分别在企业、政府的各职能部门工作中应用不同的模型和方法。关键词：线性模型时间序列模型经典预测最优预测ABSTRACTIn modern period, energy issue is still a strategic issue of common concerning to countries in the world. At present, China has become the second largest energy con

4、sumer country, and oil industry is the crucial foundation and pillar industry of our national economy, which plays a decisive role in the macroeconomic development. It is of great significance for achieving state energy security and guaranteeing the stable development of economy and society to study

5、 on Chinas oil consumption.This article mainly introduces the application of linear models and time series forecasting model in the prediction of China oil consumption. First, we established a general linear model, and then we chose different models and methods to predict oil consumption according t

6、o the different situations of model residuals respectively. Second, we built a time series forecasting model, and choose the regression model to predict oil consumption. Finally, we compared and analyzed predictions results, and gave a objective analysis of the pros and cons of the article combined

7、with references.The results show that: The model not only conforms to the statistical significance but also accord with economics. The relative error of the predicted results is within an acceptable range, and it can be well on oil consumption short-term forecast. Applications can be combined with t

8、he actual situation, enterprises, government departments with different models and methods. Also, it will provide some reference for future research.Keywords: linear model；time series models；classical prediction；optimal prediction目录摘要IABSTRACTII1 绪论11.1研究现状11.2研究意义21.3研究思路22 基本概念和理论42.1线性模型42.1.1一般线

9、性模型42.1.2多元线性回归模型42.1.3线性预测模型52.2统计检验52.2.1拟合优度检验62.2.2回归方程显著性检验62.2.3回归系数显著性检验72.2.4线性模型的残差检验72.3模型预测82.3.1经典预测82.3.2最优预测82.4时间序列趋势预测模型92.4.1模型特征分析92.4.2模型的建立与识别112.4.3模型预测123 石油消费量的线性预测133.1解释变量选取及数据收集133.1.1解释变量选取133.1.2数据收集和处理133.1.3数据初步分析143.2多元线性回归模型153.2.1多元线性回归153.2.2逐步回归分析163.2.3残差检验163.2.4

10、经典预测173.3线性预测模型183.3.1模型建立183.3.2残差相关性分析183.3.3残差的自相关模型193.3.4最优预测203.4时间序列预测模型213.4.1数据分析和处理213.4.2建立时间序列模型233.4.3自回归模型预测244 模型比较和分析254.1结果分析254.2模型评价26参考文献27致谢28附录29附录一：原始数据29附录二：R程序311 绪论1.1研究现状20世纪 70 年代爆发的“石油危机”使得各国学者纷纷关注能源经济问题的研究，将各种建模方法1引入能源经济系统的研究当中。国内外许多相关机构已经对经济增长与能源消费做过研究，得出了一些比较实用的建模方法。部

11、门分析法2，它是根据经济增长速度和能源消费量之间的关系，直接测算一定经济增长速度和能源利用率下各部门的能源消费量的一种方法。该方法将国民经济分成若干部门，分别计算各个部门的能源消费量，然后加总，得到能源消费总量。部门划分越细，预测的准确率就越高。时间序列趋势法3，它是以预测对象的历史时间序列数据为基础，运用数学建模方法使其时间维度向外延展，预测变量未来的发展变化趋势。使用时间系列预测法的前提是假定事物的未来发展与过去的发展趋势基本相同。但由于实际情况变化较大，因此，这个方法长期预测结果的误差较大。能源弹性系数法4，它是根据石油消费量年增长率与国民生产总值年增长率之间的比例关系来预测未来的石油消

12、费量。石油消费弹性系数不但与一个国家的经济结构、科学水平、生产模式等因素有关，而且与地理条件、人民生活习惯、国家发展政策等因素有关。因此，能源消费弹性系数与影响它的因素之间存在着复杂的关系，可能是高度非线性关系。确定石油消费弹性系数时主要有类比推测法、假定法以及回归分析法等，所以预测结果不可避免地存在较大的误差，但是在相关条件变化不大或有确定规律可循的一定时期内其结果比较精确。投入产出法5，它是综合考察、分析国民经济各部门之间的数量依存关系以及消费积累的综合比例的一种方法。它既可以作为综合统计分析和计划综合平衡的重要工具，也是进行能源需求预测的一种方法。应用投入产出分析法进行能源需求预测，需要

13、具有一份实物型投入产出表。因数分析法6，它是根据事物之间的因果关系，建立变量之间的函数关系，通过确定己知变量来预测未知变量的方法。相关关系预测法是用统计分析方法找出现象与石油消费之间的因果关系或结构比例关系，并根据这些关系来预测石油消费的方法。由于石油需求往往受到许多因素的制约，并且这些因素之间又保持着错综复杂的关系，因此运用因果模型或结构比例关系预测石油需求一般比较困难，即使能够预测，也往往由于相关因素未来值的不确定，而使预测结果不够准确。国内实证研究的文献，有直接对经济与能源消费数据进行比较分析的。如：陈书通，耿志成，董路影(1996)7研究了两者相互关系的产生原因。又如：马舒曼，吕永波，

14、韩晓雪(2004)8根据我国历年能源消费的供需比、消费结构等数据以及与其他国家相关数据的比较，归纳出我国能源消费存在利用率低、消费结构不合理、供需矛盾加剧等问题。通过分析经济发展状况及其与能源消费的关系，指出了我国应该走可持续发展的新型工业化道路，并提出相应的政策建议。近年来，国内学者对线性预测模型在经济金融领域的应用也颇有研究：白艳（2005）通过将汽车的各项客观解释变量作为回归分析的解释变量，驾驶者的各项主观评价作为回归分析的因变量，建立多元线性回归模型，并建立t检验来辨别各项回归系数的显著性，从而得出了一套相对客观的汽车操纵稳定性评价体系9。高云霞（2006）结合离子选择电极分析方法所得

15、到的实验数据，建立多元线性回归模型进行分析，从而解决了在有共存离子干扰的情况下，同时测定Cd2+和Pb2+，相对于传统的分析方法提高了测定效率10。吴曾（2009）通过广义多元线性回归模型对奥林巴斯售后服务满意度进行分析，从而证实了当变量是非数值变量时，回归分析不再适用，但是依然可以通过统计方法将非数值变量量化，创造条件使用多元回归模型。1.2研究意义能源是社会经济发展的源动力，也是保障人类生存的基本条件。当今时代，能源问题仍然是世界各国，特别是各大国普遍关注的一个战略问题。目前我国已成为世界第二大能源消费国，而石油工业是我国国民经济的重要基础和支柱产业，在宏观经济的发展中占有举足轻重的地位。

16、凡是预则立，不预则废。只有高屋建瓴，把握整体局势，谋定而后进，善于抓住每一次机遇，精于资源调配，才能使我国石油实现稳定持续供应，使我国经济持续发展，使国家永葆强盛的生命力。研究中国石油消费量，对于未雨绸缪的实现中国能源战略安全，保证中国经济社会稳定发展，具有重大意义。1.3研究思路本文就中国石油消费市场的石油消费量进行短期预测研究。第一、寻找影响中国石油消费量的因素，收集、整理、分析因变量与自变量（也称为解释变量）的样本资料；第二、建立模型。线性模型是数理统计中一类重要的模型，其主要包括线性回归模型、方差分析模型、协方差分析模型、方差分量模型、线性预测模型等。研究方向主要包括模型拟合与预测两个

17、方面的内容。在应用领域，我们不仅需要了解历史数据的拟合趋势，而且还希望利用过去的数据预测未来，这时可以根据不同的侧重点选择不同的模型。线性回归模型是研究现象之间相关性的具体形式，通过规定因变量和自变量来确定变量之间的因果关系，寻求因变量与自变量之间客观存在的依赖关系。对于预测问题，线性预测模型是一种适当的选择。线性预测模型和线性回归模型的区别在于，前者假设误差项要具有相关性，而后者要求误差项具有独立性。我们考虑先从线性回归模型入手，然后考虑误差项的相关性，进一步做深入研究分析。我们首先画出数据的矩阵散点图，由散点图显示的各变量之间的相关关系，初步选择对石油消费量有显著影响的解释变量参与模型，根

18、据数据求解模型的各个参数，得到拟合方程，并进行评价。在发现某些变量对因变量的效果不显著时，运用逐步多元回归剔除不合理的自变量，使建立的回归方程既符合统计学意义又符合经济学意义。对线性回归模型进行残差检验，即对残差作独立性、等方差性和正态性的三个假设的检验。在残差满足独立性时，我们利用经典预测方程，对石油消费量进行预测，并做出结果分析。如果残差项是相关的，满足线性预测模型的假设条件，进一步考虑作最优预测。首先判断残差是否满足ARMA模型，即画出残差数据的时间序列图、及其自相关和偏自相关函数分析图，根据自相关和偏自相关函数分析及信息准则法确定残差的ARMA模型和相应的阶数。最后用最优预测方程对石油

19、消费量进行了预测。我们还考虑了针对石油消费量仅随时间的变化而变化的情况。首先画出石油消费量原始数据的时间序列图、及其自相关和偏自相关函数分析图，根据图形判断原始数据是否具有随机性、平稳性和周期性。采用差分法对数据进行处理后，画出差分数据的时间序列图、及其自相关和偏自相关函数分析图。然后根据自相关和偏自相关函数分析图及信息准则法确定模型，检验模型是否合适，最后进行石油消费量的预测。第三、模型比较。根据各模型的预测值及其相对误差，对模型进行比较，并给出相应的建议。2 基本概念和理论2.1线性模型2.1.1一般线性模型一般线性模型的形式：（2.1）其中，表示因变量的阶观测向量，表示解释变量的阶观测

20、矩阵，为阶模型系数，为解释变量数目，为残差项。通常假设列满秩。残差项通常有两种情况,一种是残差项相互独立，另一种是残差项具有相关性。2.1.2多元线性回归模型（1）模型基本概念和假设在应用问题研究中，因变量的变化往往受几个重要因素的影响，此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化，这种主要分析因变量与多个自变量之间的因果关系的模型就叫做多元线性回归模型。多元线性回归模型满足以下假设：解释变量是确定性变量，不是随机变量；解释变量之间互不相关，即无多重共线性；残差项是独立的，服从0均值、等方差的正态分布，与解释变量之间不相关；系数矩阵X列满秩。（2）模型的参数估计在满足线性模

21、型基本假设的条件下，多元线性回归模型可采用普通最小二乘法估计参数，具体步骤如下：多元线性回归模型的总体回归方程： (2.2)只是理论上存在，通过有限样本是无法求得的12，因此，我们只能利用样本回归方程： (2.3)对参数进行推断，即用作为总体回归系数的估计量。根据最小二乘原理可知，要求出总体回归系数的最佳估计量，应使残差平方和达到最小。根据多元函数的极值原理，是下列方程组的解：解得：，即为的最小二乘估计（OLS）。2.1.3线性预测模型建立模型2.1，除了要根据已有的样本数据拟合得出值，还要根据拟合结果对因变量做预测。假设为因变量预测值，则应满足：（2.4）其中，表示因变量预测值，表示解释变

22、量观测矩阵，为模型系数，为残差项。当2.1式中残差项和2.4式中残差项满足以下关系时：模型2.1即称为线性预测模型。残差的相关性这一假设是线性预测模型区别于线性回归模型的关键之处。2.2统计检验最小二乘法只是一种单纯的数学方法，存在着一定的缺陷，即不论变量间有无相关关系或有无显著线性相关关系 ,用最小二乘法都可以找到一条直线来拟合变量间关系。另外由于在求解模型的过程中，对残差做了正态性、等方差性、独立性等假设，所以当多元线性回归模型的参数估计任务完成并建立其样本回归方程之后，还需要进一步对该样本回归方程进行统计检验和残差检验。2.2.1拟合优度检验（1）判定系数在多元线性回归模型中，使用判定

23、系数来衡量样本回归方程对样本观测值的拟合优度。判定系数可表示为：，其中表示回归平方和，表示总离差平方和。作为检验样本回归方程与样本观测值拟合优度的解释变量，越大，表明样本回归方程与样本观测值拟合的越好；反之，拟合的越差。但在应用过程中发现，的大小与模型中的解释变量个数有关，随着解释变量个数的增加，往往是增大的。因此在多元线性回归模型之间比较拟合优度，还可以采用下面的指标。（2）校正判定系数对判定系数进行调整的方法是用残差平方和与总离差平方和分别除以各自的自由度，以消除解释变量个数对拟合优度的影响。调整后的判定系数用表示，即：其中，为残差平方和的自由度；为总离差平方和的自由度。2.2.2回归方程

24、显著性检验回归方程总体线性的显著性检验是对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。方程的显著性检验普遍使用的方法是检验。按照假设检验的原理，提出的原假设与备择假设分别为：在原假设成立的条件下，统计量为：因此，给定显著性水平，查分布表，得到临界值，并根据样本观测值求出统计量的值。若，则拒绝，接受，认为回归方程总体上线性关系显著成立；若，则接受，认为回归方程总体上的线性关系显著不成立。2.2.3回归系数显著性检验在求出回归系数后，需要进行回归系数的显著性检验。回归系数的显著性检验一般是用检验。按照假设检验的原理，提出的原假设与备择假设分别为：在原假设成立的条件下，统计

25、量为：给出显著水平，查表得出临界值，根据样本观测值求出检验值。判断：若，则拒绝原假设，接受，说明回归系数是显著的。若，则接受原假设，说明回归系数是不满足显著性假设。2.2.4线性模型的残差检验由于在利用最小二乘法原理求解线性模型时，对残差实际上是做了独立性、等方差性和正态性的三个假设。为判断线性模型是线性回归模型还是线性预测模型，我们将运用以下几种方法对残差进行检验。（1）正态性W检验法正态性W检验法19是利用Shapiro-Wike W统计量做正态性检验。在R软件中，函数shpiro.test()提供W统计量和相应的p值，设定显著水平，一般设定显著性水平为0.05。当p值大于时，则认为样本满

26、足正态性，否则认为样本不满足正态性。（2）残差图检验法为检验线性模型是否满足线性回归模型的假设，通过拟合值与残差的散点图来检验。画拟合值与残差的散点图，或者画出回归值与标准残差的散点图。其图形可能会出现下面三种情况：（a）正常情况（b）异方差情况（c）非线性情况对于图（a）的情况,不论回归值的大小，残差具有相同的分布，并满足模型的各种假设，如果大部分点落在中间部分，而只有少数几个点落在外边，则这些点对应的样本可能有异常值存在；对于图（b）的情况, 表示回归值的大小与残差的波动大小有关系，即等方差性假设有问题；对于图（c）的情况, 表示表示线性模型不适合，应考虑非线性模型。（3）残差自相关图

27、检验法由参考文献20，根据残差的自相关图和偏自相关图可以直接判断残差是否相关。如果残差是相关的，即用偏自相关函数可以初步判定自回归模型的阶数，用自相关函数可以初步确定移动平均模型的阶数，综合考虑即可确定ARMA模型。2.3模型预测2.3.1经典预测当2.1式中残差项满足独立性，等方差性，正态性假设时，模型2.1即为多元线性回归模型，可以做经典预测。经典预测的预测值实际上是条件期望值。对于2.1式，估计的样本回归方程为：（2.5）给定，则可得出预测值，即有经典预测模型：（2.6）2.3.2最优预测当2.1式中残差项和2.4式中残差项满足以下关系时：模型2.1为线性预测模型，可做最优预测。最优

28、预测需要考虑残差的相关性。由于残差项具有相关性，进一步假设残差项存在阶自相关形式：（2.7）给定，则可得出预测值。如果只考虑一步向后预测，则有：（2.8）2.8式展开式为：（2.9）最优预测模型为：（2.10）2.4时间序列趋势预测模型随机时间序列模型是一种精度较高的时间序列短期预测方法，模型有三类基本形式：自回归模型AR、移动平均模型MA、自回归移动平均模型ARMA，本节主要介绍自回归模型和移动平均模型。如果时间序列是它的前期值和随机项的线性函数，即可表示为（2.11）其中，是独立同分布的随机变量序列，并且对于任意的，都有。则称时间序列服从阶自回归模型，记为AR（p），称为自回归

29、系数。如果时间序列是它的前期值和随机项的线性函数，即可表示 (2.12)则称时间序列服从阶自回归模型，记为MA（q），称为自回归系数。2.4.1模型特征分析（1）自相关构成时间序列的每个序列值之间的简单相关关系称为自相关。自相关程度由自相关系数度量，表示时间序列中相隔期的观测值之间的相隔程度。（2.13）其中，是样本量，为滞后期，代表样本数据的算术平均值，且越接近1，自相关程度越高。（2）偏自相关偏自相关是指对于时间序列，给定的条件下，与之间的条件相关关系。其相关程度用偏自相关系数度量，（2.14）其中，是滞后期的自相关系数。（3）随机性如果一个时间序列是纯随机序列，意味着序列没有任何规律

30、性，序列诸项之间不存在相关性，即序列是白噪声序列，其自相关系数应该与0没有显著差异。可以利用置信区间理论进行判定。测定序列的随机性，多用于模型残差以及评价模型的优劣。（4）平稳性若时间序列满足：对任意时间，其值恒为常数；对任意时间和，其自相关系数只与时间间隔有关，而与和的起始点无关。那么这个时间序列就称为平稳时间序列。序列的平稳性也可以利用置信区间理论进行判定。需要注意的是，只有平稳时间序列才能直接建立ARMA模型，否则必须经过适当处理使序列满足平稳性要求。（5）季节性时间序列的季节性是指在某一固定的时间间隔上，序列重复出现某种特性。比如地区降雨量、旅游收入和空调销售额等时间序列都具有明显的季

31、节变化。判断时间序列季节性的标准为：月度数据，考察时自相关系数是否与0有显著差异。若自相关系数与0没有显著差异，说明各年中同一月（季）不相关，序列不存在季节性，否则存在。2.4.2模型的建立与识别在需要对一个时间序列建模时，应在消除季节趋势后，运用序列的自相关和偏自相关对序列适合的模型类型进行识别，确定适宜的阶数以及。（1）MA（q）的自相关与偏自相关函数自协方差函数为：（2.15）是白噪声序列的方差。样本自相关函数为：（2.16）MA（q）序列的自相关函数在以后都是0。这种性质称为自相关函数的步截尾性；偏自相关函数随着滞后期的增加，呈现指数或者正弦波衰减，趋向于0，这种特性称为偏自相关函

32、数的拖尾性。（2）AR（p）的自相关与偏自相关函数是步截尾的。偏自相关函数：（2.17）自协方差函数满足；自相关函数满足。它们呈指数或者正弦波衰减，具有拖尾性。（3）ARMA（p,q）的自相关与偏自相关函数均是拖尾的。（4）AIC阶数判定准则AIC准则既考虑拟合模型对数据的接近程度，也考虑模型中所含特定参数的个数，关于模型，AIC函数形式为：（2.18）AIC准则定阶方法可写为：（2.19）其中，为ARMA模型阶数的上限，一般取为或。2.4.3模型预测若模型经检验是合适的，也符合实际意义，可用作短期预测，本节只介绍AR（）模型的预测。根据模型2.11式，对于观测值，经过计算，我们容易得到

33、：（2.20）进一步地，可以得到：（2.21）方程2.20即为模型2.11的预测方程，代入相关系数和样本数据即可得出预测值。3 石油消费量的线性预测3.1解释变量选取及数据收集3.1.1解释变量选取影响石油消费量的因素有很多，我们根据中国石油消费量预测模型研究与应用12，中国石油消费预测模型研究与应用13,选取石油消费量为因变量，原油产量，原油净进口量为自变量；再根据我国能源消费产生的环境问题研究14，选取民用汽车数量为自变量；联系经济学中的消费理论，选取石油的价格为自变量；随着我国经济不断发展，工业消费持续增长，石油消费量也加速增长，因此石油消费量有一定的时间趋势性，故时间也可以作为自变

34、量参与模型。最终确定石油消费量为因变量，原油产量、石油净进口量、石油价格、民用汽车数量和时间趋势为自变量：原油产量作为衡量国内石油市场供给情况的解释变量；石油净进口量作为衡量国外对国内石油市场供给情况的解释变量；石油价格作为衡量石油消费价格变动的情况；民用汽车总数可以作为衡量市场需求大小的解释变量；时间趋势作为衡量固定时间段国内经济发展趋势。客观的说由于时间、经费等多方面的约束，我们选取的解释变量可能不是很全面，导致建立的回归模型较小。但是根据统计预测与决策20，大型模型的预测精度并不比小型模型的预测精度高，而且没有哪一种预测方法或模型适合于各种情况或在各种情况下都比其它方式或模型效果好。3.

35、1.2数据收集和处理确定解释变量后收集数据，通过互联网利用国家统计局15、中国海关总署16和Index Mundi17分别找到原油、汽油、煤油、柴油、民用汽车的月度产量，原油、石油的进出口量，原油的月平均价格这些解释变量从2005年7月份到2011年11月份共77个月的月度数据。从各网站收集的数据不是我们需要的直接数据，只有经过处理后才能引入模型。根据石油消费的主要途径，我们把汽油、煤油、柴油的产量和加上石油的净进口量作为石油的消费量。时间趋势变量是离散的，我们用1除以12将它变成连续变量。石油消费量和民用汽车数量这两个解释变量数据不全，从2006年到2011年，每年1月份的数据缺失，缺失值基

36、本是定距型的，我们用缺失值前后两个月的平均值填补缺失值。假设和分别为石油消费量和民用汽车数量的缺失值，其中则有模型引用的各解释变量的符号和单位如表3.1：表3.1：符号说明（万吨）（万吨）（万吨）元/吨（万辆）石油消费量原油产量石油净进口量石油价格民用汽车数量时间趋势3.1.3数据初步分析用R软件19画出数据的散点图，如图3.1：图3.1：变量散点矩阵图从图3.1可以看到：(1)自变量（原油产量）、自变量（石油净进口量）、（民用汽车数量）、自变量（时间趋势）与因变量（石油消费量）之间存在良好的线性关系，可以引入多元线性回归模型；(2)自变量（石油价格）与因变量（石油消费量）之间存在一定的线性关

37、系，散点分布趋势并不均匀，可能存在其他变量的影响，但是基本上可以引入多元线性回归模型进行进一步分析；由此可知，可以以为因变量，为自变量建立线性回归模型，进一步分析他们之间的线性关系。3.2多元线性回归模型假设石油消费量与各解释变量之间有如下拟合关系：（3.1）其中，是回归系数，为解释变量，为随机误差，满足，是单位矩阵。即残差满足独立性、等方差性和正态性的假设。 3.2.1多元线性回归我们将与石油消费量具有线性关系的自变量原油产量、石油净进口量、民用汽车数量、时间趋势全部变量引入多元线性回归模型。针对以上自变量，使用从2005年7月到2011年10月共76组数据进行多元线性回归，2011年11

38、月份的数据作为真实值和预测值进行对比，进而得出模型预测结果的好坏。通过计算，得出方程的判定系数为0.8968，校正后的判定系数为0.8894说明该多元线性回归模型的拟合优度很好，有将近90%的数据可以用该模型加以解释；模型总体的检验统计量为且值为2.2e-16远远小于0.01，说明至少一个自变量的回归系数不为0，所建立的回归模型具有统计学意义。各解释变量的拟合系数如表3.2：表3.2：各解释变量的系数和检验值变量系数值标准差T值P值常数-11010026770-4.0710.000114X10.84040.17994.2190.0000672X20.112130.060052.30.05414

39、1X30.026620.010632.6580.016782X40.54970.600110.320302X554.9313.384.0670.000115由表3.2的输出结果看到：原油产量、时间趋势对石油消费量的影响是非常显著的，石油净进口量、石油价格对石油消费量的影响也相对显著。唯一不足的是，民用汽车数量对石油消费量的影响不显著，没有通过t检验。模型还有待优化，应该从所有变量中选出对石油消费量有显著影响的变量重新建立方程。总体上，该模型的方程和各系数都基本通过检验，模型的拟合效果是比较好的，我们可以得出回归方程：（3.2） 3.2.2逐步回归分析由于方程（3.2）中，民用汽车的T检验值为

40、0.320302，没有通过显著性检验，说明该变量对石油消费量没有显著的影响，所以我们用逐步回归分析剔除对石油消费量没有显著影响的变量，重新建立新的回归模型。通过计算，得出逐步回归方程的判定系数为0.8956，校正后的判定系数为0.8897，和前面的多元线性回归的拟合结果相比，其决定系数和校正决定系数并没有很大的改变，都非常接近90%的；模型总体的检验统计量为152.3且值为2.2e-16远远小于0.01，模型总体通过方程的检验，所建的模型具有统计学意义。逐步回归后的解释变量的系数见表3.3：表3.3：解释变量的系数和检验值变量系数值标准差T值P值常数-12140024530-4.9480.00

41、0114X10.88580.18274.8470.0000713X20.14280.056932.5080.0144X30.025250.010632.3580.0215X560.5312.294.9250.00053由表3.3的输出结果可知，去掉解释变量即民用汽车数量后，重新建立回归模型，在新的模型中，各项解释变量的值都小于显著性水平0.05，表明各自变量具有统计学意义，能够对因变量造成显著影响20。综上所述，该回归模型可用。由此可以得出拟合方程：（3.3） 3.2.3残差检验下面我们对残差作独立性、等方差性、正态性的检验，从而判断模型是否合理，模型是否适合做预测。（1）正态性检验根据正态

42、性W检验原理，利用R软件得出结果W=0.9852 ，p值为0.5218大于0.05，说明不能拒绝原假设，所以残差满足正态性。（2）独立性和等方差性检验画出回归值与普通残差的散点图,同时画出回归值与标准残差的散点图。利用R软件计算普通残差和标准化残差，并画出相应的散点图，如图3.2、3.3：图3.2拟合值与残差的散点图图3.3拟合值与标准残差的散点图从图3.2、3.3可以看出，残差具有相同的分布且满足模型的各种假设条件。标准化残差近视服从正态分布，大约95%的样本点都在区间-2,2中，所有点均在宽度为4的水平带中，且不呈现任何趋势。由此说明残差满足假设独立性，等方差性和正态性。所以线性回归模

43、型合理的，但残差的独立性说明各数据之间是相互独立的，没有相关性，由此说明该模型并不适合做石油消费量的最优预测，只能做经典预测。 3.2.4经典预测根据理论部分2.8式，将原油产量、石油净进口量、石油价格、民用汽车数量、时间趋势五个解释变量2011年11月的数值代入初步回归估计方程3.2式；将原油产量、石油净进口量、石油价格、时间趋势四个解释变量2011年11月的数值代入逐步回归的估计方程3.3式。得出经典预测结果如表3.4所示：表3.4：经典预测结果模型预测值实际值相对误差多元回归模型2276.6522390.64.76%逐步回归模型2281.982390.64.54%作为一个经济领域的预测模

44、型而言，预测值误差在20%以内都是允许的1。两个模型的预测结果相对误差均小于5%，分别对石油消费量进行了较为精确的预测，且很好的反应了各变量对石油消费量的影响。由表3.4的结果容易看出该模型预测结果的误差在可接受范围内。所以在满足假设条件的情况下，该模型是合理的。3.3线性预测模型3.3.1模型建立当残差相互独立时，模型2.1为多元线性回归模型，模型主要侧重的是各变量之间的横向分析，可以做内推预测，不适合做外推预测。当残差项具有相关性时，考虑建立线性预测模型作外推预测。从经济角度看，考虑到经济消费结构中供求关系的密切性，加上石油消费在整个国家运作过程中的不可替代性，或许过多的考虑一些非主要因素反而会影响预测的精度。从模型角度看，图3.2和图3.3表明模型残差是相互独立的，说明前面引入的自变量建立的模型的残差是不相关的，因此需要重新选择自变量建立新的模型。而且考虑过多的因素有可能会弱化残差的相关性，把原本有相关性的残差独立化，模型偏离实际，预测缺乏实际意义。通过多次试验，我们找到了残差相关的线性预测模型，即只引入石油消费量和原油产量两个变量建立模型：（3.4）利用2005年7月到2011年10月石油消费量和原油产量的76组数据进行拟合，得出拟合估计方程：（

展开阅读全文