数学建模中时间序列详细说明.docx

上传人:牧羊曲112 文档编号:1732642 上传时间:2022-12-16 格式:DOCX 页数:19 大小:321.82KB
返回 下载 相关 举报
数学建模中时间序列详细说明.docx_第1页
第1页 / 共19页
数学建模中时间序列详细说明.docx_第2页
第2页 / 共19页
数学建模中时间序列详细说明.docx_第3页
第3页 / 共19页
数学建模中时间序列详细说明.docx_第4页
第4页 / 共19页
数学建模中时间序列详细说明.docx_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《数学建模中时间序列详细说明.docx》由会员分享,可在线阅读,更多相关《数学建模中时间序列详细说明.docx(19页珍藏版)》请在三一办公上搜索。

1、基于Excel的时间序列预测与分析1 时序分析方法简介1.1 时间序列相关概念1.1.1 时间序列的内涵以及组成因素所谓时间序列就是将某一指标在不同时间上的不同数值,按照时间的先后顺序排列而成的数列。如经济领域中每年的产值、国民收入、商品在市场上的销量、股票数据的变化情况等,社会领域中某一地区的人口数、医院患者人数、铁路客流量等,自然领域的太阳黑子数、月降水量、河流流量等等,都形成了一个时间序列。人们希望通过对这些时间序列的分析,从中发现和揭示现象的发展变化规律,或从动态的角度描述某一现象和其他现象之间的内在数量关系及其变化规律,从而尽可能多的从中提取出所需要的准确信息,并将这些知识和信息用于

2、预测,以掌握和控制未来行为。时间序列的变化受许多因素的影响 ,有些起着长期的、决定性的作用 ,使其呈现出某种趋势和一定的规律性;有些则起着短期的、非决定性的作用,使其呈现出某种不规则性。在分析时间序列的变动规律时,事实上不可能对每个影响因素都一一划分开来,分别去作精确分析。但我们能将众多影响因素,按照对现象变化影响的类型,划分成若干时间序列的构成因素,然后对这几类构成要素分别进行分析,以揭示时间序列的变动规律性。影响时间序列的构成因素可归纳为以下四种:(1)趋势性(Trend),指现象随时间推移朝着一定方向呈现出持续渐进地上升、下降或平稳的变化或移动。这一变化通常是许多长期因素的结果。(2)周

3、期性(Cyclic),指时间序列表现为循环于趋势线上方和下方的点序列并持续一年以上的有规则变动。这种因素是因经济多年的周期性变动产生的。比如,高速通货膨胀时期后面紧接的温和通货膨胀时期将会使许多时间序列表现为交替地出现于一条总体递增地趋势线上下方。(3)季节性变化(Seasonal variation),指现象受季节性影响 ,按一固定周期呈现出的周期波动变化。尽管我们通常将一个时间序列中的季节变化认为是以1年为期的,但是季节因素还可以被用于表示时间长度小于1年的有规则重复形态。比如,每日交通量数据表现出为期1天的“季节性”变化,即高峰期到达高峰水平,而一天的其他时期车流量较小,从午夜到次日清晨

4、最小。(4)不规则变化(Irregular movement),指现象受偶然因素的影响而呈现出的不规则波动。这种因素包括实际时间序列值与考虑了趋势性、周期性、季节性变动的估计值之间的偏差,它用于解释时间序列的随机变动。不规则因素是由短期的未被预测到的以及不重复发现的那些影响时间序列的因素引起的。时间序列一般是以上几种变化形式的叠加或组合出现的(如图1.4)。 图1.1 平稳序列 图1.2 趋势序列图1.3 季节型序列 图1.4 含有季节与趋势因素的序列1.1.2 时间序列的分类根据其所研究的依据不同,可有不同的分类:(1)按所研究的对象的多少来分,有一元时间序列和多元时间序列。如某种商品的销售

5、量数列,即为一元时间序列;如果所研究对象不仅仅是这一数列,而是多个变量,如按年、月顺序排序的气温、气压、雨量数据等,每个时刻对应着多个变量,则这种序列为多元时间序列。(2)按时间的连续性可将时间序列分为离散时间序列和连续时间序列两种。如果某一序列中的每一个序列值所对应的时间参数为间断点,则该序列就是一个离散时间序列;如果某一序列中的每个序列值所对应的时间参数为连续函数,则该序列就是一个连续时间序列。(3)按序列的统计特性分,有平稳时间序列和非平稳时间序列两类。所谓时间序列的平稳性,是指时间序列的统计规律不会随着时间的推移而发生变化。平稳序列的时序图直观上应该显示出该序列始终在一个常数值附近随机

6、波动,而且波动的范围有界、无明显趋势及无周期特征;从理论上讲,分为严平稳与宽平稳两种。相对的,时间序列的非平稳性,是指时间序列的统计规律随着时间的推移而发生变化。(4)按序列的分布规律来分,有高斯型(Guassian) 和非高斯型时间序列(non-Guassian)1.2 时间序列分析概述时间序列分析是一种广泛应用的数据分析方法,它研究的是代表某一现象的一串随时间变化而又相关联的数字系列(动态数据),从而描述和探索该现象随时间发展变化的规律性。时间序列的分析利用的手段可以通过直观简便的数据图法、指标法、模型法等来分析,而模型法应用更确切和适用也比较前两种方法复杂,能更本质地了解数据的内在结构和

7、复杂特征,以达到控制与预测的目的。时间序列分析方法包括:(1)确定性时序分析:它是暂时过滤掉随机性因素(如季节因素、趋势变动)进行确定性分析方法,其基本思想是用一个确定的时间函数来拟合时间序列,不同的变化采取不同的函数形式来描述,不同变化的叠加采用不同的函数叠加来描述。具体可分为趋势预测法(最小二乘)、平滑预测法、分解分析法等;(2)随机性时序分析:其基本思想是通过分析不同时刻变量的相关关系,揭示其相关结构,利用这种相关结构建立自回归、滑动平均、自回归滑动平均混合模型来来对时间序列进行预测。为了对时间序列分析方法有一个比较全面的了解,现将时间序列分析方法归纳如下:1.3 确定性时间序列分析由1

8、.1的介绍,我们知道时间序列的变动是长期趋势变动、季节变动、循环变动、不规则变动的耦合或叠加。在确定性时间序列分析中通过移动平均、指数平滑、最小二乘法等方法来体现出社会经济现象的长期趋势及带季节因子的长期趋势,预测未来的发展趋势。1.3.1 移动平均法通过对时间序列逐期递移求得平均数作为预测值的一种方法叫移动平均法,它是对时间序列进行修匀,边移动边平均以排除偶然因素对原序列的影响,进而测定长期趋势的方法。其简单的计算公式为:预测值=最后个值的平均其中: =被认为是与预测下一个时期相关的最近的时期数采用Excel进行移动平均时,在【数据分析】选项中选择【移动平均】,并在对话框中输入数据区域和移动

9、见间隔即可。说明:的选择:采用移动平均法进行预测 ,用来求平均数的时期数的选择非常重要,这也是移动平均的难点。因为取值的大小对对所计算的平均数的影响较大。当时,移动平均预测值为原数据的序列值。当=全部数据的个数时,移动平均值等于且为全部数据的算术平均值。显然,值越小,表明对近期观测值预测的作用越重视 ,预测值对数据变化的反应速度也越快,但预测的修匀程度较低,估计值的精度也可能降低。反之,值越大,预测值的修匀程度越高,但对数据变化的反映程度较慢。不存在一个确定时期值的规则。一般在3200之间,视序列长度和预测目标情况而定。一般对水平型数据,值的选取较为随意;一般情况下,如果考虑到历史上序列中含有

10、大量随机成分,或者序列的基本发展趋势变化不大,则应取大一点。对于具有趋势性或阶跃性特点的数据,为提高预测值对数据变化的反应速度,减少预测误差,值取较小一些,以使移动平均值更能反映目前的发展变化趋势。一般的取值为315。具体取值要看实际情况,可由均方差来评价(的概念在第3节“预测方法的评估”中介绍)。1.3.2 指数平滑法指数平滑法是对过去的观测值加权平均进行预测,使第期的预测值等于期的实际观测值与第期指数平滑值的加权平均值,即预测值=(上期值)+(上次预测值)一次指数平滑法预测模型为: (1-1)其中:第期预测值;第期的实际观测值;平滑系数,且。将 代入(1-1)式中,可得: (1-2)公式(

11、1-2)中各项系数和为: 当时, , 系数和。所以,可以说是期以及以前各期观察值的指数加权平均值,观察值的权数按递推周期以几何级数递减,各期的数据离第期越远,它的系数愈小,因此它对预测值的影响也越小。公式(1-1)稍作变换可得: (1-3)可见,是期的预测值加上用调整的期的预测误差。因此,简单指数平滑法用于预测实际上是根据本期预测误差对本期预测值作出一定的调整后得到的下一个预测值,即:新的预测值=老的预测值+老预测值的误差对老预测值所作的调整的幅度视的大小而定。说明: 平滑系数的选择:的取值对平滑效果影响很大, 越小平滑效果越显著. 取值的大小决定了在平滑值中起作用的的观察值的项数的多少,当取

12、值较大时,各观察值权数的递减速度快,因此在平滑值中起作用的观察值的项数就较少;而当取值较小时,各观察值权数的递减速度很慢,因此在平滑值中起作用的观察值的项数就较多。如果用移动平均数与指数平滑法相比,要使两者具有相同的灵敏程度,移动平均数的取值与指数平滑法中的取值有如下关系:当取值0.050.3之间时,如果要使移动平均具有相应的灵敏程度,则的取值为:0.050.10.20.3391995.666当取值较小时,指数平滑法的平滑能力较强,而取值较大时,模型对现象变化的反应速度较快。一般来说取值的大小应当视所预测对象的特点及预测期的长短而定。一般情况下,观测值呈较稳定的水平发展,值取0.10.3之间;

13、观测值波动较大时,值取0.30.5之间;观测值呈波动很大时,值取0.50.8之间。采用Excel进行指数平滑预测步骤如下:1、选择在【数据分析】选项中选择【指数平滑】;2、在【输入区域】中输入数据区域;3、在【阻尼系数】输入的值(注:阻尼系数=);4、在【输出区域】中选择预测结果输出位置;单击【确定】即可。1.3.3 趋势预测(1)线性趋势预测模型:用最小二乘法求待定参数、决定于标准方程组:趋势预测的误差可用线性回归中的估计标准误差来衡量。公式为: (2) 二次曲线趋势预测模型:根据最小二乘法推导待定参数、的标准方程组: (3)指数曲线趋势预测模型:,其中、为未知数。在这里必须要把指数先通过变

14、量代换转化为直线趋势才能用最小二乘法来求参数,即:两边取对数,再根据直线形式的常数确定方法,可求得、,最后取反对数得到、的值。从总体上来说,确定性时序分析刻画了序列的主要趋势是直观简单、便于计算,但是比较粗略的,不能严格反映实际的变化规律,为了严格反映时序的变化必须结合随机时序分析法进一步完善对社会经济现象的分析以便进行决策。1.4 随机性时间序列分析1.4.1 平稳随机时间序列分析在随机性时间序列分析中,分为(宽)平稳时序分析和非平稳时序分析。平稳随机过程其统计特性(均值、方差)不随时间的平移而变化,在实际中若前后的环境和主要条件都不随时间变化就可以认为是平稳过程(宽平稳过程),具有(宽)平

15、稳特性的时序称平稳时序。平稳时序分析主要通过建立自回归模型(,Autoregressive Models)、滑动平均模型(,Moving Average Models)和自回归滑动平均模型(,Autoregressive Moving Average Models)分析平稳的时间序列的规律,一般的分析程序可用下面框图表示:研究对象采集数据生成序列预测与控制模型检验数据处理模型识别建立模型参数估计(1)自回归模型 如果时间序列是平稳的且数据之间前后有一定的依存关系,即与前面有关与其以前时刻进入系统的扰动(白噪声)无关,具有阶的记忆,描述这种关系的数学模型就是阶自回归模型可用来预测: (1-4)是

16、自回归系数或称为权系数;为白噪声,它对产生的响应,它本身就是前后不相关的序列,类似于相关回归分析中的随机误差干扰项,其均值为零,方差为的白噪声序列。上面模型中若引入后移算子,则可改为: (1-5)记 则(1-4)可写成 (1-6)称为模型的特征方程。特征方程的个根被称为的特征根。如果个特征根全在单位圆外,即 (1-7)则称模型为平稳模型,(1-7)被称为平稳条件。由于是关于后移算子的多项式,因此模型是否平稳取决于参数。(2)滑动平均模型 如果时间序列是平稳的与前面无关与其以前时刻进入系统的扰动(白噪声)有关,具有阶的记忆,描述这种关系的数学模型就是阶滑动平均模型可用来预测: (1-8)上面模型

17、中若引入后移算子,则可改为:(3)自回归滑动平均模型如果时间序列是平稳的与前面有关且与其以前时刻进入系统的扰动(白噪声)也有关,则此系统为自回归移动平均系统,预测模型为: (1-9)即1.4.2 非平稳时间序列分析在实际的社会经济现象中我们收集到的时序大多数是呈现出明显的趋势性或周期性,这样我们就不能认为它是均值不变的平稳过程,要用模型来预测应是要把趋势和波动综合考虑进来,是它们的叠加。用模型来描述: (1-10)表示中随时间变化的均值(往往是趋势值),是中剔除后的剩余部分,表示零均值平稳过程,就可用自回归模型、滑动平均模型或自回归滑动平均模型来拟合。要解模型,分以下两步: (1)具体求出的拟

18、合形式,可以用上面介绍的确定性时序分析方法建模,求出,得到拟合值,记为。(2)对残差序列进行分析处理,使之成为均值为零的随机平稳过程,再用平稳随机时序分析方法建模求出,通过反运算,最后可得。2 2007年国内生产总值的预测根据上面讨论的时序分析的方法,本文将之综合应用到对实际数据的分析预测中。本文选取1978-2006历年国内生产总值作为时序数据,进行建模并预测。我们从画出的走势图(如图2.1)知道这一时间序列是具有明显趋势且不含有周期性变化经济波动序列,即为非平稳的时间序列,对此序列进行建模预测需要用上面介绍的非平稳时间序列分析方法。采用模型: (2-1) 图2.1 历年国内生产总值时间序列

19、图从图形(图2.1)中我们可以判断出国内生产总值的确定趋势是按指数趋势发展的,因此可以用趋势方程表示:,其中为待定参数。 利用19782006年数据及利用对国内生产总值的趋势进行拟合,对指数曲线线性化,即两边取对数,在Excel中进行对其进行回归分析,结果见表2.1-2.2。于是,可得如下估计模型与拟合图,如图2.2所示。 (2-2)表2.1SUMMARY OUTPUT回归统计Multiple R0.9939R Square0.9878Adjusted R Square0.9873标准误差0.0632观测值29方差分析dfSSMSFSignificance F回归分析18.72448.7244

20、2183.84422.27299E-27残差270.10790.0040总计288.8323Coefficients标准误差t StatP-valueIntercept3.44990.0241143.18141.9465E-40X Variable 10.06560.001446.73162.273E-27表2.213.5592 3.5155 164.5395 4.4988 23.6062 3.5810 174.6699 4.5644 33.6549 3.6466 184.7670 4.6299 43.6869 3.7121 194.8318 4.6955 53.7238 3.7777 204

21、.8719 4.7610 63.7734 3.8432 214.8940 4.8266 73.8556 3.9088 224.9142 4.8922 83.9525 3.9744 234.9517 4.9577 94.0087 4.0399 244.9882 5.0233 104.0778 4.1055 255.0219 5.0888 114.1740 4.1710 265.0678 5.1544 124.2281 4.2366 275.1352 5.2199 134.2683 4.3021 285.2608 5.2855 144.3348 4.3677 295.3210 5.3511 154

22、.4255 4.4333 305.4166 图2.2 指数曲线线性化拟合图从统计量来看,模型通过了检验,且拟合图2.2中可以看出实际值与拟合值很接近,说明国内生产总值是符合指数长期趋势的。再把模型(2-2)取反对数得:, (2-3)根据拟合的值,这里求出残差序列,数据见表2.3,残差序列图如图2.3所示。表2.3年份国内生产总值预测值残差序列年份国内生产总值预测值残差序列19783624.10 3276.88347.22 199334634.40 31536.873624.10 19794038.20 3810.82227.38 199446759.40 36675.4710083.93 19

23、804517.80 4431.7586.05 199558478.10 42651.3615826.74 19814862.40 5153.86-291.46 199667884.60 49600.9618283.64 19825294.70 5993.62-698.92 199774462.60 57682.9316779.67 19835934.50 6970.22-1035.72 199878345.20 67081.7611263.44 19847171.00 8105.95-934.95 199982067.46 78012.044055.42 19858964.40 9426.73

24、-462.33 200089468.10 90723.3-1255.20 198610202.20 10962.72-760.52 200197314.80 105505.73-8190.93 198711962.50 12748.98-786.48 2002105172.34 122696.79-17524.45 198814928.30 14826.29102.01 2003116898.40 142688.97-25790.57 198916909.20 17242.09-332.89 2004136515.00 165938.67-29423.67 199018547.90 20051

25、.5-1503.60 2005182321.00 192976.66-10655.66 199121617.80 23318.69-1700.89 2006209407.00 224420.21-15013.21 199226638.10 27118.23-480.13 2007260987.17图2.3 残差序列散点图观察残差序列的散点图可知,该序列有很大的波动性,可认为是非平稳的。将残差序列(t=1,2,,29)进行差分使其平稳化,观察其差分散点图如图2.4所示,可认为:2次差分后序列是平稳的,即令 (2-4)得到序列。 从而我们可以认为是平稳的。 图2.4 差分后散点图将序列零均值化:由

26、数据求得=-156.95,令 (2-5)得到序列,从而算出序列的样本自相关函数与样本偏相关函数,结果如表2.4如图2.5-2.6所示。从自相关一偏自相关图可以看出,随着的增大而衰减,有拖尾现象,而偏相关函数在就落人随机区(在零附近波动),且,则可认为在是截尾的。所以初步判断残差序列为模型。表2.41162513.85680.00450.04692173565.68150.00540.01493135.45350.85020.850218-1086.630.0080.01264-79.2220.6507-0.2619-3128.9570.0089-0.04115126.99260.3401-0.

27、525820-3803.9130.0049-0.10376227.62110.0466-0.115221-3855.320.0016-0.05177594.5258-0.19650.096622-1534.831-0.0052-0.03148528.7978-0.3675-0.0556232054.3562-0.0153-0.05229-613.855-0.4463-0.063724-1468.156-0.02370.006110429.1792-0.44030.021425-2240.851-0.03140.0309111071.3997-0.36050.0432261224.3654-0.

28、0354-0.012112-1166.4244-0.2412-0.036274789.974-0.0323-0.035613-578.8757-0.1276-0.14942822558.0549-0.0234-0.0519141130.3866-0.05-0.157129-22968.6090-0.0107-0.0523151574.9984-0.0071-0.000730图2.5 自相关函数 图2.6 偏相关函数注:偏相关函数的计算是用SPSS软件来实现得到的。因为Excel中计算很繁琐,有一定的困难。设模型为 (2-6)需要估计的值,得出解如下: 代入(2-6)式,模型为 由特征方程可得:

29、 解此方程得特征根,由,则可判断此模型为平稳的模型。由表2.5得到43917126.35=43917126.35(1-1.07150.8502+0.26030.6507=11347654.49为了检验模型合理性,计算残差的自相关函数(如表2.5-2.6)。 表2.53135.4535173565.68152283.62551282.05894-79.222018-1086.63033166.2708-4252.89875126.9926-120.1450247.141319-3128.9569-2092.4713-1036.48416227.6211156.694170.929920-3803

30、.9128-3069.8275-734.08927594.5258210.8399383.684721-3855.3201-3261.4251-593.89178528.7978577.7847-48.987522-1534.8309-3140.81701605.99019-613.8550411.8517-1025.7092232054.3562-641.03152695.388710429.1792-795.39171224.570124-1468.15552600.7592-4068.9185111071.3997619.6519451.751525-2240.8510-2107.877

31、5-132.968612-1166.42441036.2894-2202.7186261224.3654-2018.91093243.277013-578.8757-1528.7091949.8383274789.97401895.20112894.7680141130.3866-316.64501447.03232822558.05494813.754817744.2973151574.99841361.8906213.108329-22968.609022924.1256-45892.7339162513.85681393.37121120.481830-30482.7263根据残差分析检

32、验方法,由,取,构造统计量: 计算, 由,得到结果见表2.5-2.6。表2.61-0.29940.08972-0.04190.00183-0.06140.00384-0.03010.000950.08690.00756-0.02920.0009则可得0.1045,查分布表,当时,因为,我们可认为为白噪声序列,所以所建的模型是合适的。由序列的预测公式:当时,于是,根据公式(2-4)、(2-5), 预测值 那么,由(2-1)、(2-3),2007年的国内生产总值预测值为: (亿元)用该模型预测所得的值见表2.7,图2.6为新的预测值拟合图。表2.7 (数据来源:中国统计年鉴2006)年份国内生产总

33、值指数拟合预测值残差序列残差序列2次差分残差差分零均值化残差预测值最终预测值误差19783624.103276.88347.2219794038.203810.82227.3819804517.804431.7586.05-21.49135.4519814862.405153.86-291.46-236.18-79.2219825294.705993.62-698.92-29.96126.99-946.065047.56247.1419835934.506970.22-1035.7270.67227.62-1106.655863.5770.9319847171.008105.95-934.95

34、437.57594.53-1318.636787.32383.6819858964.409426.73-462.33371.85528.80-413.349013.39-48.99198610202.2010962.72-760.52-770.81-613.85265.1911227.91-1025.71198711962.5012748.98-786.48272.23429.18-2011.0510737.931224.57198814928.3014826.29102.01914.451071.40-349.7414476.55451.75198916909.2017242.09-332.

35、89-1323.38-1166.421869.8319111.92-2202.72199018547.9020051.50-1503.60-735.83-578.88-2453.4417598.06949.84199121617.8023318.69-1700.89973.431130.39-3147.9220170.771447.03199226638.1027118.23-480.131418.041575.00-693.2426424.99213.11199334634.4031536.873097.532356.902513.861977.0533513.921120.48199446

36、759.4036675.4710083.933408.733565.688801.8745477.341282.06199558478.1042651.3615826.74-1243.58-1086.6320079.6462731.00-4252.90199667884.6049600.9618283.64-3285.91-3128.9619320.1268921.08-1036.48199774462.6057682.9316779.67-3960.86-3803.9117513.7675196.69-734.09199878345.2067081.7611263.44-4012.27-38

37、55.3211857.3378939.09-593.89199982067.4678012.044055.42-1691.78-1534.832449.4380461.471605.99200089468.1090723.30-1255.201897.402054.36-3950.5986772.712695.39200197314.80105505.73-8190.93-1625.10-1468.16-4122.01101383.72-4068.922002105172.34122696.79-17524.45-2397.80-2240.85-17391.48105305.31-132.97

38、2003116898.40142688.97-25790.571067.411224.37-29033.85113655.123243.282004136515.00165938.67-29423.674633.024789.97-32318.44133620.232894.772005182321.00192976.66-10655.6622401.1022558.05-28399.96164576.7017744.302006209407.00224420.21-15013.21-23125.56-22968.6130879.52255299.73-45892.732007260987.1

39、7-50010.44210976.73图2.6 历年国内生产总值预测的时间序列图对比图2.6与图2.1,显然本模型对原始数据拟合得更好。比较指数曲线拟合的误差和非平稳模型的误差如下表2.8。表2.8MADMSE模型6792.92116419341.8模型3822.55100005474.84对比所得的均方差,模型的值虽有明显减小,但数值仍然很大,模型应该还有改进的余地,这牵涉到序列中异常数据的处理等相关理论知识,由于时间有限,还没有做出深入的研究。3 总结 时间序列预测方法应用广泛,比起其他分析方法具有其自身的优越性: (1)很容易收集数据,时间序列的分析仅仅依赖需要预测变量的过去序列值;(2)确定性时序分析刻画序列的主要趋势,直观简单、便于计算,结合随机时序分析法能反映实际的变化规律。 (3)随机时序分析能揭示出变量的非线性特征,这是回归分析或其他数学模型不容易到的; 在数据处理方面,利用功能强大的Excel电子表格(除特殊说明外)来进行计算和分析,程序简单明确,公式一目了然,节约了预测所发生的费用,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号