《数据分析方法及应用abc.ppt》由会员分享,可在线阅读,更多相关《数据分析方法及应用abc.ppt(165页珍藏版)》请在三一办公上搜索。
1、2023/3/4,数据分析方法及应用第十二章,吴建军Email:YF408Tel:51683970,2023/3/4,第十二章 平稳时间序列分析,2023/3/4,本章结构,12.1 方法性工具 12.2 ARMA模型 12.3 平稳序列建模12.4 序列预测,2023/3/4,12.1 方法性工具,差分运算延迟算子线性差分方程,2023/3/4,差分运算,一阶差分 阶差分 步差分,2023/3/4,延迟算子,延迟算子类似于一个时间指针,当前序列值乘以一个延迟算子,就相当于把当前序列值的时间向过去拨了一个时刻 记B为延迟算子,有,2023/3/4,延迟算子的性质,,其中,2023/3/4,用延
2、迟算子表示差分运算,阶差分 步差分,2023/3/4,线性差分方程,线性差分方程齐次线性差分方程,10,对于非齐次线性差分方程解的问题,通常分下下列两个步骤进行:首先求出对应齐次线性差分方程的通解,然后再求出该非齐次线性差分方程的一个特解,即 满足:则非齐次线性差分方程 的解为对应齐次线性差分方程的解 和该非齐次线性差分方程的一个特解 之和,即,2023/3/4,齐次线性差分方程的解,特征方程特征方程的根称为特征根,记作齐次线性差分方程的通解不相等实数根场合有相等实根场合复根场合,2023/3/4,非齐次线性差分方程的解,非齐次线性差分方程的特解使得非齐次线性差分方程成立的任意一个解非齐次线性
3、差分方程的通解齐次线性差分方程的通解和非齐次线性差分方程的特解之和,2023/3/4,12.2 ARMA模型的定义,ARMA模型全称为自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出的一著名时间序列预测方法,所以又称为box-jenkins模型、博克思-詹金斯法。其中ARMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。,2023/3/4,12.2 ARMA
4、模型的基本思想,ARMA模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。现代统计方法、计量经济模型在某种程度上已经能够帮助企业对未来进行预测。,http:/,2023/3/4,12.2 ARMA模型的性质,AR模型(Auto Regression Model)MA模型(Moving Average Model)ARMA模型(Auto Regression Moving Average model),2023/3/4,AR模型是一种线性预测,即已知N个数据,可由模型推出第
5、N点前面或后面的数据(设推出P点),所以其本质类似于插值,其目的都是为了增加有效数据,只是AR模型是由N点递推,而插值是由两点(或少数几点)去推导多点,所以AR模型要比插值方法效果更好。,AR模型,2023/3/4,AR模型的定义,具有如下结构的模型称为 阶自回归模型,简记为特别当 时,称为中心化 模型,2023/3/4,AR(P)序列中心化变换,称 为 的中心化序列,令,2023/3/4,自回归系数多项式,引进延迟算子,中心化 模型又可以简记为 自回归系数多项式,2023/3/4,AR模型平稳性判别,判别原因AR模型是常用的平稳序列的拟合模型之一,但并非所有的AR模型都是平稳的 判别方法单位
6、根判别法平稳域判别法,2023/3/4,例12.1:考察如下四个模型的平稳性,2023/3/4,例12.1平稳序列时序图,2023/3/4,例12.1非平稳序列时序图,2023/3/4,AR模型平稳性判别方法,特征根判别AR(p)模型平稳的充要条件是它的p个特征根都在单位圆内根据特征根和自回归系数多项式的根成倒数的性质,等价判别条件是该模型的自回归系数多项式的根都在单位圆外平稳域判别 平稳域,2023/3/4,AR(1)模型平稳条件,特征根平稳域,2023/3/4,AR(2)模型平稳条件,特征根,平稳域,2023/3/4,例12.1平稳性判别,2023/3/4,平稳AR模型的统计性质,均值方差
7、协方差自相关系数偏自相关系数,2023/3/4,均值,如果AR(p)模型满足平稳性条件,则有根据平稳序列均值为常数,且 为白噪声序列,有推导出,2023/3/4,Green函数定义,AR模型的传递形式其中系数 称为Green函数,2023/3/4,Green函数递推公式,原理方法待定系数法递推公式,2023/3/4,方差,平稳AR模型的传递形式两边求方差得,2023/3/4,例12.2:求平稳AR(1)模型的方差,平稳AR(1)模型的传递形式为Green函数为平稳AR(1)模型的方差,2023/3/4,协方差函数,在平稳AR(p)模型两边同乘,再求期望根据得协方差函数的递推公式,2023/3/
8、4,例12.3:求平稳AR(1)模型的协方差,递推公式平稳AR(1)模型的方差为协方差函数的递推公式为,2023/3/4,例12.4:求平稳AR(2)模型的协方差,平稳AR(2)模型的协方差函数递推公式为,2023/3/4,自相关系数,自相关系数的定义平稳AR(P)模型的自相关系数递推公式,2023/3/4,常用AR模型自相关系数递推公式,AR(1)模型AR(2)模型,2023/3/4,AR模型自相关系数的性质,拖尾性呈复指数衰减,2023/3/4,例12.5:考察如下AR模型的自相关图,2023/3/4,例12.5,自相关系数按复指数单调收敛到零,2023/3/4,例12.5:,2023/3
9、/4,例12.5:,自相关系数呈现出“伪周期”性,2023/3/4,例12.5:,自相关系数不规则衰减,2023/3/4,偏自相关系数,定义 对于平稳AR(p)序列,所谓滞后k偏自相关系数就是指在给定中间k-1个随机变量 的条件下,或者说,在剔除了中间k-1个随机变量的干扰之后,对 影响的相关度量。用数学语言描述就是,2023/3/4,偏自相关系数的计算,滞后k偏自相关系数实际上就等于k阶自回归模型第个k回归系数的值。,2023/3/4,AR模型偏自相关系数的计算,2023/3/4,AR(1)偏自相关系数的计算,2023/3/4,AR(2)偏自相关系数的计算,2023/3/4,AR(2)偏自相
10、关系数的计算,2023/3/4,偏自相关系数的截尾性,AR(p)模型偏自相关系数P阶截尾,2023/3/4,例12.5续:考察如下AR模型的偏自相关图,2023/3/4,例12.5,理论偏自相关系数,样本偏自相关图,2023/3/4,例12.5:,理论偏自相关系数,样本偏自相关图,2023/3/4,例12.5:,理论偏自相关系数,样本偏自相关图,2023/3/4,例12.5:,理论偏自相关系数,样本偏自相关系数图,例3.2 设AR(2)模型:试判别 的平稳性。解:根据上述关于平稳条件的讨论,可以通过两种径进行讨论:,2023/3/4,MA模型的定义,具有如下结构的模型称为 阶自回归模型,简记为
11、特别当 时,称为中心化 模型,2023/3/4,移动平均系数多项式,引进延迟算子,中心化 模型又可以简记为 阶移动平均系数多项式,2023/3/4,MA模型的统计性质,常数均值常数方差,2023/3/4,MA模型的统计性质,自协方差函数P阶拖尾,自相关系数P阶截尾,2023/3/4,常用MA模型的自相关系数,MA(1)模型,MA(2)模型,2023/3/4,MA模型的统计性质,偏自相关系数拖尾,2023/3/4,例12.6:考察如下MA模型的相关性质,2023/3/4,MA模型的自相关系数截尾,2023/3/4,MA模型的自相关系数截尾,2023/3/4,MA模型的偏自相关系数拖尾,2023/
12、3/4,MA模型的偏自相关系数拖尾,2023/3/4,MA模型的可逆性,MA模型自相关系数的不唯一性例12.6中不同的MA模型具有完全相同的自相关系数和偏自相关系数,2023/3/4,可逆的定义,可逆MA模型定义若一个MA模型能够表示称为收敛的AR模型形式,那么该MA模型称为可逆MA模型可逆概念的重要性一个自相关系数唯一对应一个可逆MA模型。,2023/3/4,可逆MA(1)模型,2023/3/4,MA模型的可逆条件,MA(q)模型的可逆条件是:MA(q)模型的特征根都在单位圆内等价条件是移动平滑系数多项式的根都在单位圆外MA(q)模型的可逆概念和AR(p)模型的平稳概念是完全对偶的概念,20
13、23/3/4,逆函数的递推公式,原理方法待定系数法递推公式,2023/3/4,例12.6续:考察如下MA模型的可逆性,2023/3/4,(1)(2),逆函数逆转形式,2023/3/4,(3)(4),逆函数逆转形式,2023/3/4,ARMA模型的定义,具有如下结构的模型称为自回归移动平均模型,简记为特别当 时,称为中心化 模型,2023/3/4,系数多项式,引进延迟算子,中心化 模型又可以简记为 阶自回归系数多项式 阶移动平均系数多项式,2023/3/4,平稳条件与可逆条件,ARMA(p,q)模型的平稳条件P阶自回归系数多项式 的根都在单位圆外即ARMA(p,q)模型的平稳性完全由其自回归部分
14、的平稳性决定ARMA(p,q)模型的可逆条件q阶移动平均系数多项式 的根都在单位圆外即ARMA(p,q)模型的可逆性完全由其移动平滑部分的可逆性决定,2023/3/4,传递形式与逆转形式,传递形式,逆转形式,2023/3/4,ARMA(p,q)模型的统计性质,均值协方差自相关系数,2023/3/4,ARMA模型的相关性,自相关系数拖尾偏自相关系数拖尾,2023/3/4,例12.7:考察ARMA模型的相关性,拟合模型ARMA(1,1):并直观地考察该模型自相关系数和偏自相关系数的性质。,2023/3/4,自相关系数和偏自相关系数拖尾性,样本自相关图,样本偏自相关图,2023/3/4,ARMA模型
15、相关性特征,2023/3/4,12.3平稳序列建模,建模步骤模型识别参数估计模型检验模型优化序列预测,2023/3/4,建模步骤,平稳非白噪声序列,计算样本相关系数,模型识别,参数估计,模型检验,模型优化,序列预测,Y,N,2023/3/4,计算样本相关系数,样本自相关系数,样本偏自相关系数,2023/3/4,模型识别,基本原则,2023/3/4,模型定阶的困难,因为由于样本的随机性,样本的相关系数不会呈现出理论截尾的完美情况,本应截尾的 或 仍会呈现出小值振荡的情况由于平稳时间序列通常都具有短期相关性,随着延迟阶数,与 都会衰减至零值附近作小值波动当 或 在延迟若干阶之后衰减为小值波动时,什
16、么情况下该看作为相关系数截尾,什么情况下该看作为相关系数在延迟若干阶之后正常衰减到零值附近作拖尾波动呢?,2023/3/4,样本相关系数的近似分布,BarlettQuenouille,2023/3/4,模型定阶经验方法,95的置信区间模型定阶的经验方法如果样本(偏)自相关系数在最初的d阶明显大于两倍标准差范围,而后几乎95的自相关系数都落在2倍标准差的范围以内,而且通常由非零自相关系数衰减为小值波动的过程非常突然。这时,通常视为(偏)自相关系数截尾。截尾阶数为d。,2023/3/4,例11.5续,选择合适的模型ARMA拟合1950年1998年北京市城乡居民定期储蓄比例序列。,2023/3/4,
17、序列自相关图,2023/3/4,序列偏自相关图,2023/3/4,拟合模型识别,自相关图显示延迟3阶之后,自相关系数全部衰减到2倍标准差范围内波动,这表明序列明显地短期相关。但序列由显著非零的相关系数衰减为小值波动的过程相当连续,相当缓慢,该自相关系数可视为不截尾 偏自相关图显示除了延迟1阶的偏自相关系数显著大于2倍标准差之外,其它的偏自相关系数都在2倍标准差范围内作小值随机波动,而且由非零相关系数衰减为小值波动的过程非常突然,所以该偏自相关系数可视为一阶截尾 所以可以考虑拟合模型为AR(1),2023/3/4,例12.8,美国科罗拉多州某一加油站连续57天的OVERSHORT序列,2023/
18、3/4,序列自相关图,2023/3/4,序列偏自相关图,2023/3/4,拟合模型识别,自相关图显示除了延迟1阶的自相关系数在2倍标准差范围之外,其它阶数的自相关系数都在2倍标准差范围内波动。根据这个特点可以判断该序列具有短期相关性,进一步确定序列平稳。同时,可以认为该序列自相关系数1阶截尾偏自相关系数显示出典型非截尾的性质。综合该序列自相关系数和偏自相关系数的性质,为拟合模型定阶为MA(1),2023/3/4,例12.9,1880-1985全球气表平均温度改变值差分序列,2023/3/4,序列自相关图,2023/3/4,序列偏自相关图,2023/3/4,拟合模型识别,自相关系数显示出不截尾的
19、性质偏自相关系数也显示出不截尾的性质综合该序列自相关系数和偏自相关系数的性质,可以尝试使用ARMA(1,1)模型拟合该序列,2023/3/4,参数估计,待估参数 个未知参数常用估计方法矩估计极大似然估计最小二乘估计,2023/3/4,矩估计,原理样本自相关系数估计总体自相关系数样本一阶均值估计总体均值,样本方差估计总体方差,2023/3/4,例12.10:求AR(2)模型系数的矩估计,AR(2)模型Yule-Walker方程矩估计(Yule-Walker方程的解),2023/3/4,例12.11:求MA(1)模型系数的矩估计,MA(1)模型方程矩估计,2023/3/4,例12.12:求ARMA
20、(1,1)模型系数的矩估计,ARMA(1,1)模型方程矩估计,2023/3/4,对矩估计的评价,优点估计思想简单直观不需要假设总体分布计算量小(低阶模型场合)缺点信息浪费严重只用到了p+q个样本自相关系数信息,其他信息都被忽略估计精度差通常矩估计方法被用作极大似然估计和最小二乘估计迭代计算的初始值,2023/3/4,极大似然估计,原理在极大似然准则下,认为样本来自使该样本出现概率最大的总体。因此未知参数的极大似然估计就是使得似然函数(即联合密度函数)达到最大的参数值,2023/3/4,似然方程,由于 和 都不是 的显式表达式。因而似然方程组实际上是由p+q+1个超越方程构成,通常需要经过复杂的
21、迭代算法才能求出未知参数的极大似然估计值,2023/3/4,对极大似然估计的评价,优点极大似然估计充分应用了每一个观察值所提供的信息,因而它的估计精度高同时还具有估计的一致性、渐近正态性和渐近有效性等许多优良的统计性质缺点需要假定总体分布,2023/3/4,最小二乘估计,原理使残差平方和达到最小的那组参数值即为最小二乘估计值,2023/3/4,条件最小二乘估计,实际中最常用的参数估计方法假设条件残差平方和方程解法迭代法,2023/3/4,对最小二乘估计的评价,优点最小二乘估计充分应用了每一个观察值所提供的信息,因而它的估计精度高条件最小二乘估计方法使用率最高缺点需要假定总体分布,2023/3/
22、4,例11.5续,确定1950年1998年北京市城乡居民定期储蓄比例序列拟合模型的口径 拟合模型:AR(1)估计方法:极大似然估计模型口径,2023/3/4,例12.8续,确定美国科罗拉多州某一加油站连续57天的OVERSHORTS序列拟合模型的口径 拟合模型:MA(1)估计方法:条件最小二乘估计模型口径,2023/3/4,例12.9续,确定1880-1985全球气表平均温度改变值差分序列拟合模型的口径 拟合模型:ARMA(1,1)估计方法:条件最小二乘估计模型口径,2023/3/4,模型检验,模型的显著性检验整个模型对信息的提取是否充分参数的显著性检验模型结构是否最简,2023/3/4,模型
23、的显著性检验,目的检验模型的有效性(对信息的提取是否充分)检验对象残差序列判定原则一个好的拟合模型应该能够提取观察值序列中几乎所有的样本相关信息,即残差序列应该为白噪声序列 反之,如果残差序列为非白噪声序列,那就意味着残差序列中还残留着相关信息未被提取,这就说明拟合模型不够有效,2023/3/4,假设条件,原假设:残差序列为白噪声序列备择假设:残差序列为非白噪声序列,2023/3/4,检验统计量,LB统计量,2023/3/4,例11.5续,检验1950年1998年北京市城乡居民定期储蓄比例序列拟合模型的显著性 残差白噪声序列检验结果,2023/3/4,参数显著性检验,目的检验每一个未知参数是否
24、显著非零。删除不显著参数使模型结构最精简 假设条件检验统计量,2023/3/4,例11.5续,检验1950年1998年北京市城乡居民定期储蓄比例序列极大似然估计模型的参数是否显著 参数检验结果,2023/3/4,例12.8续:对OVERSHORTS序列的拟合模型进行检验,残差白噪声检验参数显著性检验,2023/3/4,例12.9续:对1880-1985全球气表平均温度改变值差分序列拟合模型进行检验,残差白噪声检验参数显著性检验,2023/3/4,模型优化,问题提出当一个拟合模型通过了检验,说明在一定的置信水平下,该模型能有效地拟合观察值序列的波动,但这种有效模型并不是唯一的。优化的目的选择相对
25、最优模型,2023/3/4,例12.13:拟合某一化学序列,2023/3/4,序列自相关图,2023/3/4,序列偏自相关图,2023/3/4,拟合模型一,根据自相关系数2阶截尾,拟合MA(2)模型参数估计模型检验模型显著有效 三参数均显著,2023/3/4,拟合模型二,根据偏自相关系数1阶截尾,拟合MA(1)模型参数估计模型检验模型显著有效 两参数均显著,2023/3/4,问题,同一个序列可以构造两个拟合模型,两个模型都显著有效,那么到底该选择哪个模型用于统计推断呢?解决办法确定适当的比较准则,构造适当的统计量,确定相对最优,2023/3/4,AIC准则,最小信息量准则(An Informa
26、tion Criterion)指导思想似然函数值越大越好 未知参数的个数越少越好 AIC统计量,2023/3/4,SBC准则,AIC准则的缺陷在样本容量趋于无穷大时,由AIC准则选择的模型不收敛于真实模型,它通常比真实模型所含的未知参数个数要多 SBC统计量,2023/3/4,例12.13续,用AIC准则和SBC准则评判例12.13中两个拟合模型的相对优劣 结果AR(1)优于MA(2),2023/3/4,序列预测,线性预测函数预测方差最小原则,2023/3/4,序列分解,预测误差,预测值,2023/3/4,误差分析,估计误差期望方差,2023/3/4,AR(p)序列的预测,预测值预测方差95置
27、信区间,2023/3/4,例12.14,已知某超市月销售额近似服从AR(2)模型(单位:万元/每月)今年第一季度该超市月销售额分别为:101,96,97.2万元请确定该超市第二季度每月销售额的95的置信区间,2023/3/4,例12.14解:预测值计算,四月份五月份六月份,2023/3/4,例12.14解:预测方差的计算,GREEN函数方差,2023/3/4,例12.14解:置信区间,公式估计结果,2023/3/4,例11.5:北京市城乡居民定期储蓄比例序列拟合与预测图,2023/3/4,MA(q)序列的预测,预测值预测方差,2023/3/4,例12.15,已知某地区每年常驻人口数量近似服从M
28、A(3)模型(单位:万):最近3年的常驻人口数量及一步预测数量如下:预测未来5年该地区常住人口的95置信区间,2023/3/4,例12.15解:随机扰动项的计算,2023/3/4,例12.15解:估计值的计算,2023/3/4,例12.15解:预测方差的计算,2023/3/4,例12.15解:置信区间的计算,2023/3/4,ARMA(p,q)序列预测,预测值预测方差,2023/3/4,例12.16,已知模型为:且 预测未来3期序列值的95的置信区间。,2023/3/4,例12.16解:估计值的计算,2023/3/4,例12.16解:预测方差的计算,Green函数方差,2023/3/4,例12
29、.16解:置信区间的计算,2023/3/4,修正预测,定义所谓的修正预测就是研究如何利用新的信息去获得精度更高的预测值 方法在新的信息量比较大时把新信息加入到旧的信息中,重新拟合模型 在新的信息量很小时不重新拟合模型,只是将新的信息加入以修正预测值,提高预测精度,2023/3/4,修正预测原理,在旧信息的基础上,的预测值为假设新获得一个观察值,则 的修正预测值为修正预测误差为预测方差为,2023/3/4,一般情况,假设新获得p个观察值,则 的修正预测值为修正预测误差为预测方差为,2023/3/4,例12.14续:假如四月份的真实销售额为100万元,求二季度后两个月销售额的修正预测值,计算四月份的预测误差计算修正预测值计算修正方差,2023/3/4,修正置信区间,2023/3/4,谢谢!,