《应用时间序列分位数回归.docx》由会员分享,可在线阅读,更多相关《应用时间序列分位数回归.docx(22页珍藏版)》请在三一办公上搜索。
1、目录一、为什么需要分位数回归二、总体分位数三、样本分位数四、分位数回归的估计方法五、分位数回归模型的估计六、R软件操作分位数回归一、为什么需要分位数回归?1、一般的回归模型着重考察x对y的条件期望E(y|x)的影响,如 果y|x不是对称分布,则E(y|x)难以反映条件分布的全貌。如果能够 估计条件分布y|x的若干重要的条件分位数,比如中位数等,能够更 加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变 量的条件期望(均值)。不同分位数下的回归系数估计量常常不同, 即解释变量对不同水平被解释变量的影响不同。2、使用OLS进行“均值回归”,由于最小化的目标函数为残差平 方和,容易受极端值
2、影响。“分位数回归”,使用残差绝对值的加权平 均作为最小化的目标函数,不易受极端值影响。而且,分位数回归对 误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数 回归系数估计量则更加稳健。二、总体分位数假设Y为连续型随机变量,其累积分布函数为Fy()。Y的“总体q 分位数”,记为yq,满足以下定义式:q=P (YWyq)=Fy(yq)总体q分位数正好将总体分布分为两部分,其中小于或等于yq的 概率为q,而大于yq的概率为(l-q)o如果q=l/2,则为中位数,正好将总体分为两个相等的部分。如果Fy()严格单调递增,则有yq=Fy1 (q)对于回归模型,记条件分布y |x的累积分布函数为
3、Fy|x()。条件分布y|x的总体q分位数,记为yq,满足以下定义式:q二 f y | x M)假设F y | x ()严格单调递增,则有Vq=Fy|X(q)由于条件累积分布函数F y|X ()依赖于x ,故条件分布y | x的总 体q分位数yq也依赖于x,记为yq(x),称为“条件分位数函数”。对于线性回归模型,如果扰动项满足同方差的假定,或扰动项的 异方差形式为乘积形式,则yq (x)是x的线性函数。证明如下:y=x,P + uu=x a eiid(O, 0 2)不失一般性,假设/ a 0o如果x为常数,则扰动项u为同方差;反之,则为乘积形式的 异方差。根据定义,条件分位数函数yq(x)满
4、足q=P 3Wyq(x)(条件分位数的定义)=P x B + uWyq (x)=P uWyq (x) - x,B =P x a e Wyq (x)-x B =P e W(yq(x)-x璀)/(x )=Ff(yq(x)-x)/( x,a)其中,FJ)为e的累积分布函数。因此,(yq(x)-x6)/(xa)=FL(q)yq(x)= x?p+ x,a*F/1(q),故 yq (x)是 x 的线性函数。在同方差的情况下,x,a为常数,所有条件分位数函数yq(x),Oq 史条件的观测值只得到1/4的权 重,而满足“ 广 条件的其余观测值则得到3/4的权重。因为估计的是1/4分位数(位于总体的底部),故较
5、大的观测值得到 的权重较小,而较小的观测值得到的权重较大。证明:将目标函数中的绝对值去掉可得min Z命斗 q(H P)+ 富”(1 q)(p 一 yd对U求一阶导数可得Zunq(-1)+(1 - q) = 0假设y(k) p. fitl = rqCfoodexp income, tau = 0.5, data = engel fmethod=,br)#进行分位数回归 fitl #直接显示分位数回归的模型和系数Call:rq(formula = foodexp income, tau = 0.5, data = engel, method = ,fb r)Coefficients: (Inte
6、rcept) income81.4822474 0.5601806Degrees of freedom: 235 total; 233 residual说明:以食物支IB (foodexp)为因变量及家庭收A(income)为自变量 拟合中位数回归模型,得到的常数项系数为81.48,自变量系数为0.56o 由此可知即使家庭没有收入来源,这个家庭也有食物支出81.48o家 庭收入每变动1个单位,食物支出同向变动0.56个单位。运行结果: summary(fitl) #得到更加详细的显示结果Call: rq(formula = foodexp 1 ncome, tau = 0.5, data =
7、engel v metho d = nbrn)tau: 1 0.5Coefficients:coefficients lower bd upper bd(Intercept) 81.4822553.25915 114.01156income0.560180.48702 0.60199说明:summary函数这里分别给出了中位数回归常数项系数和自 变量系数的上下限,相当于给出了(1-a)%的置信区间。中位数到上下 限的距离并不相等,可以看出食物支出和家庭收入的分布是偏态的。运行结果: rl = residCfitl) #得到残差序列,并赋值为变量rl acf(rl) pacf(rl) Box t
8、est (rl, type=”Ljung-Box”)# 对残差进行 LB 检验Box-Ljung testdata: rlX-squared = 18.762, df = lf p-value = 1.481e-05Series r1LagSeries r1LLOV 230.说明:通过rl = resid(fitl)命令得到中位数回归模型的残差,然后 对其画自相关图和偏自相关图,来直观的观察残差是否是白噪声序列。 根据自相关图可以看出,存在一阶自相关,其余的相关系数大部分在 两倍标准差以内。再观察偏自相关图的值,也存在一阶偏自相关,其 他滞后项大多都在两倍标准差以内,得出可能不是白噪声序列。下
9、面 进行LB统计量的检验,给出统计学的证据。LB统计量的原假设Ho: P1=P2=.二Pm,得到的P值=1.481e-05 summaryCfitip se = ,nidD #通过设置参数se,可以得到系数的假设检验Call: rq(formula = foodexp 1 ncome, tau = 0.5, data = engel, metho d = nbrn)tau: 1 0.5Coefficients:Value Std. Error t value Pr(l11)(Intercept) 81.48225 19.250664.23270 0.00003income 0.56018 0.
10、0282819.81032 0.00000说明:进行系数的显著性检验。由于残差项不是白噪声序列A.se=“rank”和B. se= iid”并不适用。选择C. se = nid” :表示按照 Huber方法逼近得到的估计量。Ho:系数与零没有显示出差异。由上 式结果知,常数项的P值为0.000030.05拒绝原假设,说明系数是显 著的;自变量的P值为0.00000F)1 2703 15.557 2.449e-07 *Sigrrif, codes: 0 * 0.001 * 0.010.05 0.l 1说明:对三个不同分位点的回归模型进行方差分析。原假设H。: 三个回归模型拟合的值没有显著性差异。
11、P值=2.449e-07 summary Clm(foodexp income)Call:Imfformula = foodexp income)Residuals:Min IQ Median 3Q Max-725.70 -60.24 -4.3253.41 515.77Coefficients:Estimate Std. Error t value Pr(|t|) (intercept) 147.47539 15.95708 9.242 2e-16 * income 0.485180.01437 33.7722e-16 *Signif. codes: 0 * 0.001 * 0.010.05
12、J 0.1 4 1Residual standard error: 114.1 on 233 degrees of freedom Multiple R-squared: 0.8304, Adjusted R-squared: 0.8296 F-statiStic: 1141 on 1 and 233 DF, p-value: 2.2e-16说明:对因变量食品支出和自变量家庭收入的线性最小二乘回归, y=147. 47539+0. 48518x,系数的显著性水平如是非常显著的,其 中调整的R方是0.8296; F统计量的值为:LL40, p值2.2e-16, 说明方程模拟的很好。由于R软件找不
13、到关于分位数回归的评价检验,如拟合优度、F 统计量。所以转为用Eviews来进行分位数回归的拟合。先来看看 Ev-iews拟合均值回归模型的一些输出结果。Dependent Variable: YMethod: Least SquaresDate: 12/24/16 Time: 11:11Sample: 1 235Included observations: 235VariableCoefficientStd. Errort-StatisticProb.c147.475415.957089.2420050.0000X0.4851780.01436633.771790.0000R-squared
14、0.830365Mean dependent var624.1501Adjusted R-squared0.829637S.D. dependent var276.4570S.E. of regression114.1079Akaike info criterion12.32064Sum squared resid3033805.Schwarz criterion12.35008Log likelihood-1445.675Hannan-Quinn criter.12.33251F-statistic1140.534Durbin-Watson stat1.410754Prob(F-statis
15、tic)0.000000说明:用Eviews拟合的均值回归模型y=147. 4754+0. 485178X, 调整的R方是0. 829637; F统计量的值为1140. 534,p值为0. OOOOOOo 跟R软件计算出来的统计量的数值都是一一对应的。下面我们用 eviews来拟合分位数回归的模型。运行结果:eviews来拟合中位数回归的模型Dependent Variable: YMethod: Quantile Regression (Median)Date: 12/24/16 Time: 12:21Sample: 1 235Included observations: 235Huber
16、Sandwich Standard Errors & CovarianceSparsity method: Kernel (Epanechnikov) using residualsBandwidth method: Hall-Sheather, bw=0.15744Estimation successfully identifies unique optimal solutionVariableCoefficientStd. Errort-StatisticProb.C81.4823524.034943.3901620.0008X0.5601810.03137017.857070.0000P
17、seudo R-squared0.620556Mean dependent var624.1501Adjusted R-squared0.618927S.D.dependent var276.4570S.E. of regression120.8447Objective8779.966Quantile dependent var582.5413Restr. objective23139.03Sparsity209.3504Quasi-LR statistic548.7092说明:Pseudo R-squared 伪 R2 ; Adjusted R-squared 调整的伪 R2 ; S. E.
18、 of regression分位数回归式的标准误差;Quantile dependent var分位数回归式中只有常数项存在的系数估计值; Objective目标函数极小值;Objective分位数回归式中只有常数存 在的目标函数极小值;Sparsity分位数稀疏函数估计值;Quasi-LR statistic:准似然比估计量的值;Prob (QuasiLR stat)准似然比 估计量的值所对应的概率值。用Eviews拟合的中位数回归模型y。.5二81. 48235+0. 560181X;其调 整的R方为0.618927。运行结果:eviews来拟合0. 99分位数回归的模型Dependent
19、 Variable: YMethod: Quantile Regression (tau = 0.99)Date: 12/24/16 Time: 12:34Sample: 1 235Included observations: 235Huber Sandwich Standard Errors & CovarianceSparsity method: Kernel (Epanechnikov) using residualsBandwidth method: Hall-Sheather, bw=0.011378Estimation successfully identifies unique
20、optimal solutionBandwith too large in sandwich covariance estimationError in sandwich covariance estimationVariableCoefficientStd. Errort-StatisticProb.C95.81828NANANAX0.703865NANANAPseudo R-squaredAdjusted R-squared0.8301670.829438Mean dependent varS.D. dependent var624.1501276.4570S.E. of regression229.8502Objective499.7792Quantile dependent var1570.391Restr. objective2942.763说明:用Eviews拟合的0.99分位数回归模y。.99=95. 81828+0. 703865x;其调整的 R 方为 0. 829438。综合以上三个表格,可以看出,中位数回归模型的R方比较小, 说明模型没有拟合的很好,而均值回归模型和0.99分位数回归模型 的R方比较接近,造成这种结果可能是偏态分布的原因;相比于0. 99 分位数回归模型,中位数回归模型标准误差较小,以及准似然比估计 量的值也是相对较小的。