其他回归方法.ppt_三一办公31ppt.com

资源描述

《其他回归方法.ppt》由会员分享，可在线阅读，更多相关《其他回归方法.ppt（78页珍藏版）》请在三一办公上搜索。

1、第四章其他回归方法,本章讨论加权最小二乘估计，异方差性和自相关一致协方差估计，两阶段最小二乘估计（TSLS），非线性最小二乘估计、广义矩估计（GMM）、多项式分布滞后模型、逐步最小二乘回归、分位数回归和非参数回归。这里的大多数方法在第十二章的联立方程系统中也适用。本章中某些估计方法中含有AR和MA误差项，这些概念将在第五章中深入介绍。,线性回归模型的基本假设,i=1,2,N,在普通最小二乘法中，为保证参数估计量具有良好的性质，通常对模型提出若干基本假设：1解释变量之间互不相关；2随机误差项具有0均值和同方差。即,i=1,2,N,即随机误差项的方差是与观测时点 i 无关的常数；3不同时点的随机

2、误差项互不相关（序列不相关），即,s 0,i=1,2,N,当随机误差项满足假定1 4时，将回归模型”称为“标准回归模型”，当随机误差项满足假定1 5时，将回归模型称为“标准正态回归模型”。如果实际模型满足不了这些假定，普通最小二乘法就不再适用，而要发展其他方法来估计模型。,5随机误差项服从0均值、同方差的正态分布。即,i=1,2,N,4随机误差项与解释变量之间互不相关。即,j=1,2,k,i=1,2,N,古典线性回归模型的一个重要假设是总体回归方程的随机扰动项 ui 同方差，即他们具有相同的方差 2。如果随机扰动项的方差随观测值不同而异，即ui 的方差为i2，就是异方差。用符号表示异方差为E(

3、ui2)=i2。异方差性在许多应用中都存在，但主要出现在截面数据分析中。例如我们调查不同规模公司的利润，会发现大公司的利润变化幅度要比小公司的利润变化幅度大，即大公司利润的方差比小公司利润的方差大。利润方差的大小取决于公司的规模、产业特点、研究开发支出多少等因素。又如在分析家庭支出模式时，我们会发现高收入家庭通常比低收入家庭对某些商品的支出有更大的方差。,4.1 异方差,表1 中国1998年各地区城镇居民平均每人全年家庭可支配收入及交通和通讯支出单位：元,例4.1：我们研究人均家庭交通及通讯支出(cum)和可支配收入(in)的关系，考虑如下方程：cumi=0+1ini+ui 利用普通最小二乘

4、法，得到如下回归模型：cumi=-56.917+0.05807ini(4.1.4)(-1.57)(8.96)R2=0.74 D.W.=2.008,从图形上可以看出，平均而言，城镇居民家庭交通和通讯支出随可支配收入的增加而增加。但是，值得注意的是：随着可支配收入的增加，交通和通讯支出的变动幅度也增大了，可能存在异方差。如果我们把回归方程中得到的残差对各个观测值作图，则可以清楚地看到这一点。异方差的存在并不破坏普通最小二乘法的无偏性，但是估计量却不是有效的，即使对大样本也是如此，因为缺乏有效性，所以通常的假设检验值不可靠。若怀疑存在异方差或者已经检测到异方差的存在，则必须采取补救措施。否则，将影响

5、模型的所有检验、预测、和应用。,4.1.1 异方差检验 1.图示检验法(1)用X-Y的散点图进行判断观察是否存在明显的散点扩大、缩小或复杂型趋势（即不在一个固定的带型域中）,（2）X-i2的散点图进行判断,首先采用OLS方法估计模型，以求得随机误差项u的方差i2的估计量(注意，该估计量是不严格的)，我们称之为“近似估计量”，用 ei2 表示。于是有(4.1.5),即用 ei2 来表示随机误差项的方差。用解释变量x 和 ei2的散点图进行观察是否随着x增加，出现方差的逐渐增加、下降或者不规则变化。,2.White异方差性检验 White(1980)提出了对最小二乘回归中残差的异方差性的检验。

6、包括有交叉项和无交叉项两种检验。普通最小二乘估计虽然在存在异方差性时是一致的，但是通常计算的标准差不再有效。如果发现存在异方差性，利用加权最小二乘法可以获得更有效的估计。,检验统计量是通过利用解释变量所有可能的交叉乘积对残差进行回归来计算的。例如：假设估计如下方程(4.1.6)式中b是估计系数，i 是残差。检验统计量基于辅助回归：(4.1.7)EViews显示两个检验统计量：F统计量和 Obs*R2 统计量。White检验的原假设：不存在异方差性（也就是，式（4.1.7）中除0以外的所有系数都为0成立）。,White证明出：（4.1.8）其中：N是样本容量，k为自由度，等于式（4.1.7）中解

7、释变量个数（不包含截距项）。如果计算的2值大于给定显著性水平对应的临界值，则可以拒绝原假设，得出存在异方差的结论。也就是说，回归方程（4.1.7）的R2越大，说明残差平方受到解释变量影响越显著，也就越倾向于认为存在异方差。如果原模型中包含的解释变量较多，那么辅助回归中将包含太多的变量，这会迅速降低自由度。因此，在引入变量太多时，必须谨慎一些。White检验的另外一种形式，就是辅助回归中不包含交叉项。因此White检验有两个选项：交叉项和无交叉项。,例4.2：人均家庭交通及通讯支出(CUM)和可支配收入(IN)的回归方程的 White 异方差检验的结果：,该结果F 统计量和 Obs*R2 统计量

8、的P值均很小，表明拒绝原假设，即残差存在异方差性。,由于假设的异方差形式不同，使用的辅助回归也不同，导致了不同的检验方法。各不同方法的异方差形式和辅助回归方程：Breusch-Pagan-Godfrey(BPG)异方差检验方法，Harvey异方差检验，Glejser异方差检验，m=1，2，,4.1.2 加权最小二乘估计 1方差已知的情形考虑一个一元回归线性方程：（4.1.11）假设已知随机误差项的真实的方差，var(ui)=i2，则令wi=1/i，将模型两端同乘wi，变换为（4.1.12）令ui*=wiui，则（4.1.13）,因此，变换后的模型（4.1.12）不再存在异方差的问题，可以用O

9、LS估计。加权最小化残差平方和为：（4.1.14）由此获得的估计量就是权重序列为 wi的加权最小二乘估计量。,假设有已知形式的异方差性，并且有序列w，其值与误差标准差的倒数成比例。这时可以采用权数序列为w 的加权最小二乘估计来修正异方差性。对加权最小化残差平方和得到估计结果:,其中是k 1维向量。在矩阵概念下，令权数序列 w 在权数矩阵W的对角线上，其他地方是零，即W 矩阵是对角矩阵，y 和X是因变量和自变量矩阵。则加权最小二乘估计量为：（）,估计协方差矩阵为：（）,例4.3 加权最小二乘估计,本例考虑对由四组家庭住房支出和年收入组成的截面数据进行研究(表4.2)。假设住房支出模型为其中:

10、yi是住房支出，xi是收入。普通最小二乘估计得出如下回归结果：t=(4.4)(15.9)R2=0.93 F=252.7 对数据图形的研究及以前有关支出的研究结果都说明这个模型具有异方差现象。,对住房支出模型进行异方差修正，然后进行估计。变换后的模型为其结果为：t=(21.3)(7.7)R2=0.76 F=58.7 注意，修改后关于收入的回归系数的估计值为0.249，比原来普通最小二乘估计有所增加。R2下降，但是，并不能直接比较R2，因为因变量已经发生了变化。,使用加权最小二乘法，也可以得到：,2方差未知的情形由于一般不知道异方差的形式，人们通常采用的经验方法是，并不对原模型进行异方差检验，而

11、是直接选择加权最小二乘法，尤其是采用截面数据作样本时。如果确实存在异方差性，则被有效地消除了；如果不存在异方差性，则加权最小二乘法等价于普通最小二乘法。具体步骤是：1选择普通最小二乘法估计原模型，得到随机误差项的近似估计量 t；2建立 wi=1/|t|的权数序列；3选择加权最小二乘法，以 wi=1/|t|序列作为权，进行估计得到参数估计量。实际上是以 1/|t|乘原模型的两边，得到一个新模型，采用普通最小二乘法估计新模型。,使用加权最小二乘法估计方程，首先到主菜单中选Quick/Estimate Equation,然后选择LS-Least Squares(NLS and ARMA)。在对话框中

12、输入方程说明和样本，然后按Options钮,出现如下对话框：,单击Weighted LS/TSLS选项在Weighted 项后填写权数序列名，单击OK。例子：,例4.4：,EViews会打开结果窗口显示标准系数结果（如上图），包括加权统计量和未加权统计量。加权统计结果是用加权数据计算得到的：,未加权结果是基于原始数据计算的残差得到的：,估计后，未加权残差存放在RESID序列中。,如果残差方差假设正确，则加权残差不应具有异方差性。如果方差假设正确的话，未加权残差应具有异方差性，残差标准差的倒数在每个时刻 t 与 w 成比例。检验加权残差的异方差性：,可以看到加权最小二乘法消除了残差的异方差性。,

13、4.2 二阶段最小二乘法,回归分析的一个基本假设是方程的解释变量与扰动项不相关。但是，由于解释变量测量误差的存在，用于估计模型参数的数据经常与它们的理论值不一致；或者由于遗漏了变量，使得随机误差项中含有可能与解释变量相关的变量，这些都可能导致解释变量与扰动项的相关。出现这种问题时，OLS和WLS估计量都有偏差且不一致，因而要采用其他方法估计。最常用的估计方法是二阶段最小二乘法。,考虑多元线性回归模型的矩阵形式（4.2.1）其中：y 和 X 是因变量和解释变量数据矩阵，是系数向量。为简化起见，我们称与残差相关的变量为内生变量，与残差不相关的变量为外生变量或前定变量。解决方程右边解释变量与残差相关

14、的方法是使用工具变量回归。就是要找到一组变量满足下面两个条件：（1）与方程解释变量相关；（2）与扰动项不相关；,选择 zi=(z1i,z2i,zki)作为工具变量，它与解释变量相关，但与扰动项不相关，即（4.2.2）这些变量就可成为工具变量。用这些工具变量来消除右边解释变量与扰动项之间的相关性。,二阶段最小二乘方法（two stage least square，TSLS）本质上属于工具变量法，它包括两个阶段：第一个阶段，找到一组工具变量，模型中每个解释变量分别关于这组变量作最小二乘回归；第二个阶段，所有变量用第一个阶段回归得到的拟合值来代替，对原方程进行回归，这样求得的回归系数就是TSLS估计

15、值。可以证明二阶段最小二乘估计量是一致估计量。,不必担心TSLS估计中分离的阶段，因为EViews会使用工具变量技术同时估计两个阶段。令 Z 为工具变量矩阵，y 和 X 是因变量和解释变量矩阵。则二阶段最小二乘估计的系数由下式计算出来：,系数估计的协方差矩阵为：,其中 s2 是回归标准差（估计残差协方差）。,下面我们利用美国1947年1季度1999年4季度的宏观数据计算居民消费cn关于GDP 和利率R 的LS估计，采用差分序列。使用二阶段最小二乘估计，打开方程说明对话框，选择Method中的TSLS估计。随着选择的变化，方程对话框也会发生变化，包括一个工具变量列表对话框。,输入工具变量时，应注

16、意以下问题：1.使用TSLS估计，方程说明必需满足识别的阶条件，即工具变量的个数至少与方程的系数一样多。参见Davidson和MacKinnon(1994)和Johnston和DiNardo(1997)的讨论。2.根据经济计量学理论，与扰动项不相关的解释变量可以用作工具变量。3.常数c是一个合适的工具变量，如果忽略了它，EViews会自动把它加进去。,TSLS估计结果：下面我们利用美国1947年1季度1999年4季度的宏观数据计算居民消费cn关于GDP 和利率R 的TSLS估计（工具变量是居民消费cn(-1)、政府支出G、M1）,所有的变量都采用一阶差分：,4.3 非线性最小二乘估计,经典的计

17、量经济学模型理论与方法是在线性模型的基础上发展、完善起来的，因而线性计量经济学模型领域的理论与方法已经相当成熟。但是，现实经济活动并不都能抽象为线性模型，所以非线性计量经济学模型在计量经济学模型中占据重要的位置，关于它的理论与方法的研究是计量经济学理论与方法研究的一个广泛的领域。假设回归方程为：,其中f 是解释变量和参数的函数。最小二乘估计就是要选择参数的估计值 b 使残差平方和最小：,如果 f 关于参数的导数不依赖于参数，则我们称模型为参数线性的，反之，则是参数非线性的。例如，是参数线性的，f 关于参数的导数与参数无关。而其函数的导数仍依赖于参数，所以它是参数非线性的。对于这个模型，没

18、有办法使用普通最小二乘估计来最小化残差平方和。必须使用非线性最小二乘估计技术来估计模型参数。,非线性最小二乘估计根据参数的估计值 b 选择最小化残差平方和。最小化的一阶条件是：（4.3.5）,其中 G(b)是 f(X,b)关于b 的导数。估计协方差矩阵为：,关于非线性估计的详细讨论，参见Pindick和Rubinfeld(1991,231-245页)或Davidson和MacKinon(1993)。,即,令,对于非线性模型，无法直接求解式（4.3.5）。非线性方程有几种近似迭代方法可以完成参数估计。但是利用EViews估计非线性最小二乘模型很简单，对于任何系数非线性的方程，EViews自动应

19、用非线性最小二乘估计，会使用迭代算法估计模型。,1.说明非线性最小二乘估计,对于非线性最小二乘模型，必须使用直接包含系数约束的EViews表达式以方程形式来说明。可以使用缺省系数向量C中的元素(例如，c(1),c(2),c(34),c(87)，也可以定义使用其它系数向量。例如：Y=c(1)+c(2)*(Kc(3)+Lc(4)就是缺省系数向量C的4个元素从c(1)到c(4)。,例4.6：如果设定例3.1中的消费函数为非线性形式：（4.3.11）其中：cst 是实际居民消费，inct 是实际可支配收入。利用我国1978年2006年的年度数据估计此非线性方程，由于用迭代法计算，首先要赋初值，比如可以

20、设 3 的估计值 b3 初值是1，则可以利用OLS估计值(例3.1中，b1=449.07，b2=0.7345)作为b1，b2 的初值。经过迭代，得到的非线性消费方程为（4.3.12）t=(0.49)(3.999)(37.92)R2=0.998,非线性形式的边际消费倾向为即 MPCt=c(2)c(3)inct(C(3)-1)=1.4210.9348inc(0.9348-1),图4.3 动态的边际消费倾向,因此，非线性情况下的MPC是时变的，根据式（4.3.11）计算得到的边际消费倾向序列如图4.3所示。注意，inc 的平均值(7424.254)对应的边际消费倾向为 MPC=1.421 0.93

21、48 7424.254(0.9348-1)=0.743 近似等于线性模型估计值，因为线性模型的参数反映的是变量之间平均意义上的影响关系。,2.估计方法选项,（1）初始值迭代估计要求模型系数有初始值。选择参数初始值没有通用的法则。越接近于真值越好，因此，如果你对参数值有一个合理的猜测值，将是很有用的。在某些情况下，可以用最小二乘法估计严格形式的模型得到良好的初始值。总体说来，必须进行试验以找到初始值。在开始迭代估计时，EViews使用系数向量中的值。很容易检查并改变系数的初始值。要察看初始值，双击系数向量。如果初始值是合理的，可以对模型进行估计。如果想改变初始值，首先确定系数向量表使处于编辑状

22、态，然后输入系数值。完成初始值设定后，关闭系数向量窗口，估计模型。,也可以从命令窗口使用PARAM命令设定初始系数值。只需输入关键词PARAM，然后是每个系数和想要的初值：param c(1)414.88 c(2)0.51 c(3)1 中设定c(1)=414.88，c(2)=0.51 和c(3)=1。详情参见附录E。,（2）迭代和收敛选项可以通过说明收敛标准和最大迭代次数来控制迭代过程。按Options钮并输入想要的数值。如果系数变化的最大值低于阈值，EViews报告估计过程已经收敛。例如，设定阈值为0.001，则EViews会通过检查系数的最大变化是不是小于0.001来决定是否收敛。在大多

23、数情况下，不许改变最大迭代次数。然而，对于某些难于估计的模型，在最大迭代次数下迭代过程不收敛。这时，只需单击Options钮，然后，增加最大迭代次数并点OK接受选项，开始估计。EViews会使用最后一组参数值作为初始值进行估计。,4.4 广义矩方法（GMM）Generalized Method of Moments,广义矩估计方法（GMM）是基于模型实际参数满足一些矩条件而形成的一种参数估计方法，是矩估计方法的一般化。如果模型的设定是正确的，则总能找到该模型实际参数满足的若干矩条件而采用GMM方法。GMM估计的出发点是参数应满足的一种理论关系。其思想是选择参数估计尽可能接近理论上的关系。把理论

24、上的关系用样本近似值代替，并且估计量的选择就是要最小化理论值和实际值之间的加权距离。,由于传统的计量经济模型估计方法，例如普通最小二乘法、工具变量法、极大似然法等，都有它们的局限性，其参数估计量必须在模型满足某些假设时才具有良好的性质，如只有当模型的随机误差项服从正态分布或某一已知分布，极大似然法估计量才是可靠的估计量；而GMM估计是一个稳健估计量，因为它不要求扰动项的准确分布信息，允许随机误差项存在异方差和序列相关，所得到的参数估计量比其他参数估计方法更合乎实际；而且可以证明，GMM包容了许多常用的估计方法，普通最小二乘法、工具变量法、极大似然法都是它的特例。,4.4.1 矩法估计量,矩估计

25、是基于实际参数满足一些矩条件而形成的一种参数估计方法，如果随机变量Y的期望值是，即（4.4.1）则是满足相应的样本矩条件，即（4.4.2）,现在，考虑一元古典线性回归模型中的假设条件：（4.4.3）（4.4.4）其所对应的样本矩条件分别为（4.4.5）这就是OLS估计量的正规方程组。因此，OLS估计量是一个矩法估计量。,再比如二阶段普通最小二乘法中，假定解释变量与随机扰动项可能相关，找到一组与扰动项不相关的工具变量Z，因而正规方程组发生变化，由式（4.2.2）的矩条件：得到了式（4.2.3）的参数估计量形式。因此许多标准估计量，包括所有EViews提供的系统估计量，都可以看作GMM估计量的特

26、例。,4.5 多项分布滞后（PDLS）,在经济分析中人们发现，一些经济变量，它们的数值是由自身的滞后量或者其他变量的滞后量所决定的，表现在计量经济模型中，解释变量中经常包含某些滞后变量。以投资函数为例，分析中国的投资问题发现，当年的投资额除了取决于当年的收入（即国内生产总值）外，由于投资的连续性，它还受到前1 个、2个、3个时期投资额的影响。已经开工的项目总是要继续下去的，而每个时期的投资额又取决于每个时期的收入，所以可以建立如下关于投资的计量经济方程,其中I 表示投资额，Y 表示国内生产总值。,在分析货币政策的效应时，经常会分析货币供给对产出的影响，这时要在模型中加入货币供给的多期滞后，以反

27、映出货币政策的时滞性。再如消费理论告诉我们，人们的消费不仅是当期收入决定的，以前的收入水平和消费习惯等都对消费产生影响。因此，收入和消费的滞后变量可能都应该包含到模型中。这时的模型考虑了变量跨时期的影响关系，因此叫做动态模型（dynamic models）。,如果模型中仅包含解释变量滞后，形如式（4.5.1）的模型叫做分布滞后模型（distributed lag models），这是因为解释变量每单位变化的影响分布到了多个时期：,其中：wt(w1t,w2t,wdt)是独立变量构成的解释变量向量，(1,2,d)是相应的系数向量。系数描述 x 对 y 作用的滞后。在模型中解释变量与随机误差项不相

28、关的情况下，可以直接使用OLS估计参数。但是，一个显然的问题是解释变量之间，即 x 的当前和滞后值之间具有高度共线性，而共线性问题的一个直接后果是参数估计量失去意义，不能揭示 x 的各个滞后量对因变量的影响，所以必须寻求另外的估计方法。,(4.5.1),一、多项式分布滞后模型的估计方法,可以使用多项式分布滞后（Polynomial Distributed Lags,PDLs）来减少要估计的参数个数，以此来平滑滞后系数。平滑就是要求系数服从一个相对低阶的多项式。p 阶PDLs模型限制系数服从如下形式的 p 阶多项式,j=0,1,2,k(4.5.3),c 是事先定义常数：,PDLs有时被称为Al

29、mon分布滞后模型。常数 c 仅用来避免共线性引起的数值问题，不影响的估计。这种定义允许仅使用参数 p 来估计一个 x 的 k 阶滞后的模型(如果 p k，将显示“近似奇异”错误信息）。定义一个PDL模型，EViews用(4.5.3)式代入到(4.5.1)式，将产生如下形式方程,其中,(4.5.4),一旦从(4.5.3)式估计出，利用(4.5.3)式就可得到的各系数。这一过程很明了，因为是的线性变换。定义一个PDLs要有三个元素：滞后长度 k，多项式阶数（多项式最高次幂数）p 和附加的约束条件。一个近端约束限制 x 对 y 一期超前作用为零：,一个远端约束限制 x 对 y 的作用在大于

30、定义滞后的数目衰减：,如果限制滞后算子的近端或远端，参数个数将减少一个来解释这种约束。如果对近端和远端都约束，参数个数将减少二个。EViews缺省不加任何约束。,二、如何估计包含PDLs的模型,通过PDL项定义一个多项式分布滞后，信息在随后的括号内，按下列规则用逗号隔开：1.序列名 2.滞后长度（序列滞后数 k）3.多项式阶数(p)4.一个数字限制码来约束滞后多项式：1=限制滞后近端为零 2=限制远端为零 3=两者都限制如果不限制滞后多项式，可以省略限制码。方程中可以包含多个PDL项。例如：sales c pdl(y,8,3)是用常数，解释变量 y 的当前和8阶分布滞后来拟合因变量sales

31、，这里解释变量 y 的滞后系数服从没有约束的3阶多项式。,类似地，y c pdl(x,12,4,2)包含常数，解释变量 x 的当前和12阶分布滞后拟合因变量 y，这里解释变量x的系数服从带有远端约束的4阶多项式。PDL也可用于二阶段最小二乘法TSLS。如果PDL序列是外生变量，应当在工具表中也包括序列的PDL项。为此目的，可以定义PDL(*)作为一个工具变量，则所有的PDL变量都将被作为工具变量使用。例如：如果定义TSLS方程为 sales c inc pdl(y(-1),12,4)使用工具变量：z z(-1)pdl(*)则 y 的分布滞后和 z，z(-1)都被用作工具变量。PDLs不能用于非

32、线性定义。,例4.8 投资INV关于关于GDP的分布滞后模型的结果如下,逐个观察，GDP滞后的系数多数在统计上都不显著。但总体上讲回归具有一个合理的R2。这是回归自变量中多重共线的典型现象，建议拟合一个多项式分布滞后模型。估计一个无限制4阶滞后的2阶多项式模型，输入变量列表：c INV(-1)PDL(GDP,4,2)，窗口中显示的多项式估计系数，PDL01,PDL02,PDL03 分别对应方程(4.5.4)中z1,z2,z3 的系数1,2,3。,方程（4.5.1）中的系数 j 在表格底部显示。,表格底部的滞后值是分布滞后的估计系数值，并且在平稳的假设下有GDP对INV的长期影响的解释。,待估

33、计的方程：INV=C(1)+C(2)*INV(-1)+C(6)*GDP+C(7)*GDP(-1)+C(8)*GDP(-2)+C(9)*GDP(-3)估计的方程：INVt=17.36+0.97INVt-1+0.18 GDPt0.026GDPt-10.12GDPt-2 0.09GDPt-3+0.057GDPt-4+t,加了限制滞后近端为零的近端约束，显著性有明显改善。,4.6 逐步最小二乘回归,建立回归模型的时候，可能会面临很多解释变量的取舍问题，这些解释变量（包括相应的滞后变量）在经济意义上可能都对因变量有影响而难以取舍，这种情形下，可以通过逐步回归分析方法（stepwise least squ

34、ares regression,STEPLS）利用各种统计准则筛选解释变量。,这种方法包含前向法(Forwards)和后向法(Backwards)两种，两种方法都是利用最大 t 值或者相对应的最小 p 值作为变量入选标准，即根据变量的显著性进行筛选。前向法是根据最小 p 值进行逐步回归。首先设定变量的入选 p 值标准（比如0.05），即将入选变量的显著性水平设为5%；其次选择所有变量中 p 值最小并且小于所设定入选 p 值标准的变量加入模型，接着在剩余变量中一直筛选下去；当剩余的每个变量加入模型后其 p 值都大于设定的 p 值时，或者增加回归变量的数量达到了建模者事先设定的数值时，逐步回归运算

35、结束。,1.单方向筛选法（Uni-directional method）,后向法与前向法类似，只不过这种方法一开始就将全部的备选变量加入模型，然后选择 p 值最大的变量，如果此变量的 p 值大于事先设定的数值，则将其剔除掉，然后再在剩余的变量中依次选择剔除变量，直到模型中剩余的解释变量所对应的 p 值都小于设定值，或者增加回归变量的个数达到设定数值时结束筛选。,逐步筛选法是以单方向筛选法为基础的，也包含前向法(Forwards)和后向法(Backwards)两种方法。逐步前向筛选法最先是和单方向前向法完全相同，将 p 值最小并且小于所设定入选 p 值标准的变量加入模型，但不同的是，每次增加变量

36、后还要执行单方向后向法的程序，即检查模型中包含的解释变量中是否存在最大的 p 值超过设定值的情况，如果存在，则剔除这个变量。每次按照单方向前向法增加一个变量的时候，都要按照单方向后向法检查是否要剔除一些不显著的变量。筛选结束规则与上述两种方法相同。,2.逐步筛选法（Stepwise method）,这种方法基于模型整体效果，即通过判断拟合优度 R2作为筛选变量的标准。首先选择能够使得方程的 R2 增加最大的变量入选，然后选择下一个能使回归方程 R2 增加最大的变量。接下来，将第一个选中的变量逐一与未选中的变量互换，一旦出现 R2 超过现在的数值的情况，就将新的变量换入方程中，再将另一个变量与其

37、他未选中的变量互换，这个过程一直进行下去，直到 R2 无法改善的时候，再考虑加入第三个变量。加入了第三个变量后，仍然要执行类似的变量互换过程，一旦出现 R2 超过既有数值的情况，就换入新的变量。当入选变量的个数达到事先设定的数值时，结束筛选。,3.互换变量法（Swapwise method）,组合方法与互换变量法作用类似，即将给定的所有变量进行组合分别进行回归，使得 R2 最大的变量组合即为最终的回归方程。这种方法适合于建模者事先设定了最终希望包含的变量个数的情形。,4.组合法（Combinatorial method）,在方程估计方法设定对话框中选择方法：“STEPLS-Stepwise L

38、east Squares”，EViews将会显示图4.14所示窗口。在用逐步回归方法时，方程只能用列表法来设定。在上面的对话框中依次输入因变量和必须要在最终方程形式中包含的自变量，在下面的对话框中输入可能会在最终方程中出现的即备选的解释变量。,5.在EViews中进行逐步回归估计,例4.9 逐步回归模型在本例仍然研究例4.8的美国的投资函数，采用美国1947年1季度1994年4季度数据。因变量是美国总投资(inv)，考虑GDP为必选变量、用个人消费(cs)、inv(-1)、政府收支差额(g_net)和GDP平减指数(p)作为备选解释变量，通过逐步回归方法最终选择出对投资有显著影响的解释变量。

39、本例中，设定入选的解释变量应该满足其系数在0.05（5%）的显著性水平下不为0，使用逐步筛选法的前向法。,图4.14 逐步最小二乘分析变量设定对话框,“Selection Method”用来设定逐步回归的方法：“Uni-directional”（单方向方法），“Stepwise-Forwards method”（逐步筛选法），“Swapwise”（互换变量法），“Combinatorial”（组合变量）。当选择不同的方法时，会相应出现不同的选项进行详细设定。,例4.9 逐步回归模型本例中，设定入选的解释变量应该满足其系数在0.05（5%）的显著性水平下不为0，使用逐步筛选法的前向法，按照这种方法的操作步骤，最终可以得到满足要求的模型估计结果为：t值=(-5.9)(3.2)(13.98)(5.79)(8.02)(-5.0)(-18.2)(-3.2)R2=0.997 D.W.=1.755 入选变量的 t 值对应的 p 值都远远小于0.05，因此，通过逐步回归方法，在备选变量中，选择出了在5%显著性水平下对因变量影响显著的解释变量。,追求,也许你不是最优秀，但这不是你放弃的理由。也许你只能做到良好，但你应当追求优秀。在追求中释放，才是永恒的骄傲！,

展开阅读全文