线性回归问题与非线性回归分析.ppt

资源描述

《线性回归问题与非线性回归分析.ppt》由会员分享，可在线阅读，更多相关《线性回归问题与非线性回归分析.ppt（84页珍藏版）》请在三一办公上搜索。

1、,第3章线性回归问题与非线性回归分析,3.1 线性回归的常见问题,3.1.1 多重共线性3.1.2 异方差性3.1.3 自相关性,3.1.1 多重共线性 1.概念,i=1,2,n 其基本假设之一是解释变量之间不存在完全共线性。,如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。,如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其中:ci 不全为0，则称为解释变量间存在完全共线性。,多重共线性在实际的多元线性回归分析尤其是涉及经济变里的模型中很常见。即在决定一个因变量的多个自变量中，有部分自变量呈高度相关，也就是说，这些变量被用

2、来解释因变量时导致所提供的信息出现“重叠”。例如、模型中如果有多个自变量有共同的上升趋势，它们之间很可能有高度的相关关系导致共线性。,实际经济问题中的多重共线性,（1）经济变量相关的共同趋势时间序列样本：经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。横截面数据：生产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。,（2）滞后变量的引入,在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系。例如，消费=f(当期收入,前期收入）显然，两期收入间有较强的线性相关性。,（3）样本资料的限制,由于完全符合理论模型所要

3、求的样本数据较难收集，特定样本可能存在某种程度的多重共线性一般经验：,诊断方法,1.一些经验方法,2.条件指数,条件指数（condition index）可以用来判断多重共线性是否存在以及多重共线性的严重程度，通常认为：,从条件指数可以看到，最大的条件数为162.804，说明自变量间存在严重的共线性。如果有某几个自变量的方差比例值在某一行同时较大（接近1），则这几个自变量间就存在共线性。,例3.1 根据例2.1计算特征值及条件指数多重共线性检验SPSS,打开Linear Regression:Statistics子对话框，选择Collinearity diagnostics(共线性诊断)，单击

4、Continue返回主对话框并单击OK按钮。这样SPSS 便可输出所有检查多重共线性的指标。,3.方差扩大因子法,与特征根法比较，方差扩大因子法可以较准确地说明哪些变量与其他变量有严重的共线性，严重程度如何,例3.2 承接例3.1，用方差扩大因子法检验多重共线性检验SPSS除PMG外，其他变量都与别的变量存在程度不同的共线性问题，其中MOB的共线性最严重。,克服多重共线性的方法,1.排除引起共线性的变量,找出引起多重共线性的解释变量，将它排除出去，是最为有效的克服多重共线性问题的方法。注意：剩余解释变量参数的经济含义和数值都发生了变化。,例2.1 删去POP，再进行回归,2.增大样本容量,由

5、于多重共线性是一样本特征，故有可能在关于同样变量的另一样本中共线性没有第一个样本那么严重。一般认为：解释变量之间的相关程度与样本容量成反比，即样本容量越小，相关程度越高；样本容量越大，相关程度越小。因此，收集更多观测值，增加样本容量，就可以避免或减轻多重共线性的危害。在实践中，当我们所选的变量个数接近样本容量时，自变量间就容易产生共线性。所以，我们在运用回归分析研究经济问题时，要尽可能使样本容量远大于自变量个数。,3.差分法,时间序列数据、线性模型：将原模型变换为差分模型:Yi=1X1i+2 X2i+k Xki+i 可以相对有效地消除原模型中的多重共线性。,一般讲，增量之间的线性关系远比总量之

6、间的线性关系弱得多。,例如:,由表中的比值可以直观地看到，增量的线性关系弱于总量之间的线性关系，可以部分克服共线性的问题。,进一步分析：GDP与CONS(-1)之间的可决系数为0.988，GDP与CONS(-1)之间的可决系数为0.746 一般认为，两个变量之间的可决系数大于0.8时，二者之间存在强烈的线性关系。原模型和差分模型经过检验都具有多重共线性，但程度不同。,命令Ls d(y)d(x1)d(x2).d(xp)Ls y-y(-1)x1-x1(-1)x2-x2(-1)xp-xp(-1),4.重新定义方程,比如可以在例2.1中考虑用人均汽油消费量、人均机动车数量、人均国民生产总值和油价这四个

7、变量建模。取消原模型中的人口数变量。由于减少了变量，也就降低了发生共线性的可能性。,5.回归系数的有偏估计,岭回归法主成分法偏最小二乘法差分法,1.异方差的概念,即对于不同的样本点，随机误差项的方差不再是常数，则认为出现了异方差性。,3.1.2 异方差性,22,异方差就是对同方差假设的违反。经典回归中同方差是指随着样本观察点X的变化，线性模型中随机误差项的方差并不改变，保持为常数，即 i=1,2,n如果的数值对不同的样本观察值各不相同，则称随机误差项具有异方差，即常数 i=1,2,n,23,为什么会产生这种异方差性呢？一方面是因为随机误差项包括了测量误差和模型中被省略的一些因素对因变量的影

8、响，另一方面来自不同抽样单元的因变量观察值之间可能差别很大。因此，异方差性多出现在横截面样本之中。至于时间序列，则由于因变量观察值来自不同时期的同一样本单元，通常因变量的不同观察值之间的差别不是很大，所以异方差性一般不明显。,2.异方差性的后果,1.参数估计量非有效2.变量的显著性检验失去意义3.模型的预测失效,3.异方差性的检验,图示检验法 White异方差性检验,图示检验法(残差图形态及判别),(a)满意模式,残差,x,0,一般认为，如果回归方程满足所给出的基本假设，所有残差应该在e0的附近随机变化，并在变化不大的一条带子内。,图a中的残差都落在变化不大的一条带子内，也就可以说明回归模型满

9、足基本假设。,残差图(形态及判别),当回归模型满足所有假定时，残差图上的散点应该是随机的，无任何规律。如果回归模型存在异方差时，残差图上的散点呈现出相应的趋势。,当然，如果存在异方差，也可能随着x的增加而减少。,图b的情况表明，残差图上的散点随着x的增加而增加。,例2.1 GNP与残差散点图，存在异方差。,从残差图可以看出，误差项具有明显的异方差性，误差随着自变量的增加而增加,White异方差性检验,EViews显示两个检验统计量：F统计量和 Obs*R2 统计量。White检验的原假设：不存在异方差性方程对象窗口:View/Residual Test/Heteroskasticity/Whi

10、te,例3.3 对例2.1进行怀特检验回归方程的 White 异方差检验的结果：,该结果F 统计量和 Obs*R2 统计量的P值均很小，表明拒绝原假设，即残差存在异方差性。,4.异方差性的修正方法(1)加权最小二乘法(WLS)Weighted Least Squares,加权最小二乘法的基本思想,加权最小二乘法是对原模型加权，使之变成一个新的不存在异方差性的模型，然后采用普通最小二乘法估计其参数。例如，在递增异方差下，对来自较小Xi的子样本，其真实的总体方差较小，Yi与回归线拟合值之间的残差ei的信度较大，应予以重视;而对较大Xi的子样本，由于真实总体的方差较大，残差反映的信息应打折扣。,加

11、权最小二乘法就是对加了权重的残差平方和实施OLS法：对较小的残差平方ei2赋予较大的权数，对较大的残差平方ei2赋予较小的权数。,尝试一些m值，如m=-2,-1.5,-1,-0.5,0,0.5,1,1.5,2等，建立不同的模型，然后选择其中表现最好的模型。例3.4 承接例2.1和例3.3,ls qmg c mob pmg gnp,genr w=gnp-1.5 或series,点击options 选加权最小二乘法，然后再进行Harvey检验。结果各统计量在0.05显著性水平下都无法拒绝原假设，说明异方差问题得到较好的解决。,寻找最优权函数利用SPSS软件可以确定（6.6）式幂指数m的最优取值。对

12、例6.3的数据，依次点选Analyze-Regression-Weight Estimation进入估计权函数对话框，默认的幂指数m的取值为m=-2.0，-1.5，-1.0，-0.5，0，0.5，1.0，1.5，2.0，这一默认值可以更改。先将因变量y与自变量x选入各自的变量框，再把x选入Weight变量框，幂指数（Power）取默认值，计算结果如下（格式略有变动）：,对异方差问题的处理至今没有什么更好的方法，一些方法的处理效果往往不甚明显，所以此例能有所改进也就不错了。,3.1.3 自相关性,一、自相关的概念自相关（auto correlation），又称序列相关（serial correl

13、ation）是指总体回归模型的随机误差项之间存在相关关系。即不同观测点上的误差项彼此相关。,即:,二、自相关产生的原因,大多数经济时间数据都有一个明显的特点:惯性，表现在时间序列不同时间的前后关联上。,1、经济变量固有的惯性,如GDP、价格、就业等经济指标都会随经济系统的周期而波动。例如，在经济高涨时期，较高的经济增长率会持续一段时间，而在经济衰退期，较高的失业率也会持续一段时间，这种现象就会表现为经济指标的自相关现象。,滞后效应是指某一指标对另一指标的影响不仅限于当期而是延续若干期。由此带来变量的自相关。例如，居民当期可支配收入的增加，不会使居民的消费水平在当期就达到应有水平，而是要经过若干

14、期才能达到。因为人的消费观念的改变客观上存在自适应期。,2.经济活动的滞后效应,3、模型设定的偏误,所谓模型设定偏误（Specification error）是指所设定的模型“不正确”。主要表现在模型中丢掉了重要的解释变量或模型函数形式有偏误。,例如，本来应该估计的模型为 Yt=0+1X1t+2X2t+3X3t+t,但在模型设定中做了下述回归：Yt=0+1X1t+1X2t+vt,因此，vt=3X3t+t，如果X3确实影响Y，则出现序列相关。,三、诊断方法,1.杜宾-瓦森（Durbin-Watson）检验2.LM检验,1.杜宾-瓦森（Durbin-Watson）检验,DW 检验是J.Durbin

15、(杜宾)和G.S.Watson(沃特森)于1951年提出的一种适用于小样本的检验方法。DW检验只能用于检验随机误差项具有一阶自回归形式的自相关问题。这种检验方法是建立经济计量模型中最常用的方法，一般的计算机软件都可以计算出DW 值。,（无一阶自相关）,由可得DW 值与的对应关系如表所示。,4(2,4)2(0,2)0,-1(-1,0)0(0,1)1,DW,误差项的相关性,完全负自相关,负自相关,无自相关,正自相关,完全正自相关,由上述讨论可知DW的取值范围为：0DW根据样本容量和解释变量的数目(不包括常数项)查DW分布表，得临界值和，然后依下列准则考察计算得到的DW值，以决定模型的自相关

16、状态。,DW检验决策规则,用坐标图更直观表示DW检验规则：,不能确定,正自相关,无自相关,不能确定,负自相关,4,2,0,缺陷,D.W.检验该方法有三点不足：（1）存在无法作出判断的区域；（2）如果模型中存在因变量的滞后项，检验失败；（3）只对一阶自相关的检验有效，不能检验是否有高阶自相关。,3、拉格朗日乘数（Lagrange multiplier）检验,拉格朗日乘数检验（LM检验)克服了DW检验的缺陷，适合于高阶序列相关以及模型中存在滞后被解释变量的情形。,如果怀疑随机扰动项存在p阶序列相关：,提出原假设为：H0:1=2=p=0（无自相关）,根据观测量nR2的P值可以做出判断，实际检验中，

17、可从1阶、2阶、逐次向更高阶检验。,不妨设含有高阶扰动项和滞后项的方程形式为：,LM检验操作原假设：不存在从一阶到p阶的自相关方程对象窗口：View/Residual Test/Serial Correlation LM Test 例2.1（存在自相关）,3.自相关的处理,当一个回归模型存在序列相关性时，其参数估计不能用普通的最小二乘法。这时需要对原始数据进行一些变换，使得变换后的数据为样本所建的模型不存在序列相关性。通常有以下几种处理方法。,（1）迭代法,差分法就是用增量数据代替原来的样本数据，将原来的回归模型变为差分形式的模型。,或根据式,（2）重新定义模型,新定义的模型可能避免序列自相关

18、例3.5ls qmg/qmg(-1)-1=c(1)+c(2)*(mob/mob(-1)-1)+c(3)*(pmg/pmg(-1)-1)+c(4)*(pop/pop(-1)-1)+c(5)*(gnp/gnp(-1)-1)采用优化方法，模型最后为qmg/qmg(-1)-1=c(1)+c(2)*(mob/mob(-1)-1)+c(3)*(pmg/pmg(-1)-1)LM检验在p=1,2,3时，均不能拒绝原假设，说明残差项无序列自相关，新模型较好地解决了序列自相关问题。,3.2 非线性回归分析,3.2.1 非线性模型非线性模型指的是关于参数或自变量是非线性函数的模型。在某些情形下，可以通过一定的变换

19、线性化将这些非线性模型作为线性模型处理。这类模型称为可线性化的非线性模型。,3.2 非线性回归分析,（1）线性化不涉及参数。有许多非线性模型通过对变量进行直接变换，可以线性化。这类模型.及变换如表所示。,这类变换的共同点是原模型的是变换本身不涉及模型参数，对变换后得到的模型，其参数估计就是原模型的参数估计。化为线性模型后，可对线性模型直接进行OLS估计，按变换后的方程估计，得到的参数估计值就是原模型的参数估计值。,（2）线性化涉及参数,（3）不可线性化模型,表3.10中的模型有三个待估计的参数，这些参数的任何一个均无法事先通过经验或历史数据得到时，不能将其线性化。表3.10 一些不能线性化的模

20、型,3.2.2 非线性最小二乘法,乘性误差形式：加性误差形式：如果采用乘性误差形式，则可按可线性化处理，如果采用加性误差形式，则无法线性化，只能用非线性最小二乘法来估计，这会导致处理结果与线性模型处理结果存在差异。用非线性最小二乘法参数估计操作与普通最小二乘法基本相同，只是在方程估计窗口或命令行中，模型必须以方程式的形式出现，没有简化形式。如方程式为：ls y=c(1)*kc(2)*lc(3)在较为复杂的情况下，非线性最小二乘法无法求出精确解，需要采用迭代法。,3.2.3 应用实例例3.6（表3.11）,表3.1 是某企业16个月的某产品产量和单位成本资料，研究二者关系,为了明确产量和单机成本

21、是何种关系，先绘制散点图如图3.3所示,选择双曲线模型,第一种方式：对线性化模型实施线性最小二乘估计命令：Series x1=1/xLs y c x1还可以：ls y c inv(x)ls y c 1/x,第二种方式：直接对原模型实施非线性最小二乘估计命令：ls y=c(1)+c(2)/x,例3.7（表3.13）,乘性误差形式：加性误差形式：ls log(y)c log(k)log(l)线性化方法ls y=c(1)*kc(2)*lc(3)非线性化方法两者本质上是两个模型此外，两者模型中L的回归系数均未通过显著性检验。因为L、K两者相关系数太大，两者存在非常强的共线性。,例3.7,在实践中，常用

22、来简化这个模型，如果满足这个条件，则CD函数变为：,模型简化为：,是人均产量，是人均资本投入,例3.7（表3.13）,问题是这个条件是否成立？要进行Wald检验。原假设：c(2)+c(3)=1,即1,在模型log(y)=c(1)+c(2)*log(k)+c(3)*log(l)的基础上检验。View/Coefficient Test/Wald输入c(2)+c(3)=1由此可知，在0.05的显著性水平下，F统计量不能拒绝原假设，卡方统计量的收尾概率也近似0.05。因此约束条件基本可以接受。,例3.7,估计方程线性化后参数估计 ls log(y/l)c log(k/l)非线性化最小二乘估计 ls

23、 y/l=c(1)*(k/l)c(2)估计结果差不多，线性化模型略好，采用这个模型还原后为：Scalar co=exp(-0.69388),不可线性化模型,t、c均为上上标,例：设消费函数为非线性形式：其中：cst 是实际居民消费，inct 是实际可支配收入。利用1959年第一季度（1959Q1）至1979第四季度（1979Q4）的人均消费支出（cs)和人均可支配收入（inc）共84个观察值数据估计此非线性方程。由于用迭代法计算，首先要赋初值，比如可以设3的估计值b3初值是1，则可以利用OLS估计值，然后，非线性方程估计。,3.2.4 确定非线性模型形式的方法和模型的比较,非线性模型的形式复

24、杂多样，如何根据实际的数据选择合适的模型，是建模的关键。总的说来可参考下面的.方法:1.根据散点图来确定类型。确定类型一般是把样本观测位画成散点图，由散点图的形状来大体确定模型类型。2.根据一定的经济知识背景。如商品的销售量与广告费用之间的关系，一般用S型曲线来描述，这足由于广告费用只有在一定范围内.才会对销售量有明显的影响。有时对一个问题需要用不同的模型来拟合，以找到效果最好的一个。需要对它们进行比较。首先应从经济学角度考虑，因为数据分析的目的是解释经济现象，所以要重视经济学理论和行为规律提供的理由。其次从统计分析角度比较。最重要的是残差分析。如果模型的残差平方和最小，并且看起来残差最随机化

25、，则这样的模型应当被选择。,3.3 逐步回归法,3.3.1 单向前进逐步回归单向前进逐步回归法（Uni-directional-Forwards）的思想是变量由少到多，每次增加一个最重要的变量，即利用回归系数p值最小（等价地，t统计量最大）的准则，直至没有引入的变量为止。例3.8（表3.17）(1)在工作栏中选择Quick/Estimate Equation 或选择Object/New Object/Equation(2)在Method中选择STEP LS-Stepwise Least Squares(3)在上框中输入因变量及始终包含的自变量，在下框中输入自变量序列。(4)点击Options

26、，在方法框中选择Uni-directional-Forwards(5)设置参数：显著性水平a=0.1，回归量的最大数目为8，其他选项采用默认形式。(5)预测。点击Equation对象工具栏中Forecast，或选择Proc/Forecast,3.3.1 单向后退逐步回归单向后退逐步回归（Uni-directional-Backwards）与前进法相反，先用m个自变量建立一个回归方程，然后在这m个变量中选择一个最不重要的变量，即利用回归系数p值最大（等价地，t统计量最小）的准则，将它从方程中删除。在方法栏中选择Backwards，将显著性水平a仍然设为0.1，回归方程中所包含的回归量最小数目设为

27、1，其他选项采用默认形式。预测,3.3.3 前进逐步回归（Stepwise-Foreward）前进逐步回归是单向前进逐步回归和单向后退逐步回归的结合。注意：引入自变量的显著性水平a进应不小于剔除变量的显著性水平a出，否则，产生死循环。例3.10（承接例8）在方法下拉菜单中选择Stepwise，选择Foreward，a进=0.15，a出=0.10，回归方程所包含的回归量最大数目为8所得结果与例3.8相同。,3.3.4 后退逐步回归（Stepwise-Backward）后退逐步回归也是单向前进逐步回归和单向后退逐步回归的结合，只是与前进逐步回归方向相反。注意：引入自变量的显著性水平a进应不小于剔除

28、变量的显著性水平a出，否则，产生死循环。例3.11（承接例8）在方法下拉菜单中选择Stepwise，选择Backward，a进=0.05，a出=0.10，回归方程所包含的回归量最小数目为1。所得结果与例3.9相同。,3.3.5 最大R2增量逐次交换回归（Swapwise-max R-squared increnment）例3.12（承接例8）在方法下拉菜单中选择Swapwise，选择最大R2增量（max R-squared increnment）选项，回归方程所包含的回归量最大数目为3，其他默认形式。所得结果与例3.8相同。,3.3.6 最小R2增量逐次交换回归（Swapwise-min R-squared increnment）例3.13（承接例8）在方法下拉菜单中选择Swapwise，选择最小R2增量（min R-squared increnment）选项，回归方程所包含的回归量最大数目为3，其他默认形式。所得结果与例3.8相同。,3.3.7 组合逐步回归例3.14（承接例8）在方法下拉菜单中选择Swapwise，回归方程所包含的回归量数目为5，其他默认形式。,

展开阅读全文