《第四章违反经典假定的回归模型(蓝色)new.ppt》由会员分享,可在线阅读,更多相关《第四章违反经典假定的回归模型(蓝色)new.ppt(210页珍藏版)》请在三一办公上搜索。
1、1,在前面几章里我们讨论的回归模型中都有一些基本的假定。只有当一个回归模型满足经典假定条件时,才能得到一个较好的估计。然而,在研究实际的社会经济等问题时,经常会遇到一些违背经典假定的情况。,第四章违背经典假定的回归模型,2,在这些情况下,如果直接用普通最小二乘法建立模型,会得到很不理想的结果。因此,如何处理这些问题,就是我们需要面对的问题。,3,在这一章里我们将重点讨论模型中出现了违背经典假定的几种情况时的诊断及解决办法。异方差 序列相关 多重共线性,4,第一节异方差性,一、异方差性的概念和产生的原因,(一)异方差性的概念,5,在回归模型的基本假设中,假定随机误差项u1,u2,un 具有相同的
2、方差,独立或不相关,即对于所有样本点,有:,(4.1),6,但是在建立实际问题的回归模型时,经常存在与此假设相违背的情况,一种是经济计量建模中常说的方差非齐性或异方差性,即:,当 时,(4.2),7,异方差性:在线性模型的基本假定中,关于方差不变的假定不成立,其他假定不变的情形称为异方差性。,8,(二)异方差产生的原因,实际问题是非常错综复杂的,因而在建立实际问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同方差。通过下面的几个例子,我们可以了解产生异方差性的背景和原因。,9,【例4.1】按照差错学习模式,当人们学习时
3、,动作上出现的差错随时间的增加而逐渐减少。如在某一时期内测验打字差错数(Y)与打字实习小时数(X)之间的关系。随着打字实习小时数的增加,打字差错平均字数及它们的方差不是不变的,而是随之减少的。这个模型中就出现了异方差。,10,【例4.2】在研究城镇居民收入与消费的关系时,我们知道居民收入与消费水平有着密切的关系。用 Xi 表示第 i 户的收入,Yi 表示第 i 户的消费额,那么反映收入与消费之间的模型为:,(4.3),11,在式(4.3)的模型中,因为各户的收入不同,消费观念和习惯的差异,导致消费的差异非常大,模型中存在明显的异方差性。一般情况下,低收入的家庭购买差异性较小,大都购买生活必需品
4、;,12,但是高收入的家庭购买行为差异就很大,高档消费品很多,房子、汽车的规格选择余地也很大,这样购买金额的差异就很大;导致消费模型的随机误差项具有不同的方差。,13,【例4.3】利用某行业的不同企业的截面样本数据估计生产函数,(4.4),由于这里的u表示了包括不同企业的工艺、地理条件、工人素质、管理水平上的差异以及其他因素。对于不同企业,这些因素对产出的影响程度不同,引起ui偏离均值的程度不同,出现了异方差。,14,引起异方差的原因还有很多,如模型中省略了重要的解释变量,模型的函数形式设定不准确等都容易产生异方差。一般情况下样本数据为截面数据时容易产生异方差性。,15,二、异方差产生的后果,
5、当一个回归模型中的随机误差项存在异方差时,是否可以继续使用普通的最小二乘法?倘若我们仍然使用,将会产生什么样的后果?,16,17,当模型中存在异方差时,普通最小二乘估计存在以下问题。,18,1.参数估计量虽是无偏的,但不是最小方差线性无偏估计 根据经典线性回归中关于参数估计量的无偏性和有效性的证明过程,可以看出,当线性回归模型出现异方差性时,其普通最小二乘法参数估计量仍然具有无偏性,但不具有有效性。,19,2.参数的显著性检验失效 在经典线性回归模型中,关于变量的显著性检验构造了t 统计量,在该统计量中包含有随机误差项共同的方差,并且该t 统计量服从自由度为(n-k)的t 分布。如果出现了异方
6、差性,t 检验就失去意义。采用其他检验也是如此。,20,3.回归方程的应用效果极不理想,或者说模型的预测失效。一方面,由于上述后果,使得模型不具有良好的统计性质;另一方面,在预测值的置信区间中也包含有随机误差项共同的方差。所以,当模型出现异方差性时,它的预测功能失效。,21,三、异方差性的检验,对于异方差性的检验,人们进行了大量的研究,提出的诊断方法已有10多种,但没有一个公认的最优方法,下面介绍几种常见的方法。,22,(一)残差图分析法,残差图分析法是一种直观、方便的分析方法。它以残差 为纵坐标,以其他适宜的变量为横坐标画散点图。常用的横坐标有三种选择:(1)以拟合值 为横坐标;(2)以Xi
7、为横坐标;(3)以观测时间或序号为横坐标。,23,图4.1,24,图4.2,25,图4.1和图4.2是以X 为横坐标,残差e2为纵坐标的残差图,表现出残差有一定的趋势。这样的情况下,我们就可以判断出该回归模型有一定的异方差性。图4.1表明ui的方差 反比于解释变量Xi,图4.2表明ui 的方差 正比于解释变量Xi。,26,在EViews软件包中,直接给出了以ei 为纵坐标,以观测时间或序号为横坐标的残差图。,27,如果回归模型适合于样本数据,那么残差ei 应反映ui 所假定的性质,因此可以根据ei 来判断回归模型ui 是否具有某些性质。一般情况下,当回归模型满足所有假定时,以ei 为纵坐标的残
8、差图上的n 个点散布应是随机的、无任何规律。,28,等级相关系数法又称斯皮尔曼(Spearman)检验,是一种应用较广泛的方法。这种检验方法既适用于大样本,也适用于小样本。将异方差性与误差项和某个解释变量之间相关程度联系起来,从而将对异方差性的研究转化为对它们之间相关程度的研究。,(二)等级相关系数法,29,进行等级相关系数检验通常有三个步骤:,第一步,作Y 关于X 的普通最小二乘估计,求出ui 的估计值,即ei 的值。,30,第二步,取ei 的绝对值,即,把 Xi 和 按递增或递减的次序划分等级。按下式计算出等级相关系数,(4.5),其中,n为样本容量,di 为对应于Xi 和 的等级的差数。
9、,31,第三步,做等级相关系数的显著性检验。在n8的情况下,用下式对样本等级相关系数 rs 进行t 检验。检验的统计量为,(4.6),32,如果,则可以认为异方差性问 不存在,如果,说明 Xi 和 之间存在系统关系,则说明模型中存在异方差。,33,在多元的情况下,需对每一个解释变量做等级相关系数检验。只有当每个解释变量检验都不存在异方差时模型中才不存在异方差。否则,模型中存在异方差。,34,首先将样本按某个解释变量的大小顺序排列,并将样本从中间截成两段;然后各段分别用普通最小二乘法拟合回归模型,并分别计算各段的残差平方和。,(三)戈德菲尔德匡特检验(样本分段比检验),35,令第一段为高方差段,
10、第二段为低方差段,并记两段的样本容量分别为n1 和n2,模型参数个数为k,两段样本回归残差分别为e1i和e2i,则两段的残差平方和分别为 和,从而可计算出各段模型的随机误差项的方差估计量分别为 和,36,由此可构造出检验统计量为,(4.7),37,该统计量服从自由度为(n1-k)和(n2-k)的分布。在给定的显著性水平 之下,若此统计量的值大于临界值 则可认为有异方差的存在。,38,为了提高此检验的功效,戈德菲尔德和匡特曾经建议,将观测样本分成两段时,可将中间的部分数据删掉。然而,删掉的数据越多,各段中估计的自由度就越小,从而又会影响检验的功效。因此,删掉的中间部分数据也不能太多。一般地,删掉
11、的数据不应多于样本观测数据的/3。,39,用残差绝对值 对每个解释变量建立各种回归模型,如,等等,并检验回归系数 2 是否为。,(四)戈里瑟(Glejser)检验,40,设原假设为 H0:2=0,备择假设为H1:20,应用t 检验判断,如果20 则有异方差。这种方法不仅能检验出模型中存在的异方差,而且把异方差的表现形式找出来便于后面改进时使用。,41,(五)怀特检验,用残差平方 对所有解释变量及其平方项和交叉乘积项 进行线性回归,并检验各回归系数是否为。,42,对于两个解释变量的回归模型,(4.8),怀特检验步骤如下:第一步,使用普通最小二乘法估计模型(4.8),并获得残差 ei。,43,第二
12、步,做如下的辅助回归,(4.9),就是将残差ei 的平方 对所有的解释变量及解释变量的平方与交叉积回归,求这个辅助回归的判定系数 R2。,44,第三步,在无异方差的原假设下,可以证明,辅助回归的 R2 乘以样本容量n,渐近地服从自由度为辅助回归中解释变量个数 r(不包括常数项)的x2分布,即,(4.10),在本例中,辅助回归有5个解释变量,因此r=5。,45,第四步,如果 nR2大于选定显著性水平的临界2 值,则有异方差。如果不大于临界2值,则无异方差,即在辅助回归中,2=3=4=5=6=0.在EViews软件中,给出了怀特检验程序,可以直接输入相应条件,即可获得怀特检验的结果。,46,四、异
13、方差性的修正办法,当我们所研究的问题存在异方差性时,就违背了线性回归模型的经典假定。此时,就不能用普通最小二乘法进行参数估计。,47,必须寻求适当的补救方法,对原来的模型进行变换,使变换后的模型满足同方差性假定,然后进行模型参数的估计,就可得到理想的回归模型。,48,我们考虑一元线性回归模型,(4.11),加权最小二乘法,49,(一)已知时,如果每个观察值的误差项方差 是已知的,使用 为权数,对模型(4.11)作如下变换:,(4.12),50,由于,通过加权变换使误差项变成同方差了。,51,如果模型的其他假定条件都满足,则模型(4.12)就变成满足经典假定的回归模型了,就可利用普通最小二乘法估
14、计参数,得到的估计量是最佳线性无偏估计量。,52,通过加权变换使原模型中的异方差误差项转换为同方差误差项,使加权变换后的模型满足最小二乘法的假定,从而使用普通最小二乘法估计参数,这种方法称为加权最小二乘法。,53,(二)未知时,如果 是未知的,一般情况下,我们可根据误差与解释变量或被解释变量的关系来确定变换的权数。一般我们先采用戈里瑟检验方法确定ei 与Xi 之间的关系。,54,1如 之间为线性关系,则可认为,(4.13),这时,选择 为权数,即对模型(4.11)两边同时乘以,将异方差模型变为同方差模型。,55,即将模型(4.11)变为,(4.14),56,容易证实模型(4.14)为同方差模型
15、。可用普通最小二乘法估计模型(4.14)的参数,得到最佳线性无偏估计量。,模型(4.14)是无截距模型,要用过原点回归去估计参数,EViews软件包提供了这种功能。,57,2如 之间为线性关系,则可认为,(4.15),58,这时,选择1/Xi为权数,可将模型(4.11)变换为如下模型:,(4.16),59,容易证实,模型(4.16)为同方差模型,可使用普通最小二乘法估计参数 1,2。注意,在变换后的模型(4.16)中,斜率项1是原模型(4.11)的距截项,截距项 2是原模型(4.11)的斜率项。,60,五、实际案例,现有2001年北京市规模最大的41个百货零售商店的商品销售收入和利税总额资料如
16、表4.1所示。,61,表4.1 北京市41家最大百货商店销售资料 单位:万元,62,续表,63,64,利用普通最小二乘法,根据表4.1中的数据,我们可以估计出该回归方程为,(4.17),65,根据此回归方程,可以求出利税总额的回归估计值和残差,然后将销售收入Xi 作为横坐标,残差ei 为纵坐标,画出回归残差图。从残差图看,残差的有不断扩大的趋势,ui 存在明显的异方差性。,66,图4.3 残差图,67,我们运用戈里瑟检验,可得如下的残差回归方程:,(4.18),68,(4.19),很明显,对这二个残差回归方程的回归系数的显著性检验,均拒绝同方差假设,表明存在异方差性。,69,对原模型进行怀特检
17、验,统计量nR2=11.296x0.10(2)=4.605,p值为0.00350.10,说明有异方差存在。选用1/X,1/X(1/2),1/e为权系数使用加权最小二乘法(WLS)进行参数估计。分别进行异方差的怀特检验,结果如下:,70,nR2=8.844,p值为0.0120.10,说明异方差依然存在。,71,nR2=9.306,p值为0.02550.10,说明异方差依然存在。,72,nR2=1.616,p值为0.6560.10,说明异方差已消除。应采用该模型。,73,最后,我们得到的最佳估计值应为-327.006和0.073,最终模型应为,(4.21),74,第二节序列相关,一、序列相关的概念
18、和产生的原因,(一)序列相关的概念,75,在进行回归分析时,我们总假定其随机误差项是不相关的,即,(4.22),上式表示不同时点的误差项之间不相关。如果一个回归模型不满足上式,即,,则我们称随机误差项之间存在着序列相关现象,也称为自相关。,76,(二)序列相关产生的背景和原因,我们在实际问题的研究中,经常遇到时间序列中出现序列相关的情形。产生序列相关的背景及其原因通常有以下几个方面。,77,遗漏了重要的解释变量 在回归分析的建模过程中,如果忽略了一个或几个重要的解释变量,而这些遗漏的重要变量随着时间的推移而呈现出相关的趋势,回归模型中的误差项就会具有明显的相关趋势,这是因为误差项包含了遗漏的变
19、量。,78,经济变量的滞后性 在实际问题的研究中,许多经济变量都会产生滞后影响,例如物价指数、基建投资、国民收入、消费、货币发行量等都有一定的滞后性。如前期消费额对后期消费额一般会有明显的影响。,79,消费支出对收入的回归分析中,经常会发现当期的消费支出除了依赖于其他变量外,还依赖于前期的消费支出,用模型表示为:。出 现这种现象的原因是由于心理、技术及制度上等等的原因,消费者不轻易改变他们的消费习惯。这个模型中就出现了序列相关。,80,回归函数形式的设定错误也可能引起序列相关 例如,假定某实际问题的正确回归函数应由指数模型(4.23)来表示。,(4.23),81,但是,研究者误用线性回归模型(
20、4.24)来表示。,(4.24),这时,误差项 表现为序列相关。,82,蛛网现象(Cobweb Phenomenon)。是微观经济学中的一个概念。它表示某种商品的供给量因受前一期价格影响而表现出来的某种规律性,即呈蛛网状收敛或发散于供需的均衡点。由于规律性的作用,使得所用回归模型的误差项不再是随机的了,而产生了某种自相关。,83,例如,许多农产品的当期供给受前一期的价格的影响。这样,今年某种农产品的生产和供给计划取决于上一年的价格。因此,农产品的供给函数可表示为,(4.25),其中,St=t 时期农产品供给量;Pt-1=t-1时期农产品的价格。,84,假设在t 时期末,价格Pt 低于Pt-1,
21、于是在t+1期初,农民决定比t 时期少生产一些,则t+1期的产量会低于t期。这样下去,就会形成蛛网现象。,85,对原始数据加工整理。在回归分析建模中,我们经常要对原始数据进行一些处理,如在具有季节性时序资料的建模中,我们常常要消除季节性,对数据作修匀处理。但如果采用了不恰当的差分变换,也会带来序列相关。,86,序列相关问题不仅在时序资料的建模中会经常碰到,而且在截面样本中有时也会存在。大多数经济时间序列由于受经济波动规律的作用,一般随着时间的推移有一种向下或向上变动的趋势。所以,随机误差项ut 一般会出现序列相关的情形。,87,二、序列相关性带来的后果,当一个线性回归模型的随机误差项存在序列相
22、关时,就违背了线性回归方程的经典假定,如果仍然直接用普通最小二乘法估计未知参数,将会产生严重后果,一般情况下序列相关产生的后果与异方差类似。,88,2可能严重低估误差项的方差,1参数的估计量是无偏的,但不是 有效的,89,3常用的 检验和t 检验失效 使用普通最小二乘法估计参数可能导致回归参数统计检验为显著,但实际上并不显著的严重错误结论。,90,4如果不加处理地运用普通最小二乘法估计模型参数,回归参数的置信区间和利用回归模型进行预测的结果会存在较大的误差。,91,三、序列相关的检验,当随机误差项存在序列相关时会给普通最小二乘法的应用带来非常严重的后果。因此,如何诊断随机误差项是否存在序列相关
23、就成为一个极其重要的问题。下面介绍几种主要的诊断方法。,92,图示检验法,DW检验法,序列相关的检验,自相关系数法,93,(一)图示检验法,图示法是一种直观的诊断方法,它是把给定的回归模型直接用普通最小二乘法估计参数,求出残差项et,et作为ut随机项的真实估计值,再描绘et 的散点图,根据散点图来判断et的相关性。残差et的散点图通常有两种绘制方式。,94,图 4.4 et与et-1的关系,95,绘制et-1,et 的散点图。用(et-1,et)(t=1,2,n)作为散布点绘图,如果大部分点落在第、象限,表明随机误差项ut存在着正的序列相关,如图4.4所示。,96,如果大部分点落在第、象限,
24、那么随机误差项ut 存在着负自相关,如图4.5所示。,97,按照时间顺序绘制回归残差项的et 图形。如果et(t=1,2,n)随着t 的变化逐次有规律地变化,呈现锯齿形或循环形状的变化,就可断言et 存在相关,表明存在着序列相关;如果et 随着t的变化逐次变化并不断地改变符号,那么随机误差项ut 存在负的序列相关;如图4.6所示。,98,如果et 随着t 的变化逐次变化并不频繁地改变符号,而是几个正的et 后面跟着几个负的,则表明随机误差项存ut 在正的序列相关,如图4.7所示。,99,(二)自相关系数法,误差序列 的自相关系数定义为,(4.26),100,自相关系数 的取值范围是-1,1,当
25、 接近于1时,表明误差序列存在正相关,当 接近于-时,表明误差序列存在负相关。,101,在实际应用中,误差序列 u1,u2,un 的真实值是未知的,需要用其估计值et 代替,得自相关系数的估计值为,(4.27),102,作为自相关系数的估计值与样本量有关,需要做统计显著性检验才能确定自相关性的存在,通常采用下面介绍的DW检验代替对 的检验。,103,(三)DW检验,DW检验是J.Durbin(杜宾)和G.S.Watson(沃特森)于1951年提出的一种适用于小样本的检验方法。DW检验只能用于检验随机误差项具有一阶自回归形式的序列相关问题。这种检验方法是建立经济计量模型中最常用的方法,一般的计算
26、机软件都可以计算出DW值。,104,随机误差项的一阶自回归形式为,为了检验序列的相关性,构造的原假设是,(4.28),(4.29),105,为了检验上述假设,构造DW统计量首先要求出回归估计式的残差et 定义DW统计量为,(4.30),106,我们推导出DW值的取值范围。,(4.31),107,在认为:,则:,(4.32),108,因此,由于,109,表 4.2 DW值与 的值的对应关系,所以,DW值与 的对应关系如表4.2所示。,110,由上述讨论可知DW的取值范围为 DW,根据样本容量 n 和解释变量的数目k(不包括常数项)查DW分布表,得临界值 dL 和 dU,然后依下列准则考察计算得到
27、的DW值,以决定模型的自相关状态。,111,表4.3 DW 检验决策规则,112,表4.3可以用坐标图更加直观地表示出来:,113,图4.3 DW 检验示意图,114,需要注意的是,DW检验尽管有着广泛的应用,但也有明显的缺点和局限性。DW检验有两个不能确定的区域,一旦DW值落在这两个区域,就无法判断。这时,只有增大样本容量或选取其他方法。,115,DW统计量的上、下界表要求n15,这是因为样本如果再小,利用残差就很难对自相关的存在性做出比较正确的诊断。DW检验不适应随机误差项具有高阶序列相关的检验。只适用于有常数项的回归模型并且解释变量中不能含滞后的被解释变量。,116,检验如下的约束回归,
28、(四)拉格朗日乘数检验(Breusch-Goldfrey)高阶自相关检验,117,为经典误差项原假设为,118,检验步骤:1.Ols估计回归方程,得到残差e2.作辅助回归,119,3.LM统计量大于临界值,就拒绝原假设,表明存在自相关。,120,四、补救措施,当一个回归模型存在序列相关性时,首先要查明序列相关产生的原因。如果是回归模型选用不当,则应改用适当的回归模型;如果是缺少重要的解释变量,则应增加该解释变量;如果以上两种方法都不能消除序列相关,则需采用方法处理。本书在此介绍几种常用的方法。,121,(一)差分法,差分法是一类克服序列相关的有效的方法,被广泛地采用。差分法是将原模型变换为差分
29、模型,分为一阶差分法和广义差分法。,122,一阶差分法,(4.33),变换为,(4.34),一阶差分法是将原模型,123,其中,如果原模型存在完全一阶正自相关,即:,(4.35),其中,为经典误差项。,124,那么对于式(4.34)的差分模型,则应满足应用普通最小二乘法的经典假定,用普通最小二乘法估计式(4.34)的差分模型,得到的参数估计量即为原模型参数的无偏、有效的估计量。,125,实际问题中,完全一阶正自相关的情况并不多见,所以人们不是经常直接使用差分模型。对于非完全一阶正自相关的情况,只要存在一定程度的一阶正自相关,差分模型就可以有效地加以克服。通常人们采用下面的广义差分法,但估计的过
30、程将变得较为复杂。,126,广义差分法可以克服所有类型的序列相关带来的问题,一阶差分法是它的一个特例。,2广义差分法,127,如果原模型(4.33)存在,(4.36),vt为经典误差项,则可以将原模型(4.33)变换为,128,(4.37),129,3随机误差项相关系数的估计,应用广义差分法,必须已知不同样本点之间随机误差项的相关系数。实际上,人们并不知道它们的具体数值,所以必须首先对它们进行估计。于是发展了许多估计方法,诸如迭代法、杜宾两步法等。,130,其基本思路是采用普通最小二乘法估计原模型,得到随机误差项的“近似估计值”,然后利用该“近似估计值”求得随机误差项相关系数的估计量。不同的方
31、法旨在力图使得这些估计量更加逼近实际。,131,例如,杜宾两步法就是其中一种常用的方法。以采用普通最小二乘法估计原模型得到的随机误差项的“近似估计值”作为模型(4.36)的样本观测值,采用普通最小二乘法估计该模型,得到,作为随机误差项的相关系数 的估计值。,132,(4.36),133,将 的第一步估计值,替换方程(4.37)右边的,然后再采用普通最小二乘法估计该方程。,134,(4.37),135,(二)广义最小二乘法(GLS),广义最小二乘法,顾名思义,是最具有普遍意义的最小二乘法。其中普通最小二乘法和加权最小二乘法是它的特例。,136,表4.4是北京市19781996年城镇居民家庭人均收
32、入与人均支出的数据。以人均实际支出为被解释变量,以人均实际收入为解释变量可建立消费函数。,五、实际案例,137,表4.4 北京市城镇居民家庭收入与支出数据表(单位:元),138,续表,139,采用普通最小二乘法,估计出回归方程为,(4.38),140,模型中,DW0.575,取,查DW上下界表 dL=1.18,dU=1.40,DW1.18说明误差项存在正自相关。,141,回归模型的残差列在表4.4中,可以明显地看出残差序列存在着某种模式的变动,该残差的前项均为负值,中间连续项均为正值,然后又连续多项为负值,且这些残差值由小逐渐增大然后又逐 渐 减小,这表明该残差序列存在着较强的正自相关,预示着
33、回归模型的随机误差项可能存在着一阶自回归变动模式。,142,为经典误差项。,设原模型的误差项为,序列相关的形式为一阶自相关。即,(4.39),143,使用普通最小二乘法估计 的估计值,得,(4.40),=0.657,t 检验表明 是高度显著的,显然误差项ut 有一阶正自相关。,144,将=0.657代入模型(4.41),令,使用 进行广义差分变换,变换后的模型形式为:,(4.40),145,使用普通最小二乘法估计式(4.41)的参数,得,(4.42),显然,在模型(4.42)中,DW=1.830,已知。因此,在广义差分模型(4.42)中已无序列相关。,146,据,可得,(4.43),因此,原回
34、归模型应为,(4.44),147,在进行广义差分时,解释变量X 与被解释变量Y均以差分形式出现,因而样本容量由n减少为n-1,即丢失了第一个观测值。如果样本容量较大,减少一个观测值对估计结果影响不大。但是,如果样本容量较小,则对估计精度产生较大的影响。,148,此时,可采用普莱斯温斯滕(Prais-Winsten)变换,将第一个样本观测值补充到差分序列中。第一个观测值变换为 此时,样本容量依然为n。,149,本例中,采用普莱斯温斯滕变换后的普通最小二乘估计结果为,(4.45),150,对比式(4.45)和式(4.42),两者差异较小。因为本例中n=19,是一个不算小的样本。,151,第三节多重
35、共线性,一、多重共线性的概念及产生的原因,(一)多重共线性的概念,152,多元线性回归模型有一个经典假定,就是要求多元线性回归模型 中的解释变量 X 之间无线性关系。,153,为了考虑常数项,取变量,则如果存在不全为0的k个数,使得,(4.46),则称解释变量 之间存在完全多重共性线。,154,如,则式(4.46)可写为,(4.47),即 是其它解释变量的精确线性组合。,155,称解释变量 之间存在近似多重共性线。,在实际问题中,完全的多重共线性并不多见,常见的是式(4.46)近似成立的情形,即存在不全为0的k个数,使得,(4.48),156,式(4.48)可表达为,(4.49),其中 为随机
36、误差项。,如,则式(4.49)可写为,(4.50),157,式(4.50)表明,不是其它解释变量的精确线性组合,而是其它解释变量的线性组合与随机误差项的和。,158,解释变量 之间存在的多重共线性,也称为复共线性。在实际经济问题的多元回归分析中,多重共线性的情形很多。,159,1.如何诊断解释变量间的多重共线性?2.多重共线性情形会给多元线性回归分析带来什么影响?3.如何克服多重共线性的影响?,160,在现实的生活当中,解释变量之间完全不相关的情形是非常少见的,尤其是研究某个经济问题时,涉及的解释变量较多,我们很难找到一组解释变量,它们之间互不相关,而且它们又都对被解释变量有显著影响。,(二)
37、多重共线性产生的背景和原因,161,客观地说,某一经济现象,涉及到多个影响因素时,这些影响因素之间大都有一定的相关性。,162,当我们所研究的经济问题涉及到时间序列资料时,由于经济变量随时间往往存在共同的变化趋势,使得它们之间容易出现共线性。,163,二、多重共线性的后果,设多元线性回归模型,(4.51),存在完全的多重共线性,即存在不全为的一组数,使得:,(4.52),这里,。,164,由样本数据 所组成的设计矩阵X 的秩rank(X)k,k 阶正规方程组 的解不唯一,就是说不能得到 的唯一解。(注:此正规方程组为矩阵表达式),165,在实际问题的研究中,经常见到的是近似共线性的情形,即存在
38、不全为的一组数,使得,(4.53),166,此时,设计矩阵X 的秩rank(X)=k成立,解释变量间无完全的多重共线性,满足经典假定,普通最小二乘估计量 是 的最佳线性无偏估计量。就是说最小二乘估计量是所有线性无偏估计量中方差最小的,但这并不意味着最小二乘估计量的方差一定是很小的。,167,实际上,由于解释变量间的高度共线性,将使估计量 的方差很大 的估计精度很低,这一点在第三章中已有说明,在后面的方差扩大因子分析中可以得到证实。,168,此时,我们无法正确判断解释变量对被解释变量的影响程度,甚至出现估计值的经济意义无法解释。这样的情况在进行实际问题的回归分析时会经常碰到。一般情况下,完全多重
39、共线性的情况比较少见,也不难发现。,169,1.多重共线性不改变参数估计量的无偏性。事实上,对于严重多重共线性,参数估计量仍为最优的估计。2.多重共线性使参数的最小二乘估计的方差很大,即估计值的精度很低。,严重多重共线性情形的后果,170,3.各个回归系数的值很难精确估计,甚至可能出现符号错误的现象。4.回归系数对样本数据的微小变化变得非常敏感。,171,三、多重共线性的检验,近年来,人们已经提出了许多可行的判断方法,下面我们介绍几种主要方法。,172,(一)方差扩大因子法,由第五章第二节的式(5.25)可知,(4.54),173,当解释变量Xj 与其它解释变量无线性关系时,辅助回归的判定系数
40、。此时,的方差为,(4.55),174,度量了由于Xj 与其它解释变量之 间的线性关联程度对估计量 的方差的影响。称其为方差扩大因子,定义为,(4.56),由式(4.56)可知。,175,由于 度量了解释变量Xj与其余k-1个解释变量(包括常数项)的线性相关程度,这种相关程度越强,说明解释变量之间的多重共线性越严重,也就越接近于,VIFj 也就越大。反之,Xj 与其余k-1个解释变量的线性相关程度越弱,解释变量之间的多重共线性也就越弱,也就越接近于,VIFj也就越接近于。,176,由此可见,VIFj 的大小反映了解释变量之间是否存在多重共线性,因此可由它来度量多重共线性的严重程度。经验表明,当
41、 VIFj 10时,就说明解释变量Xj 与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。,177,也可以用个 k 解释变量所对应的方差扩大因子的平均数来度量多重共线性。当,(4.57),远远大于10时就表示存在严重的多重共线性问题。,178,(二)直观判定法,R2 较高,而显著t 统计量较少时,可能存在多重共线性问题。有些解释变量的回归系数所带符号与定性分析结果违背时,可能存在多重共线性问题。,179,一些重要的解释变量在回归方程中没有通过显著性检验时,可初步判断存在着严重的多重共线性。当增加或剔除一个解释变量,或者改变一个观测值时,回归系数的估计值发生较
42、大变化,我们就认为回归方程存在严重的多重共线性。解释变量间的相关系数较大时,可能会出现多重共线性问题。,180,当通过某种检验,发现解释变量中存在严重的多重共线性时,我们就要设法消除或缓解这种共线性。处理多重共线性问题的方法很多,常用的有下面几种。,四、补救措施,181,如果据先前的经济计量分析或经济理论分析已知模型中的共线性解释变量的参数间具有某种线性关系,则可利用此条件消除解释变量间的多重共线性。,(一)使用非样本先验信息,182,例如,柯布道格拉斯生产函数,其对数线性形式为,式中,Y=国内生产总值,L=劳动力投入,K=资本投入。,(4.59),183,由于在时间序列数据中劳动力投入L 和
43、资本投入 K 有很高的相关性,因此该模型中往往有较严重的多重共线性。如果有先验信息判断该经济系统是规模报酬不变的,则有+=1。,184,则式(4.59)变为,即将式(4.59)的二个解释变量的对数线性模型,转变为式(4.60)的一个解释变量的对数线性模型,消除了多重共线性。,(4.60),185,使用普通最小二乘法估计出式(4.60)的资本弹性,则劳动力弹性为。从而得到式(4.59)的CD生产函数。,186,就是先利用横截面数据估计某一参数,将结果代入原方程后,再利用时间序列数据估计另一参数。,(二)横截面与时间序列数据并用,187,例如,要研究汽车需求量,则可设定模型为,(4.61),其中:
44、Y=汽车销售量,P=汽车价格,I=收入。,在时间序列数据中,价格和收入有着较高的相关关系。因此,在式(4.61)中将有多重共线性问题。,188,如果我们能够取得此期间横截面数据,此时价格保持不变,则式(4.61)变为对的一元回归模型,则可得到收入弹性的估计值。然后再利用时间序列数据估计式(4.62),(4.62),得到,从而得到汽车需求模型。,189,这种方法假定横截面数据估计的收入弹性与时间序列数据估计的收入弹性是相等的。,190,(三)剔除一些不重要的共线性解释变量,通常在经济问题的建模中,由于我们认识水平的局限,容易考虑过多的解释变量。当涉及解释变量较多 时,大多数回归方程都受到多重共线
45、性的影响。这时,最常用的办法是首先作解释变量的筛选,舍去一些解释变量。,191,当回归方程中的全部解释变量都通过显著性检验后,如果有几个变量的方差扩大因子大于10,我们可把方差扩大因子最大者所对应的解释变量首先剔除,再重新建立回归方程,如果仍然存在严重的多重共线性,则再继续剔除方差扩大因子最大者所对应的解释变量,直到回归方程中不再存在严重的多重共线性为止。,192,总之,在选择回归模型时,可以将回归系数的显著性检验、方差扩大因子VIF的多重共线性检验与解释变量的经济意义结合起来考虑,以引进或剔除变量。,193,建立一个实际经济问题的回归模型,如果所收集的样本数据太少,也容易产生多重共线性。从本
46、质上讲,多重共线性是样本现象。,(四)增大样本容量,194,据第五章第二节式(5.17)的分析可知,当增加样本容量n 时,会增大。因此,在 固定不变的条件下,会减少估计量 的方差,从而减弱了多重共线性对回归方程的影响。因此,增大样本容量也是缓解多重共线性的一个途径。,195,增大样本容量的方法在有些经济问题中是不现实的,因为在经济问题中,许多解释变量是不受控制的,或由于种种原因不可能再得到一些新的样本数据。,196,(五)使用有偏估计,处理多重共线性对回归模型的影响是近40年来统计学家们关注的热点课题之一,除以上方法被人们应用外,统计学家还致力改进古典的最小二乘法,提出以采用有偏估计为代价来提
47、高估计量稳定性的方法,如岭回归法、主成分法、偏最小二乘法等。,197,五、实际案例,为了研究我国民航客运量的变化趋势及其成因,我们以我国连续16年的数据进行分析。其中,民航客运量作为被解释变量,以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。,198,Y 表示民航客运量(万人),X1表示国民收入(亿元),X2表示消费额(亿元),X3表示铁路客运量(万人),X4表示民航航线里程(万公里),X5表示来华旅游入境人数(万人)。,199,据表4.5的数据,使用普通最小二乘法,得到以下回归模型。,(4.63),200,201,从输出结果可以看出,DW=1.993
48、,表明该模型不存在序列相关,虽然各回归系数均通过了5%显示水平的t 检验,但通过调用EViews的Scalar命令计算得知,X1,X2的方差扩大因子很大,分别为,远远超过10,并且X2的系数估计值为负,与理论分析不符。,202,剔除X1,建立对四个解释变量的回归方程,结果如下,(4.64),203,式(4.64)的解释变量X2的回归系数为负,与经济理论不符。的方差扩大因子分别为,X2的方差扩大因子为77.546,远大于10,说明模型(4.64)中依然有较严重的多重共线性。,204,剔除X2,用Y与三个解释变量X3,X4,X5,建立回归方程,得到如下回归模型。,(4.65),205,模型(4.6
49、5)中的三个解释变量系数的方差扩大因子分别为:,,都小于10,并且回归系数也都有合理的解释,说明模型(4.65)中已不存在严重的多重共线性。因为其它检验均已通过,因此可将该模型确认为最终使用模型。,206,据该模型的最终结果可知,铁路客运量与民航客运量呈反向关系,铁路客运量每增加1万人,民航客运量将减少100人;民航航线里程每增加1万公里,民航客运量将增加26万人;来华旅游入境人数每增加1万人,民航客运量将增加0.317万人。如此可知,对民航客运量影响最大的因素是民航航线里程和来华旅游入境人数。,207,此回归模型的拟合优度很高,调整的判定系数,说明铁路客运量、民航航线里程和来华旅游入境人数这三个解释变量解释了民航客运量总变异的99.3%。,208,END,209,210,