《【教学课件】第6章多重共线性.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第6章多重共线性.ppt(62页珍藏版)》请在三一办公上搜索。
1、第6章 多重共线性,Multi-Collinearity,一、多重共线性的概念 二、多重共线性的原因 三、多重共线性的后果 四、多重共线性的检验 五、多重共线性的解决办法 六、案例,第6章 多重共线性,一、多重共线性的概念,对于多元线性回归模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n其基本假设之一是解释变量是互相独立的。,如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。这里,“共线性”表示存在着线性相关关系,“多重”意味着相关关系有多个组合。,也就是说,如果存在 1X1i+2X2i+kXki=0 i=1,2,n 其中:i不全
2、为0,则称为解释变量间存在完全共线性(perfect multicollinearity)即某一个解释变量可以用其他解释变量的线性组合表示。,如果存在 1X1i+2X2i+kXki+vi=0 i=1,2,n 其中i不全为0,vi为随机误差项,则称为 近似共线性(approximate multicollinearity)或不完全共线性。,在矩阵表示的线性回归模型 Y=X+中,完全共线性指:秩(X)k+1,即,中,至少有一列向量可由其他列向量(不包括第一列)线性表出。,如:X2=X1,则X2对Y的作用可由X1代替。,,解释变量间毫无线性关系,变量间相互正交。这时已不需要作多元回归,每个参数j都可
3、以通过Y 对 Xj 的一元回归来估计。,回归模型中解释变量的关系,由于存在随机变量,完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。这时,列向量不是完全线性相关的,而是近似线性相关的。,需要指出的是,多重共线性是指解释变量之间的线性关系,并不是指它们之间的非线性关系。例如,对于下述回归模型:,该模型仅是非线性关系,并不违反无多重共线性假定。,注意:,二、多重共线性产生的原因,一般地,产生多重共线性的主要原因有以下四个方面:1 经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生
4、产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。,2 经济变量之间的内在联系,在经济计量模型中,引入的经济变量之间存在内在联系。例如,农业生产函数中,影响农业产量Y的因素有耕地面积X1和施肥量X2等因素,其模型可写为,一般来说,土地面积与施肥量有密切关系,面积越大,施肥量越多,二者存在着一定的线性依存关系。,3 滞后变量的引入,在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入,前期收入)显然,两期收入间有较强的线性相关性。,再如,固定资产存量不仅与本期投资有关,还与以前有关。同一变量的前后期值可能高度线性相关。,4 样本资
5、料的限制,由于完全符合理论模型所要求的样本数据较难收集,只能被动接受,而且只能获得一个有限范围观察值,无法进行重复试验,如果解释变量个数大于观测次数,就会出现过度拟合的模型。特定样本可能存在某种程度的多重共线性。如医疗研究中,可能只有少数病人,却要收集大量变量的信息,这些变量之间就会出现相关性。从方程组的角度看,是方程个数少于变量的个数,则方程组有无数组解,其中部分解可以用其他解线性表示,即变量之间存在相关性。,三、多重共线性的后果,1、完全共线性下参数估计量不存在,如果存在完全共线性,则(XX)-1不存在,无法得到参数的估计量。,的OLS估计量为:,如果解释变量之间是相关的,当一个发生变化时
6、,与其高度相关的变量的观测值也会以相似的方式变化,这时参数的大小就不再具有原来的意义,而且参数的意义难以解释。,例如,在农业生产函数中 如果耕地面积 和施肥量 之间存在完全的共线性,比如(k为一非零常数),我们再引入 一个任意非零常数,则 代入 模型中则有虽然完全等价,但回归系数却显然不同,说明这时 参数值的估计不唯一确定.从经济意义上讲,如果取,那么()0 这表明,随耕地面积的增加农产量将会减少,这显然是十分荒谬的结论。,完全多重共线性的后果,对于二元线性回归模 型 其参数1的OLS估计式为:由 得,则,完全多重共线性的后果(一般),因此,,2.参数估计量经济含义不合理,如果模型中两个解释变
7、量具有线性相关性,例如 X2=kX1,这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。1、2已经失去了应有的偏回归系数经济含义,甚至经常表现出似乎反常的现象:例如1本来应该是正的,结果却是负的。,3.不完全共线性下OLS估计量非有效,不完全共线性下,可以得到OLS参数估计量。,对于二元线性回归模型,可见X1与X2不完全的共线时,参数是可以估计的。,设X1与X2不完全的共线性关系为 其中,,则有,代入参数估计式,得:,3.不完全共线性下OLS估计量非有效,不完全共线性下,虽然可以得到OLS参数估计量,但参数估计量方差的表达式为,由于|XX
8、|0,引起(XX)-1主对角线元素较大,使参数估计值的方差增大,OLS参数估计量非有效。,仍以二元线性模型 Y=0+1X1+2X2+为例:,恰为X1与X2的线性相关系数的平方r2,由于 r2 1,故 1/(1-r2)1,其中,多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor,VIF),它表明OLS的估计量的方差随着是多重共线性的增加而“膨胀”起来。,当完全不共线时,r2=0,当不完全共线时,0 r2 1,当完全共线时,r2=1,,4、参数的置信区间明显扩大,由于存在多重共线性,变大的方差容易使参数估计量有较大的标准差,因此参数
9、真值的置信区间也将增大。,此置信区间将随 的增大而增大。而置信区间愈大,对真值的估计愈不准确。,5、变量的显著性检验失去意义,存在多重共线性时,参数估计值的方差与标准差变大,容易使通过样本计算的t值小于临界值,误导作出参数为0的推断,可能将重要的解释变量排除在模型之外,6、参数估计量及其标准误差对于样本波动非常敏感,数据即使出现轻微变动,它们都将发生较大变化,使回归模型缺乏稳定性。这可从二元线性回归模型中看出,故当样本数据的轻微变动引起 的轻微变动时,将会发生较大的变动,即 将会发生较大的变动。,注意:,当模型存在多重共线性时,OLS估计仍然为最佳线性无偏估计(BLUE)。如果我们的目的仅仅是
10、预测的未来值,且预计解释变量之间的多重共线关系在预测期不发生变化,那么,多重共线性对Y的预测就没有明显影响。问题在于,即使OLS法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。,多重共线性表现为一种样本现象,即使总体不存在多重共线性,所得样本也可能出现多重共线性。而且由于抽样波动,对于同一总体,不同样本的共线性程度也不相同。因此,对于多重共线性的检验,可以直接对所得样本进行分析做出判断。,多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:如简单相关系数检验法、判定系数检验法、方差扩大(膨胀)因子法等。,四、多重共线性的检验
11、,1.简单相关系数检验法,含义:简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。判断规则:一般而言,如果每两个解释变量的简单相关系数(零阶相关系数)比较高,例如大于0.8,则可认为存在着较严重的多重共线性。,较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。特别是在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。因此,并不能简单地依据相关系数进行多重共线性的准确判断。命令方式COR 各个解释变量名,得两两简单相关系数矩阵如下,注意:,2.根据可决系数R2、F检验、t检验的结果判断,经验表明,多重共线性存在的一
12、个标志是模型结果具有较大的标准误差和较小的t统计量。如果模型的可决系数 很大,检验高度显著,但是偏回归系数的t检验几乎都不显著(t检验值较小),则模型很可能存在多重共线性。因为通过检验,虽然各解释变量对的联合线性影响高度显著,但每个解释变量的单独影响却都不显著,就无法辨别哪个解释变量对被解释变量的影响更大。这种矛盾结果可能是由于 较大引起的,这时很有可能存在严重的多重共线性。,3、判定系数检验法,如果存在多重共线性,需进一步确定究竟由哪些变量引起。使模型中每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度。如果某一种回归 Xji=1X1i+2X2i+kXki的判定系数 较
13、大,说明Xj与其他X间存在共线性。(其中 称为复相关系数),具体可进一步对上述回归方程作F检验:,式中:Rj2为第j个解释变量对其他解释变量的回 归方程的决定系数,若存在较强的共线性,则Rj2较大且接近于1,这时(1-Rj2)较小,从而Fj的值较大。因此,给定显著性水平,计算F值,并与相应的临界值比较,来判定是否存在相关性。,构造如下F统计量,在模型中排除某一个解释变量Xj,估计模型;如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。,另一等价的检验是:,4、方差扩大(膨胀)因子法,经验规则,方差膨胀因子越大,表明解释变量之间的多重共性越严重。反过来,方差膨胀因子越接近
14、于1,多重共线性越弱,因此,可以用作为衡量多重共线性的一个指标。经验表明,方差膨胀因子VIF 10时,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。,与 等价的指标是“容许度”(Tolerance),其定义为:,另一等价的检验是:,显然,0TOLj1;当Xj与其他解释变量高度相关时,TOLj0。因此,一般当TOLj0.1时,认为模型存在较严重的多重共线性。,5.条件数检验,(1)特征值:,考察解释变量的样本数据矩阵,当模型存在完全多重共线性时,rank(X)k+1,而当模型存在严重的多重共线性时,,根据矩阵代数知识,,为矩阵 的 个,若,0,特
15、征值,则有:,5.条件数检验(特征值),,,,,这表明特征值中至少有一个近似地等于0。若c是对应于特征值 的单位特征向量,则,更具体地 这说明矩阵 列向量之间存在多重共线性,并且这些多重共线性关系的系数向量就等于接近于0的那个特征根对应的特征向量。因此,可以利用的特征值来检验模型的多重共线性,5.条件数检验,(2)条件指数(Condition Index)将 矩阵的每一列 用其模 相除以实现标准化,然后再求 矩阵的特征值,取其中最大的除以最小的后再求平方根,得到该矩阵的“条件数”,记为:通常当 大于10或20时,认为存在较明显的多重共线性。,附:回归系数方差分解:,如果V是对角化 的(K+1)
16、(K+1)对角矩阵:即其中 是 的特征值构成的对角矩阵。从而两种理解:如果特征值之和反映对被解释变量解释程度,倒数之和反映引起估计量方差的比重。,首先明确建立模型的目的:经济预测、结构分析或政策评价。如果建立模型的目的是进行预测,就可以忽略多重共线性。1、直接剔除次要或可替代的变量 剔除时需注意产生新的问题:当模型存在共线性,若将某个共线性变量去掉,模型的经济意义不合理;可能使模型产生异方差性或自相关性;若剔除不当,可能会产生模型设定误差,造成参数估计严重有偏,四、多重共线性的解决方法,2、减小参数估计量的方差,多重共线性的主要后果是参数估计量具有较大的方差,所以,采取适当方法减小参数估计量的
17、方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。例如:增加样本容量,可使参数估计量的方差减小,因为:,此外,获取新的样本,或许有助于消除多重共线性。因为多重共线性是一个样本现象,在包括同样变量的另一个样本中,共线性程度或许会降低。关键是能否获得另一个样本。,利用附加信息:“事前信息”也称“先验信息”,是指根据经济理论及实际的统计资料所获得的解释变量之间的关系。例如,消费函数模型为 容易理解,收入 和财产 之间是高度相关的,所以模型存在多重共线性。如果根据“事前信息”已经知道 大约是 的 1/10,即 利用这一信息,可将模型转化为 若是令 则有 该模型已无多重共线性。,3、
18、间接剔除重要的解释变量,利用附加信息 再如:生产函数,L与K通常高度相关,,若已知附加信息:+=1(规模报酬不变),或,记 y=Y/L,k=K/L则C-D生产函数可以表示成:y=Ak,此时二元模型转化成一元模型,可利用OLS法估计,进而得到,则,3、间接剔除重要的解释变量,(2)变换模型的形式,变换模型的函数形式:如将线性模型转换成双对数模型、半对数模型、多项式模型等;变换模型的变量形式 例如,某种商品的需求函数为:如果只要求知道两种商品的相对价格()变动对需求量的影响,并不一定要求分析商品价格的绝对变动对需求量的影响,则可把需求函数变换为:改变变量的统计指标例如:消费函数:可变换为 与 的相
19、关程度远小于 与 的相关程度。,(3)综合使用时序数据与横截面数据,可以看出,最终还是通过减少模型中解释变量个数的方式来消除多重共线性的影响,但并不是直接剔除有重要影响的解释变量。,例如,某商品的需求函数为,若 和 很高度正相关,,先根据截面数据估计出,参数,然后再根据估计的对原模型作变换:,再利用原来的时间序列数据估计出,前提条件,就是 在整个时期的波动不大。,得,4、Frisch综合分析法,基本原理:从所有解释变量中间先选择影响最为显著的变量建立模型,然后再将模型之外的变量逐个引入模型;每引入一个变量,就对模型中的所有变量进行一次显著性检验,并从中剔除不显著的变量;逐步引入剔除引入,直到模
20、型之外所有变量均不显著时为止。,基本步骤:将被解释变量Y对每一个解释变量Xj(j=1,2,k)分别进行回归,对每一个回归方程根据经济理论和统计检验进行综合判断分析,从中选出一个最优的基本回归方程。在此基础上,再逐一引入其它解释变量,重新作回归,逐步扩大模型的规模,直至从综合情况看出现最好的模型估计形式。,(1)如果新解释变量在符合经济意义的前提下,能使拟合优度 有所提高,并且每个参数统计检验显著,则采纳该变量。(说明该解释变量是一个独立解释变量)(2)如果新解释变量不能改善拟合优度,同时对其它参数无明显影响,则可舍弃该变量。(说明它可以用其它变量的线性组合代替)(3)如果新解释变量能使拟合优度
21、有所改变,提高,但对其它参数的符号和数值有明显的影响,统计检验也不显著,可以判定新解释变量引起了共线性。此时需按照前述的检验方法,考察变量间线性相关的形式和程度,并进行经济意义的判断,在共线性程度最高的两个变量中,舍去对被解释变量影响较小、经济意义相对次要的一个,保留影响较大、经济意义相对重要的一个。,引进新解释变量进入回归方程时,注意:,设一个多元线性回归模型为普通最小二乘估计的公式为当解释变量间存在严重的多重共线性时,矩阵接近于奇异,。则用 代替 代入最小二乘估计的公式,使得0的可能性比 0的可能性更小。从而,有效地避免了因 0造成的方差变大。故岭回归估计量为:其中 称为“岭回归参数”,一
22、般,当时,就是普通最小二乘估计。当 时,所有的系数估计值都向零趋近。,5.岭回归法(Ridge Regression),0,会增大,(1)从 式容易看出,在岭回归参数与Y无关的情形下,是最小二乘估计的一个线性变换,也是理论值Y的线性函数.(2)估计量的数学期望为:,5.岭回归估计量的性质,岭回归估计量 不再是 的无偏估计,,(3)由于 的方差为,5.岭回归岭回归估计量的性质,而 的方差为,可以证明,,比,要小,而且 越大,越小,但是 的偏误同时也增大,所以只能寻找一个,使 即可。,也就是说,运用岭回归估计参数是牺牲了无偏性 来寻求参数估计的最小方差性。但该方法为我们 寻求参数估计的最小方差性提
23、供了新的思路。,如何选择 是一个复杂的问题,,Hoerl和Kennard于1975年提出一种估计方法。该方法是首先对原模型的解释变量与被解释变量进行标准化处理:得到下列模型:用OLS法估计该模型,得到参数与随机误差项方差的估计值 和。选择 作为 的估计值。常用的方法还有岭迹法、逐步搜索的方法等,(1)前进法 前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。具体做法是首先将全部m个自变量,分别对因变量y建立m个一元线性回归方程,并分别计算这m个一元回归方程的m个回归系数的F检验值,记为,选其最大者记为,6.逐步回归方法,给定显著性水平,若 则首先将 引入回归方程,为了方便,设
24、 就是 再对因变量y分别与建立m-1个二元线性回归方程,对这m-1个回归方程中的回归系数进行F检验,计算F值,记为 选其最大的记为,若 则接着将 引入回归方程依上述方法接着做下去。直至所有未被引入方程的自变量的F值均小于 时为止。这时,得到的回归方程就是最终确定的方程。,(2)后退法后退法与前进法相反,首先用全部m个变量建立一个回归方程,然后在这m个变量中选择一个最不重要的变量,将它从方程中剔除,即把回归系数检验的F值最小者对应的自变量剔除。设对m个回归系数进行F检验,记求得的F值为 选其最小者记为,给定显著性水平,则首先将Xj从回归方程中剔除,为方便,设Xj就是Xm,接着对剩下的m-1个自变
25、量重新建立回归方程,进行回归系数的显著性检验,像上面那样计算出,如果又有,则剔除Xj,重新建立y关于m-2个自变量的回归方程,依此下去,直至回归方程中所剩余的p个自变量的F检验值均大于临界值,没有可剔除的自变量为止。这时,得到的回归方程就是最终确定的方程。,前进法可能存在这样的问题,即不能反映引进新的自变量后的变化情况。因为某个自变量开始可能是显著的,但当引入其他自变量后它变得并不显著了,却又没有机会将其剔除,即一旦引入,就是“终身制”的;这种只考虑引入,而没有考虑剔除的做法显然是不全面的。而且,我们在许多例子中会发现可能最先引入的某个自变量,当其他自变量相继引入后,它会变得对因变量y很不显著
26、。,前进法和后退法述评,后退法的明显不足是,一开始把全部自变量引入回归方程,这样计算量很大。如果有些自变量不太重要,一开始就不引入,就可减少一些计算量;再就是一旦某个自变量被剔除,“一棍子就把它打死了”,它再也没有机会重新进入回归方程。如果涉及的自变量 是完全独立的(或不相关),那么在 取时,前进法与后退法所建的回归方程是相同的。,(3)逐步回归法逐步回归的基本思想是有进有出。具体做法是将变量一个一个引入,当每引入一个自变量后,对己选人的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检
27、验,以确保每次引入新的变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷,保证了最后所得的回归子集是最优回归子集。,在逐步回归法中需要注意的一个问题是引入自变量和剔除自变量的显著性水平 值是不相同的,要求引入自变量的显著性水平 小于剔除自变量的显著性水平,否则可能产生“死循环”。也就是当 时,如果某个自变量的显著性P值在 与 之间,那么这个自变量将被引入、剔除、再引入、再剔除循环往复,以至无穷。逐步回归的计算参阅应用回归分析,*七、分部回归与多重共线性,1、分部回归法(Partitioned Regression),对于模型,在满足解释变量与随机误差项不相关的情况下,可以写出关于参数估计量的方程组:,将解释变量分为两部分,对应的参数也分为两部分:,如果存在,则有,同样有,这就是仅以X2作为解释变量时的参数估计量。,这就是仅以X1作为解释变量时的参数估计量,2、由分部回归法导出,如果一个多元线性模型的解释变量之间完全正交,可以将该多元模型分为多个一元模型、二元模型、进行估计,参数估计结果不变;实际模型由于存在或轻或重的共线性,如果将它们分为多个一元模型、二元模型、进行估计,参数估计结果将发生变化;,