《多重共线性2》PPT课件.ppt

资源描述

《《多重共线性2》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《多重共线性2》PPT课件.ppt（38页珍藏版）》请在三一办公上搜索。

1、4.3 多重共线性,一、多重共线性的概念二、实际经济问题中的多重共线性三、多重共线性的后果四、多重共线性的检验五、克服多重共线性的方法六、案例,一、多重共线性的概念,对于模型：Yi=0+1X1i+2X2i+kXki+i i=1,2,n 其基本假设之一是解释变量之间是互不相关的。如果某两个或多个解释变量之间出现了相关性，则称为存在多重共线性(Multicollinearity)。,如果存在不全为0的数c1、c2、ck，使 c1X1i+c2X2i+ckXki=0 i=1,2,n 即：某个解释变量完全可以由其它解释变量的线性组合来表示则称为解释变量间存在完全共线性（perfect multico

2、llinearity）。,完全共线性与近似共线性,如果存在不全为0的数c1、c2、ck，使 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 即：某个解释变量近似地可以由其它解释变量的线性组合来表示则称为解释变量间存在近似共线性（approximate multicollinearity）。,共线性示例,X2=5X1 完全共线性 X3=5X1+V 近似共线性,完全共线性下，X中至少有一列向量可由其他列向量（不包括第一列）线性表出，这意味着：秩(X)k+1。即：设计矩阵X是非列满秩的！近似共线性下，X依然满足列满秩的条件,共线性下的设计矩阵X,在矩阵表示的线性回归模型：Y=X+中：

3、,这里定义的多重共线性仅对解释变量X之间的线性相关而言。对于解释变量之间存在非线性相关的模型，并不视为存在多重共线性问题。如：,对多重共线性的说明,实际问题中，完全的多重共线性并不多见，但是近似共线性却是一个普遍的现象。基于此，我们关注的多重共线性并不是一个“有无”的问题，而是一个“强弱”的问题。当各X之间的线性相关程度较弱时，我们将认为模型并不存在多重共线性问题。,二、实际经济问题中的多重共线性,一般地，产生多重共线性的主要原因有以下三个方面：（1）经济变量相关的共同趋势时间序列样本：经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。横截面数据：生

4、产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。,（2）滞后变量的引入,在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系例如：消费=f(当期收入,前期收入）显然，两期收入间有较强的线性相关性。,（3）样本资料的限制,由于完全符合理论模型所要求的样本数据较难收集，特定样本可能存在某种程度的多重共线性。多重共线性本质上是一种样本现象。换言之，即使在总体中诸X之间没有线性关系，但在具体获得的样本中仍可能有线性关系。,三、多重共线性的后果,1、完全共线性下参数估计量不存在,完全共线性 X非列满秩(XX)不满秩(XX)-1 不存在无法得到参数的估计量。,的

5、OLS估计量为：,例：对离差形式的二元回归模型,如果两个解释变量完全相关，如x2=x1，则,这时，只能确定综合参数1+2的估计值：,这一后果的实际意义是：无法得到回归系数的唯一解，但可以得到这些系数的线性组合的唯一解,Y=0+1X1+2X2+,Y=0+(1+2)X1+,2、近似共线性下解释变量的单独作用无法区分,实际问题中的直接表现是：模型的回归系数经常表现出反常的现象！例如1本来应该是正的，结果却是负的。经验表明，如果存在这种反常情形，应该首先怀疑多重共线性。,经典假设下，回归系数j表达了在其它解释变量不变的情形下，Xj对Y的单独作用（净影响）如果模型中两个解释变量具有线性相关性，例如X2=

6、X1，这时，X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系，而是反映它们对被解释变量的共同影响从而解释变量的单独作用无法无区分，1、2失去了应有的经济含义,3、近似共线性下OLS估计量的方差变大,近似共线性下，可以得到OLS参数估计量，并且可以证明，此时参数估计量依然满足线性、无偏和有效性，即OLS依然是BLUE但是，此时参数估计量的方差会增大。参数估计量方差的表达式为,由于|XX|0，引起(XX)-1主对角线元素较大，使参数估计值的方差增大,这意味着：（1）无法精确的估计参数（以较高的精度估计参数）（2）基于参数估计量的标准差的变量显著性检验失效,以二元线性模型 Y=0+1

7、X1+2X2+为例:,恰为X1与X2的线性相关系数的平方r2,由于 0 r2 1，故 1/(1-r2)1,方差膨胀因子(Variance Inflation Factor,VIF),显然：多重共线性的存在使得参数估计值的方差增大，其增加的倍数可以采用1/(1-r2)衡量,当完全不共线时,r2=0,当近似共线时,0 r2 1,当完全共线时，r2=1,定义：1/(1-r2)称为方差膨胀因子(Variance Inflation Factor,VIF)1-r21/VIF称为容忍度(Tolerance,TOL),更一般地，对于K元回归模型 Y=0+1X1+2X2+kXk+,j的VIF定义为：,有：,方

8、差膨胀因子的一般性定义,其中：Rj2为下述回归的可决系数：,注意：,除非是完全共线性，多重共线性并不意味着任何基本假设的违背；因此，即使出现较高程度的多重共线性，OLS估计量仍具有线性性等良好的统计性质。问题在于：即使OLS法仍是最好的估计方法，它却不是“完美的”，尤其是在统计推断上无法给出真正有用的信息。,多重共线性的检验可以从两个角度进行：（1）共线性的定义变量的线性相关性（2）共线性的后果方差变大、系数反常等对多重共线性的检验需要完成两个基本任务：（1）检验多重共线性是否“存在”是否严重到需要重视的程度（2）估计多重共线性的范围判断哪些变量之间存在共线性。,三、多重共线性的检验,1、相关

9、系数法,计算解释变量两两之间的简单相关系数，进行判断（1）对两个解释变量简单相关系数（2）对多个解释变量相关系数矩阵若|r|接近1，则说明两变量存在较强的多重共线性。注意：相关系数多大才算是严重的共线性，并无统一标准，只能凭经验判断。经验认为，如果rij0.8，比较严重 0.9，非常严重,若在OLS法下，出现以下现象，则可能意味着共线性的存在：a、系数估计值的符号不合常理；b、R2与F值较大，方程具有显著性，但各参数估计值的t检验值均较小，多个解释变量并不显著说明各解释变量对Y的联合线性作用显著，但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨，故t检验不显著。,2、经验判断法,将

10、每个解释变量Xi对其它解释变量Xj进行回归，观察其拟合优度R2和F检验值，如果某个Ri2接近1，Fi显著超出临界值，则表明该Xi与其它解释变量存在多重共线性。,3、辅助回归检验法,计算每个回归系数的VIF或TOL 方差膨胀因子越大（或容忍度越小），表明模型的多重共线性越强。当VIF5或VIF10时，认为存在较严重的多重共线性。,4、方差膨胀因子和容忍度（VIF&TOL）,模型存在较严重的多重共线性时，|XX|0，由线性代数，若1,k1为矩阵XX的特征值，则：|XX|=1k1 0表明，特征值中至少有一个接近于0。因此可利用矩阵XX的特征值检验多重共线性。条件指数（病态数）CN(Condition

11、al Number)CN=最大特征值/最小特征值 max/min 病态指数CI（Conditional Index）：CI=SQRT(CN)CN和CI均反映了特征值的离散程度，数值越大表明多重共线性越严重,5、特征值检验法,在模型中排除某一个解释变量Xj，估计模型；如果拟合优度与包含Xj时十分接近，则说明Xj与其它解释变量之间存在共线性。,6、剔除检验法,以Y为被解释变量，逐个引入解释变量，构成回归模型，进行模型估计，根据拟合优度的变化决定新引入的变量是否独立。如果拟合优度变化显著，则说明新引入的变量是一个独立解释变量；如果拟合优度变化很不显著，则说明新引入的变量与其它变量之间存在共线性关系。

12、,7、引入检验法,找出引起多重共线性的解释变量，将它排除出去。以逐步回归法得到最广泛的应用。注意：这时，剩余解释变量参数的经济含义和数值都发生了变化,如果模型被检验证明存在多重共线性，则需要发展新的方法估计模型，最常用的方法有三类。,四、克服多重共线性的方法,1、第一类方法：排除引起共线性的变量,2、第二类方法：差分法,时间序列数据、线性模型：将原模型变换为差分模型:Yi=1 X1i+2 X2i+k Xki+i可以有效地消除原模型中的多重共线性。,一般讲，增量之间的线性关系远比总量之间的线性关系弱得多。,由表中的比值可以直观地看到：增量的线性关系弱于总量之间的线性关系。,进一步分析：Y与C(-

13、1)之间的判定系数为0.9988，Y与C(-1)之间的判定系数为0.9567,3、第三类方法：减小参数估计量的方差,多重共线性的主要后果是参数估计量具有较大的方差所以采取适当方法减小参数估计量的方差，虽然没有消除模型中的多重共线性，但确能消除多重共线性造成的后果。岭回归法是其中的代表,#岭回归法（Ridge Regression）,70年代发展的岭回归法，以引入偏误为代价减小参数估计量的方差，受到人们的重视。具体方法是：引入矩阵D，使参数估计量为,其中矩阵D一般选择为主对角阵，即 D=aI（a0）,（*）,显然，与未含D的参数B的估计量相比，(*)式的估计量有较小的方差。,#对多重共线性处理

14、的说明,多重共线性在本质上是一种样本现象，因此增大样本容量可以视为一个根本性的解决方法多重共线性的主要后果是增大估计量的方差，从而导致无法精确的估计参数，而参数估计量的性质并未因此改变因此，只要是参数估计量的方差较小，t统计量较大，就没有必要过度关注多重共线性的问题特别地，如果模型的主要目的在于预测，那么即便存在严重的多重共线性，也并不会过度妨碍模型的预测性,六、案例（中国粮食生产函数）,根据理论和经验分析，影响粮食生产（Y）的主要因素有：农业化肥施用量（X1）；粮食播种面积(X2)成灾面积(X3);农业机械总动力(X4);农业劳动力(X5),已知中国粮食生产的相关数据，建立中国粮食生产

15、函数：Y=0+1 X1+2 X2+3 X3+4 X4+4 X5+,1、用OLS法估计上述模型：,R2接近于1；给定=5%，得F临界值 F0.05(5,12)=3.11 F=638.4 15.19，故认上述粮食生产的总体线性关系显著成立。但X4、X5 的参数未通过t检验，且符号不正确，故解释变量间可能存在多重共线性。,(-0.91)(8.39)(3.32)(-2.81)(-1.45)(-0.14),2、检验简单相关系数,发现：X1与X4间存在高度相关性。,列出X1，X2，X3，X4，X5的相关系数矩阵：,3、找出最简单的回归形式,可见，应选第1个式子为初始的回归模型。,分别作Y与X1，X2，X4，X5间的回归：,(25.58)(11.49)R2=0.8919 F=132.1 DW=1.56,(-0.49)(1.14)R2=0.075 F=1.30 DW=0.12,(17.45)(6.68)R2=0.7527 F=48.7 DW=1.11,(-1.04)(2.66)R2=0.3064 F=7.07 DW=0.36,4、逐步回归,将其他解释变量分别导入上述初始回归模型，寻找最佳回归方程。,回归方程以Y=f(X1，X2，X3)为最优：,5、结论,

展开阅读全文