《第6章多重共线性.ppt》由会员分享,可在线阅读,更多相关《第6章多重共线性.ppt(30页珍藏版)》请在三一办公上搜索。
1、浙江财经学院 倪伟才,1,第6章 多重共线性,一.多重共线性概念(multi-collinearity)1.多元线性回归模型的矩阵形式:Y=X+,其中X是设计矩阵,它的基本假设是rank(X)=p+1n,该假设的理由:为什么等于p+1;为什么p+1n,而不是p+1=n?2.多重共线性的两种情况(1)完全多重共线性(perfect multi-collinearity):若存在不全为0的(p+1)个数,c0,c1,c2,cp,使得c0+c1x1+c2x2+cp xp=0,则x1,x2,xp 之间存在完全多重共线性(1)近似完全多重共线性(less than multi-collinearity)
2、:如果存在不全为0的(p+1)个数,c0,c1,c2,cp,使得c0+c1x1+c2x2+cp xp 0,(或c0+c1x1+c2x2+cp xp+v=0,其中v为随机误差项。)则x1,x2,xp 之间存在近似完全多重共线性,浙江财经学院 倪伟才,2,(3)二者的区别,a.完全多重共线性:取x0=1,c0 x0+c1x1+c2x2+cp xp=0,如c10,则x1=-c0 x0/c1-c2x2/c1-cp xp/c1 说明 x1 和其它变量有准确的线性关系;或能从其它变量的线性组合推出 x1 和方程右边线性组合的相关系数1b.近似完全多重共线性:c10,则x1=-c0 x0/c1-c2x2/c
3、1-cp xp/c1 v/c1 说明:x1 不是其它变量的一个准确的线性组合,因为它还决定于随机误差项v.例:x1=10,15,18,24,30.利用软件spss的compute 产生x2=5*x1,及产生x3=x2+UNIFORM(10),说明二者区别。,浙江财经学院 倪伟才,3,stata,input x11015182430Endgen x2=5*x1gen x3=x2+uniform()*10list x1 x2 x3corr x1 x2 x3,浙江财经学院 倪伟才,4,课堂练习,设x1,x2为解释变量,则完全多重共线性的是()A、B、C、D、,浙江财经学院 倪伟才,5,二、产生多重共
4、性的背景,例1:y=0+1x1+2x2,y表示电力消费,x1表示收入,x2表示住房面积。x1和x2存在多重共线性(实质上是较强的相关性):收入越高,住房面积较大;收入越低,住房面积较小。例2.y=0+1x1+2x2+3x3,y表示粮食产量,x1表示施肥量,x2表示灌溉面积,x3表示农业资金的投入。x3和x1,x2存在多重共线性:资金的投入主要用于购买化肥和开发水利。例3.在医学研究中,在少量的病人上,收集了大量解释变量的信息。,浙江财经学院 倪伟才,6,三.多重共线性的后果,完全多重共线性的后果:回归参数的估计值不能确定,而且它们的标准误是无穷大;近似完全多重共线性的后果:虽然回归参数的估计值
5、可以确定,但是有较大的标准误,不理想。下面用二元线性回归模型y=0+1x1+2x2+的数学公式推倒来说明它们的后果。,浙江财经学院 倪伟才,7,1:随着共线性增强,估计值的方差变大,浙江财经学院 倪伟才,8,浙江财经学院 倪伟才,9,2:估计值不能确定,浙江财经学院 倪伟才,10,3:估计值的解不唯一,浙江财经学院 倪伟才,11,小结:完全多重共线性的后果,完全多重共线性的后果:参数估计值不能确定;1的意义:保持x2 不变的情况下,x1每变化1个单位,y的平均变化,但x1和x2存在完全共线性,就没有任何办法能保持x2不变:理由是x1变化1个单位,x2将变化个单位,意味着不能从所给的样本中把x1
6、,x2对y的影响分开来。简而言之,x1和x2是不可能区分,而在实际中要求知道每个解释变量x1,x2各自对y的影响。具有破坏性!具体联系实事!若利用x2=x1,将二元模型转化一元模型,只有1条方程,但却有两个未知数,故0,1,的解不唯一,即不能确定!标准误是无穷大,浙江财经学院 倪伟才,12,2.近似完全多重共线性的后果,将x2=x1+v代入1说明x2,x1共线性程度越高,即v越趋于0,从而1 趋于不确定。var(1)会增大;参数显著性检验的t统计量:t=1/var(1)(1/2),存在共线时,var(1)会增大,t值会变小。对于给定,当|t|t(/2),接受原假设(相关系数0)表明x1对y的影
7、响不显著。总之,实际上x1对y的影响是显著的,但由于共线性,可导致x1对y的影响不显著的!,浙江财经学院 倪伟才,13,例 题,例3.3的多重共线性注意:消费额前面的系数为负的,者符合常识吗?题后语:整个回归方程作为整体高度显著(通过F检验),但有些回归系数不能通过显著性检验,甚至出现正负号得不到合理的解释,此时应考虑是否存在多重共线性。,浙江财经学院 倪伟才,14,四、多重共线性的诊断,(1)R2高,F检验显著,但t检验不显著。R2高,F检验显著:表明各个自变量作为整体对y的影响是显著的;t检验不显著:由于解释变量共线性(较强的相关性),使得不能分解出各个解释变量对y的独立影响。例:消费和收
8、入、财富的关系。数据:消费和收入财富的多重共线性.dta F检验显著,收入和财富一起解释了消费支出变异中的约96%;每个t检验都不显著;财富变量不但在统计上不显著,而且带有错误的符号。根据经验,消费与财富之间有正的关系;几何意义:画1和2的个别置信区间与1和2的联合置信域(椭圆形)F检验显著,t检验不显著,这一事实就说明两个自变量的相关程度如此之高。以致无法辨别收入或财富对消费的个别的影响。做x2对x1 的回归,判断它们是否存在共线性(或考虑相关系数或scaterplot)分别做y对x1的回归,y对x2的回归,它们的 t检验是否显著。表明:在极端多重共线性下,去掉一个高度共线的变量会使另一个变
9、量在统计上变得 显著。因此解决高度共线的一个方法:扔掉共线的变量。,浙江财经学院 倪伟才,15,几何意义,o,.,.,.,.,1,2,-1.004,2.887,-0.2332,0.1484,浙江财经学院 倪伟才,16,(2)方差膨胀因子(Variance inflation factor)(VIF),a.Rj2为自变量x j对其余p-1个自变量的复决定系数。Collinearity involves relationships among the predictor variables and does not directly involve the response variable.On
10、e informative way to examine Collinearity is to consider what happens if each predictor variable is treated as the response variable in a multiple regression model in which the independent variables are all of the remaining predictors.A rule of thumb for Rj2 is to be concerned with any value larger
11、than 0.90.b.方差膨胀因子(Variance inflation factor)(VIF)考虑二元线性回归模型:y=0+1x1+2x2+,Var(1)=2/x1i2(1-r122),Var(2)=2/x2i2(1-r122),其中x1i,x2i为离差形式,r12表示x1,x2的相关系数。,浙江财经学院 倪伟才,17,定义:VIF=1/(1-r122)Var(1)=2/x1i2(1-r122)=VIF 2/x1i 2 Var(2)=VIF 2/x2i2(方差和VIF 成正比!)表明:随着x1,x2的共线性增强,r1221,1-r1220,VIF,Var(1),Var(2),方差膨胀!V
12、IF1!VIF10,认为有多重共线性!将VIF推广到一般的多元回归模型VIF=1/(1-Rj2)C.容忍度(tolerance)VIF=1/(1-Rj2),Tol=1/VIF=1-Rj2Spss中的默认容忍度为0.0001,即 当Rj20.9999时,自变量xj将被自动拒绝在回归方程之外,除非修改容忍度的默认值。,浙江财经学院 倪伟才,18,例题讲解,例3.3多重共线性的判断。(VIF)1通过辅助回归计算x1的VIF练习:计算x2的VIF2:直接产生VIF3:考虑x1,x2的偏相关系数:0.9776,浙江财经学院 倪伟才,19,stata,相关命令请参考www.ats.ucla.edu数据:消
13、费和收入财富的多重共线性.dtareg y x1 x2vif Variable|VIF 1/VIF-+-x1|482.13 0.002074 x2|482.13 0.002074-+-Mean VIF|482.13,浙江财经学院 倪伟才,20,特征根的分析,根据行列式的性质:矩阵的行列式等于其特征根的连乘。当存在多重共线性时,行列式|XX|0,矩阵XX至少有一个特征根近似为零。反之,当矩阵XX至少有一个特征根近似为零时,X的列向量间必存在多重共线性,下面给出证明!,浙江财经学院 倪伟才,21,特征根的证明,结论:用矩阵XX的特征根来研究多重共线性,矩阵XX有多少个特征根接近于0,设计矩阵X就有
14、多少个多重共线性关系。,浙江财经学院 倪伟才,22,条件指数(condition index),为了确定特征根近似于0的标准,引进了条件数。记矩阵XX的最大特征根为1,称为特征根为i的特征根。判断标准:k100,严重的多重共线性;10 k100,较强的多重共线性;0 k10,认为没有多重共线性。,浙江财经学院 倪伟才,23,方差比例表,例3.3多重共线性的判断。,浙江财经学院 倪伟才,24,Stata:例3.3.dta,reg y x1 x2 x3 x4 x5vif Variable|VIF 1/VIF-+-x1|1968.90 0.000508 x2|1749.89 0.000571 x4|
15、55.47 0.018029 x5|24.95 0.040077 x3|3.15 0.317365-+-Mean VIF|760.47,浙江财经学院 倪伟才,25,Cond,collin x1 x2 x3 x4 x5(obs=16)Collinearity Diagnostics SQRT R-Variable VIF VIF Tolerance Squared-x1 1968.90 44.37 0.0005 0.9995 x2 1749.89 41.83 0.0006 0.9994 x3 3.15 1.78 0.3174 0.6826 x4 55.47 7.45 0.0180 0.9820
16、x5 24.95 5.00 0.0401 0.9599-Mean VIF 760.47,浙江财经学院 倪伟才,26,6.4 消除多重共线性的方法,对多重共线性的两点认识:在实际中,多重共线性是一个程度问题而不是有无的问题,有意义的区分不在于有和无,而在于多重共线性的程度。多重共线性是针对固定的解释变量而言,是一种样本的特征,而非总体的特征。消除多重共线性的方法:1.增加样本容量二元线性回归模型 y=0+1x1+2x2+,Var(1)=2/x1i2(1-r122),Var(2)=2/x2i2(1-r122),n;x1i2,x2i2;Var(1),Var(2)。部分消除多重共线性对方差的影响。2.
17、利用先验信息改变参数的约束形式例:柯布道格拉斯生产函数,浙江财经学院 倪伟才,27,已知X2 和X3 之间高度共线。根据先验信息,确定3=22,带入模型后可得:,例如:C-D生产函数,K与L高度相关。已知规模收益不变,则+=1。生产函数的双对数模型可变为:,可以对这一新回归方程进行估计。,2、利用先验信息 假定对回归模型:,浙江财经学院 倪伟才,28,3.删除不必要的解释变量:y=0+1x1+2x2+3x3+,y表示粮食产量,x1表示施肥量,x2表示灌溉面积,x3表示农业资金的投入。可删除x3!4.其它方法:逐步回归法,岭回归(ridge regression),主成分分析(principal components).练习:课本168页第6题。考虑下面的数据。假如用模型y=0+1x1+2x2+3x3+拟合数据。a.你能估计这3个未知数吗?为什么?b.若不能,那么你能估计这些参数的什么样的线性组合,即可估计函数?说明必要的计算!,浙江财经学院 倪伟才,29,多重共线性的人为例子的数据表如右表,浙江财经学院 倪伟才,30,思考题,