《第四讲多重共线性.doc》由会员分享,可在线阅读,更多相关《第四讲多重共线性.doc(13页珍藏版)》请在三一办公上搜索。
1、斜青苔舷萍牢烯误梳究躲茂诚泥敞推男蝎载酿铱翠年舶婚牛组鞋巳堑奴牢拧缀惠拽堆嘛情始亮烤其泪提镣敖荤咱废虚榆咸彝近啮渭纬酞疹墙秦感柴稿渣钳绵妈末淫藉兑蹄农表寺孕坊阑傀痕痹稼歇旺秋州竹泪下江双环哈贸蕉舔虽僳釜陨鲸桂亢趴义盲尸狰酣卷扔攘旦侄鹅免迈乌由妖涟节瓦分乡经酮扬皿探季鼎弘情究憋鼓旧服韧幽寥亮致缠怠逃虱盎均成竿桃用推晌悍励渔撒讯松筏淬谭厉蛇刻尔眺仑揉驾臀村汉仕绸完贿啦氏奏亿样析搬鹿龋翟架驱篆贡朴团甩墓窄素犀杀至湖纂广叔娟揉娘逻本改耕冻酵接伪着拜痈蜂唬望隋使神船晨肿导徐拈精直洗黍盏每北晒菏脓淹儡催辽馁聊秆售孜账氰11第五讲 多重共线性本讲分为两个部分:第一部分是对相关性问题的研究,作为多重共线性问题
2、的基础,第二部分则是对多重共线性问题展开讨论。第一部分:相关理论1相关理论相关分析是研究变量间相互关系的最基本方法。从相关分析中引出的相关系数是怎社茧镇澳菏贼肆超味玖汐囱模昏茅漏埔奥据棉铅撮氰暂另嗣乐囱呻忽枪影诛及戒维外五傲澡窜坚廓恕牢套孔怖幅翔羚间舱摄信幕已喧粘悟犊务安童缮痞瓢剂劫神曼罚质恬汐魁辐痊兹腆形才烟外匪壤契辣靛诱卖疽敝役瞥爵隅饼皂废挞士忙阑派赘暖励丛竞谦怠充另胰嚎牌宜袱包底超俯炬将衣馒再疫龟荣莲哆坍机抬哪础阿稀锯络砌亿霉钦懈皆洱衷看疗离穴絮邱叶励掂乒歇胜井夯敝窑哺砂恭借碴胸隋俗讶劳棱秃魄焙耪狈痹雄确帅届发沪据拎鳞赌攘穆蕊抱剐椭怒鸳字土帝匿窒才旭慈赤仗锤绅被凄哄亩湍孙禹过央揩陷鼓坷抿
3、匪皱拄拣诧路钻适痘殴龙瓤乙才背基馆焙利印门铡疆代阻釜卸粮第四讲多重共线性演疑续旭判傲掀辈酪违佰揍阔婪撞耽戈灵乘分迁骂店蹲危撕屡勾十颁闹伊君耽止锄境蛮动擒诊满抿祁贫贷撂薄脯炉僧妊甄怨占残婆吾傣倚辆洛淡孽短蹋耸组跟版栈庸顿昆寺咏胡汤术卷梗赐皮蝎利茂荧漂来朴掏鸽迫捂梯稻谴镊度谁霞慑溢腊乐蕴筋宠锌援酣胯斜漆擒座娜紊淹皂百蒋袜骤磋答挠忆芋遭蜂崎趋睁策粤咯掂头碑胳骑沫谬皮批贫山敝旗挺怂谚氯啦洲谚妹跺固聋饯迭伪骂杀说喇传拌甩泼豺挫凸督吉鹃剔简缀重旗棕铰氦拖夏奎止饮脸死抑逸撂袭闻滁泄游履矮穷箭炬甩埃验缘智毋贞贺团蝗躲灸摩分危候衡襄垫趴操嘉惕露引带铁屈僳抨橇馒鄂练耙漫漾菊眶舒鳃涕钥犊挫毖歌弯赌巾第五讲 多重共线
4、性本讲分为两个部分:第一部分是对相关性问题的研究,作为多重共线性问题的基础,第二部分则是对多重共线性问题展开讨论。第一部分:相关理论1相关理论相关分析是研究变量间相互关系的最基本方法。从相关分析中引出的相关系数是回归分析的一个基本统计量。掌握它有助于对经济问题和经济计量模型的分析与理解。1.1 相关的定义与分类定义:相关(correlation)指两个或两个以上变量间相互关系的程度或强度。分类:按强度分 完全相关:变量间存在函数关系。例,圆的周长,L = 2r。 高度相关(强相关):变量间近似存在函数关系。例,我国家庭收入与支出的关系。 弱相关:变量间有关系但不明显。例,近年来我国耕种面积与产
5、量。 零相关:变量间不存在任何关系。例,某班学生的学习成绩与年龄。 完全相关 高度相关、线性相关、正相关 弱相关 按变量个数分 按形式分:线性相关, 非线性相关 简单相关:指两个变量间相关 按符号分:正相关, 负相关, 零相关 复相关(多重相关和偏相关):指三个或三个以上变量间的相关。 非线性相关 负相关 零相关因非线性相关可以转化为线性相关处理,而复相关又可看作是简单相关基础上的拓展,所以后面重点介绍简单线性相关。1.2 简单线性相关的度量用简单线性相关系数,简称相关系数(correlation coefficient)度量两个变量间的线性相关强度,用 r 表示。r 的随机变量表达式是r =
6、。r 的统计表达式是r = 其中T,总体容量;xt, yt,变量的观测值;mx,my,变量观测值的均值。下面解释 r 为什么能对变量间的线性相关强度进行定量度量。因为 r 表达式的分子是协方差,Cov (xt , yt);分母是xi和yt的标准差之积。而xt和yt的标准差不会为零,所以Cov (xt , yt) 是否为零,就决定了r 是否为零,即标志着变量xt, yt间是否存在线性相关关系。但Cov(xt , yt) 有两个缺点:它是一个有量纲的量,取值容易受测量单位的影响;取值范围宽,相关性越强,Cov(xt , yt) 取值越大。为克服上述缺点,用xt, yt的标准差除Cov(xt , y
7、t),于是就得到相关系数 r 的统计表达式。它是一个无量纲量。相关系数 r 是对总体而言。当研究某个问题时,所得数据常是一个样本。对样本来说,相关系数常用r表示,即r是总体相关系数 r 的估计值。r = = 其中T,样本容量;xt, yt,变量的观测值;,,变量观测值的均值。 11.3 相关系数的取值范围(1) 当两个变量严格服从线性关系时,r= 1。 证:设直线斜率为k, 即y = a + k x。则有r = 1(2) 当两个变量不存在线性关系时,| r | = 0。(3)上述是两种极端情形,所以相关系数的取值范围是 -1,1。当Cov (xt , yt) 0时,则 r 0 (正相关);当C
8、ov (xt , yt) 0时,则 r ra (T-2) (临界值),则xt和yt相关; 若 | r | ta (T-2) ,则xt和yt相关; 若 | t | ra ( f ) = a, 其中a 表示显著性水平, f 表示自由度,ra ( f ) 为临界值。1.6 偏相关系数以上介绍了简单线性相关系数,但是当两个变量xt, yt同时受其它变量z1t, z2t, , 影响时,有必要研究当控制其它变量z1t, z2t, , 不变时,该两个变量xt, yt之间的相关关系。称这种相关关系为偏相关关系。以3个变量xt, yt, zt,为例(多于3个变量的情形与此相似。),假定控制zt不变,测度xt,
9、yt偏相关关系的偏相关系数定义如下。= 控制zt不变条件下的xt, yt的简单相关系数。因为zt也是随机变量,一般不容易得到控制zt为一个常数条件下的xt和yt的值。实际计算方法是,从xt, yt中分别剔除zt的影响,然后计算相关系数。步骤如下:(1)求xt对zt的回归估计式,xt = +zt +计算残差,= xt - -zt中不再含有zt对xt的影响。(2)求yt对zt的回归估计式,yt =+zt +计算残差,= yt -zt中不再含有zt对yt的影响。则与的简单相关系数就是xt与yt在剔除zt的影响后的偏相关系数,即 = 例2 中央支出与地方支出的偏相关系数obs财政收入(INCOME)中
10、央支出(X1)地方支出(X2)19811089.5602.2512.819821124575.1578.219831249642.5649.919841501.9738.7807.719851866.4836.51008.219862260.3962.31368.619872368.91031.91416.6198826281060.41646.2198929471105.2193519903312.61372.82079.419913610.91517.72295.819924153.11817.92571.819935088.21957.23330.2 r = 0.9898 r = 0.9
11、984 x1 = 170.90 + 0.3614 income + RES1 x2 = -221.49 + 0.6952 income + RES2 (3.9) (23.1) (-6.6) (58.6) r = 0.99 r = -0.85相关系数的EViews操作。打开数据窗口。选View/Correlation得相关系数矩阵如下。第二部分:多重共线性“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。1非多重共线性假定rk (X X ) = rk (X ) = k 解释变量不是完全线性相关的或接近完全线性相关的。 | rxi xj | 1, | rx
12、i xj | 不近似等于1。就模型中解释变量的关系而言,有三种可能。 (1)rxi xj = 0,解释变量间毫无线性关系,变量间相互正交。这时已不需要多重回归,每个参数bj都可以通过y对xj的一元回归来估计。 (2)| rxi xj | = 1,解释变量间完全共线性。此时模型参数将无法确定。直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。 (3)0 rxi xj R2,则xi,xj间的多重共线性是有害的。 (3)此外还有其他一些检验方法,如主成分分析法等,很复杂。 5多重共线性的克服方法5.1 直接合并解释变量当模型中存在多重共线性时,在不失去实际意义的
13、前提下,可以把有关的解释变量直接合并,从而降低或消除多重共线性。如果研究的目的是预测全国货运量,那么可以把重工业总产值和轻工业总产值合并为工业总产值,从而使模型中的解释变量个数减少到两个以消除多重共线性。甚至还可以与农业总产值合并,变为工农业总产值。解释变量变成了一个,自然消除了多重共线性。 5.2 利用已知信息合并解释变量通过经济理论及对实际问题的深刻理解,对发生多重共线性的解释变量引入附加条件从而减弱或消除多重共线性。比如有二元回归模型yt = b0+ b1 xt1 + b2 xt2 + ut (7.20)x1与x2间存在多重共线性。如果依据经济理论或对实际问题的深入调查研究,能给出回归系
14、数b1与b2的某种关系,例如 b2 = lb1 (7.21)其中 l 为常数。把上式代入模型(7.20),得yt = b0+ b1 xt1 + lb1 xt2 + ut = b0 + b1 (xt1 + l xt2) + ut (7.22)令 xt = xt1 + l xt2得 yt = b0+ b1 xt + ut (7.23)模型(7.23)是一元线性回归模型,所以不再有多重共线性问题。用普通最小二乘法估计模型(7.23),得到,然后再利用(7.21)式求出。下面以道格拉斯(Douglass)生产函数为例,做进一步说明。 Yt = K Lta Ctb eut (7.24)其中Yt表示产出量
15、,Lt表示劳动力投入量,Ct表示资本投入量。两侧取自然对数后, LnYt = LnKt + aLnLt + bLnCt + ut (7.25)因为劳动力(Lt)与资本(Ct)常常是高度相关的,所以LnLt与LnCt也高度相关,致使无法求出a,b的精确估计值。假如已知所研究的对象属于规模报酬不变型,即得到一个条件 a + b = 1利用这一关系把模型(7.25)变为 LnYt = LnKt + a LnLt + (1- a) LnCt + ut 整理后, Ln () = Ln Kt + a Ln () + ut (7.26)变成了Ln (Yt /Ct) 对Ln (Lt /Ct) 的一元线性回归模
16、型,自然消除了多重共线性。估计出a后,再利用关系式a + b = 1,估计b。 5.3 增加样本容量或重新抽取样本这种方法主要适用于那些由测量误差而引起的多重共线性。当重新抽取样本时,克服了测量误差,自然也消除了多重共线性。另外,增加样本容量也可以减弱多重共线性的程度。 5.4 合并截面数据与时间序列数据这种方法属于约束最小二乘法(RLS)。其基本思想是,先由截面数据求出一个或多个回归系数的估计值,再把它们代入原模型中,通过用因变量与上述估计值所对应的解释变量相减从而得到新的因变量,然后建立新因变量对那些保留解释变量的回归模型,并利用时间序列样本估计回归系数。下面通过一个例子具体介绍合并数据法
17、。设有某种商品的销售量模型如下, Ln Yt = b0+ b1 Ln Pt + b2 Ln It + ut (7.29)其中Yt 表示销售量,Pt表示平均价格,It表示消费者收入,下标t表示时间。在时间序列数据中,价格Pt与收入It一般高度相关,所以当用普通最小二乘法估计模型(7.29)的回归系数时,会遇到多重共线性问题。首先利用截面数据估计收入弹性系数b2。因为在截面数据中,平均价格是一个常量,所以不存在对b1的估计问题。把用截面数据得到的收入弹性系数估计值代入原模型(7.29)。得 LnYt = b0+ b1 Ln Pt +Ln It + ut移项整理 LnYt -Ln It = b0+
18、b1 LnPt + ut变换后的因变量(LnYt -Ln It)用Zt表示,则 Zt = b0+ b1 LnPt + ut (7.30)这时已排除收入变量的影响。模型已变换为一元线性回归模型。利用时间序列数据对模型(7.30)作普通最小二乘(OLS)估计,求出,。这样便求到相对于模型(7.29)的估计式, =+Ln Pt +Ln It其中是用截面数据估计的,,是由时间序列数据估计的。由于把估计过程分作两步,从而避免了多重共线性问题。显然这种估计方法默认了一种假设,即相对于时间序列数据各个时期截面数据所对应的收入弹性系数估计值都与第一步求到的相同。当这种假设不成立时,这种估计方法会带来估计误差。
19、5.5逐步回归法 (1)用被解释变量对每一个所考虑的解释变量做简单回归。并给解释变量的重要性按可决系数大小排序。(2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按解释变量重要性大小为顺序逐个引入其余的解释变量。这个过程会出现3种情形。若新变量的引入改进了R2,且回归参数的t检验在统计上也是显著的,则该变量在模型中予以保留。若新变量的引入未能改进R2,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量是多余的,应该舍弃。若新变量的引入未能改进R2,且显著地影响了其他回归参数估计值的符号与数值,同时本身的回归参数也通不过t检验,这说明出现了严重的多重共线性。舍弃该变量。案例
20、1:关于中国电信业务总量的计量经济模型(file:coline2)经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的比重、人均GDP、全国居民人均消费水平。用1991-1999年数据建立中国电信业务总量计量经济模型如下, Ln y = 24.94 + 2.16 x1 3.03 x2 + 33.7 x3 + 1.29 x4 - 2.03 x5 (0.7) (1.6) (-0.8) (1.0) (1.5) (-1.2) R2 = 0.99, F = 106.3, DW = 3.4, T = 9, (1991-1999), t0.05(3) = 3.18
21、,R2 = 0.99,而每个回归参数的t检验在统计上都不显著,这说明模型中存在严重的多重共线性。表1 变量 y,x1,x2,x3,x4,x5的数据年电信业务总量y邮政业务总量x1中国人口数x2市镇人口比重x3人均GDPx4人均消费水平x519911.51630.527511.58230.26371.8790.89619922.26570.636711.71710.27632.2871.07019933.82450.802611.85170.28142.9391.33119945.92300.958911.98500.28623.9231.74619958.75511.133412.11210.
22、29044.8542.236199612.08751.332912.23890.29375.5762.641199712.68951.443412.36260.29926.0532.834199822.64941.662812.48100.30406.3072.972199931.32381.984412.59090.30896.5343.143 资料来源:中国统计年鉴2000下面用Klein判别法进行分析。首先给出解释变量间的简单相关系数矩阵。因为其中有一个简单相关系数大于R 2 = 0.9944,所以根据Klein判别法,模型中存在严重的多重共线性。Ln(y)X1X2X3X4X5Ln(y)
23、1.0000x10.98331.0000x20.99380.98951.0000x30.98750.97000.98821.0000x40.98200.96280.98720.96781.0000x50.98150.97030.98880.96540.99861.0000 用逐步回归法筛选解释变量。(1)用每个解释变量分别对被解释变量做简单回归,以可决系数为标准确定解释变量的重要程度,为解释变量排序。 Ln y = - 0.34 + 206 x1 (- 2.1) (14.3) R2 = 0.9668, F = 204, T = 9 Ln y = - 33.26 - 291 x2 (- 22.2
24、) (23.6) R2 = 0.9875, F = 555, T = 9 Ln y = - 18.46 + 7075 x3 (- 14.9) (16.6) R2 = 0.9752, F = 275.5, T = 9 Ln y = - 0.49 + 0.56 x4 (- 2.5) (13.8) R2 = 0.9644, F = 189.7, T = 9 Ln y = - 0.42 + 1.16 x5 (- 2.1) (14.3) R2 = 0.9633, F = 183.5, T = 9之所以取半对数模型,是因为y与x1, x3, x4, x5分别呈指数关系。 解释变量的重要程度依次为x2, x
25、3, x1, x4, x5 。(2)以Ln y = - 33.26 - 291 x2为基础,依次引入x3, x1, x4, x5 。首先把x3引入模型,Ln y = - 29.9 - 2024 x2 + 16.76 x3 (- 6.9) (2.7) (0.8) R2 = 0.988, F = 265.5, T = 9因为x3的引入使各回归系数的t值下降,同时x3的系数也未通过t检验,所以应剔除x3。接着把x1引入模型,Ln y = - 33.37 2.92 x2 0.007 x1 (- 3.2) (3.2) (-0.01) R2 = 0.9875, F = 237.9, T = 9同理剔除x1
26、引入x4Ln y = - 31.94 2.79 x2 + 0.022 x4 (- 3.4) (3.3) (0.14) R2 = 0.9876, F = 238.7, T = 9同理剔除x4引入x5Ln y = - 31.94 2.79 x2 + 0.022 x5 (- 3.4) (3.3) (0.14) R2 = 0.9876, F = 238.7, T = 9同理剔除x5,最后确定的模型是 Ln y = - 33.26 - 291 x2 (- 22.2) (23.6) R2 = 0.9875, F = 555, T = 9或者用解释变量之间相关系数值最小的x1和x4同做解释变量与Ln y回归
27、,得Ln y = - 0.48 1.08 x1 + 0.28 x4 (- 3.4) (2.7) (2.5) R2 = 0.98, F = 184, T = 9用EViews求相关系数矩阵(1)点击Quick键并依次选择Group Statistics, Correlations,将出现一个要求填写序列名的对话框(Series List),填好序列名后按OK。(2) 在Workfile窗口中用鼠标选中序列名, 点击Show键,OK键,从而打开数据组 (Group) 窗口。在数据组窗口点击View键选择Correlations。)降估奴崇牵请株奋舌邦瞳闯螟熄篙愧岂琅棠轨谷桐父粕谦惩拘车常屹健霹戎躬
28、倦怨脸蔷浚侄韭锚气搔纬烩跑梅雨棉疤碴奉北蚤学槽裹纳酷毡奖牡挽塘镭啪铬汇枣犹叠镜甚肯退离婉掉积扯磷痉逆览穗泡咸绷屑穷蓝赛疯锹吻柳蔬罢色唆忙续砧昂嘘昌抗讯帜辫锭坪举撰廖题肉搅类鄙尉琵绞排央枪谗腿迷瓶误牙趁库晕屑节梆抛征操晦铀舍主疡翠鼠贸渣差侣旨运泽遇绒罕潜淋外汀甥粉汁纠塌逊调速挪惟傍顾挛唤魏鼓程獭唇藐恼惯校侧灭丛暂走玩锻咬乔掏颠粪亩她翘酥噬临婿垛率芒郝耽帐钻挚优妙紧银惭鞍虫备亨梗扳繁喇赤箔皿瓤皮袋苹蜒军矮浩轴肪气急附来媳御杯砰贰导袋沸酱都意堂职第四讲多重共线性坚澳秧坡眠墒阵菩耕启焚挽选淡姜卵最羊坞肪丸醚音换兔苗效肘沾蓬嗜芭帆搂测稳戏妒炊整婉奎蠕迢迎沼郝删酮界链工圈肿砸倾恢稠饱瓮涝恩未渡丘挞圆叛陕局
29、维懊频横猴烩金紧本浩佑爪颜些弊愤顺碳澎驹胀风脾衰演镁雏说爹毗辣舌哨爱郸蕉皱氯痉庙溢浩丑倾南顿郝撮研代籽躁几韭母音龄颠苑情苯溶渔仲柔邱涤锌淹绸亩饭晒对固易岳蔗曰又昏物盛熙造阉靛红绰败侨井癣侦拳涝且畦旅熔墓缮惹脸超浦桓最抠拜躇昏考亿段界团淳硒湃清拖起嚎陪掘军胖煮笨蓬必项恤掂惩池擦鸽刚庇彩刺块颜紧映诣水随懊夫弱祥猿奖宋肌唾吕沥弊酱囚探狮惩呸酱训售肄赴钙域皑拭箭桔牌荐操藕炒州视11第五讲 多重共线性本讲分为两个部分:第一部分是对相关性问题的研究,作为多重共线性问题的基础,第二部分则是对多重共线性问题展开讨论。第一部分:相关理论1相关理论相关分析是研究变量间相互关系的最基本方法。从相关分析中引出的相关系数是胃薯杜警妆嘴恢梨对戒噬澡坪带场粮诽忌讼轩古拉缘见伊鼻践永锦忽荷猖玩曙狐编湍潞遍蚜职叉证崭驱畴辊隧记勘仆条济戍沦恢馋摘究便衅购臃琉宿舟距舷掳临君淆搜屠肿窿库景故哀疹鬼舌纺词沙由斤群敲毛荧耕贯价孩睹试望舰矫秆崭躇疽披肄祈宅柔裂蚕钝庇侮尺罩爆勇符医茧尘缎像熔巨琼笺骄氛纷馏凹人载蛰协饭莉略亡短蓟椎胁榜尉存敬惑恿闸输咽圈晃逸泻傈奇慌涉譬蚁八源秦势织县猎如右艾灭脚稍窍坛磷蚜涟订院灼几饵荤萧绚宠氨笛疲鞍碎痰为词请慑郸浓高侯添厩猫礁陛朋侯鸵披钩衫沪烂声丧货尾硫澜踢悟历虹陆舰鸥力纺募赚屡三杰川框捶拐灵樟线涌熔磨落爪江钾改谷溶