《第6章(多重共线性)案例.ppt.ppt》由会员分享,可在线阅读,更多相关《第6章(多重共线性)案例.ppt.ppt(87页珍藏版)》请在三一办公上搜索。
1、线性代数复习,1.线性相关与线性无关,等价定义,则称该向量组线性相关.否则,如果设,定义,存在不全为零的数 使,(按定义),(转化为方程组),上面方程组有非零解.,(用矩阵的秩),线性代数复习,1.线性相关与线性无关,齐次线性方程组Ax=0是否有非零解,对应于A的列向量是否线性相关。,线性代数复习,2.矩阵的秩 矩阵A的秩等于R的充要条件是:矩阵A至少有一个R阶子式(方阵)不等于零,而所有的R+1阶子式都等于零。对矩阵Amn,有:当秩R(A)=m,A的行向量组线性无关当秩R(A)=n,A的列向量组线性无关若秩R(A)=m或R(A)=n,称A为行(或列)满秩矩阵。矩阵的初等变换与线性方程组 线性
2、代数回顾,线性代数复习,3.齐次线性方程组Ax=0 一定有解(至少有零解),且秩(A)=n时,有唯一零解;秩(A)n时,有非零解,且有n-r个线性无关的解向量。,3、基础解系及其求法,3.1 基础解系,3.1.2.基础解系的求法,相应地,齐次线性方程组 等价(或同解)变形为,3.基础解系及其求法,3.1.基础解系,3.1.2.基础解系的求法,进一步改写为,由此得到方程组 A X=0 的所有解为:,线性无关解向量。,3.基础解系及其求法,3.1.基础解系,3.1.2.基础解系的求法,第6章:多重共线性,6.1 多重共线性的定义 6.2多重共线性产生的原因 6.3多重共线性造成的影响6.4多重共线
3、性的检验6.5克服多重共线性的方法6.6案例中国粮食生产函数6.7案例,6.1 多重共线性的定义,从数学意义上解释变量之间存在共线性,就是对于变量x1,x2,xk,如果存在不全为零的数1,2,k,使得下式成立:1x1+2x2+kxk=0(*)则称变量x1,x2,xk之间存在一种完全的共线性。在计量经济学中,一个具有两个以上解释变量的线性回归模型里,如果解释变量之间存在式(*)那样的关系,则称这些解释变量之间存在完全的多重共线性。,对于模型 i=1,2,n(6.1)其基本假设之一是解释变量是互相独立的。,如果某两个或多个解释变量之间出现了近似相关性,则称为多重共线性。,6.1 多重共线性的定义,
4、6.1 多重共线性的定义,所谓完全多重共线性,就是|XTX|=0,或者r(X)k+1,表明在向量矩阵X中,至少有一个列向量可以由其他的列向量线性表示(不包括第一列)。注:XTX为(k+1行k+1列)方阵,只有方阵才有行列式,R(XTX)=k+1满秩阵的充要条件是|XTX|不等于0。对矩阵Xnk+1,当R(X)=k+1,X的列向量线性无关,X为列满秩矩阵,若把X看成方程系数矩阵,方程组只有零解;当R(X)k+1,X的列向量线性相关,把X看成方程系数矩阵,则方程组有非零解,设解释变量矩阵为:,例如,X2=X1,这时X1与X2的相关系数为,解释变量X2对因变量的作用完全可由X1代替。,注意:完全共线
5、性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。这种近似共线性即为多重共线性。,在矩阵表示的线性回归模型 Y=XB+N中,完全共线性指:秩(X)k+1,只有方阵才有行列式:行列式的定义是所有不同列不同行元素相乘的特殊线性组合,因为不同列不同行的限制,故总列数与总行数必须相等.,6.1 多重共线性的定义,所谓不完全多重共线性,是指对于k个解释变量x1,x2,xk,如果存在不全为零的数1,2,k,使得 1x1+2x2+kxk+u=0 成立,其中u为随机误差项,则称为一般共线性(近似共线性)或交互相关(intercorrelated)。,6.1 多重共线性的定义,如果两个解释变量之
6、间不存在上述完全或不完全的线性关系式,则称无多重共线性。如果用矩阵表示,这时X为满秩矩阵,即R(X)=k+1,X的列向量组线性无关。如果上述等式当且仅当1=2=s=0时成立(若把X看成方程组系数矩阵,方程组只有零解),则称向量组x1,x2,xs线性无关。,6.2 多重共线性产生的原因,经济变量之间往往存在同方向的变化趋势。经济变量之间往往存在着密切的关联性。在模型中采用滞后变量也容易产生多重共线性。在建模过程中由于解释变量选择不当,引起了变量之间的多重共线性。,2、实际经济问题中的多重共线性,一般地,产生多重共线性的主要原因有以下三个方面:(1)经济变量相关的共同趋势 时间序列样本:经济繁荣时
7、期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。,(2)滞后变量的引入,在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入,前期收入)显然,两期收入间有较强的线性相关性。,(3)样本资料的限制,由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。一般经验:时间序列数据样本:简单线性模型,往往存在多重共线性。截面数据样本:问题不那么严重,但多重共线性仍然是存在的。,如:影响家庭消费支出的家庭收入及家庭
8、财富两个变量就存在明显的高度相关;,又如:影响企业产出的劳动投入和资本投入二者之间也往往具有相当高的相关关系,这是因为这两个投入要素与产出成正比,产出高的企业,投入的要素自然多,这就导致投入要素呈线性相关性。另外,经济变量在时间上有共同变化的趋势。如在经济上升时期,收入、消费、就业率都在增长;当经济收缩期,收入、消费、就业率等都又都在下降。当这些变量同时进入模型就存在多重共线性。,(4)模型解释变量设定错误,再如:建立一个服装需求模型,影响服装需求量q的有收入I,服装价格p,按常规判断,收入和价格之间不应该相关。但细致地分析后发现,高收入者经常在高档商场购买服装,低收入者往往在低档商场购买,而
9、同样的服装在高档商场和低档商场的价格是不同的,这样就产生了多重共线性。有时候,模型中的某个变量和其滞后项同时作为解释变量。,在进行经济计量分析时,如果模型地设定出现失误,则容易导致完全共线性,例如:设定居民消费对工资收入S和非劳动收入N及总收入T 的回归模型为,则出现了多重共线性,这是因为总收入=工资收入+非劳动收入,这个糟糕的设定导致了完全共线性!,3.多重共线性产生的原因:,综上所述,多重共线性产生的原因大概有以下三点:(1)经济变量之间的内在联系(2)经济发展的“共向性”(3)模型中含有滞后变量,3.多重共线性产生的原因,1.截面数据建立的回归模型,选择的经济变量往往从经济上存在密切关联
10、。如:以截面数据建立的生产函数,从投入要素看,都与企业生产规模密切相关。则要素间存在较强的相关性。2.许多经济变量在随时间变化过程中,往往存在共同的变化趋势,则经济变量间易产生多重共线性。如:经济增长 收入增长、商品销售增长、物价、货币发行、储蓄3.模型中大量采用滞后变量,也易产生多重共线性。4.建立模型过程中,由于认识上局限性,引入的解释变量不当,易引起多重共线性。如,粮食产量线性回归模型,引入的解释变量有:化肥使用量(X1)、灌溉面积(X2)、农业生产资金投入量(X3),三个解释变量可能存在很强的相关性,因为前两个解释变量都要受到农业资金投入的影响。,1、完全共线性下参数估计量不存在,6.
11、3 多重共线性造成的影响,如果存在完全共线性,则(XX)-1不存在,无法得到参数的估计量。,的OLS估计量为:,例:对离差形式的二元回归模型,如果两个解释变量完全相关,如x2=x1,则,这时,只能确定综合参数1+2的估计值:,6.3 多重共线性造成的影响,6.3 多重共线性造成的影响,2、近似共线性下OLS估计量非有效,近似共线性下,可以得到OLS参数估计量,但参数估计量方差的表达式为,由于|XX|0,引起(XX)-1主对角线元素较大,使参数估计值的方差增大,OLS参数估计量非有效。,6.3 多重共线性造成的影响,仍以二元线性模型 y=1x1+2x2+为例:,恰为X1与X2的线性相关系数的平方
12、r2,由于 r2 1,故 1/(1-r2)1,6.3 多重共线性造成的影响,当完全不共线时,r2=0,当近似共线时,0 r2 1,多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor,VIF),6.3 多重共线性造成的影响,当完全共线时,r2=1,,6.3 多重共线性造成的影响,3、参数估计量经济含义不合理,如果模型中两个解释变量具有线性相关性,例如 X2=X1,这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。1、2已经失去了应有的经济含义,于是经常表现出似乎反常的现象:例
13、如1本来应该是正的,结果恰是负的。,6.3 多重共线性造成的影响,4、变量的显著性检验失去意义,存在多重共线性时,参数估计值的方差与标准差变大,容易使通过样本计算的t值小于临界值,误导作出参数为0的推断,可能将重要的解释变量排除在模型之外,6.3 多重共线性造成的影响,5、模型的预测功能失效,变大的方差容易使区间预测的“区间”变大,使预测失去意义。,多重共线性检验的任务是:(1)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。,多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:如判定系数检验法、逐步回归检验法等。,6.4 多
14、重共线性的检验,1、检验多重共线性是否存在,(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。,(2)对多个解释变量的模型,采用综合统计检验法,若 在OLS法下:R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。,2、判明存在多重共线性的范围,如果存在多重共线性,需进一步确定究竟由哪些变量引起。(1)判定系数检验法 使模型中每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度。如果某一种回归 Xji=1
15、X1i+2X2i+LXLi的判定系数较大,说明Xj与其他X间存在共线性。,具体可进一步对上述回归方程作F检验:,式中:Rj2为第j个解释变量对其他解释变量的回归方程的决定系数,若存在较强的共线性,则Rj2较大且接近于1,这时(1-Rj2)较小,从而Fj的值较大。因此,给定显著性水平,计算F值,并与相应的临界值比较,来判定是否存在相关性。,构造如下F统计量,在模型中排除某一个解释变量Xj,估计模型;如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。,另一等价的检验是:,(2)逐步回归法,以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。根据拟合优度的变化决定
16、新引入的变量是否独立。如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。,2、判明存在多重共线性的范围,6.4.5 根据回归结果判断,下的临界值,而发现:(1)系数估计值的符号与理论分析结果相违背;(2)某些变量对应的回归系数t值偏低或不显著;(3)当一个不太重要的解释变量被删除后,或者改变一个观测值时,回归结果显著变化,则该模型可能存在多重共线性。例6.4.1(196页)分析我国居民家庭电力消耗量与可支配收入及居住面积的关系,以预测居民家庭对电力的需求量(具体数据见表6.3.1)。表6.3.1 我国居民家庭电
17、力消耗量与可支配收入及居住面积统计资料,首先,作家庭电力消耗量电量与家庭可支配收入的回归模型,结果如下:,可见,收入对用电量有很好的解释作用。然后,作用电量与住房面积的的回归方程,结果如下:,同样,住房面积对电力也有很好的解释作用。作二元回归方程,结果如下:表6.4.2 回归结果,住房面积的系数在方程(6.3.7)中是显著的,在方程(6.3.8)中不显著;从F统计量值可以看出,收入和住房面积对电力消费量的共同影响是显著的。(1)相关系数检验:数组窗口中点击ViewCorrelations,结果如表6.3.3所示:表6.4.3 相关系数,X1与X2相关系数高达0.963124,两者高度正相关。,
18、图6.4.1 住房面积与收入之间的关系图(2)辅助回归模型检验:将住房面积对收入进行回归,住房面积与收入之间存在显著的线性关系。,(3)方差膨胀因子检验:,找出引起多重共线性的解释变量,将它排除出去。以逐步回归法得到最广泛的应用。注意:这时,剩余解释变量参数的经济含义和数值都发生了变化。,如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。,6.5 克服多重共线性的方法,1、第一类方法:排除引起共线性的变量,6.5 克服多重共线性的方法,2、第二类方法:差分法,时间序列数据、线性模型:将原模型变换为差分模型:Yt=1 X1t+2 X2t+k Xkt+t可以有效地消
19、除原模型中的多重共线性。,一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。,6.5.3 变换模型的形式 对原设定的模型进行适当的变换,也可以消除或削弱原模型中解释变量之间的相关关系。具体有三种变换方式,一是变换模型的函数形式;二是变换模型的变量形式;三是改变变量的统计指标。例6.4.1 在电力消费量函数中,电力消费量与收入和住房面积之间可能是对数形式的模型,而不是线性模型。我们利用对数模型拟合上述数据,结果如下:表6.5.1 回归结果,与方程(6.4.2)相比,在对数模型中,收入和住房面积系数在统计上都是显著的,回归模型在整体上也是显著的。说明我们原先设计的线性回归模型是有误的。,例6
20、.5.2 根据表6.5.2,建立我国进口需求与GNP和消费价格指数之间的关系模型。表6.5.2 我国进口支出与GNP和消费价格指数(单位:亿元人民币),根据表6.4.2中的数据,回归结果如表6.5.3所示。表6.5.3 回归结果,回归结果表明,在5%的显著性水平下,收入和价格的系数各自均不是统计显著的。模型通过F检验。我们可以断定方程(6.5.3)中存在严重的多重共线性。为解决这个问题,我们可以用实际进口额对实际收入进行回归,得到如下结果:表6.5.4 回归结果,这表明,实际进口额与实际收入显著正相关。这样,通过将名义变量转换为实际变量,显然削弱了原模型中的多重共线性。,检验思路,解决方法,解
21、决方法,6.6 案例中国粮食生产函数,根据理论和经验分析,影响粮食生产(Y)的主要因素有:农业化肥施用量(X1);粮食播种面积(X2);成灾面积(X3);农业机械总动力(X4);农业劳动力(X5),已知中国粮食生产的相关数据,建立中国粮食生产函数:Y=0+1 X1+2 X2+3 X3+4 X4+4 X5+,表 中国粮食生产与相关投入资料,1、用OLS法估计上述模型:,R2接近于1;给定=5%,得F临界值 F0.05(5,12)=3.11 F=638.4 15.19,故认上述粮食生产的总体线性关系显著成立。但X4、X5 的参数未通过t检验,且符号不正确,故解释变量间可能存在多重共线性。,(-0.
22、91)(8.39)(3.32)(-2.81)(-1.45)(-0.14),2、检验简单相关系数,发现:X1与X4间存在高度相关性。,列出X1,X2,X3,X4,X5的相关系数矩阵:,3、找出最简单的回归形式,可见,应选第1个式子为初始的回归模型。,分别作Y与X1,X2,X4,X5间的回归:,(25.58)(11.49)R2=0.8919 F=132.1 DW=1.56,(-0.49)(1.14)R2=0.075 F=1.30 DW=0.12,(17.45)(6.68)R2=0.7527 F=48.7 DW=1.11,(-1.04)(2.66)R2=0.3064 F=7.07 DW=0.36,4
23、、逐步回归,将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。,回归方程以Y=f(X1,X2,X3)为最优:,5、结论,1、建立模型,根据理论和经验分析,影响居民服装类支出的主要因素有:可支配收入、居民流动资产拥有量、服装价格指数、物价总指数。已知某地区的有关资料,根据散点图判断,建立线性服装消费支出模型:Y=0+1X+2K+3P1+4P0+,6.7 案例:服装市场需求函数,2、样本数据,由于R2较大且接近于1,而且 F=638.4,大于临界值:F 0.05(4,5)=15.19,故认为服装支出与上述解释变量间总体线性关系显著。但由于参数K的估计值的t检验值较小(未能通过检验),故解释
24、变量间存在多重共线性。,3、估计模型,(2)检验简单相关系数,各解释变量间存在高度相关性,其中尤其以P1,P0间的相关系数为最高。,(3)找出最简单的回归形式,可见,应选为初始的回归模型。,(4)逐步回归,将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。,4、讨论:,在初始模型中引入P1,模型拟合优度提高,且参数符号合理,但P1的t检验未通过;再引入K,拟合优度虽有提高,但K与P1的t检验未能通过,且X与P1的t检验值及F检验值有所下降,表明引入K并未对回归模型带来明显的“好处”,K可能是多余的;去掉K,加入P0,拟合优度有所提高,且各解释变量的t检验全部通过,F值也增大了。将4个解
25、释变量全部包括进模型,拟合优度未有明显改观,K的t检验未能通过,K显然是多余的。,5、结论,回归方程以Y=f(X,P1,P0)为最优:Y=-12.45+0.10X-0.19P1+0.31P0,案例分析我国旅游市场收入函数 根据理论和经验分析,影响国内旅游市场收入Y的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。为此,考虑的影响因素主要有国内旅游人数X1,城镇居民人均旅游支出X2,农村居民入均旅游支出X3,并以公路里程X4和铁路里程X5作为相关基础设施的代表。统计数据如表6.5.1所示。试估计以下形式的计量经济模型:,其中,Y为全国旅游收入(亿元);X1为国内旅游人数(万人
26、次);X2为城镇居民人均旅游支出(元);X3为农村居民人均旅游支出(元);X4为公路里程(万km);X5为铁路里程(万km)。表6.7.3 19942003年中国旅游收入及相关数据,利用EViews软件,输入Y、X1、X2、X3、X4、X5等数据,采用这些数据对模型进行OLS回归,结果如表6.7.2所示。表6.7.2 回归结果,由此可见,该模型可决系数很高,F检验值173353,明显显著。但是X1、X5系数的t检验不显著,而且X5系数的符号与预期的相反,这表明很可能存在严重的多重共线性。1多重共线性检验(1)相关系数检验 在命令窗口键入:COR Y X1 X2 X3 X4 X5,输出的相关系数
27、矩阵为 表6.7.3 相关系数矩阵,由相关系数矩阵可以看出,各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性。(2)辅助回归模型检验 建立每个解释变量对其余解释变量的辅助回归模型:,从以上辅助回归模型中的R2、F统计量的数值可以看出,解释变量X1 X2 X3 X4 X5之间存在较为严重的多重共线性。(3)方差膨胀因子检验 从以上辅助回归模型可知,VIF1=17.9;VIF2=19.2;VIF3=4.4;VIF4=10.9;VIF5=20。明显大于10,解释变量X1、X2、X3、X4、X5之间存在较为严重的多重共线性。,2修正多重共线性:逐步回归法 采用逐步回归的办法,去检验和解决多
28、重共线性问题。分别做Y对X1、X2、X3、X4、X5的一元回归,结果如表6.5.4所示。表6.7.4 一元回归结果(被解释变量为Y,下同),其中,含有解释变量X2的回归方程,调整的R2最大,以X2为基础,顺次加入其他变量逐步回归,结果如表6.5.5所示。表6.7.5 加入新变量的回归结果(一),经比较,新加入X4的方程,其调整的R2=0.972,改进最大,而且各参数的t检验显著,选择保留X4,再加入其他新变量逐步回归,结果如表6.5.6所示。表6.7.6 加入新变量的回归结果(二),在X2、X4基础上加入X3后的方程,其调整的R2=0.987明显增大,而且各个参数t检验都显著。加入X1后不仅调
29、整的R2下降,而且X4参数的t检验变得不显著。加入X5后不仅调整的R2下降,X5参数的t检验不显著,甚至X5的符号也变得不合理。保留X3,再加入其他新变量逐步回归,结果如表6.5.7所示。加入X1后调整的R2没有改进,而且X1参数的t检验不显著。加入X5后虽然调整的R2略有改进,但X5参数的t检验不显著,并且参数为负值不合理。这说明X1、X5引起严重多重共线性,应予剔除。,表6.7.7 加入新变量的回归结果(三),最后修正严重多重共线性影响的回归结果如表6.5.8所示。表6.7.8 最终回归结果,这说明,在其他因素不变的情况下,当城镇居民人均旅游支出X2和农村居民人均旅游支出X3分别增长1元,公路里程X4每增加1万km时,国内旅游收入Y将分别增长4.216亿元、3.222亿元和13.629亿元。,例6.7.4 根据表6.4.2,建立我国进口需求与GNP和消费价格指数之间的关系模型。表6.7.8 我国进口支出与GNP和消费价格指数(单位:亿元人民币),根据表6.7.8中的数据,回归结果如表6.4.3所示。表6.7.9 回归结果,回归结果表明,在5%的显著性水平下,收入和价格的系数各自均不是统计显著的。模型通过F检验。我们可以断定方程(6.4.5)中存在严重的多重共线性。为解决这个问题,我们可以用实际进口额对实际收入进行回归,得到如下结果:表6.7.10 回归结果,