《多元线性回归——多重共线性ppt课件.ppt》由会员分享,可在线阅读,更多相关《多元线性回归——多重共线性ppt课件.ppt(49页珍藏版)》请在三一办公上搜索。
1、1,多重共线性,2,引子:发展农业和建筑业会减少财政收入吗?,为了分析各主要因素对财政收入的影响,建立财政收入模型:其中: CS财政收入(亿元) ; NZ农业增加值(亿元); GZ工业增加值(亿元); JZZ建筑业增加值(亿元); TPOP总人口(万人); CUM最终消费(亿元); SZM受灾面积(万公顷) 数据样本时期1978年-2003年(资料来源:中国统计年鉴2004,中国统计出版社2004年) 采用普通最小二乘法得到以下估计结果,3,财政收入模型的结果,4,可决系数为0.995,校正的可决系数为0.993,模型拟合很好。模型对财政收入的解释程度高达99.5%。 F统计量为632.10,
2、说明0.05水平下回归方程整体上显著。 t 检验结果表明,除了工业增加值和总人口以外,其他因素对财政收入的影响均不显著。 农业增加值和建筑业增加值的回归系数是负数。 农业和建筑业的发展反而会使财政收入减少吗?! 这样的异常结果显然与理论分析和实践经验不相符。 若模型设定和数据真实性没问题,问题出在哪里呢?,模型估计与检验结果分析,5,多重共线性,讨论四个问题: 什么是多重共线性 多重共线性产生的后果 多重共线性的检验 多重共线性的补救措施,6,一、 什么是多重共线性,基本内容: 多重共线性的含义 产生多重共线性的背景,7,1、多重共线性的含义,对于模型 i=1,2,n其基本假设之一是解释变量是
3、互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性包括完全多重共线性和不完全多重共线性,8,完全的多重共线性: 在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括完全的多重共线性,还包括不完全的多重共线性。 对于解释变量 ,如果存在不全为0的 数 ,使得 则称解释变量 之间存在着完全的多重 共线性。,9,当 时,表明在数据矩阵 中,至少有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。矩阵表示为,10,不完全的多重共线性,实际中,常见的情形是解释变量之间存在不完全的多重共线性。,11,无多重共线性,如果解释变量之间不存在上述关
4、系,则称解释变量之间无多重共线性此时:注意:个解释变量不存在多重共线性(线性相关)并不能说明它们之间无关,不存在非线性关系,12,,解释变量间毫无线性关系,变量间相互正交。这时已不需要作多元回归,每个参数j都可以通过Y 对 Xj 的一元回归来估计。,13,2、产生多重共线性的原因,1)经济变量之间往往存在同方向的变化趋势。当他们被引入同一个模型成为解释变量时,会出现多重共线性2)模型中包含滞后变量,变量各期值之间有可能高度相关。 3)利用截面数据建立模型也可能出现多重共线性。4)经济变量之间往往存在着密切的内在关联度,要素之间互相制约,互相依存。5)样本数据自身的原因,数据收集的范围过窄,造成
5、某些解释变量之间似乎有相同或相反变化趋势的假象。6)在建模过程中由于解释变量选择不当,引起变量之间的多重共线性注:解释变量之间的多重共线性不可避免,只可能使多重共线性的程度尽可能地减弱,14,二、 多重共线性产生的后果,基本内容: 完全多重共线性产生的后果 不完全多重共线性产生的后果,15,1、完全多重共线性产生的后果,16,1)参数的估计值不确定当解释变量完全线性相关时 OLS 估计式不确定 从偏回归系数意义看:在 和 完全共线性时,无法保持 不变,去单独考虑 对 的影响( 和 的影响不可区分) 从OLS估计式看:可以证明此时2)参数估计值的方差无限大OLS估计式的方差成为无穷大:,17,2
6、、不完全多重共线性产生的后果,18,如果模型中存在不完全的多重共线性,可以得到参数的估计值,但是对计量经济分析可能会产生一系列的影响。 1)参数估计值的方差增大为对其他解释变量做辅助回归模型的决定系数其中: 称为方差膨胀因子当与其他解释变量存在严重的多重共线性时:,19,2)对参数区间估计时,置信区间趋于变大区间估计失去可靠性;预测区间变大,降低预测精度3)假设检验容易作出错误的判断,检验的可靠性降低,可能导致在假设检验中舍去重要的解释变量因为:回归参数显著性检验,20,4)可能造成可决系数较高,但对各个参数单独的 t 检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。无
7、法正确反映每个解释变量对被解释变量的单独影响。5)回归模型缺乏稳定性当样本观测数据发生微小变化时,模型参数的估计值会有很大的变化(氏检验),21,三、 多重共线性的检验,基本内容: 简单相关系数检验法 方差扩大(膨胀)因子法 直观判断法 逐步回归法,22,1、简单相关系数检验法,含义:简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。 判断规则:一般而言,如果每两个解释变量的简单相关系数(零阶相关系数)比较高,例如大于0.8,则可认为存在着较严重的多重共线性。,23,Klein判别公式:,24,注意: 1)较高的简单相关系数只是多重共线性存在的充分条
8、件,而不是必要条件。 2)只适用于两个解释变量之间存在线性相关检验,对于三个或更多的解释变量之间存在的线性相关关系不适用 3)相关系数很大则必存在多重共线性,而相关系数很小却未必没有多重共线性.特别是在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共线性的准确判断。,25,2、辅助回归检验法,26,3、方差扩大(膨胀)因子法,27,经验规则,方差膨胀因子越大,表明解释变量之间的多重共性越严重。反过来,方差膨胀因子越接近于1,多重共线性越弱。经验表明,方差膨胀因子10时,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共
9、线性可能会过度地影响最小二乘估计。,28,4、直观判断法,根据回归结果判断也叫不显著系数检验法1)从定性分析认为,一些重要的解释变量的回归系数的标准误差较大,在回归方程中没有通过显著性检验时,可初步判断可能存在严重的多重共线性。F检验大于给定显著性水平下的临界值.但模型中的全部或部分参数估计值却不显著,或系数估计值的符号不对,则模型自变量之间存在多重共线性.,29,2)当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化,回归方程可能存在严重的多重共线性。3)有些解释变量的回归系数所带正负号与定性分析结果违背时,很可能存在多重共线性。4)解释变量的相关矩阵中,自变量之间
10、的相关系数较大时,可能会存在多重共线性问题。,30,5、逐步回归检测法,也称Frisch综合分析法其基本思想: 将变量逐个的引入模型,每引入一个解释变量后,都要进行检验,并对已经选入的解释变量逐个进行t 检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。以确保每次引入新的变量之前回归方程中只包含显著的变量。 在逐步回归中,高度相关的解释变量,在引入时会被剔除。因而也是一种检测多重共线性的有效方法。,31,6、特征值检验法,32,四、 多重共线性的补救措施,基本内容: 修正多重共线性的经验方法 逐步回归法,33,1、修正多重共线性的经验方法,1) 剔除变量法 是降低多
11、重共线性最简便的方法.把方差扩大因子最大者所对应的自变量首先剔除再重新建立回归方程,直至回归方程中不再存在严重的多重共线性。注意: 若剔除了重要变量,可能引起模型的设定误差。,34,2)增大样本容* 样本容量增加,会减小回归参数的方差,标准误差也同样会减小。因此尽可能地收集足够多的样本数据可以改进模型参数的估计。 * 样本容量越小有近似多重共线性的可能性就越大,反之,样本容量越大,多重共线性的可能性就越小问题:增加样本数据在实际计量分析中常面临许多困难,受制于实际情况。* 增大样本容量并不必然降低近似的多重共线性,如增加的数据也有类似的共线性,就不起作用* 如果变量总体中本来就有共线性问题,再
12、增大样本容量也无济于事.,35,3)变换模型形式 一般而言,差分后变量之间的相关性要比差分前弱得多,所以差分后的模型可能降低出现共线性的可能性,此时可直接估计差分方程。问题:差分会丢失一些信息,差分模型的误差项可能存在序列相关,可能会违背经典线性回归模型的相关假设,在具体运用时要慎重。,36,4)利用非样本先验信息 通过经济理论分析能够得到某些参数之间的关系,可以将这种关系作为约束条件,将此约束条件和样本信息结合起来进行约束最小二乘估计。,37,5)横截面数据与时序数据并用 首先利用横截面数据估计出部分参数,再利用时序数据估计出另外的部分参数,最后得到整个方程参数的估计。 注意:这里包含着假设
13、,即参数的横截面估计和从纯粹时间序列分析中得到的估计是一样的。,38,6)变量变换变量变换的主要方法:(1)计算相对指标 (2)将名义数据转换为实际数据 (3)将小类指标合并成大类指标 变量数据的变换有时可得到较好的结果,但无法保证一定可以得到很好的结果。,39,2、逐步回归法,(1)用被解释变量对每一个所考虑的解释变量做简单回归。(2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。 *若新变量的引入改进了 和 检验,且回归参数的t 检验在统计上也是显著的,则在模型中保留该变量。,40,*若新变量的引入未能改进 和 检验,且对其他回
14、归参数估计值的t 检验也未带来什么影响,则认为该变量是多余变量。*若新变量的引入未能改进 和 检验,且显著地影响了其他回归参数估计值的数值或符号,同时本身的回归参数也通不过t 检验,说明出现了严重的多重共线性。,41,案例分析,一、研究的目的要求提出研究的问题为了规划中国未来国内旅游产业的发展,需要定量地分析影响中国国内旅游市场发展的主要因素。二、模型设定及其估计影响因素分析与确定影响因素主要有国内旅游人数 ,城镇居民人均旅游支出 ,农村居民人均旅游支出 ,并以公路里程次 和铁路里程 作为相关基础设施的代表 理论模型的设定其中 : 第 t 年全国国内旅游收入,42,数据的收集与处理,数据来源:
15、中国统计年鉴,43,该模型,,,可决系数很高,F检验值173.3525,明显显著。但是当,时,、,不仅 、 系数的t检验不显著,而且 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。,OLS 法估计的结果,44,计算各解释变量的相关系数,表明各解释变量间确实存在严重的多重共线性,45,三、消除多重共线性,采用逐步回归法检验和解决多重供线性问题。分别作Y 对X2、X3、X4、X5、X6的一元回归,的大小排序为:X3、X6、X2、X5、X4。,以X3为基础,顺次加入其他变量逐步回归,46,最后消除多重共线性的结果,这说明,在其他因素不变的情况下,当城镇居民人均旅游支出 和农村居民人均旅游
16、支出 分别增长1元时,国内旅游收入 将分别增长4.21亿元和3.22 亿元。在其他因素不变的情况下,作为旅游设施的代表,公路里程 每增加1万公里时, 国内旅游收入 将增长13.63亿元。,四、回归结果的解释与分析,47,小 结,1.多重共线性是指各个解释变量之间有准确或近似准确的线性关系。2.多重共线性的后果: 如果各个解释变量之间有完全的共线性,则它们的 回归系数是不确定的,并且它们的方差会无穷大。 如果共线性是高度的但不完全的,回归系数可估计, 但有较大的标准误差。回归系数不能准确地估计。,48,3.诊断共线性的经验方法: (1) 表现为可决系数异常高而回归系数的t 检验不显著。 (2) 变量之间的零阶或简单相关系数。多个解释变量时,较低的零阶相关也可能出现多重共线性,需要检查偏相关系数。 (4)如果 高而偏相关系数低,则多重共线性是可能的。 (5) 用解释变量间辅助回归的可决系数判断。,49,4.降低多重共线性的经验方法: (1)利用外部或先验信息; (2)横截面与时间序列数据并用; (3)剔除高度共线性的变量(如逐步回归); (4)数据转换; (5)获取补充数据或新数据; (6)选择有偏估计量(如岭回归)。 经验方法的效果取决于数据的性质和共线性的严重程度。,