多重共线性问题ppt课件.ppt

上传人:小飞机 文档编号:1901080 上传时间:2022-12-24 格式:PPT 页数:30 大小:331.50KB
返回 下载 相关 举报
多重共线性问题ppt课件.ppt_第1页
第1页 / 共30页
多重共线性问题ppt课件.ppt_第2页
第2页 / 共30页
多重共线性问题ppt课件.ppt_第3页
第3页 / 共30页
多重共线性问题ppt课件.ppt_第4页
第4页 / 共30页
多重共线性问题ppt课件.ppt_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《多重共线性问题ppt课件.ppt》由会员分享,可在线阅读,更多相关《多重共线性问题ppt课件.ppt(30页珍藏版)》请在三一办公上搜索。

1、1,第八章 多重共线性问题,一、问题的种类和原因二、多重共线性的危害三、多重共线性的测定四、多重共线性的克服和处理,2,8.1 问题的种类和原因,1、完全多重共线性 一个自变量刚好是其他自变量的线性组合 如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其中: ci不全为0,则称为解释变量间存在完全共线性(perfect multicollinearity)。矩阵X至少有一列向量可由其他列向量(不包括第一列)线性表出,它是非满秩的。 模型设定问题 识别问题,3,2、近似多重共线性如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其中ci不全为0,vi为随机

2、误差项,则称为 近似共线性(approximate multicollinearity)或交互相关(intercorrelated)。主要是数据问题,也有模型设定问题,8.1 问题的种类和原因,4,3、实际经济问题中的多重共线性 一般地,产生多重共线性的主要原因有以下三个方面:(1)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。,8.1 问题的种类和原因,5,(2)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济

3、变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入)显然,两期收入间有较强的线性相关性。(3)样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。一般经验: 时间序列数据样本:简单线性模型,往往存在多重共线性。 截面数据样本:问题不那么严重,但多重共线性仍然是存在的。,8.1 问题的种类和原因,6,8.2(近似)多重共线性的危害,1、普通最小二乘法估计量的方差和标准差变大,即精确度下降;2、置信区间变宽;3、t值不显著;4、R平方值较高,但t值并不都显著;5、OLS估计量及其标准差对数据的微小变化非常敏感,即它们趋于不稳定;,7,以

4、二元线性模型 y=1x1+2x2+ 为例:,恰为X1与X2的线性相关系数的平方r2,即X1对X2回归的拟合优度。,由于 r2 1,故 1/(1- r2 )1,8,多重共线性使参数估计值的方差增大,1/(1-r2)为方差扩大因子(Variance Inflation Factor, VIF),当完全不共线时, r2 =0,当近似共线时, 0 r2 1,方差膨胀因子表,当完全共线时, r2=1,,9,8.2 (近似)多重共线性的危害,6、回归系数符号有误;7、难以衡量各个解释变量对回归平方和(ESS)或者R2的贡献。 总之,随着多重共线性程度的提高,参数方差会急剧上升到很大的水平,理论上使最小二乘

5、法估计的有效性、可靠性和价值都受到影响,实践中参数估计的稳定性和可靠程度下降。,10,8.3 多重共线性的测定,1、R2较高、F检验通过但有些系数不能通过t检验;2、解释变量两两高度相关:检验解释变量相互之间的样本相关系数;3、方差扩大(膨胀)因子检验;4、状态数检验。注意:没有一种检验方法能够使我们彻底解决多重共线性问题。多重共线性是一个程度问题。,11,方差扩大因子检验,分析已知记 为 , 为 。,12,当 时,当 时, 自变量xj的方差扩大因子(Variance Inflation Factor)定义为矩阵(XX)-1中第k个对角元素,即,13,上式中 表示把xk作为因变量,其余自变量作

6、为自变量进行回归得到的决定系数。这个值越大,表示该变量与其余自变量的线性依存程度越强,则自变量的共线性越严重。常以方差扩大因子是否大于10来判断第 k个解释变量是否存在较强的、必须加以处理的多重共线性。还可以用所有自变量所对应的方差扩大因子的平均数,当其大于10时,表示变量间存在严重的共线性。,14,VIF的EViews计算首先建立以某个自变量为因变量、其余自变量为自变量的多元回归方程.然后计算VIF,命令如下: scalar vif=1/(1-equation_name.R2) 其中R2是R2,调用系数格式为 equation_name.coefs(n),15,实例一:美国机动车汽油消费的影

7、响因素分析 给出1950-1987年间美国机动车汽油消费量和影响消费量的变量数值。其中格变量表示:QMG为机动车汽油消费量(单位:千加仑);CAR为汽车保有量;PMG为机动车汽油零售价格;POP为人数;RGNP为按1982年美元计算的GNP(单位:十亿美元);PGNP为GNP指数(以1982年为100)。以汽油消费量为因变量,其他变量为自变量,建立回归模型。变量CAR与POP、RGNP之间相关系数较大,存在多重共线性。,16,实例二:,1960至1982年期间美国的鸡肉需求: 有关变量:平均每人鸡肉消费量(Y),每人实际可支配收入(X2),鸡肉的实际零售价格( X3),猪肉的实际零售价格( X

8、4),牛肉的实际零售价格( X5) 初步回归 相关矩阵 辅助回归,17,状态数检验,状态指数 将X矩阵的每一列xk用其模 相除以实现标准化,然后再求XX矩阵的特征值,取其中最大的除以最小的后再求平方根,得到该矩阵的“状态数”,记为: 通常当 大于20或30时,认为存在较明显的多重共线性。,18,确定哪些解释变量的系数受到多重共线性的影响:先计算各个特征值的“状态指数” 这些状态指数的水平在1到 之间,很可能有好几个超过20-30的“危险”水平。,19,8.4 多重共线性的克服和处理,1、增加样本容量 样本容量越大,变量相关性越小,相关越难。但有局限性,不一定解决问题2、差分方程3、模型修正4、

9、岭回归方法、主成分分析方法等,20,差分方程,线性回归模型为 且已知X1和X2之间存在多重共线性问题。 作如下变换: 改用差分方程 进行回归,受多重共线性的影响比较小。,21,模型修正,(1)删减解释变量(利用检验结论、经验等),但从模型中删减解释变量可能导致“模型设定误差”。(2)重新考虑模型(利用原模型回归信息、经验等)(3)变量变换(4)先验信息参数约束,22,先验信息参数约束 例:生产函数 ,经对数变换为: 如果预先知道所研究的经济有规模报酬不变的性质,即函数中的参数满足 就可以克服多重共线性。,23,岭回归方法,设一个多元线性回归模型为普通最小二乘估计的公式为当解释变量间存在严重的多

10、重共线性时, 矩阵接近于奇异。用 代替 代入最小二乘估计的公式,得到:其中 称为“岭回归参数”,一般 , 是用 矩阵对角线上元素 和 构成的对角线矩阵 。,24,估计量的数学期望为:,25,8.5 案例中国粮食生产函数,根据理论和经验分析,影响粮食生产(Y)的主要因素有: 农业化肥施用量(X1, 万吨);粮食播种面积(X2,万公斤) 成灾面积(X3 ,千公顷); 农业机械总动力(X4 ,公顷); 农业劳动力(X5 ,万人)已知中国粮食生产的相关数据,建立中国粮食生产函数: Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +,26,1、用OLS法估计上述模型:,R2接近于1;

11、给定=5%,得F临界值 F0.05(5,12)=3.11 F=638.4 15.19, 故认上述粮食生产的总体线性关系显著成立。 但X4 、X5 的参数未通过t检验,且符号不正确, 故解释变量间可能存在多重共线性。,(-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14),27,2、检验简单相关系数,发现: X1与X4间存在高度相关性。,列出X1,X2,X3,X4,X5的相关系数矩阵:,28,3、找出最简单的回归形式,可见,应选第1个式子为初始的回归模型。,分别作Y与X1,X2,X4,X5间的回归:,(25.58) (11.49) R2=0.8919 F=132.1 DW=1.56,(-0.49) (1.14) R2=0.075 F=1.30 DW=0.12,(17.45) (6.68) R2=0.7527 F=48.7 DW=1.11,(-1.04) (2.66)R2=0.3064 F=7.07 DW=0.36,29,4、逐步回归,将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。,30,回归方程以Y=f(X1,X2,X3)为最优:,5、结论,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号