第6章内生解释变量课件.ppt

资源描述

《第6章内生解释变量课件.ppt》由会员分享，可在线阅读，更多相关《第6章内生解释变量课件.ppt（52页珍藏版）》请在三一办公上搜索。

1、第六章内生解释变量,第一节解释变量内生性的成因与检验第二节解释变量内生性检测第三节内生性问题的解决办法,第一节解释变量内生性的成因与检验,解释变量与随机误差项之间往往存在某种程度的相关性，即：,此时，就称模型存在内生性问题，与随机误差项相关的解释变量称为内生解释变量。,一、解释变量内生性及其影响,这称为解释量的外生性假定。,解释变量与随机误差项是线性无关的（甚至是均值独立的），即要求,内生性会对OLSE的统计性质产生不良影响,1、影响无偏性,如果假定SLR.3（不相关假定）不成立，则一定违背古典假定SLR.3的均值独立假定，即一定不成立。而假定SLR.3（均值独立）是OLSE无偏性

2、成立的关键假定。由（2.22）知：,=,2、影响一致性,OLSE不再具有一致性。,3、其它影响,其它不良影响还包括，随机误差项的方差估计量是有偏的，由此导致回归系数的方差估计量是有偏的，进而与方差相关的假设检验、区间估计容易导出错误的结论。这些影响需要结合内生性产生的具体的原因进行分析。,二、内生性产生的原因,横截面回归中解释变量内生性产生的原因主要有遗漏变量、错误的函数形式、测量误差和联立性。,1、遗漏变量,在建立计量经济模型时，由于人们认识上的偏差，理论分析的缺陷，或者是有关统计数据的影响，导致有意或无意地忽略了某些重要变量，未能将其作为解释变量引入模型，这种变量就称为遗漏变量（Omitt

3、ed Variable）。被遗漏的变量虽未引入模型，但其对因变量的影响还是存在的，其影响由随机误差项体现出来。如果被遗漏变量和模型中现有的解释变量存在相关，则会造成解释变量与随机误差项的相关，即产生内生性问题。,考虑成年劳动者的工资方程中存在未观测到的能力的问题,（6.1）,其中y代表工资的对数，x1代表受教育年限，x2代表个人能力，u是随机误差项。,（6.2）,若x2无法准确测量，将其归入随机误差项中，得到如下回归模型：,其中v中包含了x2。显然，若是x2与x1相关，则会导致，从而产生内生性问题。,将正确模型（6.1）式代入（6.3）式得,对（6.2）式进行回归， x1的系数估计量为:,

4、（6.3）,（6.3）,（1）若遗漏的 x2与x1 相关，则（6.4）、（6.5）式中的第二项在小样本的期望与大样本下的概率极限都不会为零，使得普通最小二乘估计量OLSE是有偏的，在大样本下也是不一致的。,（6.5）,（2）若 x2与x1不相关，则由（6.4）、（6.5）易知的估计量满足无偏性与一致性，但这时的估计却是有偏的。,（3）随机误差项的方差估计也是有偏的。,（4）的方差是真实估计量的方差的有偏估计。,在搜集数据时，如果遇到所搜集的数据不能确实地反映变量间经济行为的情况，就称模型中包含了测量误差（Measurement Errors）。具体来说，测量误差是指在收集数据过程中

5、的登记误差、在数据加工整理过程中的整理误差以及其他统计误差。测量误差出现的原因是多方面的。首先，调查登记本身就可能产生误差；其次，数据的加工处理过程中也可能导致一定的误差；此外，数据的不当使用也会出现误差，测量误差可能是被解释变量的测量误差，也可能是解释变量的测量误差。,2、测量误差,（1）因变量存在测量误差，且与自变量不相关，，则OLS估计量具有良好的性质，是无偏和一致的。,（2）因变量存在测量误差，且与自变量相关，，则产生内生性问题，OLSE是有偏且不一致的。,测量误差造成的内生性也会影响回归分析的结果。,（3）自变量存在测量误差，且与自变量测量值不相关、与随机误差不相关，则估计

6、值是一致的，但方差会变大。,（4）自变量存在测量误差，且与自变量测量值相关，则产生内生性问题，OLSE是不一致的。OLSE常常会低估真实的回归参数。,注意：回归变量的测量误差是数据问题，目前计量经济学家们还提不出有效的解决方法。一般的做法往往是忽略测量误差问题，主观上希望测量误差足够小，从而不破坏回归分析假定的合理性。,例如，如果“真实”的回归函数为,但却将模型设定为,错误的函数形式（Wrong Functional Form）是指在设定模型时，选取了不正确的函数形式。最常见的就是当“真实”的函数形式为非线性时，却选取了线性的函数形式。,3、错误的函数形式,由错误的函数形式造成了内生性，即使其

7、他假设均成立，且样本很大，普通最小二乘估计量也是不一致的。,由于经济现象的错综复杂，大多数经济问题中各变量之间存在反馈效应。要描述经济现象的这种复杂关系，必须从整体和系统的角度进行，建立由多个相互联系的单一方程组成的联立方程模型才能完整表达。正如单方程模型会遇到内生性问题，联立方程模型更容易遇到内生性问题。因为在联立方程模型中，结构式中已包含有其它的内生变量，所以在从结构式到简约式的转化中，自然也把误差项带入了其它的结构式中，产生联立性（Simultaneity），进而不可避免地造成内生性。由于内生性的存在，会使得OLS估计量是有偏的和不一致的。,4、联立性,检验的基本思想：如果不知道遗漏了哪

8、个变量，可寻找一个替代变量来进行遗漏变量检验，替代变量通常选用所设定模型被解释变量的拟合值的若干次幂的线性组合。若模型估计所得的残差包含着遗漏的相关变量，那么这个残差可用被解释变量拟合值若干次幂的线性组合近似表示；若这个线性组合是显著的，则认为原模型设定有误（遗漏变量）。由于可引入若干个替代变量去判断是否有多个变量被遗漏，所以该方法被称为一般性设定误差检验。,拉姆齐(Ramsey，1969)提出了一种“回归设定误差检验”（Regression Specification Error Test），简称RESET检验。,第二节解释变量内生性检测,一、RESET检验,第一步：用OLS法对模型（6

9、.7）进行回归估计,RESET检验的基本步骤为：,（6.7）,第二步：用被解释变量的拟合值的若干次幂的线性组合，测度残差中是否包含着遗漏的相关变量。,具体做法为，在第一步的模型（6.7）中增加一个包含拟合值的函数。这个函数通常选择为拟合值的平方、立方和四次方的线性组合。例如：,其中， RSSU为对模型(6.8)（相当于无约束模型）进行回归得到的残差平方和， RSSR 为模型（6.7）（有约束模型）进行回归得到的残差平方和，dfU 和 dfR分别为前二者的自由度。针对模型（6.8），（6.9）式可以写为：,其中n为样本个数，k为解释变量个数。,第三步：提出原假设：。构造F统计量：,（

10、6.9）,（6.10）,第四步：给定显著性水平，若F统计值大于等于临界值，则拒绝原假设，表明存在设定误差（遗漏变量），否则，说明不存在设定误差（遗漏变量）。类似的，也可以利用F统计值对应的概率值来判断：如果概率值小于等于，则拒绝原假设，表明存在设定误差（遗漏变量），否则，说明不存在设定误差（遗漏变量）。,表6-1 城镇居民人均可支配收入和人均消费性支出抽样调查数据（元）,例61关于城镇居民的消费行为，某些研究者认为由于有较高的社会福利保障，以绝对收入假说消费函数模型为理论模型，能够得到理想的拟合结果，因而得出城镇居民的消费行为应该服从绝对收入消费理论假说，收入是唯一显著的变量。用表6-1

11、的样本数据验证这一结论是否正确。,模型的参数均通过了0.01水平下的显著性检验，R2=0.998表明拟合效果很好。但是由于我们仅用当期收入来解释消费支出的变化，因此，可能遗漏了相关变量。下面进行RESET检验。,利用EViews做回归，得样本回归方程：,（6.11）,由式（6.11）估计出消费性支出，在原回归模型中加入新的解释变量、后重新估计，发现的系数不显著，因此，加入变量进行估计，得到估计结果：,（6.12）,F统计量的值大于0.05显著性水平下自由度为（1,16）的F分布的临界值4.49，因此拒绝原假设，表明原模型确实存在设定误差，遗漏了相关变量，所以我们认为消费与收入之间的关

12、系可能并不像一元线性模型那么简单。,RESET检验也可以利用EViews直接来完成。操作方法如下：作y关于x的回归，然后在输出结果窗口选择View / Stability Test / Ramsey RESET Test，在弹出的“Number of Fitted”对话框中，设定代理变量个数为1。点击“OK”，检验结果如下：,计算F统计量：,=106.4448,由于F统计量对应的概率为0，显然小于 0.05，故拒绝原假设，认为遗漏了相关变量。由此可见，我国城镇居民的消费行为，不能认为服从绝对收入消费理论假说，线性模型设定有误。,表6-4 EViews输出结果,豪斯曼内生性检验的具体步骤为：,1

13、.对所研究的回归模型，无论是否存在测量误差，先采用OLS法得到参数估计量。,关于测量误差存在与否的内生性检验是豪斯曼（J. A. Hausman，1978）提出的，其基本思路是，把可能存在测量误差的解释变量与其工具变量做回归，将得到的残差序列作为解释变量加入初始的模型，如果残差序列是显著的，则说明存在测量误差，否则说明不存在测量误差。,二、豪斯曼检验,2.对可能存在测量误差的解释变量，选择与其相关的工具变量(参见本章第3节)，将可能存在测量误差的解释变量对选择的工具变量进行回归，并获得回归残差（作为自变量测量误差的代表）。,3.将回归残差作为解释变量加入第1步中的回归模型，再次进行OLS估

14、计，得的参数估计值及显著性检验结果。,4.若显著，则认为解释变量的确存在观测误差，反之，认为解释变量不存在测量误差。,其中，ex为某贫困地区地方政府的支出，aid为中央政府的拨款量，inc为贫困地区地方政府的财政收入，pop为该地区的总人口数。现怀疑中央政府的拨款量aid存在测量误差。我们选择贫困人口数ps为工具变量，其原因为扶贫支出是该地区地方政府支出中比重最大的支出，其经费来源主要是依赖中央政府的拨款，而中央政府的拨款与该地区贫困人口数ps有直接关系，因此ps与aid有较高相关性。将aid对ps进行回归，得：,例62 假设利用观测到的样本数据作回归，已得到以下结果：,（6.13）,t

15、 = (-0.56) (13.64) (8.12) (-5.17)R2=0.993 F=2190,从上式看出，因为系数的t值是1.73，小于t的临界值1.96，在0.05的显著性水平下，双侧t检验接受原假设（不存在测量误差），但在0.1的显著性水平上，双侧t检验则拒绝原假设而接受备择假设（存在测量误差）。注意，引进对测量误差可能性的修正，使aid变量的系数变小，这从另一个侧面说明，测量误差夸大了aid对ex的影响。,得到如下的残差变量：,将项加入（6.13），再回归得到以下结果：,t = (-1.41) (1.94) (7.55) (-1.29) (1.73),工具变量的选择应满足以下条

16、件：工具变量必须具有实际经济意义；工具变量与内生解释变量高度相关，但与随机项不相关；工具变量与模型中的其他解释变量也不相关；模型中多个工具变量之间不相关。,注意，工具变量对内生解释变量的替代并不是“完全”替代，即不是用工具变量代换模型中对应的内生解释变量，而是在最小二乘法的正规方程组中用工具变量对内生解释变量进行部分替代。,工具变量法（Instrument Variable，IV）是消除内生性的一种常用方法，应用的基本思路是，当出现内生解释变量，即解释变量与随机项相关时，则寻找另一个变量，该变量与内生解释变量高度相关，但与随机项不相关，称该变量为工具变量，用其替代内生解释变量参与参数的估计过

17、程。,第三节内生性问题的解决办法,一、工具变量法,由OLS推导的正规方程和参数估计值公式为：,设有一元线性回归模型：,（6.16）,采用矩方法（Moment Method ，MM）也可推导出完全一样的结果：,（6.17）,（6.18）,由假定SLR.3，，可知，,对应的样本矩条件为：,整理后，得到正规方程组：,（6.20）,如果解释变量内生，则第二个矩条件不能满足，样本矩条件也就无从谈起，所以，无法推导出（6.21），OLSE是不一致的。,可见（6.20）（6.17）完全相同，MM估计量（6.21）与OLS估计量（6.18）也完全一致。说明在这种情况下，OLS等价于MM。,解得：,（6

18、.21）,此时我们需要寻找一工具变量z。满足,替换（6.19）中的第二个方程，得：,对应的样本矩条件为，，即，,这种方法称为工具变量法。,解得：,对应的正规方程组为：,当xj ( j=1,2,k) 与随机项 ui相关，设xj 的工具变量为 zj ( j = 1, 2, ,k)，即每一个解释变量均对应一个工具变量。,这样得到方程组：,将上述一元线性回归模型的工具变量法推广到多元线性回归模型的情形：,根据工具变量应满足的条件，可得：,将关系式,代入上式，整理得：,（6.28）,注意：工具变量法属于矩方法。可以证明，无论对于一元线性模型还是多元线性模型，参数的工具变量估计量都是有偏但一致的估计

19、量。,参数的工具变量的估计量为：,（6.29）,其矩阵形式为：,例63 以代表国内生产总值，以代表消费，以代表政府支出。表6-5给出了某地上述三项指标的数据。理论研究证明，国内生产总值与随机项相关，而外生的政府支出与随机项无关，但与国内生产总值高度相关。试用工具变量法估计国内生产总值对于消费的边际效应。,表6-5 国内生产总值、消费、政府支出数据（单位：亿元）,由于内生性的国内生产总值x与随机项u相关，而外生性的政府支出 z与随机项 u无关，且与国内生产总值 x高度相关，故可用z 作为国内生产总值 x的工具变量。参数估计如下：,设消费与国内生产总值之间具有线性关系，可建立如下模型：

20、,=0.568,876.01,则样本回归模型为：,即国内生产总值对于消费的边际效应为0.568。,EViews软件中，工具变量法操作如下：点击 Quick / Estimate Equation，在打开的对话框中，“Estimation Settings/Method”选择“TSLS-Two-Stage Least Square(TSNLS and ARMA)”，在“Equation Specification”栏中输入方程形式“y c x”，在“Instrument List”栏中输入“c z”（图6-1）。,表6-6 EViews输出结果,点击“OK”即可得到回归结果如下：,实际问题分析时

21、往往有不只一个的外生变量被遗漏，排斥在模型之外，且可能与内生解释变量相关，这意味着它们都是有效的工具变量。这时应该如何选取工具变量来消除内生性呢？泰尔 (H. Theil，1953)、贝斯曼(R. L. Basmann，1957)分别提出用两阶段最小二乘法（Two Stage Least Square，TSLS）来处理此类问题。本节只讨论单个内生解释变量的TSLS。,二、两阶段最小二乘法,那么，如何选择“最好”的工具变量呢？,与y2的相关关系越强的变量，作为y2的工具变量越合适，所以将y2表述为：,其中，y1是被解释变量，x1是外生解释变量（Exogenous Variables），y2是内生

22、解释变量。对该方程我们感兴趣的是系数，所以可以称为结构方程（Structural Equation）。如果存在两个外生变量z1、z2，与u不相关，与y2相关，则z1与z2都可以作为y2的工具变量。而且，既然x1、z1、z2均与u不相关，那么其任何线性组合也与u不相关，即x1、z1、z2的任意线性组合都可以作为y2的工具变量。,假设有二元回归模型：,（6.32）,即用内生变量对所有的外生变量和工具变量构造回归模型，对应于最初的结构方程，该方程我们称之为简化方程（Reduced Equation）。,即是我们要得到的工具变量。,注意：为避免产生多重共线性，这里要求模型(6.32)中至少有一个不是

23、0。,实际应用中，直接用y2对所有的外生解释变量和工具变量进行回归，得到的y2的拟合值,作为y2的工具变量。,对的检验可以直接利用F检验来完成。,接下来便可以利用作为y2的工具变量进行OLS估计。这就是两阶段最小二乘法（Two Stage Least Square，TSLS）。顾名思义，所谓的TSLS即是分两个阶段估计模型，即,第一阶段：利用内生解释变量y2对所有外生解释变量和工具变量做回归，得到其拟合值 .,第二阶段：将作为y2的工具变量继续做回归，得到最终的回归模型。,其中，wage表示小时工资，educ表示受教育情况，是内生解释变量，exper表示实际工作经验，是外生解释变量，u与

24、exper和 exper2均不相关。假定我们还认为母亲的受教育情况（meduc）和父亲的受教育情况（feduc）与u不相关。那么我们可以将它们都用作内生解释变量educ的工具变量。educ的简化方程可写为：,例64建立回归模型考查工资和受教育情况、实际工作经验之间的关系，利用TSLS对模型进行回归分析。设原始模型为：,（6.34）,（6.35）,利用Eviews对该模型做回归，首先建立工作文件，将数据录入。点击Quick / Estimate Equation，在出现的窗口中“Estimation Settings / Method”选择“TSLS-Two-Stage Least Square

25、(TSNLS and ARMA)”，在“Equation Specification”栏中输入方程形式“log(wage) c educ exper exper2”，“Instrument List”栏中输入“c exper exper2 meduc feduc”，（图6-2）。,表6-7 EViews输出结果,点击OK，输出结果如表6-7所示。,所估计的教育情况educ回归系数为0.0614，意味着其他条件不变的前提下，每多接受一年教育工资平均地增加6.14%。由于它相对大的标准误，在对应着双侧对立假设的0.05的显著水平上，TSLS估计值几乎不显著。,注意：如果回归模型中存在多个内生解释变

26、量，那么对每个内生解释变量都要寻找工具变量。这涉及到模型的识别问题。关于这个问题，可以参考本书第十一章联立方程模型的有关内容。,对应的回归方程为：,在美国，每年大约有40000例高速公路交通死亡事故，其中大约1/3的致命性交通事故涉及司机醉酒驾车，而且这个比例在饮酒高峰期会上升。,由此可见，劝阻醉酒驾车似乎可以有效减少交通死亡事故的发生。所以很多美国州政府试图通过提高啤酒税的经济方法来劝阻司机醉酒驾车，进而减少交通死亡事故的发生。那么这项措施到底是否有效呢？斯托克收集了48个州（个体），从1982年到1988年间的相关样本数据，利用这些数据对该措施的有效性进行验证分析。,我们通过斯托克、沃森（

27、Stock & Watson）在计量经济学（第三版）教材中引用的一个有关交通事故死亡率和啤酒税的案例，说明差分回归（或者称为“前后比较”）的基本思路。,三、差分回归法,先利用OLS对该问题进行分析。选取交通事故死亡率（每万人的死亡人数）和啤酒税（以1988年美元价格计算的每箱啤酒的实际啤酒税）作为回归分析的被解释变量和解释变量。首先，利用1982年48个州的横截面数据进行分析，得到回归方程和散点图如下：,可见，啤酒税的斜率系数为正，但在0.1的显著性水平下不显著。,回归方程（6.37）中啤酒税的系数为正，且在0.01的水平下统计显著。,然后，与此类似，根据1988年（其它年份也可以）的48个州

28、的横截面数据进行分析，得到回归方程和散点图如下：,事实真的是这样吗？不一定！因为前面的回归分析可能含有遗漏变量，有很多影响交通事故死亡率的重要变量没有作为解释变量引入模型，比如：每个州所驾驶汽车的质量，汽车安全措施的改善，州高速公路的路况状态，公路上汽车的密度，醉酒驾车在社会文化上是否可接受，等等。这些因素中的任何一个都可能与啤酒税相关，进而造成内生性问题，导致回归结果的不准确。处理这类内生性问题最简单的方法就是搜集所需的变量数据，并将它们加入到上述模型中去。但遗憾的是，有些变量，如醉酒驾车的文化接受度，可能很难测量，甚至不可能测量。此时，我们可以采用差分回归方法解决这些遗漏变量问题。,这两个

29、方程表明，啤酒税与交通事故死亡率要么不相关，要么啤酒税的增加会导致更高的交通事故死亡率。这与预期结果是截然相反的。,FatalityRateit = 0 + 1BeerTaxit +2zi +uit, （6.38）i=1, 2, , 48, t =1982, , 1988,当t=1982和t=1988时回归模型可具体写为：,假设zi表示那些在州之间发生变化但不随时间变化的难以观测的变量（比如：对醉酒驾车的文化态度），但不同州总体回归线的斜率系数1都是一样的。该问题的回归模型可设为：,FatalityRatei1982 = 0 + 1BeerTaxi1982 +2zi +ui1982 （6.39

30、）FatalityRatei1988 =0 + 1BeerTaxi1988 +2zi +ui1988 （6.40）,(FatalityRatei1988FatalityRatei1982)= 1(BeerTaxi1988BeerTax i1982)+(u i1988u i1982),用（6.40）减去（6.39），得到：,即,（6.41）,对所有48个州的数据进行差分计算，得到的48个观测点（散点图见图6-5），据此估计的样本回归方程为,即在的变化中，不随时间变化的难以观测的变量zi的效应被减掉了（说明尽管zi对交通事故死亡率的水平值有影响，但由于它在不同时间上的效应固定，所以对交通事故死

31、亡率的变动没有影响），啤酒税的变化是唯一的解释变量，这就解决了变量遗漏对参数估计带来的偏差，也就解决了（6.36）和（6.37）的解释变量内生性问题。,（6.42）,图6-5 差分数据散点图和OLS回归函数,方程（6.42）考虑了啤酒税不变情况下死亡率平均变化不为0的可能性，所以包含了截距项，即截距项代表的是啤酒税没有发生变化时，交通事故死亡率的变化量。由于其t统计量不显著，所以总体上可能为0。斜率项为负，而且在0.05水平下拒绝了总体斜率系数为0的假设，说明平均而言，啤酒税上涨1美元/箱，则交通事故死亡率减少1.04人/万人。由于这些数据中，死亡率的平均数大约为2人/万人，所以，这一边际效应估计值是非常大的：如果每箱啤酒税上涨1美元，则交通事故死亡率大约下降一半！,（6.42）,

展开阅读全文