Chapter1线性回归模型的OLS估计.doc

上传人:小飞机 文档编号:4196680 上传时间:2023-04-09 格式:DOC 页数:31 大小:1.28MB
返回 下载 相关 举报
Chapter1线性回归模型的OLS估计.doc_第1页
第1页 / 共31页
Chapter1线性回归模型的OLS估计.doc_第2页
第2页 / 共31页
Chapter1线性回归模型的OLS估计.doc_第3页
第3页 / 共31页
Chapter1线性回归模型的OLS估计.doc_第4页
第4页 / 共31页
Chapter1线性回归模型的OLS估计.doc_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《Chapter1线性回归模型的OLS估计.doc》由会员分享,可在线阅读,更多相关《Chapter1线性回归模型的OLS估计.doc(31页珍藏版)》请在三一办公上搜索。

1、第1章 线性回归模型考察多个自变量对一个因变量的影响。比如,施肥量、土质与农业产量的关系,受教育年数、工龄、性别对收入的影响,警察数量、下岗职工对城市犯罪率的影响等。以双变量为例。x1、x2对y存在影响,同时x1和x2之间也存在相关关系。如图所示。X1X2y1.1 模型设定假定变量yt与k个变量xt j, j = 1, , k,存在线性关系。多元线性回归模型表示为, 1.1其中yt是被解释变量(因变量),xj t是解释变量(自变量),ut是随机误差项,bi, i = 0, 1, , k是回归参数(通常未知)。这说明xj t, j = 1, , k, 是yt的重要解释变量。ut代表其他影响yt变

2、化的随机因素。 给定一个样本(yt , xt1, xt2 , xt k),t = 1, 2, , T,上述模型表示为, 1.2令 , , 则(3.3) 式可以写为, y = Xb + u 1.31.2 参数估计1.2.1 参数的点估计1 最小二乘法(OLS)设残差平方和用Q表示, 1.4上式中,因为是一个标量,所以有。求Q对的一阶偏导数,并令其为零, 1.5化简得, 假定1 解释变量之间线性无关。Rank(XX) = Rank(X) = K1 1.6其中Rank()表示矩阵的秩。即解释变量之间彼此线性无关。如果假定1成立,可以直接得到的最小二乘估计量, 1.7表示y的拟合值,表示残差项。拟合值

3、和残差项经常表示为另外一种形式: 1.8 1.9其中,称为映射矩阵。Py表示y对X回归的拟合值。,称为零化子矩阵。My表示y对X的残差项。因此,y总是可以表示为y=Py+My。可以证明,P和M都是对称幂等矩阵,即 M = M ,P = P M2 = M M = M ,P 2 = P P = P 1.10且有 PX=X, MX=0 1.11M+P=I,PM=0 由正规方程组可得,即。进而可得。即1.2.2 FML定理接下来我们介绍OLS估计量的一个重要性质,即FML定理(Frisch and Waugh(1933)、Lovell (1963))。这一定理体现了线性回归模型参数的经济含义。在虚拟变

4、量等问题的处理中重要的应用。将所有的解释变量拆分为两部分。模型表述为: 1.12残差平方和为: 1.13对应的正规方程组为: 1.14由(1)式可得: 1.15由此可以看出,如果,则。即当X2与X1正交时,模型与的参数估计量是完全相同的。将(2.21)式带入正规方程(2)可得到解: 1.16其中,M1表示X1的零化矩阵,根据零化矩阵的性质, 1.17其中,表示X2对X1回归的残差项,表示y对X1回归的残差项。由此得到如下定理。Frisch-Waugh定理:与得到相同的估计量和残差。即,y对X1、X2的回归方程中,X2的参数估计量等价于y对X1回归的残差项对X2对X1回归的残差项进行回归得到的参

5、数估计量,二者的残差也是相同的。这一定理表明,多元回归模型中,回归参数2体现了“排除”(partial out)X1影响后的“净”影响。因此,2也称作“偏回归系数”,体现了X2对y的净影响,称之为“偏影响”(partial effect)。也正是由于回归参数2体现了排除X1影响后的“净”影响,因此把X1称作“控制变量”。也就是说,虽然实际经济环境中,我们几乎不能控制X1的变化。但在多元回归模型中,2已经把X1的影响排除掉了,因此2理解为“当其他条件不变的情况下”,X2对y的边际影响。对于如下结构关系:X1X2y如果回归模型,参数b1的估计量不会显著,因为将x2的影响排除后,x1对y不存在任何影

6、响。1.2.3 参数估计量的分布特征设真实的DGP为y = Xb0 + u其中,b0为真实的参数。如果模型设定准确的话,即y = Xb + u我们来看参数估计量的统计特征。对于模型错误设定的情况,请参见本章“模型的设定分析”部分。1 一致性设模型的参数为,估计量为。如果,则称具有一致性。一致性意味着随着样本量的增加,参数估计量可以无限接近真实参数,即估计量的分布为真实参数那一点。也就是说,随着样本量的增加,我们可以对真实参数作出越来越精确的推断。一致性是对参数估计量的最低要求。如果估计误差与样本量没有关系,那么很难建立真实参数与参数估计量之间的关系。 1.18由假定Rank(X)=K和大数定律

7、,样本均值的概率极限等于总体均值,可得: 1.19又由Slustky定理,。由此可得 1.202 的无偏性的随机性来源于u的随机性,因此,将写为关于u的表达式。 1.21即是随机向量u的线性组合。如果X为确定性变量,则的期望为: 1.22因此,是b的线性无偏估计量。但将X做为确定性变量过于简单。大多数情况下,X与y一样,具有明显的随机特征。假定2 u关于X的条件期望为0。Eu|X=0。假定2也称作X具有严格外生性。具有两个基本含义。第一个含义是,u的无条件均值也为0。这一特征可以通过迭代期望公式直接导出。E(u|X) = 0 E(u) = EE(u| X) = 0 1.23第二个含义是,u与X

8、以及X的任何函数正交,不相关。 1.24Cov(g(X), u) = Eg(X)-E(g(X)u- E(u)= E(X-E(X)u=E g(X)-E(g(X)u = E g(X)u Eg(X)u = Eg(X)u- Eg(X)E(u) = 0当g(X)= X时,u与X正交,u与X不相关。E(Xu| X)= XE(u| X) = 0, E(Xu) = EE(Xu|X) = E(X) E(u| X) = 0Cov(X, u) = E(X-E(X)(u- E(u)= E(X-E(X)u= EXu- E(X)E(u) = 0的条件期望为: 1.25当然,的无条件期望为: 1.26因此,是b0的线性无偏

9、估计量,具有无偏性。与之相关的另外一个较弱的假定是,ut关于Xt的条件期望为0。Eut|Xt=0。3 的有效性假定3 随机误差项向量u是同方差、无序列相关的。即协方差矩阵为:Var (u|X) = s 2I = s 2 1.27OLS估计量的方差矩阵为: 1.28其中,s 2 (X X)-1第i行第j列的元素表示第i个参数估计量和和第j个参数估计量的协方差。当i=j时(即对角线上的元素),表示第i个(包括常数项)参数估计量的标准差。高斯马尔科夫定理:在假定13成立的条件下,OLS估计量是最有效的线性无偏估计量。即:设是OLS估计量,为其他无偏估计量,那么。根据迭代期望公式,可以得到。将线性回归

10、模型中OLS估计量称之为最佳线性无偏估计量(BLUE)。4 方差来源的方差对于统计推断以及经济解释都是至关重要的。方差越大,说明估计量越不精确,因此参数的置信区间就越大,假设检验也就越不准确。假设关注变量x2,设DGP为,模型设定为。根据FML定理, 其方差为:其中,表示x2对X1回归的残差平方和。因此,方差也可以表述为: 1.29其中,SSE2、R22表示x2对X1回归的残差平方和与可决系数,表示x2的离差平方和。因此,的方差来源于三部份:回归标准差02、解释变量之间的相关性、x2的波动。回归标准差02体现了模型中噪音的成分,噪音越多(02越大),那么解释变量的影响就越难以判断,估计量的就越

11、不准确。02是一个总体概念,与样本无关。但它是未知的,在后面的章节推导出其无偏估计量。给定被解释变量y,要想降低2,那就需要将更多的成分从随机扰动项中提取出来,方法只有一个:加入新的解释变量。但加入新的变量并不总是有效的,后面的章节还会详细地加以解释。Ri2体现了xi与其他解释变量的线性相关程度。相关程度越高,Ri2就越高,就越大。当Ri21时,。这时,我们称之为多重共线性(multicollinearity)。当然,如果部分解释变量之间存在多重共线性,不会影响其他的参数估计。比如,在下面的模型中:yt = b0 + b1 x1t + b2 x2t+ b3 x3t + ut如果x2t与x3t高

12、度相关,那么和会比较大。但x2t与x3t的相关性对没有影响。事实上,如果x1t、x2t都与x3t不相关,即R120,那么2/SST1,与x2t、x3t之间的相关性没有任何关系。因此,如果模型关注的是x1t,那么就没有必要在乎x2t、x3t之间的多重共线性问题。给定其他条件不变的情况下,xi的离差平方和越大,的方差越小。提高xi的离差平方和的方法是增加样本容量。当样本容量不断增加时,离差平方和可以无限大,可以有力地降低的方差。Arthur Goldberger针对人们面临多重共线性问题的困扰提出了小样本问题(micronumerosity),参见Goldberger(1991)。1.2.4 区间

13、估计我们已经知道了的分布形式,如果进行区间估计的话,还需要估计s 2。根据前文所述,= Mu。残差平方和为 1.30则残差的方差估计量 1.31因s2是一个标量,所以有 1.32其中tr() 表示矩阵的迹。tr(I ) = T,tr(X ( X X)-1 X ) = k+1。因为对于矩阵A B C有tr(ABC) = tr(BCA)= tr(CAB),所以tr(X (X X )-1 X ) = tr( (X X)-1 X X ) = tr(I ) = k+1。由此可见s 2是s 2的无偏估计量。得到了的方差估计量,就可以构建区间估计了。方法与第一章相同,此处不予赘述。1.2.5 残差的分布接下

14、来我们进一步考察残差的特征。上面我们利用残差估计随机误差项的方差,后面很多统计检验都要利用残差。由, 可以得到几个基本结论。(1)每个残差都是所有误差项的线性组合。因此,虽然u同方差、无序列相关,但是异方差、存在序列相关的。(2)。因此,残差的方差小于随机误差项的方差。杠杆越高的观测值,残差的方差越小。与之相关联的另外两种残差为标准化残差与学生化残差。标准化残差为,学生化残差为。其中,表示删除第i个观测值后误差项的标准差。1.2.6 标准化的回归系数参数估计量是有量纲的,因此不能直接比较不同解释变量的相对重要性。如果要比较不同变量的相对重要性,可以首先将所有的解释变量进行标准化,这样便将其转换

15、为没有量纲的概念了。, , 然后利用标准化后的解释变量进行回归, 标准化的回归系数消除了量纲,可以直接用于比较不同变量重要性。思考题:标准化的回归系数与最初模型的回归系数(b0,b0, , bk) 存在什么关系?例 1.1 考察CEO年薪方程Salary=b0+b1roe+b2sale+b3ros+u 其中,salary表示CEO年薪(千美元),roe为前三年的平均资产收益率(%),sale表示公司销售额(百万美元),ros表示股票收益率(%)。(数据文件:ceosal)(1)计算OLS估计量、95%的置信区间。. regress salary roe sale ros, level(95)

16、noheader(2)计算残差、标准化残差、学生化残差;观察每个指标的描述指标. predict res, residual. predict res_std, rstandard. predict res_stu, rstudent. summ res res_*例 1.2 估计工资收入方程,wage=b0+b1educ+b2exper+b3tenure+u 其中,wage表示工资(千美元),educ表示接受教育的程度(年),exper表示工龄(年),tenure表示在现有岗位的任职时间(年)。(数据文件:wage1)(1)计算OLS估计量、99%的置信区间。. regress wage e

17、duc exper expersq age, level(99) noheader(2)计算标准化的回归系数. regress wage educ exper expersq age, beta level(95) noheader1.3 模型检验1.3.1 拟合优度y的变化由两部分引起,一是解释变量X=(x1, x2 , x k)(注意,X不包括常数项),二是随机误差项。那么解释变量与误差项对y的变化所作的贡献如何衡量呢?拟合优度即回归线对散点的拟合程度。回归线拟合散点的程度越好,则表明解释变量对y的解释能力就越强。1 可决系数考虑如下两个模型:模型中不包括X只有常数项时,的OLS估计量为,

18、残差为。将X纳入模型之后,得到的残差项为。由于X的加入,使得模型的误差项缩小了。这即是被X所解释的部分。因此,可以通过被X所解释的部分在y的离差中所占比例来衡量X对y 的解释能力。总离差平方和, 1.33回归平方和为 由回归直线的性质:y与的均值相同,可得,因此回归平方和又可以写为: 1.34残差平方和为 1.35则有如下关系存在, SST = SSR + SSE 1.36证明: 由于,因此 1.37平方和除以它相应的自由度称为均方。回归均方定义为MSR = SSR / k,误差均方定义为MSE = SSE / (T - k - 1)(即随机误差项的方差估计量)。2 拟合优度R2计算的变差占y

19、的变差的比值是评价一个估计模型优劣的方法之一。多重可决系数定义如下: 1.38显然有0 R 2 1。R 2越接近1,估计的回归函数对样本点的拟合优度越好,即解释变量对被解释变量的解释作用越强。3 调整的拟合优度对于给定的样本值yt,总离差平方和是固定不变的。但随着模型中解释变量个数的增加,残差平方和逐渐减小,因此可决系数R 2逐渐增加。结论1:增加解释变量时,残差平方和的变化。在模型中加入新的解释变量z时,的残差平方和为: 1.39其中,表示的残差平方和,表示的残差平方和,表示z对X回归的残差平方和。证明:设的回归结果为。根据分块矩阵的估计公式, ,可得: 1.40因此, 1.41新模型的残差

20、平方和为: 1.42根据Frisch-Waugh定理, 1.43即。因此, 1.44结论2:增加解释变量时,可决系数的变化由上述结论, 1.45其中,表示控制变量X时y与z的偏相关系数。上式两边同时除以总离差平方和,可得 1.46因此,当模型中加入新的解释变量的时候,模型的残差平方和总是递减的,可决系数总是递增的。为考虑模型中解释变量个数的变化对R 2的影响,定义调整的多重可决系数如下, 1.47当在模型中增加解释变量时,SSE将减小,同时 T- k - 1也减小。从而使SSE的减小量得到一定补偿。通常的值比R 2小。有时还会出现取负值的情况。增加新的解释变量时,可能会增加,也可能会降低。这取

21、决于新的解释变量对y的解释能力。结论3:增加解释变量时,调整的可决系数的变化。如果新增加的变量的t统计量大于(小于)1,则模型的调整的可决系数会增加(下降)。4 非中心化的R2当模型中没有常数项时,的均值不一定为0,y与的均值也不一定相同。因此,等式SST = SSR + SSE不一定成立,即总离差平方和(SST)不能分解为回归平方和(SSR)与残差平方和(SSE)两部分。这时R2可能会出现负值或者大于1的情况。这时可采用非中心化的拟合优度。我们知道,(2.44)式总是成立的,即y的平方和恰好分解为拟合值的平方和与残差平方和。定义非中心化的可决系数为: 1.48对比可决系数与非中心化的可决系数

22、可以看出,如果模型中存在常数项,当y的均值为0时,二者是完全相同的。对y进行线性变换y*=by,则Ru2不变。即,y由以米为单位变为以厘米为单位,或者以公斤为单位变为以斤为单位不会改变Ru2。如果对y进行线性变换y*=al+y,则Ru2会发生相应的变化。X中不包括常数项。当a增加时,Ru2也随之增加。因此,当模型中包含常数项时,如果常数项比较大,则Ru2会比较高。但Ru2更多地是由常数项带来的,并没有直观的经济意义。因此,在解释模型的可决系数或非中心化的可决系数时,首先要明确Ru2的计算方法及其可能存在的问题,避免对模型的错误解读。例 1.3计算例1.1的方差分析表及R2等指标。. regre

23、ss ceosal ret 例 1.4计算例1.2的方差分析表及R2等指标。. regress wage educ exper expersq age1.3.2 整个方程的显著性检验假定4:随机误差项服从正态分布。当检验被解释变量yt与一组解释变量x1, x2 , . , xk是否存在回归关系时,给出的零假设与备择假设分别是H0:b1 = b2 = . = bk = 0 ;H1:bi, i = 1, ., k不全为零。检验思路:无约束模型为:yt = b0 +b1x1t + b2x2t + bkx k t + ut , (a)受约束模型: yt = b0 + vt (b)如果原假设成立,那么模

24、型(a)中的参数b1, , bk均不显著,模型(a)与模型(b)的残差平方和近似相等。如果备择假设成立,那么模型(a)中至少有一个变量是显著的,而模型(b)中的随机扰动项ut包含了这些显著性的变量,因此模型(b)的残差平方和会明显高于模型(a)的残差平方和。模型(a)的残差平方和表示为SSEU(其中U表示没有约束(Unrestricted) 模型(b)的残差平方和表示为SSER(其中R表示带有约束(Restricted) 因此,可以根据残差项方差的变化来检验假设是否是正确的。如果(SSER - SSEU)比较大(小),则倾向于拒绝(接受)原假设。正式的统计检验是通过构建如下F统计量来完成的。

25、1.49在H0成立条件下,有F F(k, T k 1)由检验思路可以看出,F统计量越大(小),我们越倾向于拒绝(接受)原假设。因此,这是右单端检验。检验可以临界值方法和构建p值的方法来完成。设检验水平为a ,检验规则如下。1 临界值法:若F Fa (k, T k 1),则接受H0;若F Fa (k, T k 1),则拒绝H0。2 P值法:若P(x F ) ,接受H0;若P(x F ) Fcrit,则拒绝原假设;否则,接受原假设。实际上,前面的整个方程的显著性检验、部分参数的联合显著性检验、单个参数的显著性检验都是线性约束检验的特殊形式。比如,在模型lwage = b0 + b1 exper +

26、 b2 educ + u 检验b1=0,即检验b1=b2=0,即检验b1=b2,即1个自由度的t分布的平方为1个自由度的卡方分布,因此如果只有一个约束时,。因此,对于参数关系的单个约束也可以利用t检验来完成。例 1.6教育(educ)和工作时间(tenure)的对工资的影响相同,即检验:b1=b2。. test educ=tenure 工龄(exper)对工资没有影响,即检验:b3=0。. test exper 对上面两个假设进行联合检验,即检验:b1=b2,b3=0。. test educ=tenure exper 说明:与整个方程的显著性相类似,线性约束的F统计量也是通过比较受约束模型与无

27、约束模型的残差平方和来构建。无约束模型:受约束模型:对于受约束模型的OLS估计,最小化残差平方和 1.61 1.62利用分块矩阵求解,可得: 1.63残差项为: 1.64受约束模型的残差平方和为: 1.65由(2.71)式, 1.66 1.67故而可得无约束模型与受约束模型的残差平方和的差为: 1.68检验统计量为: 1.69判别方法与整个方程的显著性检验相同。1.3.7 (非)线性约束的Wald检验对于一般的参数约束(包括线性约束和非线性约束)的检验的另外一种常见的方法是Wald检验。原假设为:H0:Wald检验统计量为 1.70根据Delta方法(参见附录:概率统计),其中, 1.71因此

28、,Wald统计量又可以写为: 1.72结论:如果原假设成立,则Wald统计量渐进服从J个自由度的卡方分布,J表示约束条件的个数。如果参数约束为线性形式,即H0:。则因此,Wald统计量为 事实上,F统计量与Wald统计量之间的关系是渐进等价的。由,F与具有相同的极限分布。而Wald统计量中,因此,JW*正是Wald统计量。也就是说,JF与Wald统计量都渐进服从J个自由度的卡方分布。例 1.7 在消费模型:const = b0+ b1 inct + b2 const-1 + ut中,长期边际消费倾向MPC=b1/(1-b2),利用数据估计模型,并检验MPC1;H0:MPC1;H1:MPC1约束

29、形式为:Wald统计量为: . regress consp gdpp L.gdpp. testnl _bgdpp*(1-_bL.gdpp)=1可得:F=105.45,拒绝原假设。1.4 模型的设定分析上面所分析的估计量的统计特征都是基于模型设定准确的前提。如果模型设定错误,那么会直接影响到参数估计量的统计分布特征。这里,我们介绍两种情形,过度设定和欠设定。1.4.1 过度设定如果模型的解释变量中加入了本来与y不相关的变量xj,我们称之为过度设定(overspecify)。设真实DGP为但模型设定为:根据FML定理,期望值和方差分别为:如果模型设定正确,即,则其估计量的方差为。由可知,。即模型中

30、加入多余的变量,不会影响参数估计量的无偏性,但会影响有效性。除非,即X与Z正交,则。但在一般情况下,解释变量会存在一定程度的相关。而且,加入的多余变量越多,则估计量的方差越大,越不准确。1.4.2 欠设定与过度设定相对应,如果把本来与y相关的变量排除在模型之外,那么我们称之为欠设定(underspecifying)。设真实DGP为模型设定为: OLS估计量的期望为参数估计量的偏差取决于两个因素,Z对X回归的系数以及Z对y的回归系数。Z对X的影响越大,或者Z对y的影响越大,都将导致参数估计量较大偏差。只有或时,参数估计量才具有无偏性。由于估计量是有偏的,用均方误差(Mean Squared Er

31、ror)计算估计量的精确度。对于无偏估计量,均方误差等于方差。可以计算出,估计量的MSE为相对于过度设定模型,欠设定模型的均方误差可能更有效、也可能非有效,取决于上述公式的第二部分的大小。例 1.8 利用蒙特卡罗模拟考察模型过度设定与欠设定对参数估计量的影响。假设DGP为y=10+2x1+5x2+u,其中,x1与x2的相关系数为0.6,uNIID(0, 1)。模型1设定为y=b0+b1x1+b2x2+u,模型2设定为y=b0+b1x1+u,模型3设定为y=b0+b1x1+b2x2+b3x3+u。x1与x3的相关系数为0.1,x2与x3的相关系数为0.3。每次生成200个观测值,模拟1000次,观察模型1、2、3的参数估计量的分布。(程序文件:spec.ado). simulate under_b=(r(under_b) under_se=(r(under_se) c_b=(r(c_b) c_se=(r(c_se) over_b=(r(over_b)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号