计量经济学4多元回归分析:推断.ppt

上传人:牧羊曲112 文档编号:6376444 上传时间:2023-10-22 格式:PPT 页数:79 大小:280KB
返回 下载 相关 举报
计量经济学4多元回归分析:推断.ppt_第1页
第1页 / 共79页
计量经济学4多元回归分析:推断.ppt_第2页
第2页 / 共79页
计量经济学4多元回归分析:推断.ppt_第3页
第3页 / 共79页
计量经济学4多元回归分析:推断.ppt_第4页
第4页 / 共79页
计量经济学4多元回归分析:推断.ppt_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《计量经济学4多元回归分析:推断.ppt》由会员分享,可在线阅读,更多相关《计量经济学4多元回归分析:推断.ppt(79页珍藏版)》请在三一办公上搜索。

1、第4章 多元回归分析:推断,4.1 OLS估计量的抽样分布4.2 检验对单个总体参数的假设:t检验4.3 置信区间4.4 检验关于参数的一个线性组合的假设4.5 对多个线性约束的检验:F检验4.6 报告回归结果,回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。,尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。,4.1 O

2、LS估计量的抽样分布,已经了解了OLS估计量的期望值和方差有助描述OLS估计量的精密度要进行统计推断,还需要知道估计量的抽样分布,4.1.1 正态性假定,样本中自变量的值既定,因而OLS估计量的抽样分布取决于误差分布假定MLR.6 正态性 总体误差u独立于解释变量x1,x2,xk,而且服从均值为零,方差为s2的正态分布:,4.1.2 经典线性模型假定,高斯马尔科夫假定与正态分布假定一起被称为经典线性模型假定,对参数而言为线性;随机抽样性;条件均值为0;不存在完全共线性;同方差性,经典线性模型,总结经典线性模型假定的一种简洁方法:,在实际应用中,误差不一定具有正态性,例子:考虑劳动力市场上,工资

3、与教育、工作经历、在现任工作的任职年限的关系,工资不可能低于0,何况有最低工资法案不具有正态分布,对变量做一个变换,比如log,一般来讲,相对于很大的样本容量来讲,误差的非正态性算不上一个严重的问题目前,我们姑且认可正态性假定。,4.1.3 定理,定理4.1 正态抽样分布 在经典线性假定下,给定自变量的样本值,有,其中,SSTj为xj的总样本变异因此,,证明:(仅证明1),相互独立的正太随机变量的线性组合依然服从正态分布,注意:,的任何线性组合也都是正态分布的。中的任何一个子集也都具有联合正态分布。,4.2 检验对单个总体参数的假设:t检验,对总体模型中的某个参数的假设进行检验 总体模型:,研

4、究如何检验那些有关某个特定的bj的假设。,是总体未知的特征,而且永远不会确定的知道它们。但可以做出假设,然后通过统计推断来检验假设,假设它满足经典线性模型假定,4.2.1 定理及概念,定理 4.2 标准化估计量的t分布 在经典线性模型假定下,有,式中,k+1为总体模型中未知参数的个数。,证明:,正态分布:YN(,2)标准正态分布:Z=(Y-)/N(0,1)2分布:X=Zi2n2t分布:tnF分布:Fk1,k2,所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。假设检验采用的逻辑推

5、理方法是反证法。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。判断结果合理与否,是基于“小概率事件不易发生”这一原理的。,兴趣所在。又叫原假设,零假设,虚拟假设:,意味着控制了其他自变量后,xj对y没有任何局部效应。,回顾统计学中给出的正态总体的均值的假设检验t统计量(或t比率),软件会给出,备择假设,并不是不关心bj0的情形只是基于经济理论,对于该研究,排除了bj0的可能,4.2.2对立假设:单侧对立假设,拒绝法则:在 时,H0在某一显著性水平上被拒绝并支持H1如果在5%的显著性水平上拒绝H0并支持H1,则称xj是统计显著的,否则称xj是统计上

6、不显著的。,临界值根据显著性水平和自由度决定(查表可得G.2),在虚拟假设正确时,错误拒绝它的概率,例子:5%的显著性水平,df=n-k-1=28,临界值c=1.701,0,1.701,面积=0.05,随着t分布的自由度逐渐变大,t分布会接近标准的正态分布df大于120,就可以使用标准正态分布的临界值。,拒绝域,标准误,df=522,使用标准正态分布的临界值:1%的显著性水平,c=2.326在1%的显著性水平上是统计显著大于0的,Example:小时工资方程,参数小于0的单侧对立假设,拒绝法则:,t分布只报告正值,c一定为正值,故-c一定为负值。,5%的显著性水平,df=18,临界值c=1.7

7、34,例子,-1.734,面积=0.05,0,拒绝域,Example:学生表现与学校规模,一种观点认为,在所有其它条件相同的情况下,小学校的学生比大学校的学生的情况更好些。,学生通同过密歇根教学评价委员会标准化十分制数学测验的百分比,用来衡量学生表现,年均教师工资,每千名学生拥有的教职工人数,学生注册人数,用来衡量学生规模,df=404,在5%的显著性水平上,临界值为-1.65,-1.65,不能拒绝H0,实际上在15%的显著性水平上,c=-1.04-0.91也不能拒绝虚拟假设,变化函数形式:自变量取log,-1.65(5%的显著性水平上的临界值),两个模型究竟哪一个个更好呢?注意观察拟合优度。

8、较高的拟合优度能够说明自变量的形式对应变量有更强的解释力度。,习题4.1,4.2.3 双侧对立假设,当经济理论(或常识)没有很好的说明bj的符号时,这是一个恰当的对立假设。即便知道bj在对立假设中的符号,采取双侧检验也是明智的避免根据回归方程中参数估计值来提出对立假设。双尾检验的拒绝法则:,-2.06,面积=0.025,0,2.06,面积=0.025,5%的显著性水平,df=25,c=2.06,拒绝域,拒绝域,Example:大学GPA的决定因素,因变量:大学GPA(colGPA);自变量:高中GPA(hsGPA),大学能力测验分数(ACT),每周缺课次数(skipped),双尾检验:5%的显

9、著性水平,c=1.96;1%的显著性水平,c=2.58,在显著性水平是1%时统计上显著,在显著性水平是5%时统计上不显著,小结:t统计量检验显著性原理,如果H0成立,Ptt/2 tt/2是小概率事件,如果该事件在一次抽样中就出现,说明假设H0值得怀疑,应当拒绝H0,检验步骤,(1)计算|t|(2)查表求临界值 t2(n-k-1)(3)比较,下结论如果|t|t2,则接受H0,认为在显著性水平为的意义下,j 不显著;如果|t|t2,则拒绝 H0,认为在显著性水平为的意义下,j 显著。,4.2.4 检验bj的其它假设,有时,也检验参数是否等于某个给定的常数,最常见的假设,那么相应的t统计量就是:,t

10、=(估计值-假设值)/标准误,Example:住房价格和空气污染,506个社区组成的样本,估计一个联系社区中平均住房价格(price)与各种社区特征的模型:nox表示空气中氧化亚氮的含量,以每区的百万分子数度量;dist表示该社区相距五个商业中心的加权距离,以英里为单位;rooms表示社区平均每套住房的房间数;stratio为该社区学校的平均学生教师比。总体模型为:,c,如此小的t统计量,几乎不需要看t分布中的临界值:即使在很大的显著性水平上,估计的弹性也不会显著的异于-1。,4.2.5 计算t检验的P值,使用经典方法进行假设检验,需要选择一个显著性水平。给定t统计量的观测值,能拒绝虚拟假设的

11、最小显著性水平是多少这个水平被称为检验的p值,p 值的概念:为了方便,将 t 统计量的值记为计算 pPtt 0称为p 值(pvalue)通常的计量经济学软件都可自动计算出p 值,P值检验法原理,如果p,则p/2/2,t0落入接受域,应接受H0如果p,则p/2/2,t0落入拒绝域,应拒绝H0,P值检验法准则,当P 值小于显著性水平时,系数在显著性水平下是显著的当P 值大于显著性水平时,系数在显著性水平下是不显著的。,P值检验法的优点,在使用上更简单,不用查临界值表不将 固定在某个武断的水平上是一个更可取的办法,最好是让使用者自己去决定在给定的p-value,到底是否拒绝零假设。,例子:t=1.8

12、5,df=40,对于双侧对立假设所得到的p值,-1.85,面积=0.0359,0,1.85,面积=0.0359,可以在7.18%的显著性水平上拒绝H0,一旦p值计算出来,在任何显著性水平(a)上都能进行检验:p a,拒绝虚拟假设;否则不能拒绝回归软件包都会给出双尾检验的p值。如果求单侧检验的p值,只需将双尾检验的p值除以2。,4.2.6 对经典假设检验用语的提醒,当H0 未被拒绝时,我们说“在x%的显著水平上不能拒绝H0”,而不是说“在x%的显著水平上接受了H0”再次考虑住房价格与空气污染的例子。,t=0.393,t=-0.462,很显然,两个虚拟假设不可能同时接受,5%的显著性水平,c=1.

13、96,4.2.7 经济或实际显著性与统计显著性,前面强调的是统计显著性:与t统计量相关经济显著性或实际显著性:系数估计值的大小及符号,过多的强调统计显著性,即使一个变量的估计效应不太大,由于有很小的标准误,也认为它在解释y时很重要导致错误的结论,要么它很大,要么它很小,Example:401k养老金计划的参与率,企业贡献率、工人年龄、企业规模对养老金计划参与率的影响,其t统计量的绝对值为3.25,双尾检验的P值为0.001在相当小的显著性水平上都是统计显著的,实际意义呢?,在处理大样本时,除了看t统计量,对系数的大小加以解释也特别重要。,习题4.3(i),4.2.8 小结,检验统计显著性如果该

14、变量是统计显著的,则讨论系数的大小,以对其实际或经济上的重要性有所认识。如果变量在通常的显著性水平上不是统计显著的,那你仍可能要问这个变量对y是否有预期的影响,而这个影响在实践中是否很大。如果影响很大,那你就应该对t统计量计算p值。对于小样本,可以让p值大到0.20(并非一成不变),需要注意的是:t统计量小,而实际上大的估计值可能来自抽样误差太大,因为我们可以断定这些变量在统计上不显著,如果t统计量小的变量具有“错误”的符号,则可以忽略这个变量。一个有出乎意料的符号而在实践中具有很大影响的显著变量,才是问题。,这常常是可能由于遗漏了关键变量,4.3 置信区间,假设检验可以通过一次抽样的结果检验

15、总体参数可能的假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。,如果存在这样一个区间,称之为置信区间(confidence interval);1-称为置信系数(置信度)(confidence coefficient),称为显著性水平(level of significance);置信区间的端点称为置信限(confidence limit)

16、或临界值(critical values)。,要判断估计的参数值 离真实的参数值有多“近”,可以预先选择一个概率(01),并求一个正数,使得随机区间 包含参数的真值的概率为1-。即:,置信区间(CI)为总体参数的可能取值提供了一个范围,故又被称为区间估计。总体参数bj的一个95%的置信区间为,因为,c是一个tn-k-1分布的第97.5 个百分位,定理4.2:,经验法则:自由度大于50的t分布,5%显著性水平下c值与2很接近;因而构造置信水平为95%的置信区间,可以是:b j加减其2倍的标准误。根据置信区间可进行双尾检验:如果虚拟假设是,那么,当且当aj不在置信水平为(例如)95%的置信区间时,

17、相对于 的H0才会被拒绝。,自由度较小时还应查表,由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。,要缩小置信区间,需(1)增大样本容量n,因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;(2)提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。,Example:住房特征对价格的影响,df=15,c(5%)=2.131。b log(sqrft)的95%的置信区间是(0.634-2.131x0.184=0.242,0.634+2.131x0

18、.184=1.026),则相对于H1:log(sqrft)0的H0:log(sqrft)=0会被拒绝;b bdrms的置信水平为95%的置信区间是(-0.192,0.060),b bdrms的置信水平为95%的置信区间是(-0.002,0.318)。,4.4 检验关于参数的一个线性组合的假设,对涉及不只一个参数的单个假设进行检验例子:比较两年制大专和四年制本科教育的回报。总体中包括具有高中学历的工人,总体模型为我们关心的假设是,在大专的一年能否比得上在大学的一年,即虚拟假设为对立假设为,参加两年制大学的年数,参加四年制大学的年数,参加工作的月数,大专的一年不如大学的一年带来的工资回报多,虚拟假

19、设和对立假设可以重新表示为,t统计量,难点,有些软件包也许不会直接给出,一个简单计算的办法,定义新参数 于是检验t统计量,对,tot=jc+univ,t统计量:-0.026/0.018=-1.44,P值为0.07595%的CI:,至少可以在7.5%的显著性水平上拒绝H0(虽然不算很强),对比变换参数前后的回归模型及结果,习题4.3(II,III,IV),说明变换没有问题,4.5 对多个线性约束的检验:F检验(方差分析),检验对于参数b0,b1 bk 的多重假设多重假设检验,或联合假设检验。解决的问题:Y与X1、X2之间的线性关系是否成立,或者这种线性关系是否存在?如果各个 X前的系数都等于0,

20、那么这种线性关系就不存在,或称方程不显著只要一个 X前的系数不等于0,那么这种线性关系就存在,或称方程是显著的。,4.5.1 对排除性约束的检验,例子:棒球运动员的薪水模型,1993年的薪水,加入俱乐部的时间长短(几年),平均每年的比赛次数,平均职业击球次数,平均每年本垒打次数,每年击球跑垒得分,拟检验:一旦控制了加入俱乐部的时间长短和每年的比赛次数,度量球员表现的统计指标(bavg hrunsyr rbisyr)对薪水没有影响。因而,虚拟假设为对立假设 H1:H0不正确,排除性约束:如果该虚拟假设正确,就应该把这三个变量从模型中排除,b3,b4,或b5中至少有一个异于0,那么该对立假设成立,

21、估计结果:tbavg=0.89,thrunsyr=0.89,trbisyr=1.5 bavg,hrunsyr,rbisyr没有一个在5%的显著性水平是统计显著的,不能拒绝H0?,因为当从模型中去掉变量时,SSR总是增加,受约束模型,不受约束模型:包含所有解释变量的模型,受约束模型的估计结果,受约束模型的SSR比不受约束模型的SSR要大些是否足够的大,以至可以拒绝虚拟假设。,要构造一个统计量,从一般情形来推导这个检验统计量,具有k个自变量的不受约束模型:虚拟假设:对立假设:虚拟假设是错误的受约束模型:F统计量(F比率),思考:若H0:1=0k=0那么F统计量?,F统计量度量的是SSR从不受约束模

22、型到受约束模型的相对提高,不受约束模型的SSR,受约束模型的SSR,分子自由度,约束数(去掉的自变量个数);受约束模型与不受约束模型自由度之差,分母自由度,不受约束模型的自由度,SSRrSSRur,F统计量总是非负的,SSR服从卡方分布,故F服从F分布,F统计量服从自由度为(q,n-k-1)的F随机变量的分布拒绝法则:Fc,临界值根据显著性水平和自由度决定,5%的显著性水平,q=3,n-k-1=60,临界值为2.76,面积=0.05,2.76,拒绝区域,如果拒绝H0,就说xk-q+1,xk在x%的显著性水平上是联合统计显著的。如果虚拟假设未被拒绝,则这些变量是联合不显著的,这为将它们从模型中去

23、掉提供了证据。,回顾例子:棒球运动员的薪水模型,自由度(3,347)的1%的临界值:3.78 因而,拒绝这三个变量对薪水没有影响的虚拟假设,这三个变量的t统计量都不显著,而F统计量显著有点令人吃惊因为:hrunsyr(平均每年本垒打次数)和rbisyr(每年击球跑垒得分)高度相关这种多重共线性让我们难以发现每个变量的偏效应(反映在t统计量上)而这种多重共线性对检验联合假设而言,影响没有那么大。,F统计量对于检验一组变量的排除有用处,特别是在其中的变量高度相关的时候,4.5.2 F统计量与t统计量之间的关系,如果用F统计量去检验单个自变量的显著性,结果如何了?虚拟假设:H0:b k=0。令q=1

24、 可以证明,所得到的F统计量,等于对应t统计量的平方。因为,所以在双侧对立假设下得到完全一样的结果对于单个参数假设的检验,仍然用t统计量,变量各自的t统计量不显著,而F统计量显著(如前例)说明变量之间可能存在多重共线性,但变量组合对被解释变量还是有影响的。某个变量的t统计量显著,而F统计量不显著可能在一些不显著变量中隐藏了一个统计显著变量。不过通常当一个变量十分显著时,它与其他变量的联合检验也会是显著的。,4.5.3 F统计量的R2型,因为SSR r=SST(1-Rr2),SSR ur=SST(1-Rur2),则R-平方型的F统计量为,例子:婴儿出生体重方程中的父母受教育水平,bwght:以磅

25、为单位的出生体重;cigs:母亲怀孕期间每天吸烟的数量;parity:这个孩子在子女中的排行;faminc:家庭年收入;mothereduc:母亲受教育年数;fanthereduc:父亲受教育年数。,拟检验的虚拟假设是,在控制了cigs,parity和faminc以后,父母的受教育水平对孩子出生的体重没有影响。,实际观测值是1191个,则不受约束模型的自由度为?,则F统计量=1.42分子自由度为2,分母自由度为1185,5%的临界值为3.0。所以不能拒绝虚拟假设,即父母受教育水平是联合不显著的,n-k-1=1191-5-1=1185 q=2,4.5.4计算F检验的p值,给定F统计量的观测值,能

26、拒绝虚拟假设的最小显著性水平是多少这个水平被称为检验的p值p值=P(F F),代表一个自由度为(q,n-k-1)的F随机变量,检验统计量的实际值,大于p值的显著性水平下可以拒绝零假设,小于p值的显著性水平下不可以拒绝零假设。,4.5.5 回归整体显著性的F统计量,在含有k个自变量的模型中,可以做这样的虚拟假设:所有的自变量都无助于解释因变量对立假设:至少有一个bj异于0受约束模型:F统计量:,用于检验所有变量的联合排除检验回归的整体显著性,若不能拒绝,则说明我们需要寻找其他变量来解释y。,R2为0,4.5.6 检验一般的线性约束,比排除某些自变量更为复杂的约束例子:考虑如下方程 price:住

27、房价格;assess:评估的住房价值;lotsize:以英尺为单位的占地面积;sqrt:平方英尺数;bdrms:卧室数,拟检验:评估的住房价值是不是一个理性的定价。如果这样,assess变化1%,则price变化1%;此外,控制assess后,lotsize,sqrft和bdrms应该无助于解释log(price)受约束模型:,有4个约束要检验,其中3个为排除性约束,由于因变量变了,所以受约束模型的SST不同于原SST,所以不能使用F统计量的R2型,只能使用F统计量的SSR型,不受约束模型的SSR为1.822,受约束模型的SSR为1.880,n=88F统计量:自由度为(4,83)的F分布,5%的临界值为2.50。所以不能拒绝H0。没有证据拒绝评估值是理性的这个假设。,习题4.5,4.6 报告回归结果,系数估计值对于关键变量的系数估计值要做出解释,对其经济或实际重要性加以解释。标准误以便计算t统计量和置信区间。拟合优度以便计算F统计量残差平方和回归标准误观测次数,并非至关重要,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号