四、多元回归分析:推断.ppt

上传人:牧羊曲112 文档编号:6222870 上传时间:2023-10-06 格式:PPT 页数:28 大小:209.50KB
返回 下载 相关 举报
四、多元回归分析:推断.ppt_第1页
第1页 / 共28页
四、多元回归分析:推断.ppt_第2页
第2页 / 共28页
四、多元回归分析:推断.ppt_第3页
第3页 / 共28页
四、多元回归分析:推断.ppt_第4页
第4页 / 共28页
四、多元回归分析:推断.ppt_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《四、多元回归分析:推断.ppt》由会员分享,可在线阅读,更多相关《四、多元回归分析:推断.ppt(28页珍藏版)》请在三一办公上搜索。

1、多元回归分析:推断,OLS估计量的抽样分布,假定MLR6(正态性)总体误差 独立于解释变量,而且服从均值为零和方差为 的正态分布,即就横截面回归中的应用而言,这6个假定被称为经典线性模型(CLM,classical linear model)假定.总结CLM总体假定的一个简洁方法是:,问题,假设独立于解释变量,而且以相同概率取值-2、-1、0、1、2。这样会违背高斯马尔可夫假定吗?会违背CLM假定吗?还能举出一些例子吗?,定理4.1(正态抽样分布)在CLM假定MLR1MLR6下,给定自变量的样本值,有 因此,检验对单个总体参数的假设:t检验,定理4.2 在CLM假定MLR1MLR6下,有式中,

2、k+1是总体模型中未知参数个数。,单侧检验和双侧检验,以小时工资方程为例。利用数据WAGE1.RAW,得到如下估计方程针对exper对log(wage)的影响,考察下面三种检验:(1)拒绝零假设;(2)不拒绝;(3)拒绝;,下面这个例子说明,有的时候改变模型设定会改变一个自变量的显著性。一种观点认为,在所有其他条件相同的情况下,小学校的学生比大学校的学生情况要好一些。利用数据文件MEAP93.RAW。被解释变量是数学测验(math10)成绩,学校规模由注册人数(enroll)来度量。另外我们还控制其他两个因素:平均教师工资(totcomp)和平均每千名学生拥有的教师数量(staff).前者是对

3、教师质量的一种度量,后者大致度量了学生所受关注程度。,虚拟假设是,而对立假设是估计方程(标准误在括号中)是由回归结果的p值0.3592可知,我们不能拒绝零假设。,为了解释函数形式对我们已有结论的影响,我们将自变量都取对数后再进行回归。结果如下:Log(enroll)系数估计量的p值为0.0681,在10%的显著性水平上我们可以拒绝零假设 从而支持对立假设,检验斜率的其他假设,尽管检验参数是否为零是最常见的假设,但是还是有时候希望检验参数是否等于其他常数。此时虚拟假设为相应的t统计量为下面以两个例子来说明这种检验方法。,校园犯罪与注册人数,考虑大学校园内犯罪次数(crime)和学生注册人数的一个

4、简单模型利用美国1992年97个大学和学院的数据,针对 来检验。数据来源于联邦调查局的统一犯罪报告。回归结果如下:t值为(1.27-1)/0.11=2.45大于显著性水平为5%的单侧检验临界值1.66,从而我们可以拒绝零假设支持备择假设。,住房价格和空气质量,对于一个由波士顿地区506个社区组成的样本,我们估计一个联系社区中平均住房价格(price)与社区各种特征的模型:nox表示空气中氧化亚氨的含量;dist表示该社区相距五个商业中心的加权距离;rooms表示该社区平均每套住房的房间数;而stratio则为该社区学校的平均学生教师比。总体模型如下:,我们的假设如下:利用HPRICE2.RAW

5、中数据,估计模型为零假设对应的t统计量为(-0.954+1)/0.117=0.393,对经典假设用语的一个提醒,当 未被拒绝时,我们喜欢说“在x%的显著性水平上不能被拒绝”,而不是说“我们在x%的显著性水平上接受”。,检验关于参数的一个线性组合的假设,我们利用一个简单模型来说明这个方法如何使用:比较两年制大专教育和四年制本科教育(大学教育)的回报(Kane&Rouse,1995)。基本模型如下式中,jc为参加两年制大专的年数;univ为参加大学的年数。这里jc和univ的任意组合都是允许的。,我们关心的问题是:在大专一年是否比的上在大学一年。这可表示为:上述假设可重新表示为:为了检验零假设,我

6、们需要计算,但是我们不知道。注意:一般情况下 是不对的。,下面我们利用回归的方法来计算上述t统计量。令,于是我们的假设就变为。我们把模型重写成如下形式:再令,上述模型又可写为,对上述模型进行估计,结果如下计算得t=-1.44,相应的p值为0.075,虽然不是很显著,但我们还是可以说有证据拒绝零假设。,对多个线性约束的检验:F检验,之前的t检验允许我们考察单个变量或是一些变量的线性组合对被解释变量有没有影响,有时候我们需要考虑一组(可能不是全部)变量对被解释变量的影响。棒球运动员薪水模型式中,salary为1993年总薪水;years为加入俱乐部的年数;gamesyr为平均每年比赛的次数;bav

7、g为平均职业击球次数;hrunsyr为平均每年的本垒打次数;rbisyr为每年的击球跑垒得分。,我们想检验的是:一旦控制了加入俱乐部的年数和每年的比赛次数,度量球员表现的统计指标(bavg,hrunsyr&rbisyr)对薪水有没有影响。零假设可表示为:这里零假设称为多重约束,对多重约束进行的检验称为多重假设检验(multiple hypotheses test)或联合假设检验(joint hypotheses test)。相应的对立假设为,一个需要注意的问题是并不是每个变量都是显著的时候联合假设检验才是显著的,这样做还可能产生误导。我们使用MLB1.RAW中数据来估计上述方程,结果如下,可以

8、看出,bavg,hrunsyr&rbisyr中没有一个变量在5%的显著性水平上具有统计显著的t统计量。是不是以为着这三个变量对工资对数没有影响呢?为了回答这个问题,我们将这三个变量从模型中去掉(去掉变量时,SSR总是会边大),模型重写为在假设检验的背景下,次方程是上述检验的受约束模型(restricted model);原模型称为不受约束模型(unrestricted model)。受约束模型的参数总比不受约束模型参数要少。,再次利用MLB1.RAW中数据来估计受约束模型时候,我们得到,如何通过残差平方和(SSR)的变化来发现模型有没有显著变化呢?构造如下统计量其中,q是约束个数,n是样本容量

9、,k+1是不受约束模型中参数个数(n-k-1为不受约束模型的自由度)。可以证明:,在我们这个例子中,q=3,n-k-1=347。带入上述统计量计算得到F=9.55。这个数字远远打于自由度为3和347的F分布在显著性水平为1%的临界值。我们称这种情况为联合显著。为什么单个变量不显著,整体却很显著呢?一个可能的原因是多重共线性。,F统计量的R平方型,由于SSR在很大程度上依赖度量单位,这使得基于SSR的F统计量计算繁冗。利用 和,得到,例 孩子的出生体重和父母的受教育水平,作为计算F统计量的一个例子,考虑如下用各种因素来解释婴儿出生体重的模型式中,bwght为婴儿的出生体重;cigs为母亲怀孕期间每天吸烟的数量;parity为这个孩子在子女中的排行;faminc为家庭的年收入;motheduc为母亲受教育年数;fatheduc为父亲受教育年数。,我们要检验的虚拟假设是,控制了cigs,parity,faminc后,父母的受教育年数对孩子出生体重有没有影响。表示为在这个例子中,q=2,k+1=6,样本数量是1191(motheduc和fatheduc含缺省值)。计算F统计量得1.42。查表可知自由度为2和1185的F分布显著性水平为10%的临界值是2.3。从而我们不能拒绝零假设。即matheduc和fatheduc在婴儿出生体重模型中是联合不显著的。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号