《一元线性回归模型(计量经济学).ppt》由会员分享,可在线阅读,更多相关《一元线性回归模型(计量经济学).ppt(80页珍藏版)》请在三一办公上搜索。
1、第一节 回归和相关分析 第二节 一元线性回归模型及其假设条件 第三节 模型参数的估计 第四节 估计量的统计特性第五节回归方程的检验第六节预测区间第七节几个应当注意的问题第八节一元线性回归模型的应用,第二章一元线性回归模型,1)正态分布:又称高斯分布,是一种概率分布。当一个经济问题的模型误差项是由很多因素构成时,总体的分布与正态分布相似。当总体概率分布为正态分布时,作为从中抽出的样本,其统计量的样本概率分布有 X2 分布、t 分布、F分布等。,中心极限定理:从总体中抽取样本容量为n的简单随机样本,当样本容量很大时,样本均值X的抽样分布可用正态概率分布近似。,图,图,图,一、相关分析,第一节 相关
2、和回归分析,注:后面重点介绍简单线性相关。,“回归分析”的历史渊源英国统计学家高尔顿(F.Galton:18221911)。高尔顿和他的学生K.皮尔逊(K.Pearson:18561936)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为x,而取他们的一个成年儿子的身高作为y,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为。,二、回归分析,父母平均身高(英寸)对应于给定父母身高的儿子身高的假想分布,他指出:总的来说是父母平均身高X增加时,其子的身高Y也倾向于增加。但有意思的是这1074对父母平均身高的平均值为68 英寸时,
3、1074个儿子的平均身高为69 英寸,比父母平均身高大1英寸,于是他推想,当父母平均身高为64 英寸时,1074个儿子的平均身高应为64+1=65 英寸;若父母的身高为72 英寸时,他们儿子的平均身高应为72+1=73 英寸,但观察结果发现前一种情况是儿子的平均身高为67 英寸,后者儿子的平均身高为71英寸。高尔顿对此研究后得出的解释是自然界有一种约束力,使人类身高在一定时期是相对稳定的。因此,身高有回归于中心的趋势,由于这个性质,高尔顿就把“回归”这个词引进到问题的讨论中,这就是“回归”名称的由来。,回归分析的现代释义回归分析是关于研究一个应变量对另一个或多个解释变量的依存关系,其目的在于通
4、过解释变量(在重复抽样中)的已知或设定值去估计或预测应变量(被解释变量)的总体均值。,变量性质:自变量与因变量的关系不对等。分析方法:建立回归方程。分析目的:变量之间的数量依存关系,并根据自变量的数值变化去推测因变量总体均值变化。,确定性变量,随机变量,回归分析构成计量经济学的方法论基础,其主要内容包括:(1)根据样本观察值对经济计量模型参数进行估计,求得回归方程;(2)对回归方程、参数估计量进行显著性检验;(3)利用回归方程进行分析、评价及预测。,举例说明:假设一个总体由60户家庭组成,为了研究家庭消费支出Y与家庭收入X之间的关系,将这60户家庭按人均月收入划分成组内收入水平大致相同的10个
5、组。表2.1列出了每组各个家庭的人均月消费支出和收入情况。,表2.1 某总体的家庭收支情况 单位:元/月,总体回归函数,图2-1 不同收入水平的家庭消费支出散点分布图,描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。,scatter diagram:,利用图2.1中的直线可以分析家庭消费支出与家庭收入之间的相关关系。这条直线,即解释变量x取各个给定值时y均值(总体条件期望)的轨迹称为总体回归直线所对应的方程:,上式称总体回归方程或函数(population regression function,PRF),常数0,1称为
6、总体回归参数或回归系数(regression coefficients,往往未知)。,回归分析主要任务:设法求出总体回归参数的具体数值,进而利用总体回归方程描述和分析总体的平均变化规律。,该例中:E(Y|X=180)=165,随机扰动项,总体回归函数说明在给定的收入水平Xi下,总的家庭平均的消费支出水平。但对某一个别的家庭,其消费支出可能与该平均水平有偏差。,称i为观察值Yi围绕它的期望值E(Y|Xi)的离差(deviation),是一个不可观测的随机变量,又称为随机干扰项(stochastic disturbance)或随机误差项(stochastic error)。,记,上例中,个别家庭的
7、消费支出为:,(*)式称为总体回归函数(方程)PRF的随机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。,(1)该收入水平下所有家庭的平均消费支出E(Y|Xi),称为系统性(systematic)或确定性(deterministic)部分。(2)其他随机或非确定性(nonsystematic)部分i。,即,给定收入水平Xi,个别家庭的支出可表示为两部分之和:,(*),由于方程中引入了随机项,成为计量经济学模型,因此也称为总体回归模型。,样本回归函数,总体和样本的关系如下:,总体是我们研究的目的,但是往往不能知道总体的全部数据用总体中的一部分(抽取样本)来推断总
8、体的性质。,总体,例如,从表2.1的总体中随机抽取一个样本列入表2.2:表2.2 总体中的一个样本,图2.2总体回归直线与样本回归直线,从图2.2的散点分布可以看出,散点分布仍然呈现出明显的线性趋势;现设法确定一条直线来较好地拟合这些样本观察值,称这条直线为样本回归直线,其对应的方程:,上式称样本回归方程或函数(sample regression function,SRF),分别为总体回归参数0,1的估计。,如果估计误差较小,即估计值与真实值比较接近,则可以用样本回归方程近似地代替总体回归方程,即利用样本回归方程近似地描述总体的平均变化规律。,这里将样本回归线看成总体回归线的近似替代,则,样本
9、回归函数的随机形式/样本回归模型:,同样地,样本回归函数也有如下随机形式:,由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型(sample regression model)。,回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。,注意:这里PRF可能永远无法知道。,即,根据,估计,因此,回归分析的主要内容和目的可概括成:根据样本观察值确定样本回归方程;检验样本回归方程对总体回归方程的近似程度;利用样本回归方程分析总体的平均变化规律。,联系:回归分析和相关分析都是研究和测试两个或两个以上变量间关系的方法。相关分析:以相关关系为对象,研究两个或两个以上变量间线性依
10、存关系的紧密程度,通常用相关系数表示。回归分析:对具有相关关系的变量间的数量变化规律进行测定,研究某一随机变量(应变量)与其他一个或几个自变量之间的数量变动关系,并据此对应变量进行估计和预测。相关分析是回归分析的基础和前提,而回归分析是相关分析的深入和继续。,三、回归分析与相关分析的联系与区别,两者的主要区别:相关分析所研究的两个变量是对等关系,回归分析所研究的两个变量则不是,必须根据研究目的,先确定一个为解释变量,另一个为被解释变量。对两个变量X和Y而言,相关分析只能计算出一个反映两变量相关关系密切程度的相关系数,计算中改变X和Y的地位不影响相关系数的数值;回归分析却要分析两变量或多变量之间
11、的相关形式,即回归方程。相关分析对资料的要求:两个变量都必须是随机的;回归分析对资料的要求:解释变量是固定的,被解释变量是随机的。,回归分析可以是一种因果关系,也可能不是因果关系。,按自变量的多少分:一元回归模型:一个因变量和一个自变量多元回归模型:一个因变量和两个或两个以上个自变量按回归模型的形式分:线性回归模型:因变量和自变量呈线性关系非线性回归模型:因变量和自变量呈非线性关系按回归模型所含变量是否有虚拟变量分:普通回归模型:自变量都是数量变量带虚拟变量的回归模型:自变量有数量变量和质量变量,四、回归模型的种类,第二节 一元线性回归模型及其假设条件,一、一元线性回归模型,y?,第三节 模型
12、参数的估计最小二乘法(OLS),给定一元线性回归模型:yi=0+1 xi+ui 如何找到一条直线,使其成为 yi=0+1 xi理论回归直线或回归函数的最佳估计?,估计值与实际值的偏差最小,第三节 模型参数的估计最小二乘法(OLS),(1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。(2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。,给定一组观测值(xi,yi),如何计算样本回归直线?,第四节估计量的统计特性,OLS法估计模型参数,可使参数估计量具有优良统计性质。,回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用
13、样本回归线代替总体回归线。,尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、模型或变量的显著性检验及参数的区间估计、预测区间估计。,假设检验,假设检验:指事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。假设检验采用的逻辑推理方法是反证法。先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果
14、是否合理,从而判断是否接受原假设。判断结果合理与否,是基于“小概率事件不易发生”这一原理的,如果小概率事件发生了?,假设检验的基本思想:首先假定H0为真;考虑在H0成立的条件下,计算已观测到的样本信息出现的概率。如果这个概率很小,说明一个概率事件在一次试验中发生了。而小概率原理认为:概率很小的事件在一次试验中是几乎不可能发生的,也就是说导出了一个违背小概率原理的不合理现象。这说明事先假定H0为真是不正确的,因此拒绝原假设H0。否则,不能拒绝H0。即:P拒绝H0H0为真P接受H0H0不真,第五节回归方程的检验,建立的一元线性回归模型,是否符合变量之间的客观规律,两变量之间是否具有显著的相关性?需
15、要对回归模型进行显著性检验。,回归方程的检验需要从变差的分析开始,一、离差平方和的分解与可决系数,1.离差平方和的分解,变差:观测值yi的数值的波动。产生原因:一是受解释变量变动的影响;二是受其他因素影响。变差大小:对每个yi可有离差 yi-来表示;对全部n次yi的总变差 可由这些离差的平方和(yi-)2来表示。,TSSTotal Sum of Squares RSSResidual Sum of SquaresESSExplained Sum of Squares,三种离差示意图,2.可决系数R2,拟合优度:指回归直线对观测值的拟合程度。显然,若观测值离回归直线近,则拟合程度好;反之则拟合程
16、度差。度量拟合优度的统计量是可决系数(确定系数)。,显然,0R21,R2的值越接近于1,则表明模型对样本数据的拟合优度越高。经济含义:定量地描述了y的变化中可以用解释变量的变化来说明的部分,即模型的可解释程度。,拟合优度;修正拟合优度;回归方程标准差;残差平方和;似然函数的对数;DW统计量;被解释变量平均值;被解释变量标准差;赤池信息准则;施瓦兹信息准则;F统计量;F统计量的显著性水平,重要,3.相关系数R,相关系数:是一元线性回归模型中用来衡量两个变量之间线性相关关系强弱程度的重要指标。它是可决系数的平方根。,显然,-1R1,R的绝对值越接近于1,则表明变量相关程度越高。,1.相关系数检验,
17、二、回归方程的检验,(1)计算相关系数R;(2)根据回归模型的自由度(n-2)和给定的显著性水平,从相关系数临界值表中查出临界值Ra(n-2);(3)判别。若R Ra(n-2),表明两变量之间线性相关关系显著;若R Ra(n-2),表明两变量之间线性相关关系不显著,检验未通过,需重新调整回归模型。,2.F检验检验模型对总体的近似程度,原假设H0:1=0;备择假设H1:10 则构造统计量:,给定显著水平,查表得临界值F(单侧检验):,对于,yi=0+1 xi+ui,若F F,拒绝H0,模型的线性关系是显著的;若F F,接受H0,模型的线性关系不显著,回归模型无效。,检验通不过的原因可能在于:解释
18、变量选取不当或遗漏重要解释变量;解释变量与被解释变量之间不存在线性相关关系;样本容量n比较小;回归模型存在序列相关(时间序列中,不同时期)。,假设 H0:1=0,即假设xt对y没有显著影响,备择假设 H0:10 因真实的2未知,而,给定,可由t分布表查得临界值t/2(双侧),若|t|t/2,拒绝H0,xi 对y有显著影响;若|t|t/2,接受H0,认为xi 对y影响不显著,应考虑将xi 从模型中剔除,重新建模。,3.t检验解释变量的显著性检验,构造统计量,样本的参数标准差,假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值到底离总体
19、参数的真值有多“近”。要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。,参数的置信区间,如果存在这样一个区间,称之为置信区间(confidence interval);1-称为置信系数(置信度)(confidence coefficient),称为显著性水平(level of significance);置信区间的端点称为置信限(confidence limit)或临界值(critical values)。,一元线性模型中,i(i=0
20、,1)的置信区间:,在变量的显著性检验中已经知道:,意味着,如果给定置信度(1-),从分布表中查得自由度为(n-2)的临界值,那么t值处在(-t/2,t/2)的概率是(1-)。表示为:,于是得到:(1-)的置信度下,i的置信区间是,预测通常指利用现有信息预测未来。在这里,预测指的是对自变量的某一具体值X0,来预测与它相对应的因变量值Y0。它既可以指对未来某个时期因变量值的预测,也可以对未包括在横截面样本之中的某个实体数值的预测。通常情况下,我们要预测的是与样本观测值范围之外的X值对应的Y值,如观测值为1985-2000年,预测2001,2002年的居民消费。但X0也可以在样本X值的范围内。,第
21、六节预测区间,一、预测的概念,要进行预测,有一个假设前提应当满足。即对于样本观测值数据成立的X和Y之间的关系对于新的观测值也成立。即若双变量模型的原设定是:Yt=0+1Xi+ui,t=1,2,n 则要使此模型可以用来作为预测的依据,还应有:Y0=0+1X0+u0 也成立。,二、预测的隐含假设,有两种类型的预测值:点预测值和区间预测值。在实践中,如果没有某种精度指标的话,点预测值是没有多大用处的。所以,我们必须提供点预测值的预测误差。点预测值由与X0对应的回归值给出,即 而预测期的实际Y值由下式给出:其中 u0 是从预测期的扰动项分布中所取的值。,三、预测的误差,由此不难看出,预测误差产生于两个
22、来源:(1)模型中包含扰动项,点预测值是假定预测期扰动项u0为 0,而实际上一般不为0。(2)点预测值公式中用的是0和1的估计值 和,样本估计值 和 一般不等于总体参数0和1。,预测误差的来源,预测误差可定义为:两边取期望值,得 因此,OLS 预测量 是一个无偏预测量。,预测误差的方差为:其它两项协方差等于0。这是因为u0独立于u1,u2,un,而 和 均为 u1,u2,un 的线性函数,因此它们与u0的协方差均为0。将在前面得到的 和 的方差及协方差代入上式,得:,从e 0 的定义 可以看出,e0为正态变量的线性函数,因此,它本身也服从正态分布。故t(n-2)由于 未知,用其估计值代替它,有
23、,四、Y0的预测区间,Y的估计标准误差,e0的标准误差,即15.24至21.76,也就是说,我们有95%的把握预测Y0将位于15.24至21.76之间。,第七节 几个应当注意的问题,基本要求:收集到的数据作为一个样本,能够代表所要研究的母体,一、重视数据的收集和甄别,二、合理确定数据的单位,基本要求:适当选取变量的单位,使模型中各变量的数量级大体一致。,【案例1】:我国税收预测模型。表2.4列出了我国19851998年期间税收收入Y和国内生产总值X的统计资料(时间序列数据),试利用EViews软件建立一元线性回归模型。,表2.4 我国税收与GDP统计资料 单位:亿元,第八节 一元线性回归模型的
24、应用,(1)建立工作文件:,启动EViews,点击FileNewWorkfile,弹出工作文件对话框,选择数据的时间频率、起始期和终止期。,命令方式:在EViews命令窗口中键入 CREATE 时间频率类型 起始期 终止期 如:CREATE Annual 1985 1998,在命令窗口点击“Quick”“Empty Group”进入数据编辑窗口;然后点击“obs”行,输入序列名,并按Enter键。同时显示数组窗口,可按全屏幕编辑方式输入每个变量的统计资料。,(2)输入统计资料:,(3)估计回归模型:,数组窗口中点击“Quick”“Estimate Eequation,定义方程,点击OK,则弹出
25、有关估计结果。,我国税收模型的估计式为:,常数和解释变量,参数标准差,T统计量值,双侧概率,判定系数,调整的判定系数,回归方程的标准差,残差平方和,似然函数的对数,德宾-瓦森统计量,被解释变量均值,被解释变量标准差,赤池信息准则,施瓦兹信息准则,F统计量,F统计量的概率,参数估计值,【案例2】:用回归模型预测木材剩余物,伊春林区位于黑龙江省东北部。全区有森林面积218.9732万公顷,木材蓄积量为2.324602亿m3。森林覆盖率为62.5%,是我国主要的木材工业基地之一。1999年伊春林区木材采伐量为532万m3。按此速度44年之后,1999年的蓄积量将被采伐一空。所以目前亟待调整木材采伐规
26、划与方式,保护森林生态环境。为缓解森林资源危机,并解决部分职工就业问题,除了做好木材的深加工外,还要充分利用木材剩余物生产林业产品,如纸浆、纸袋、纸板等。因此预测林区的年木材剩余物是安排木材剩余物加工生产的一个关键环节。下面,利用一元线性回归模型预测林区每年的木材剩余物。显然,引起木材剩余物变化的关键因素是年木材采伐量。,给出伊春林区16个林业局1999年木材剩余物和年木材采伐量数据如表2.3。,1.画出散点图如下图。观测点近似服从线性关系。,2.建立一元线性回归模型如下:yi=0+1 xi+ui,图2.6Eviews输出结果,拟合优度;修正拟合优度;回归方程标准差;残差平方和;似然函数的对数;DW统计量;被解释变量平均值;被解释变量标准差;赤池信息准则;施瓦兹信息准则;F统计量;F统计量的显著性水平,5.下面求yi的点预测和置信区间预测。假设乌伊岭林业局2000年计划采伐木材20万m3,求木材剩余物的点预测值和预测区间。,OLS回归直线的性质,偏度0峰度3,