第一章一元线性回归模型计量经济学(陶长琪)ppt课件.ppt

资源描述

《第一章一元线性回归模型计量经济学(陶长琪)ppt课件.ppt》由会员分享，可在线阅读，更多相关《第一章一元线性回归模型计量经济学(陶长琪)ppt课件.ppt（76页珍藏版）》请在三一办公上搜索。

1、第一章一元线性回归模型,第一节一元线性回归的基本概念第二节一元线性回归模型的参数估计第三节一元线性回归模型的检验第四节一元线性回归模型的预测第五节案例分析,计量经济学的主要问题之一就是要探寻各种经济变量之间的相互联系程度、联系方式及其运动规律。而经典计量经济学方法的核心是采用回归分析的方法解释变量之间的具体的依存关系。回归分析是建立计量经济学模型中一个十分重要的概念。在了解回归分析的概念之前，首先需要对相关关系与因果关系作简要的说明。,相关关系：是指两个以上的变量的样本观测值序列之间表现出来的随机数学关系，用相关系数来衡量。因果关系：是指两个或两个以上变量在行为机制上的依赖性，作为结果的

2、变量是由作为原因的变量所决定的，原因变量的变化引起结果变量的变化。因果关系有单向因果关系和互为因果关系之分。,相关分析：是判断变量之间是否具有相关关系的数学方法。回归分析：是研究一个变量关于另一个（些）变量的具体依赖关系的计算方法和理论。其目的在于通过后者的已知或设定值，去估计和预测前者的均值。前一个变量称为被解释变量或因变量，后一个（些）变量被称为解释变量或自变量。,回归分析的主要内容包括：（1）根据样本观测值对参数进行估计，求得回归方程；（2）对回归方程参数估计进行显著性检验；（3）利用回归方程进行分析、评价及预测。,第一节一元线性回归的基本概念,一、散点图线性关系的确定常常可以通过两类

3、方法：一类是根据实际问题所对应的理论分析；另一种直观的方法是分别以被解释变量Y和解释变量X在二维平面上绘制的散点图来初步确认（如图2-1）散点图表示因变量随自变量而变化的大致趋势，据此可以选择合适的函数对数据点进行拟合。,图1.1.1 散点图示意图,例一个假想的社区有70户家庭组成，要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入，能否预测该社区家庭的平均月消费支出水平。为达到此目的，将该70户家庭划分为组内收入差不多的10组，以分析每一收入组的家庭消费支出。,（1）由于不确定因素的影响，对同一收入水平X，不同家庭的消费支出不完全相同；,（2）但由于调查的

4、完备性，给定收入水平X的消费支出Y的分布是确定的，即以X的给定值为条件的Y的条件分布是已知的，如：P(Y=1308|X=2000）=P(Y=1308|X=2000=1/7,因此，给定收入X的值Xi，可得消费支出Y的条件均值或条件期望：E(Y|X=Xi),该例中：E(Y|X=2000)=1515,描出散点图发现：随着收入的增加，消费“平均地说”也在增加，且Y 的条件均值均落在一根正斜率的直线上。这条直线的方程称为总体回归函数，这条直线称为总体回归线。,二、总体回归曲线与总体回归函数在全部解释变量已知的条件下得到的全部被解释变量的一个期望称为总体回归曲线，可用下面的函数来表示这样一个函数，我们

5、称之为总体回归函数。至于总体回归函数的具体函数形式，在实际应用过程中，是由总体特征来决定的。,只有一个解释变量的线性回归模型为一元线性回归函数。其具体形式可写为在回归分析中，我们的主要目的，是通过所取得的样本观测值去估计回归系数的值，以达到预测经济现象的目的。,三、随机干扰项一般由数据绘制的散点图上的点并不在一条直线上，而是在直线的周围。即与总体期望值是有一些差别的，称这个差别为离差，用函数表示为其中表示第i个被解释变量的具体观测值，是用于表示离差的一个随机变量，在计量经济学中，我们称之为随机干扰项。,总体回归模型：（1）称为系统性部分或确定性部分；（2）随机干扰项则称

6、为随机性部分或非系统性部分。,随机干扰项主要包括下列因素的影响：（1）包含了被遗漏的影响因素。由于考察总体认识上不可能达到绝对的精确，有部分未知的因素是不可避免的无法归入模型。（2）包含了无法取得数据的影响因素。有一些影响因素也许对被解释变量有相当的影响力，但这些因素的数据很难获取,甚至无法获取。所以在建立模型时我们不得不将这一影响因素省略掉，归入随机干扰项中。,（3）包含了模型设定上的误差。建立回归模型的时候，为了便于检验和预测，一般都力图让模型尽可能的简单明了，因此会刻意的在模型中减少一些影响因素。（4）包含数据测量误差。由于某些主客观原因，数据在测量或观测时

7、出现了误差，使其偏于实际值，这种误差只能归入中。（5）包含变量内在的随机性。模型变量本身具有其内在的随机性，会对被解释变量产生随机性的影响。,在现实问题的计量经济学研究中，总体的信息往往无法全部获得。这种情况下，总体回归函数是无法估计的。在实际应用中，往往是通过抽样，得到总体的样本，再通样本数据做回归分析来估计总体回归函数。,四、样本回归函数,假设表1-1中的数据是从一个总体中随机抽取的一个样本，根据表1-1的数据做散点图，如图1.1.2所示。我们的任务就是：能否从所抽取的样本去预测整个总体呢？,表1-1 总体中抽取一个随机样本,图1.1.2 总体中随机抽取的一个样本的散点图,根据图1.

8、1.2，该样本的散点图可通过一条直线尽可能的拟合。,由于此样本是取自于总体。所以这条直线可以近似地代表总体回归线。这样一条直线，我们称之为样本回归线。,样本回归线，它的函数形式可以用表示。这个函数称作样本回归函数。,样本回归函数也可以表示为如下的随机形式：由于残差的引入，样本回归函数从一个确定性的数学模型成为一个具有随机性的计量经济学模型，我们称之为样本回归模型。,（2）这二个估计称为点估计,即给定一组样本,可得到相应的参数估计值,它们是对于总体参数的一个点估计,不同的样本,得到的估计可能不完全相同。但不同的样本所得到的估计均是对总体的一个点估计。,样本回归模型具有的性质:,（1）参数

9、估计由样本信息所形成；,回归分析的主要目的：根据样本回归函数SRF，估计总体回归函数PRF。,图1.1.3 样本和总体回归线的关系示意图,第二节一元线性回归模型的参数估计,一、最小二乘估计法的经典假定二、普通最小二法（OLS）三、最小二乘估计量的性质四、极大似然法(ML),一、最小二乘估计法的经典假定假定1：解释变量Xi是非随机的，即在重复抽样中，解释变量取固定值。假定2：随机干扰项ui与解释变量Xi之间不相关，即假定3：随机干扰项服从零均值，同方差，零协方差，即,假定4：随机干扰项服从零均值，同方差的正态分布，即 ui N(0,2)i=1,2,n假定5：正确设定了回归模型。正确设定有三

10、个方面的要求:1.选择了正确的变量进入模型；2.对模型的形式进行正确的设定；3.对模型的解释变量、被解释变量以及随机干扰项做了正确的假定。,二、普通最小二乘法（OLS）,给定一组样本观测值（Xi,Yi）（i=1,2,n）要求样本回归函数尽可能好地拟合这组值。普通最小二乘法（OLS）给出的判断标准是：二者之差的平方和最小。,即在给定样本观测值之下，选择出能使与之差的平方和最小。,求Q对的偏导数并令其等于零，得整理可得n是样本容量，该方程组被称作正规方程组。,解得通过上面的方法得到的、的估计结果是从最小二乘原理得到的，因此称作普通最小二乘估计量。,例1-1 根据凯恩斯的绝对收入假说，

11、建立最简单的消费函数。下面利用我国1995-2010年城镇居民家庭人均消费性支出与城镇居民家庭人均可支配收入数据，使用普通最小二乘法建立一元线性回归模型。有关数据见表1-2。,回归方程为,三、最小二乘估计量的性质利用普通最小二乘法计算出的是样本观测值的函数，所以同一总体的不同样本就会计算出不同的。用样本回归直线去代表总体回归直线，其实用性和准确性是依靠这两个参数的。所以，必须了解估计量的性质。,一个用于考察总体的估计量，可从如下几个方面考察其优劣性：（1）线性性即它是否是另一随机变量的线性函数；（2）无偏性即它的均值或期望值是否等于总体的真实值；（3）有效性即它是否在所有线性

12、无偏估计量中具有最小方差。,这三个准则也称作估计量的小样本性质。拥有这类性质的估计量称为最佳线性无偏估计量（BLUE）。,（4）渐近无偏性即样本容量趋于无穷大时，是否它的均值序列趋于总体真值；（5）一致性即样本容量趋于无穷大时，它是否依概率收敛于总体的真值；（6）渐近有效性即样本容量趋于无穷大时，是否它在所有的一致估计量中具有最小的渐近方差。,当不满足小样本性质时，需进一步考察估计量的大样本或渐近性质：,（一）线性性是指一个变量是否是另一个变量的线性函数。OLS估计量均为随机观测值的线性函数。证明：,（二）无偏性是指估计量的均值或期望等于总体真实值。OLS估计量的均值等于总体参数

13、值，即证明：,（三）有效性也称最小方差性，指估计量在所有线性无偏估计量中有最小方差。,(2)证明最小方差性,其中，ci=ki+di，di为不全为零的常数则容易证明,四、极大似然法是不同于最小二乘法的另一种参数估计方法，是从最大或然原理出发发展起来的其它估计方法的基础。基本原理：对于最大或然法，当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。,极大似然估计法一般可分为四个步骤：（1）写出似然函数；（2）对似然函数取对数并整理；（3）关于参数求偏导数；（4）求解似然方程。,以正态分布的总体为例：假设一元线性回归模型满足经典假定，且是

14、服从均值为，方差为的正态分布，所以,因为Yi是独立的，所以样本观测值的联合概率函数，即似然函数为为求得模型参数的极大似然估计量，将上式极大化。,又因为似然函数的极大化与似然函数的对数极大化是等价的，所以取对数似然函数如下。解：,解得模型参数估计量如下：由上式可知，在满足经典假定下，使用最大似然估计法得出的模型参数估计量等于使用普通最小二乘估计法得出的模型参数估计量。,第三节一元线性回归模型的检验一、对模型的经济意义的检验二、拟合优度检验三、回归系数估计量的假设检验,对模型的经济意义检验主要检验模型参数估计量在经济意义上的合理性。主要方法是将模型参数的估计量与预先拟定的理论期望值进行比较

15、，包括参数估计量的符号、大小、相互之间的关系以判断其合理性。如果估计值的这两个方面明显与常识经验或经济学理论等相背离，就说明它不能很好的解释客观事实。,一、对模型的经济意义的检验,对模型参数估计量的经济意义检验是回归检验的第一步，也是非常重要的一步。如果估计值出现不合理的情况，可能是样本容量过小，没有足够的代表性，也可能是模型的设定出现了错误等。,二、拟合优度检验拟合优度检验：对样本回归直线与样本观测值之间拟合程度的检验。判断样本回归模型拟合程度优劣，常用的指标是可决系数用表示。图1.3.1 样本回归线对样本点的拟合比较,总离差平方和的分解：两边平方求和得,是指实测的值围绕其均值的总体

16、离差，称为总离差平方和。是指估计的值围绕其均值的离差，称为回归平方和。是指未被解释的因素导致回归线的变异，称为残差平方和。,定义判断样本回归模型拟合程度优劣的可决系数为：R2测度了总体离差中由回归模型解释那部分所占的比例。可决系数的取值范围：0，1 R2越接近1，说明实际观测点离样本线越近，拟合优度越高。,回顾例1-1，计算该模型的模型拟合优度，,约有99.93%的城镇居民家庭人均消费性支出的变异能由城镇居民家庭人均可支配收入来解释。,三、回归系数的假设检验考察了拟合程度之后，还需要对回归模型中解释变量与被解释变量之间的线性关系是否显著成立做检验，即检验所选择解释变量与截距项是否对被解

17、释变量有显著的线性影响。在假设检验的基础上，有两个互为补充的方法，分别是变量的显著性检验和置信区间。下面我们着重介绍这两种方法。,已知在经典假定下，随机干扰项服从正态分布，所以被解释变量也服从正态分布，则OLS估计量服从正态分布，且：,代表随机干扰项的方差，即。但是是一个未知的参数，故的真实方差是无法算出来的，所以必须找一个的估计值进行替代。,它是关于的一个无偏估计量，其中n是样本容量。因此的样本方差分别为：,可以证明的最小二乘估计量为：,（一）显著性检验法（t检验）显著性检验指的是利用样本结果，来证实一个原假设真伪的一种检验程序。回归方程的参数估计量服从正态分布,因为

18、真实的未知，所以用的估计量替代;综上，构造如下统计量,检验步骤：(1)对总体参数给出假设H0：i=0，H1：i0(2)以原假设H0构造t统计量，并由样本计算其值,(3)给定显著性水平，查t分布表得临界值t/2(n-2),(4)比较，判断若|ti|t/2(n-2)，则拒绝H0，接受H1；若|ti|t/2(n-2)，则拒绝H1，接受H0；,在上述例1.1中，首先计算2的估计值,t统计量的计算结果分别为：,|t1|2.145，这说明了解释变量城镇居民家庭人均消费性支出在95%的置信程度下对城镇居民家庭人均可支配收入的影响是显著的，即通过了变量的显著性检验。|t0|2.145,说明了截距项在95

19、%的置信程度下对城镇居民家庭人均可支配收入的影响是显著的。,给定显著性水平=0.05，查t分布表得临界值,（二）回归参数的置信区间用OLS得到的回归方程参数估计值只是一个点估计，虽然根据OLS的无偏性可知，在重复抽样中参数估计值的期望会等于参数的真实值，但不能说明这个参数估计是一个可靠的估计。,方差只是说明了估计值和其均值的离散程度，并不能说明参数真实值的分布范围。所以须确定一个区间，使得在左右的这个区间范围内可能包含了，并且确定这样的范围包含参数真实值的概率是多少，这就是参数的区间估计。,一元线性模型中，的置信区间:在变量的显著性检验中已经知道：意味着，如果给定置信度1-，从分布表

20、中查得自由度为n-2的临界值，那么t值处在的概率是1-。置信区间表示为：,将带入上式得,整理后可得,由上式可知，在置信度为1-下的置信区间为,1-的置信度下,i的置信区间:,在例1-1中,由于,于是，1、0的置信区间分别为:(0.660277,0.680137)(651.1135,860.9511),第四节一元线性回归模型的预测,一、均值预测均值预测是指对于给定的值来预测的条件均值，也就是预测总体回归线本身的点。二、个值预测个值预测是指对一个特定的值来预测的一个个别值。,一、均值预测,设总体回归函数E(Y|X=X0)=0+1X，Y在X=X0时条件均值为 E(Y|X=X0)=0+1X0,通过样本的回归函数可得到X0时,于是,可见，0是条件均值E(Y|X=X0)的无偏估计。,由于,可以证明,得到的分布后，将用它的估计值进行替代，并构造t统计量,于是，在1-的置信度下，总体均值E(Y|X0)的置信区间为,如果想要预测对于给定的X值时单个Y的值。则作个值预测。由可得,且,二、个值预测,从而在1-的置信度下，Y0的置信区间为,它可以作为总体均值或Y的个别值在处预测的估计值。,在出,在例1-1中，得到了样本回归函数为,有兴趣的读者，可以根据上边介绍的理论部分来计算总体条件均值和个值预测的置信区间。,第五节案例分析,

展开阅读全文