第二章一元线性回归模型经济计量学.ppt
《第二章一元线性回归模型经济计量学.ppt》由会员分享,可在线阅读,更多相关《第二章一元线性回归模型经济计量学.ppt(278页珍藏版)》请在三一办公上搜索。
1、经济计量学,第二章 一元线性回归模型,本章介绍一元线性回归模型的概念及一元线性回归模型所依据的理论与应用。一元线性回归模型只包含一个解释变量和一个被解释变量,是最简单的线性回归模型。通过一元线性回归模型的学习,可较容易地理解回归分析的基本理论与应用。,第一节 回归分析的相关概念,一、回归的含义,回归一词最早由F高尔顿(Francis Galton)提出。在一篇研究父母身高与子女身高相互关系的论文中,高尔顿发现,虽然有一个趋势,父母高,子女也高;父母矮,子女也矮,但给定父母的身高,子女的平均身高却趋向于或者回归到全体人口的平均身高。,也就是说,当父母双亲都异常高或异常矮,则子女的身高有趋向于人口
2、总体平均身高的趋势。这种现象被称为高尔顿普遍回归定律。这就是回归一词的原始含义。,在现代,回归一词已演变为一种新的概念。回归分析就是研究被解释变量对解释变量的依赖关系,其目的就是通过解释变量的已知或设定值,去估计或预测被解释变量的总体均值。在下面的几个例子中,我们可以清晰地看到回归分析的实际意义。,1高尔顿普遍回归定律。高尔顿的目的在于发现为什么人口的身高分布有一种稳定性。在现代,我们并不关心这种解释,我们关心的是:在给定父辈身高的情形下,找到儿辈平均身高的变化规律。,就是说,我们如果知道了父辈的身高,就可预测儿辈的平均身高。假设我们得到了一组父亲、儿子身高的数据,制成如下的散点图。图中按统计
3、分组的方法将父亲身高分为若干组。,图4.1,给定父亲身高儿子身高的分布,图4.1中对应于设定的父亲身高,儿子身高有一个分布范围。随着父亲身高的增加,儿子的平均身高也在增加,画一条通过儿子平均身高的线,说明儿子的平均身高是如何随着父亲身高的增加而增加的,这条线就是回归线。,2在经济学中,经济学家要研究个人消费支出与个人可支配收入的依赖关系。这种分析有助于估计边际消费倾向,就是可支配收入每增加一元引起消费支出的平均变化。,3在企业中,我们很想知道人们对企业产品的需求与广告费开支的关系。这种研究有助于估计出相对于广告费支出的需求弹性,即广告费支出每变化百分之一的需求变化百分比,这有助于制定最优广告策
4、略。,4农业工作需要预计粮食产量,需要研究粮食产量与播种面积、施肥量、降雨量之间的依赖关系。这种一个变量依赖于另一个或多个变量的事例在经济系统中普遍存在。回归分析就是要研究这种变量之间的依存关系。,二、统计关系与确定性关系,如果给定一个变量X的结果值就可确定另一个变量Y 的结果值,则称变量Y是变量X 的函数,即X、Y之间是函数关系。,在经典物理学中,给定电阻,电流I 和电压V 之间的关系即为函数关系,即。这种典型的变量关系就是确定性关系。,在经济系统中,这种变量之间的函数关系或确定性关系就很少见。常见的是变量之间是一种不确定的关系,既使变量X 是变量Y 的原因,给定变量X 的值也不能具体确定变
5、量Y的值,而只能确定变量Y 的统计特征,通常称变量X 与Y 之间的这种关系为统计关系。,例如,企业总产出Y 与企业的资本投入K、劳动力投入L 之间的关系就是统计关系。虽然资本K 和劳动力L 是影响产出Y 的两大核心要素,但是给定K、L 的值并不能确定产出Y 的值。因为,总产出Y 除了受资本投入K、劳动力投入L 的影响外,还要受到技术进步、自然条件等其它因素的影响。,三、回归分析与相关分析,与回归分析密切相联的是相关分析。相关分析主要测度两个变量之间的线性关联度,相关系数就是用来测度两个变量之间的线性关联程度的。例如,吸烟与肺癌、统计学成绩与数学成绩、身高与体重等等之间的相关程度,就可用相关系数
6、来测度。,而在回归分析中,我们的主要目的在于根据其它变量的给定值来估计或预测某一变量的平均值。例如,我们想知道能否从一个学生的数学成绩去预测他的统计学平均成绩。,在回归分析中,被解释变量Y 被当作是随机变量,而解释变量X 则被看作非随机变量。而在相关分析中,我们把两个变量都看作是随机变量。,例如,在学生的数学成绩与统计学成绩的分析中,如为回归分析,则统计学成绩是随机变量,数学成绩是非随机变量,即数学成绩被固定在给定的水平上,以此求得统计学的平均成绩。而在相关分析中,两者处于平等地位,不存在谁为解释变量,谁为被解释变量的问题,两者均为随机变量。,第二节 一元线性回归模型,一、引例,假定我们要研究
7、一个局部区域的居民消费问题,该区域共有80户家庭组成,将这80户家庭视为一个统计总体。,我们研究每月家庭消费支出Y 与每月可支配收入X 的关系。就是说,已知家庭每月可支配收入,要预测家庭每月消费支出的总体平均水平。为此,将80户家庭分为10组。表4.1给出了人为数据。,表4.1 居民收入、消费数据,从表4.1中可以看出,对于每月1000元收入的7户家庭,每月消费支出为700元到940元不等。同样,当X=3000元时,9户家庭的每月消费支出在2180元到2660元之间。,表4.1给出了以X 的给定值为条件的Y 的条件分布。,对于Y 的每一条件分布,我们能计算出它的条件期望,记为E(Y/X=Xi)
8、,即在X取特定Xi 值时Y 的期望值。例如,X=1000时,Y 的期望值为:,将表4.1中的数据在直角坐标系中描出,则得到图4.2的散点图。,收入、消费散点图,图4.2,该图表明了对应于各X 值的Y 的条件分布。虽然每个个别家庭的消费支出都有异,但图4.2清楚地表明随着收入的增加,消费支出平均地说也在增加。就是说,散点图启示我们,Y 的条件均值随X 的增加而增加。,如果我们观察图4.2中那些代表Y 的各个条件均值的粗圆点,则表明这些条件平均值落在一根有正斜率的直线上。我们称这根直线叫做总体回归线,它是Y 对X 的回归。,总体回归线就是当解释变量取给定值时,被解释变量的条件均值或期望值的轨迹。图
9、4.2表明,对每一Xi 都有Y 值的一个总体和一个相应的均值。而回归线是穿过这些条件均值的线。,二、总体回归函数,从图4.2我们可以看出,条件均值E(Y/Xi)是Xi 的函数,即:,其中,f(Xi)表示解释变量Xi 的某个函数。在我们的引例中,E(Y/Xi)是Xi 的一个线性函数。,式(4.1)就是总体回归函数,简称总体回归。它表明在给定Xi 下Y 的分布的总体均值与Xi有函数关系,就是说它给出了Y 的均值是怎样随X 值的变化而变化的。,函数f(Xi)采取什么函数形式,是一个需要解决的重要问题。在实际经济系统中,我们不会得到总体的全部数据,因而就无法据已知数据确定总体回归函数的函数形式。同时,
10、对总体回归函数的形式只能据经济理论与经验去推断。,例如,我们可以假定消费支出与收入有线性关系。则总体回归函数为,(4.2),其中,和 为未知而固定的参数,称为回归系数;为截距系数,为斜率系数。式(4.2)为线性总体回归函数。,三、线性的含义,1对变量为线性,对线性的第一种解释是指Y 的条件期望是Xi 的线性函数,例如式(4.2)就是线性回归函数,该回归线是一条直线。,按这种解释 就不是线性的,因为 对 的一阶导数不是常数。,2对参数为线性,对线性的第二种解释是指Y 的条件期望 是参数 的一个线性函数。它可以是也可以不是变量的X 的线性函数。,此时,就是线性回归函数。但 则不是线性回归函数,而是
11、非线性回归函数。,在本课中,主要考虑的是对参数为线性的回归模型,线性回归是指对参数为线性的一种回归(即参数只以它的1次方出现);对解释变量X则可以不是线性的。,从图4.2可清楚地看到,随着家庭收入Xi的增加,家庭平均消费支出E(Y/Xi)也在增加,这表明了Xi与Y的平均水平的关系。我们想知道对于具体家庭而言,消费支出Y与它的收入水平Xi的关系。,四、总体回归函数的随机设定,就个别家庭而言,收入水平增加,消费支出不一定会增加。,例如从表4.1可以看到,对于每月3000元的收入水平,有一户家庭的消费支出为2180元,少于每月收入为2500元的两户家庭的消费支出(2200元和2260元)。但应看到,
12、每月收入为3000元的家庭的平均消费支出大于每月收入2500元的家庭的平均消费支出(2420元大于2020元)。,从图4.2可以看到,给定收入水平Xi 的个别家庭的消费支出处于在该收入水平的家庭平均消费支出左右,也就是围绕着它的条件均值。我们把个别的Yi 围绕它的期望值的离差表示如下:,其中,离差ui 是一个不可观测的可正可负的随机变量,在专业术语中,把ui 称为随机干扰项或随机误差项。,在式(4.3)中,给定收入X 的水平,个别家庭的消费支出,可表示为两个成份之和。,(1)代表相同收入水平的所有家庭的平均消费支出。这是系统性或确定性成份。(2)ui 为随机或非系统性成份,代表所有可能影响Y,
13、但又未能包括到回归模型中来的被忽略变量的代理变量。,假设 对 Xi 为线性的,则:,(4.4),式(4.4)表示一个家庭的消费支出线性地依赖于它的收入加干扰项。,例如,给定X=1000,各家庭的消费支出可表达为,五、随机误差项u 的意义,1理论的欠缺。虽然有决定Y 的行为的理论,但常常是不能完全确定的,理论常常有一定的含糊性。我们可以肯定每月收入X 影响每月消费支出Y。但不能确定是否有其它变量影响Y,只好用ui 作为模型所忽略的全部变量的替代变量。,2数据的欠缺。即使能确定某些变量对Y 有显著影响,但由于不能得到这些变量的数据信息而不能引入该变量。例如,从经济理论分析,家庭财富量是影响家庭消费
14、的重要因素,应该引入该变量作为解释变量。但是,通常我们得不到有关家庭财富的信息。因此,我们只得把这个很重要的解释变量舍弃掉。,3核心变量与非核心变量。例如,在引例的居民消费模型中,除了收入X1 外,家庭的人口数X2、户主宗教信仰X3、户主受教育水平X4也影响家庭消费支出。但很可能X2、X3、X4合起来的影响也是很微弱的,是一种非系统的或随机的影响。从效果与成本角度来看,引入它们是不合算的。所以,人们把它们的联合效用当作一个随机变量来看待。,4人类行为的内在随机性。即使我们成功地把所有有关的变量都引进到模型中来,在个别的Y 中仍不免有一些“内在”的随机性,无论我们花了多少力气都解释不了的。随机误
15、差项ui 能很好地反映这种随机性。,5节省原则,我们想保持一个尽可能简单的回归模型。如果我们能用两个或三个变量就基本上解释了Y 的行为,就没有必要引进更多的变量。让ui 代表所有其它变量是一种很好的选择。,在实际回归分析中,我们无法获得像引例中的总体数据,而只能获得对应于某些固定X的Y值的一个样本。我们只能根据抽样信息估计总体回归函数。,六、样本回归函数,我们从表4.1随机抽取对应于固定X 值的Y 值的一个样本如表4.2所示,对应于给定的每个Xi 值只有一个Y 值。为了对比分析,按同样的方法再抽取另一个样本,如表4.3所示。,表4.2 总体的一个随机样本,表4.3 总体的另一个随机样本,将表4
16、.2和表4.3的数据描点,得到图4.3。在这个散点图中画两根样本回归线以尽好地拟合这些散点。,我们可以看出,两个样本存在着差异,这是由于抽样的随机性而造成的波动。,图4.3 两个不同样本的回归线,S1是根据第1个样本画的;S2是根据第2个样本画的。那么,两条样本回归线中哪一条代表“真实”的总体回归线呢?在未知总体数据的情况下,我们就不可能知道哪一条代表真实的总体回归线。,图4.3中的回归线称为样本回归线,因抽样波动,它们都是总体回归线的一个近似。一般地讲,由几个不同的样本会得到几个不同的样本回归线,通常这些样本回归线会彼此不同。,据任一样本,我们可得样本回归线,其函数形式为,(4.5),其中,
17、,正如总体回归函数,样本回归函数也存在随机形式。,(4.6),其中,ei为残差项,概念上,ei 类似于ui,并可把它当作ui 的估计量。将ei 引入样本回归函数中,其理由与总体回归函数中引入ui 是一样的。,回归分析中的主要目的就是根据样本回归函数:,来估计总体回归函数,(4.7),(4.8),由于抽样的波动,我们根据样本回归函数估计出来的总体回归函数只能是一个近似结果。因此,怎样构造样本回归函数能使 尽可能接近真实的 就成为回归分析的核心。,第三节 最小二乘估计,在回归分析中有很多种构造样本回归函数的方法,而最广泛使用的一种是普通最小二乘法(method of ordinary least
18、squares,简记OLS),一、普通最小二乘法(OLS),普通最小二乘法是由德国数学家高斯(C.F.Gauss)最早提出和使用的。在一定的假设条件下,最小二乘估计量有着非常好的统计性质,从而使它成为回归分析中最有功效和最为流行的方法之一。,我们首先从最小二乘原理谈起。对于一元线性回归模型(总体),(4.9),这是一个不可观测的模型。因为通常得不到总体的全部观测值,我们只能通过总体的一个样本去推测它。即,只能通过样本回归模型去估计总体回归模型。,其中,是Yi 的估计值。,样本回归模型为,(4.10),那么,样本回归模型又是怎样确定呢?将式(4.10)写成:,(4.11),残差ei 是实际值Yi
19、 与其估计值 之差。对于给定的Y 和X 的n 对观测值,我们希望样本回归模型的估计值 尽可能地靠近观测值Yi。,为了达到此目的,我们就必须使用最小二乘准则,使:,(4.12),尽可能地小,其中,是残差的平方。,由式(4.12)可以看出:,(4.13),就是说,残差平方和 是估计量 的函数,对任意给定的一组数据(样本),选择不同的 和 值将得到不同的ei,从而有不同的 值。,微积分知识告诉我们 对 和 的偏导数为0时,将使 最小。,(4.14),(4.15),(4.16),(4.17),n 是样本容量。求解该联立方程,可得,(4.18),(4.19),上面得到的估计量,是从最小二乘原理演算而得的
20、。因此,称其为最小二乘估计量。,估计量(estimator)与估计值(estimate)的区别。估计值:由具体样本资料计算出来的结果就是估计值或点估计。是估计量 的一个具体数值。,估计量:是的一个表达式,是 的函数,而 是随机变量,所以 也是随机变量。,小样本性质,估计量的优劣标准:1.线性性2.无偏性3.有效性,大样本性质,4.渐进无偏性:样本容量无穷大时均值系列趋于总体真值。5.一致性:样本容量无穷大时依概率收敛于总体真值。6.渐进有效性:样本容量无穷大时,它在所有的一致估计量中具有最小的渐进方差。,二、经典线性回归模型,如果我们的目的仅仅是估计 和,那么普通最小二乘法就足够用了。但在回归
21、分析中,我们的目的不仅仅是获得,的估计值,,而是要对真实 和 做出推断。,例如,我们想知道 和 离它们的总体真值 和 有多近,或者 靠其期望值 E(Y/Xi)有多近。,为达这一目的,我们不仅要确定模型的函数形式,还要对Yi的产生方式做出某些假定。,在总体回归模型中,Yi 依赖于Xi 和ui。因此,除非我们明确Xi 和ui 是怎样产生的,否则,我们将无法对Yi 做出任何统计推断,同时,也无法对用 和 推断其真实值,的效果进行判断。,为了回归估计的有效解释,对Xi 变量和误差项ui 做出假设是极其重要的。,假定1,误差项ui 的均值为零。对于给定的X 值,随机误差项ui 的均值或期望值为零,即ui
22、 的条件均值为零,记为,E(ui/Xi)=0,(4.20),这一假定的实际意义为:凡是模型中不显含的并因而归属于ui 的因素,对Y 的均值都没有系统的影响,正的ui 值抵消了负的ui 值,它们对Y 的平均影响为零。,假定2,同方差性或ui 的方差相等。对所有给定的Xi,ui 的方差都是相同的。就是说,ui 的条件方差是恒定的,即:,该假定表示对应于不同Xi 值,ui 的方差都是某个等于 的正的常数。,其中,Var表示方差。,(4.21),假定3,各个误差项之间无自相关,ui 和uj(ij)之间的相关为零。,(4.22),其中,i 和j 为两次不同的观测,而Cov表示协方差,该假定还可以称为无序
23、列相关或无自相关假定。,假定4,ui 和Xi 的协方差为零或E(ui Xi)=0,该假定表示误差项u 和解释变量X 是不相关的。也就是说在总体回归模型中,X 和u 对Y 有各自的影响。但是,如果X 和u 是相关的,就不可能评估他们各自对Y 的影响。,假定5,正确地设定了回归模型,即在经验分析中所用的模型没有设定偏误。,正确设定回归模型是至关重要的。如果模型遗漏了重要变量或选择了错误的函数形式,那么,要对所估计的回归模型做出有效的解释是靠不住的。回归分析以及由此而得到的结果,是以所选模型为条件的。因此,在建立经济计量模型时,必须谨慎而小心。,假定6,对于多元线性回归模型,没有完全的多重共线性。就
24、是说解释变量之间没有完全的线性关系。,至此,我们完成了关于经典线性回归模型的基本假定的讨论。上述所有假定都是针对总体回归模型而言的,而不是关于样本回归模型的。,三、最小二乘估计量的性质高斯马尔可夫定理,在经典线性回归模型的假定条件下,最小二乘估计量具有较好的统计性质,这些性质包含在高斯马尔可夫定理之中。,高斯马尔可夫定理:在给定经典线性回归模型的假定下,最小二乘估计量是最佳线性无偏估计量。,该定理说明最小二乘估计量 是 的最佳线性无偏估计量。即:,第一,它是线性的,即它是回归模型中的被解释变量Y 的线性函数。,第二,它是无偏的,即它的均值或期望值 等于其真值,即。,第三,它在所有这样的线性无偏
25、估计量中具有最小方差。具有最小方差的无偏估计量叫做有效估计量。,下面,就普通最小二乘估计量的性质给予说明。,1,线性性,(4.23),(4.24),(4.25),令,则,这说明 是Yi的一个线性函数,它是以ki为权的一个加权平均数,从而它是一个线性估计量。同理,也是一个线性估计量。,2,无偏性,,即 是无偏的,是无偏的。就是说,虽然由不同的样本得到的 可能大于或小于它们的真实值,但平均起来等于它们的真实值。,由式(4.25)可知:,(4.26),因为,则,(4.27),据经典假定,ki 非随机,E(ui)=0,则,(4.28),因此,的一个无偏估计量。同理,可证明 的一个无偏估计量。,在此要特
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 一元 线性 回归 模型 经济 计量学
链接地址:https://www.31ppt.com/p-5673869.html