《经典多元线性回归.ppt》由会员分享,可在线阅读,更多相关《经典多元线性回归.ppt(99页珍藏版)》请在三一办公上搜索。
1、计 量 经 济 学Econometrics李平2006年1月,主要内容,回归分析的基本概念普通最小二乘估计(OLS)假设检验(t检验和F检验)拟合优度(R2)预测多元线性回归模型的拓展案例分析建模过程中应注意的问题,回归分析的基本概念,回归(Regression)是计量经济学的主要工具回归的现代释义:回归分析是关于研究一个叫做因变量的变量(Y)对另一个或多个叫做自变量的变量(X)的依赖关系;其用意在于通过自变量在重复抽样中的已知或设定值,去估计或预测因变量的总体均值。,回归分析的基本概念,一个自变量的例子:收入消费问题,尽管每个收入组中的周消费支出可以变化,甚至低收入组的个别家庭的消费支出高于
2、高收入组中的个别家庭,但从平均来讲,周消费支出随收入的上升而增加。,回归分析的基本概念,总体回归曲线就是自变量取给定值时因变量的条件期望值的轨迹(PRL),也即是Y对X的回归。,回归分析的基本概念,总体回归函数的概念被称为条件期望函数或总体回归函数(PRF),它刻画了Y的均值是怎样随X而变化的。,若PRF的函数形式为线性,则,为未知的但固定的参数,称为回归系数,分别为截距和斜率系数。,回归分析的基本概念,注意:线性回归是指对参数 为线性的一种回归(即参数只以一次方出现),对自变量X则可以是或不是线性的。因此,是非线性回归模型,而 则仍属于线性回归模型。,回归分析的基本概念,总体回归函数的随机设
3、定随着家庭收入的增加,家庭消费支出平均地说也增加,但对某一个别家庭来说,不一定存在这种关系,如存在低收入组的个别家庭的消费支出高于高收入组中的个别家庭的情况。,回归分析的基本概念,总体回归函数的随机设定给定收入水平 的个别家庭的消费支出 聚集在收入为 的所有家庭的平均消费支出周围,其离差定义为:其中离差 是一个不可观测的可正可负的随机变量,称为随机干扰或随机误差项。,回归分析的基本概念,随机干扰项的性质说明对收入水平为 的个别家庭而言,其它变量对其消费支出的总体影响的期望值为0。,回归分析的基本概念,样本回归函数的概念实际情况中,通常仅能采集到对应于某些固定X的Y值的一个样本(而非总体),因此
4、要在样本信息的基础上估计总体回归函数PRF。但是从总体中可抽取N个不同的随机样本,会得到N个不同的样本回归线。,回归分析的基本概念,样本回归函数的概念同样,从总体中可抽取N个不同的随机样本,会得到N个不同的样本回归函数SRF:其中 分别是 的估计量,表样本残差项,即用样本信息不能解释总体的部分。,回归分析的基本概念,由于抽样的波动,根据SRF估计出来的PRF充其量只是真实PRF的一个近似的结果。问题是,能否设计一种规则或方法,使得这种近似结果的误差尽可能小?即怎样构造的SRF能使 尽可能接近真实的?尽管真实的 永远不得而知,但不可思议的是在一系列假设条件下可以通过残差来实现上述目的。,回归分析
5、的基本概念,多个自变量的回归模型假定多元线性回归模型,那么对被解释变量Y与解释变量X2,X3,Xk作了n次观测后,讲所得的n组样本代入上式有,回归分析的基本概念,以矩阵形式表示,有,普通最小二乘估计,多元线性回归模型,假定1:,假定1是很自然的,因为通常被看作是许多个别影响的总和,而这些影响的符号都是未知的,所以毫无理由来期望其它的均值。换句话说,如果我们没有理由设定干扰项的均值是非零的什么数,我们将把它构造在回归的系统的部分,而在干扰项中只留下的未知部分。,普通最小二乘估计,普通最小二乘估计法(OLS),1、原理:残差平方和最小,若矩阵 的逆存在,则上述方程有解(设为 b),假定2:数据矩阵
6、X列满秩,即矩阵 的逆存在。,列满秩的隐含意思是各个回归量之间相互独立。,对求导并令其等于0可得,普通最小二乘估计,普通最小二乘估计法(OLS),2、估计方法优劣的评判,无偏性:估计值的均值等于真实值,估计值的均值为,若无偏,则有,假定3:,因在假定1之下有,若有,则有,有效性:最小方差,假定4:,可以证明这就是最小方差。,高斯马尔可夫定理:若前述假定条件成立,OLS估计量是最佳线性无偏估计量。,一致性:,在有限样本情形中,经典回归模型假定数据X是固定变量,否则最小二乘估计量可能是有偏的。但在大样本情况下,即便X是随机的,只要X满足一些条件,最小二乘估计量将依概率收敛于真实值。,1.X的每一列
7、xk不退化。,2.随着样本量的增加,个体观测值变得不重要。,3.X列满秩。,普通最小二乘估计,普通最小二乘估计法(OLS),3最小二乘估计系数的特征,若一个多元回归中的变量是无关的,则多元回归的斜率 与在多个简单回归中的斜率相同。,回归超平面通过数据的均值点,回归拟合值的均值等于 实际值的均值。,M:用它乘以任一向量y,都将产生y对x回归的残差向量。,注意两个特殊矩阵M和P,P(射影矩阵,投影矩阵):用它乘以任一向量y,都将产生y对x回归的最小二乘拟合值。,令拟合值,则有,偏回归系数,其中,。,解释:是X2对X1进行回归后的残差变量,是y对X1进行回归后的残差变量。这个过程排除了或筛掉了的影响
8、,所以叫偏回归系数。,偏回归系数的解释:当其它变量相同时,特定变量对解释变量的边际影响(贡献)。,推论:在时间序列环境中,首先通过筛掉时间的影响而消除数据趋势,然后用消除趋势后的数据进行简单回归与直接带有一个时间趋势变量拟合所得的结果是一样的,所以即便有时模型的主要目的是考察两个变量之间的关系,但仍然要考虑加入其它变量(控制变量)进行多元回归。,一个例子:美国国防预算支出,为了说明美国国防预算,现考虑如下模型:,其中,Yt年度t的国防预算支出,10亿美元计X2t=年度t的GNP,10亿美元计X3t=年度t的军事销售,10亿美元计X4t=年度t的太空工业销售,10亿美元计,19621981年美国
9、国防预算支出数据,Eviews 演示,第一步:,Eviews 演示,第二步:,Eviews 演示,第三步:,需要填入的变量,点击,Eviews 演示,第四步:,这些系数可靠吗?,什么意思,假设检验,假设检验某一给定的观测或发现是否与某声称的假设相符?用统计学语言表述,声称的假设叫虚拟假设或原假设,并用符号H0表示。假设检验通常要有一个对立假设H1。对立假设分为简单假设和复合假设。,假设检验,假设检验理论是要确定一个标准,以便决定拒绝或不拒绝某个虚拟假设。当拒绝虚拟假设时,通常表述为统计上显著的。反之,不是统计上显著的。假设检验主要有两种方法:置信区间法显著性检验法,假设检验,置信区间法建立在区
10、间估计的概念上,区间估计是指构造一个区间,使得它能按照预定的概率(如95)把未知参数的真值包括在其界限内,这一区间称为置信区间,若原假设值落入置信区间内,就不拒绝原假设,否则就拒绝原假设。,问题是怎样构造置信区间?,假设检验,区间估计不论一个估计量的性质如何,得到的估计将随样本的不同而变化,且存在相当错误的可能性。区间估计背后的逻辑是利用样本数据来构造一个区间以使我们能够期望这个区间以某个设定的样本比例或某个要求的置信水平包含真实参数。,假设检验,例如,假设真实值是,是样本估计值。,构造置信区间就是找到两个正数 和,使得随机区间 包含 的概率为。,为置信水平,由研究的要求决定。,关键是怎样确定
11、?,确定需要估计值的分布信息。,假定 服从自由度为n的t分布,此处0,这个长度由标准差来确定:,确定的公式为:,将这些值代入上式可得置信区间,0.50912.306(0.0357),即,0.50910.0823,假设检验,置信区间法指构造一个置信区间,若原假设值落入置信区间内,就不拒绝原假设,否则就拒绝原假设。假定原假设为,拒绝原假设统计上称为显著,含义是估计值与原假设 距离足够远。,假设检验,显著性检验法显著性检验法不用求出置信区间,而是直接比较估计值和原假设值之间差异的大小。若“差异”较小,就不拒绝原假设,否则就拒绝原假设。,怎样判断“差异”的大小?,也就是说 是否显著异于0?,例如,给定
12、 服从t分布,是否显著异于零,关键是看这个差值的绝对值等于估计值 的多少倍标准差。,知道了,查表可得的值,即置信水平(Eviews输出为p值)。若这个置信水平满足研究要求,则认为这个“差异”显著,否则不显著。,显著性检验法的思想:,判断 是否显著异于零的关键是构造一个函数,这个函数统计上称为统计量。所以,显著性检验的关键是构造统计量,找出统计量的分布规律,然后通过计算与标准差的关系是来判断所估计的系数或方程是否显著。,统计量:样本或字样的函数,不依赖于任何未知参数的随机变量,但它的分布可能是依赖于未知参数。,大部分的假设检验都采用显著性检验法。,OLS的假设检验,1.偏回归系数的假设检验(t检
13、验),由 知,若有,假定5:,则有,令Skk是 的第k个对角元素,则,若2 已知,则关于k的检验可以基于zk。,然而,2是未知参数,仍然需要估计。,2的一个无偏估计量是:,因为可以证明:,利用s2代替2后统计量变为自由度为n-k的 t 统计量:,此处原假设H0:0,OLS的假设检验,2.线性约束假设检验(F检验),考虑一组线性约束:,写成矩阵形式:,线性约束的一些例子:,此约束通常用于检验回归方程整体显著性(F检验),J个线性约束:,给定最小二乘估计量b,如果原假设成立,则“差异”向量d=Rb-q 的值等于零。,d精确等于0是不太可能的,关键问题是“差异”是因抽样误差引起的(不显著)还是很显著
14、。,同样,判断“差异”是否显著的关键是怎样构造统计量?,由于d是b的线性函数,且b正态分布,所以d也是正态分布。若原假设为真,则d的均值为0,方差为,由于被检验量是二阶,所以基于沃尔德(Wald)准则有,由于2未知,所以用s2代替后2构造的统计量为F统计量,F分布的分布图,此约束为系数全为零。用于检验回归方程整体显著性。,结论:回归方程整体上高度显著,OLS的假设检验,3.F检验的其它应用,可以用拉格朗日乘数法得到约束最小二乘估计量,约束最小二乘系数的拟合将劣于无约束最小二乘的解,即约束将导致拟合的损失。,令约束最小二乘的残差为,则可证明拟合的损失为,所以F统计量可选形式,注意:在实际所遇到的
15、大多数情况中,可能要把约束直接结合回归而估计一个约束模型,然后通过计算拟合损失来检验线性约束检验。例如:对于加入一个或更多系数的诸如k=0的排斥约束,明显的方法是简单地从回归中略去变量,并根据约束和无约束回归的残差平方和来计算检验量。,应用F检验的一些例子:,1.检验某个偏回归系数等于某一特定值的假设。,检验H0:X2=0.5,Eviews演示:,Eviews演示:,结论:原假设不成立,应用F检验的一些例子:,2.规模报酬不变,柯布道格拉斯生产函数:,两边取对数有:,若规模报酬不变,则有:,检验H0:,应用F检验的一些例子:,6.结构变化(邹检验),邹检验,结构变化:在使用时间序列数据的回归时
16、,模型中的参数在整个样本期间内可能发生变化或源于外部不可抗逆的力量,如战争、政治因素或源于政策变化,如改革开放如何甄别结构变化?邹至庄检验(Chow Test),例子:,下表给出了美国19701995年个人可支配收入和个人储蓄的数据的数据。,1982年美国遭受了和平时期最大的衰退,城市失业率高达9.7%,为了考察是否在这年发生了结构变化,将样本分为两期:,考虑如下三个可能的回归方程:,Eviews演示(1),无约束残差平方和,Eviews演示(2),1982年是一个显著的转折点,关于邹检验的一些说明:,2.邹检验只告诉我们不同子时期的回归方程是否有差别,并没有告诉我们差别来自截距、斜率还是二者
17、兼有。,1.邹检验的假定:两个子时期回归的误差项是独立且具有 同方差的正态 分布变量。,邹检验可轻而易举地推广到不止一次结构变动的情形。,但必须牢记关于邹检验的一些警告:,3.邹检验假定我们知道结构转折点。,再次回顾显著性检验法的思想:,t 检验:,F检验:,拟合优度,从几何意义上看,拟合优度是指样本回归线对样本数据拟合得有多好。,样本回归线,样本点,残差平方和,样本均值线,一般情况下,不可能出现全部观测点都落在样本回归线上。显然若观测值离回归线近,则拟合程度好。,因此,一个直观的评判标准是:残差平方和在总平方和中所占的比例越小,则拟合得越好。,拟合优度,决定系数(R2):,可以证明当在回归方
18、程中加入另一变量时,R2值不会下降。因此,考虑调整的(用自由度)R2,当增加一个变量时,可能上升,也可能下降,甚至为负。上升还是下降依赖于新变量对回归拟合的贡献是否超过对损失一个额外自由度所作修正的补偿。,可以证明:在一个多元回归中,当从回归中删除相应t比率大于1的某一变量时,值会下降。,可能出现的现象:从t检验来看,回归方程的大部分系数都不显著,但值 很大。问题可能出在变量间的相互作用掩盖了他们对回归拟合的单独贡献。例如,存在多重共线性的情况。,注意:通常采用横截面数据回归后得到的决定系数较小,而采用时间序列数据回归后得到的决定系数较大。,预测,建立的回归模型可以用于预测:,样本回归线,最小
19、二乘拟合值:,真实值:,预测误差:,预测方差:,可用s2代替,预测的置信区间为:,Eviews演示:,点击,填写,点击,Eviews演示:,均值预测,区间预测,这些表示什么意思?,预测的评价指标:,1.误差均方根(Root Mean Squared Error),2.绝对误差平均(Mean Absolute Error),这两个值越小,表明预测效果越好。但这两个指标明显存在标度问题。,4.U统计量(Theil),3.相对误差绝对值平均(Mean Absolute Percentage Error),这两个值越小,表明预测效果越好。但这两个指标不存在标度问题。,多元线性回归模型的拓展,不含截距项
20、的过原点回归因变量和自变量的度量单位问题因变量与自变量的函数形式问题,多元线性回归模型的拓展,过原点回归:,可以证明:,残差均值不一定为0。,拟合优度的决定系数可能出现负值。,因此,除非有非常强的先验预期,否则还是采取含有截距的模型为好;即使先验预期为无截距模型,仍可使用含截距的模型,再检验其截距在统计上等于0即可。,多元线性回归模型的拓展,尺度与测量单位Y和X的测量单位不同会造成回归结果的差异。但尺度变换并不影响OLS的统计检验结果。测量单位是回归系数赖以解释的关键,所以在实践中不仅要注明数据来源,而且还要说明变量是怎样度量的。建议采用相同量纲的变量或对变量进行标准化。,多元线性回归模型的拓
21、展,回归模型的函数形式对参数为线性但对变量是非线性的线性模型通过适当变量转换而转变成对参数线性的模型各种模型的特点和要解决的经济问题,回归模型的函数形式,对数线性模型:,柯布道格拉斯生产函数:,两边取对数有:,对数线性模型的偏回归系数表示弹性。即给定小的X的百分比变化引起的Y的百分比变化。,回归模型的函数形式,半对数线性模型,考虑如下复利公式:,可转化成半对数模型,半对数线性模型的偏回归系数表示增长率。即给定X的绝对值变化引起的Y的相对值变化。,时间变量t 称为趋势变量,即指一个变量的行为中的一种持续上升或下降的趋势。,回归模型的函数形式,倒数模型,Phillips曲线:,回归模型的函数形式,
22、如何选择函数形式经济理论给出特定函数形式;所选模型的系数应满足一定的先验预期;当多个模型能很好地拟合数据时,人们往往选择拟合优度比较高的模型。,Eviews演示:变量转换或生成新的变量,案例分析,建模案例1:全国味精需求量的计量经济模型,(见预测1987年第2期),一、依据经济理论选择影响味精需求量变化的因素,依据经济理论一种商品的需求量主要取决于四个因素:商品价格,代用品价格,消费者收入水平,消费者偏好。,模型为:,商品需求量=f(商品价格,代用品价格,收入水平,消费者偏好),对于特定商品味精,当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。,商品价格:味精是一种生活常用品,当时又
23、是一种价格较高的调味品。初步判断价格会对需求量产生影响。所以确定价格作为一个重要解释变量。,代用品价格:味精是一种独特的调味品,目前尚没有替代商品。所以不考虑代用品价格这一因素。,消费者收入:显然消费者收入应该是一个较重要的解释变量。,偏好:由于因偏好不食味精或大量食用味精的情形很少见,所以每人用量只会在小范围内波动,所以不把偏好作为重要解释变量,而归并入随机误差项。,分析结果:针对味精需求量只考虑两个重要解释变量,商品价格和消费者收入水平。味精需求量=f(商品价格,收入水平),二、选择恰当的变量,用销售量代替需求量。因需求量不易度量,味精是自由销售商品,不存在囤积现象,所以销售量可较好地代表
24、需求量。,用人均消费水平代替收入水平。因为消费水平与味精销售量关系更密切。消费水平数据在统计年鉴上便于查找(收入水平的资料不全)。取不变价格的人均消费水平:消费水平都是用当年价格计算的,应用物价指数进行修正。,味精销售量=f(平均销售价格,不变价格的消费水平),味精商品价格即销售价格。用平均价格作为销售价格的代表变量。不同地区和不同品牌的味精价格是不一样的,应取平均价格(加权平均最好)。,三、收集样本数据(抽样调查,引用数据),从中国统计年鉴和有关部门收集样本数据(1972-1982)。定义销售量为yt(吨),平均销售价格为x1(元/公斤),不变价格的消费水平为 x2(元)。相关系数表如下:,
25、四、确定模型形式并估计参数,=-144680.9+6313.4 x1t+690.4 x2t,(-3.92)(2.17)(15.32),R2=0.97,t0.05(8)=2.3,回归系数6313.4无显著性(x1t与x2t应该是负相关,回归系数估计值却为正,可见该估计值不可信)。,绝对值虽然很大,但统计上却近乎等于0。,剔除不显著变量x1t,再次回归,=-65373.6+642.4 x2t,(-10.32)(13.8),R2=0.95,t0.05(9)=2.26,建模过程中应注意的问题,(1)研究经济变量之间的关系要剔除物价变动因素。,以上图为例,按当年价格计算,我国1992年的GDP是1980
26、年的5.9倍,而按固定价格计算,我国1992年的GDP是1980年的2.8倍。另外从图中还可看出,1980-1992期间按名义价格计算的GDP曲线一直是上升的,而按不变价格(1980年价格)计算的GDP曲线在1989年出现一次下降。可见研究经济变量应该剔除物价变动因素。,建模过程中应注意的问题,(2)依照经济理论以及对具体经济问题的深入分析 初步确定解释变量。,例:关于某市的食用油消费量,文革前常驻人口肯定是重要解释变量。现在则不同,消费水平是重要解释变量,因为食用油供应方式已改变。,(3)当引用现成数据时,要注意数据的定义是否与 所选定的变量定义相符。,例:“农业人口”要区别是“从事农业劳动
27、的人口”还是相对于城市人口的“农业人口”。,建模过程中应注意的问题,(4)通过散点图,相关系数,确定解释变量与 被解释变量的具体函数关系。(线性、非线性、无关系),建模过程中应注意的问题,(5)谨慎对待离群值(outlier)。离群值可能是 正常值也可能是异常值。不能把建立模型简 单化为一个纯数学过程,目的是寻找经济规律。,建模过程中应注意的问题,(6)改变变量的测量单位可能会引起回归系数值 的改变,但不会影响t值。,(7)回归模型给出估计结果后,首先应进行F检验。若F检验结果能拒绝原假设,应进一步作t检验。若回归系数估计值未通过t检验,则相应解释变量 应从模型中剔除。剔除该解释变量后应重新回
28、归。按经济理论选择的变量剔出时要慎重。,建模过程中应注意的问题,(8)对于多元回归模型,当解释变量的量纲不相同时,不能在估计的回归系数之间比较大小。,建模过程中应注意的问题,(9)利用回归模型预测时,解释变量的值 最好不要离开样本范围太远。,原因是:,根据预测公式离样本平均值越远,预测误差越大。,有时,样本以外变量的关系不清楚。当样本外变 量的关系与样本内变量的关系完全不同时,在样 本外预测就会发生错误。,建模过程中应注意的问题,(10)回归模型的估计结果应与经济理论或常识相一致。如边际消费倾向估计结果为1.5,则模型很难被接受。,(11)避免多重共线性。,(12)正确处理残差项的异方差。,(13)正确处理残差项的自相关。,(14)解释变量应具有外生性,与误差项不相关。,明天讲的内容,