《计量经济学金玉国第五章.ppt》由会员分享,可在线阅读,更多相关《计量经济学金玉国第五章.ppt(85页珍藏版)》请在三一办公上搜索。
1、第五章 回归模型中的 变量问题,第一节 解释变量为随机变量第二节 多重共线性问题第三节 虚拟变量第四节 滞后变量,2023年10月4日,山东财经大学统计学院计量经济教研室,第2页,一、估计量的渐近性质二、随机解释变量模型OLS估计特性 三、随机解释变量模型的经济计量方法四、案例,第一节 随机解释变量,2023年10月4日,山东财经大学统计学院计量经济教研室,第3页,要求满足古典假设4:随机项u与解释变量x之间不相关,即:Cov(xi,ui)=0 i=1,2,n 只要解释变量x1,x2,xk是确定性变量,则上述假设自动满足。,对于模型,i=1,2,n,2023年10月4日,山东财经大学统计学院计
2、量经济教研室,第4页,2023年10月4日,山东财经大学统计学院计量经济教研室,第5页,一、估计量的渐近性质,线性、无偏性和有效性是评价一个估计量优劣的标准。在有的情况下,小样本的估计量不具有某种统计特性,但随着样本容量的增大,估计量逐渐有了这种统计性质,此时称之为估计量的渐近统计性质。1.渐近无偏性 2.渐近一致性,2023年10月4日,山东财经大学统计学院计量经济教研室,第6页,1.渐近无偏性,记 为样本容量为n时参数的估计量,如果满足,则称 为的渐近无偏估计量。,有时,在小样本的情况下,是有偏的,但随着样本容量的逐步增大,与的系统偏差越来越小,逐渐趋于0。通过增加样本容量,可以改善参数估
3、计的精度。,2023年10月4日,山东财经大学统计学院计量经济教研室,第7页,2.渐近一致性,对真实值在样本容量为n时的估计值,如果当样本容量n充分大时,值趋近于真值的概率接近于1。即:,则称 为的一致估计量。,可以证明:为的一致估计量,当且仅当:,简记为:,2023年10月4日,山东财经大学统计学院计量经济教研室,第8页,概率极限有以下运算法则:,c为一常数,2023年10月4日,山东财经大学统计学院计量经济教研室,第9页,二、随机解释变量模型OLS估计特性,以一元线性回归模型为例 说明。设给定的模型为,采用离差形式即为:,式中:,不管自变量x是否是随机变量,对上式应用OLS,参数的估计量都
4、是,2023年10月4日,山东财经大学统计学院计量经济教研室,第10页,我们分下列四种情况进行讨论,1.x 是非随机变量,x与u自然不相关,最小二乘估计量是无偏的。,2023年10月4日,山东财经大学统计学院计量经济教研室,第11页,2.x是随机变量,但x与u不相关,且相互独立,最小二乘估计量仍然是无偏的。,3.x是随机变量,x与u不相关,但也不独立,最小二乘估计量是有偏的。,2023年10月4日,山东财经大学统计学院计量经济教研室,第12页,但由于Cov(x,u)=0,即,对式(4.70)两边取概率极限:,说明最小二乘估计量具有一致性。也就是说,如果 x是随机变量,且x与u不相关但也不独立,
5、虽然小样本的无偏性得不到满足,但在样本容量增加时,OLSE会逐渐逼近真实的总体参数,即在样本足够大时,OLSE仍然是有意义的。,2023年10月4日,山东财经大学统计学院计量经济教研室,第13页,4.x是随机变量,x与u相关,即使在大样本条件下,仍然存在,对式(4.68),设,x与u之间的相关系数为,则式(4.75)变为:,由此可以看出,是1的非一致估计量。这时OLS失效,必须引进其他方法估计参数和进行统计推论推论。,2023年10月4日,山东财经大学统计学院计量经济教研室,第14页,模型中出现随机解释变量且与随机误差项相关时,OLS估计量是有偏的。如果随机解释变量与随机误差项异期相关,则可以
6、通过增大样本容量的办法来得到一致的估计量;但如果是同期相关,即使增大样本容量也无济于事。这时,最常用的估计方法是工具变量法(Instrument variables)。,三、随机解释变量模型的经济计量方法,2023年10月4日,山东财经大学统计学院计量经济教研室,第15页,1、工具变量的选取,工具变量法的基本思路:当解释变量与随机项相关时,则寻找另一个变量,该变量与随机解释变量高度相关,但与随机误差项不相关,则称该变量为工具变量,用其替代随机解释变量。,选择为工具变量的变量必须满足以下条件:(1)工具变量必须具有实际经济意义;(2)与所替代的随机解释变量高度相关,但与随机误差项不相关;(3)与
7、模型中其它解释变量不相关,以避免出现多重共线性;(4)模型中多个工具变量之间不相关。,2023年10月4日,山东财经大学统计学院计量经济教研室,第16页,2、工具变量的应用,以一元回归模型的离差形式为例说明如下:,用OLS估计模型,,由 可得:,用 去乘模型 两边、对i从1到n求和得到:,由古典假定u和x不相关,即Cov(u,x)=0,因此有:,(4.77),利用该条件就可以略去(4.77)等式右边的第二项,将1用代替也得到正规方程组。,2023年10月4日,山东财经大学统计学院计量经济教研室,第17页,如果u与x相关,则,普通最小二乘法失效。,不能用 去乘模型 两边,需要另寻找一个变量z,z
8、与x高度相关而与u不相关,z叫做工具变量。,用 去乘模型 两边、对i从1到n求和得到:,由于z和u不相关,即Cov(u,z)=0,因此有:,利用该条件就可以略去上述等式右边的第二项,将1用代替也得到:,2023年10月4日,山东财经大学统计学院计量经济教研室,第18页,从而得到工具变量法估计量:,然后由公式,得到0的估计值。,2023年10月4日,山东财经大学统计学院计量经济教研室,第19页,i=1,2,n,如果xj(j=1,2,k)与随机项u不相关,用最小二乘原理可得到正规方程组:,对于多元线性回归模型,设模型为:,解得:,=(XTX)-1XTY,2023年10月4日,山东财经大学统计学院计
9、量经济教研室,第20页,但当xj(j=1,2,k)与随机项u相关,即Cov(xj,u)0或,普通最小二乘法失效,此时可采用工具变量法。,设xj(j=1,2,k)的工具变量为zj,即每一个解释变量都对应一个工具变量,根据工具变量应满足的条件,可得:,将关系式:,i=1,2,n,代入上式得:,2023年10月4日,山东财经大学统计学院计量经济教研室,第21页,当 j=1,2,k时,上式即可分解为k个方程式,与上述正规方程组的第一个方程一起就组成了由(k+1)个方程组成的方程组,利用样本数据求解便得到参数的工具变量法的估计量。也可将此方程组转化为矩阵的形式求解。,可见,工具变量法实际上是一种矩方法。
10、参数的工具变量估计量无论对一元还是多元的模型都具有有偏且一致的统计性。,2023年10月4日,山东财经大学统计学院计量经济教研室,第22页,四、案例,下页表中x代表国内生产总值,y代表消费,z代表投资。用表中所提供的某地的三项指标的资料说明工具变量的使用方法。,2023年10月4日,山东财经大学统计学院计量经济教研室,第23页,国内生产总值、消费、投资数据,单位:亿元,2023年10月4日,山东财经大学统计学院计量经济教研室,第24页,设消费y与国内生产总值x之间具有线性关系,可建立如下模型:,由于消费y和国内生产总值x与随机项u相关,而投资z与随机项u无关,与国内生产总值x高度相关,故可用z
11、作为国内生产总值x的工具变量。参数估计如下:,=0.568051,876.010088,则样本回归模型为:,2023年10月4日,山东财经大学统计学院计量经济教研室,第25页,第二节 多重共线性,一、多重共线性的含义二、产生多重共线性的原因三、多重共线性引起的后果四、多重共线性的检验五、消除多重共线性的方法六、案例,2023年10月4日,山东财经大学统计学院计量经济教研室,第26页,一、多重共线性的含义,如果某两个或多个解释变量之间出现了某种相关关系,则称解释变量之间存在多重共线性(Multicollinearity)。,对于模型 yi=0+1x1i+2x2i+kxki+ui i=1,2,n其
12、基本假设之一是解释变量是互相独立的,即要求Rank(X)=k+1。,2023年10月4日,山东财经大学统计学院计量经济教研室,第27页,如果存在不全为零的常数 1,2,k 使得:1x1i+2x2i+k xki=0 i=1,2,n 成立,则称为解释变量间存在完全共线性(perfect multicollinearity)。,对于多元线性回归模型:,解释变量的线性相关性分完全线性相关和不完全线性相关或接近线性相关两类。,2023年10月4日,山东财经大学统计学院计量经济教研室,第28页,在矩阵表示的线性回归模型:Y=X+u中,完全共线性指:rank(X)k+1,即,中,至少有一列向量可由其他列向量
13、(不包括第一列)线性表示。,如:x2i=x1i,则x2对y的作用可由x1代替。,2023年10月4日,山东财经大学统计学院计量经济教研室,第29页,当存在不完全多重共线性时,存在存在一组不同时全为零的常数 1,2,k 使得下式 0+1x1i+2x2i+k xki+v=0 i=1,2,n(5.20)成立,其中v为随机误差项,则称解释变量间存在 近似共线性(approximate multicollinearity)或交互相关(intercorrelated)。,2023年10月4日,山东财经大学统计学院计量经济教研室,第30页,注意:完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即
14、近似共线性。,综上所述,多重共线性就是指解释变量之间存在完全的线性关系或接近的线性关系,2023年10月4日,山东财经大学统计学院计量经济教研室,第31页,二、多重共线性产生的原因,时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。,一般地,产生多重共线性的主要原因有以下三个方面:,1.经济变量相互关系复杂,有共同变化趋势,2023年10月4日,山东财经大学统计学院计量经济教研室,第32页,2.利用截面数据建立模型也可能出现多重共线性,(1)对于
15、截面数据,许多变量变化与发展规模相关,会呈现出共同增长的趋势,例如资本、劳动力、科技、能源等投入与产出的规模相关,这时容易出现多重共线性。(2)有时如果出现部分因素的变化与另一部分因素的变化相关程度较高时,也容易出现共线性。如用粮食产量对化肥用量、水浇地面积、农业投入资金进行回归,发现回归效果较差,原因是农业资金的影响已经通过化肥用量、水浇地面积两个因素体现出来。,2023年10月4日,山东财经大学统计学院计量经济教研室,第33页,3.滞后变量的引入,在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入,前期收入)显然,两期收入间有较强的线性相关性。,202
16、3年10月4日,山东财经大学统计学院计量经济教研室,第34页,4.样本资料的限制,一般经验:时间序列数据样本:简单线性模型,往往存在多重共线性。截面数据样本:问题不那么严重,但多重共线性仍然是存在的。,由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。,2023年10月4日,山东财经大学统计学院计量经济教研室,第35页,三、多重共线性的后果,(一)完全多重共线性1.多元线性回归模型中如果存在完全的多重共线性,则参数的最小二乘估计量是不确定的。对于二元线性回归模型 如果有 则有 我们只能估计出系数的线性组合 的样本估计值,而无法得到 和 的具体估计。又由于参数的
17、OLSE为 在完全多重共线性时,不存在,无法估计。,2023年10月4日,山东财经大学统计学院计量经济教研室,第36页,2.参数估计量的方差为无穷大如果有,则,同理,可以证明。,2023年10月4日,山东财经大学统计学院计量经济教研室,第37页,1.估计结果不好解释 参数估计值的大小往往与预期相去甚远,甚至可能连回归系数的符号都相反,回归结果无法得到合理解释。,多重共线性产生的影响具有一定的不确定性。在一些模型中,程度并不高的共线性可能带来了严重的后果,而在另一些模型中,较高程度的共线性却没有造成不利影响,甚至参数估计值的标准差也不大。一般的,模型中存在多重共线性,便有造成不利后果的可能。,(
18、二)不完全多重共线性,2023年10月4日,山东财经大学统计学院计量经济教研室,第38页,2.参数估计值的方差增大 对于,用OLS法估计回归系数。可以证明,参数的估计量方差和协方差分别是:,其中,r12是、的样本相关系数,被称为方差扩大因子(Variance Inflation Factor,VIF)。,2023年10月4日,山东财经大学统计学院计量经济教研室,第39页,3.参数估计的置信区间变大 存在多重共线性时,参数估计值的方差增大,其标准误差也增大,导致总体参数的置信区间也随之变大。4.假设检验容易作出错误的判断 在对回归系数的假设检验中,使用了t统计量,在高度共线性时,参数估计值的方差
19、增加较快,会使得t值变小,而使本应拒绝的原假设被错误地接受。同时,当多重共线性严重时,往往造成样本决定系数较高,F检验也高度显著,但对各个参数单独的 t 检验却不显著,不同检验的结果互相矛盾。,2023年10月4日,山东财经大学统计学院计量经济教研室,第40页,注意:,除非是完全共线性,多重共线性并不意味着任何基本假设的违背;因此,即使出现较高程度的多重共线性,OLS估计量仍具有线性性等良好的统计性质。问题在于,即使OLS法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。,2023年10月4日,山东财经大学统计学院计量经济教研室,第41页,多重共线性检验的任务
20、是:(1)检验多重共线性是否存在;(2)估计多重共线性的范围,即判断哪些变量之间存在共线性。,多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法。,四、多重共线性的检验,2023年10月4日,山东财经大学统计学院计量经济教研室,第42页,(一)直观判断法,1.散点图法。含有两个解释变量的模型;散点图。2.相关系数法。计算两个解释变量之间的简单相关系数。(注:多个解释变量间即使两两间呈低度线性相关,但多个解释变量之间可能呈现出较强的共线性)3.经验判断法。考察最小二乘估计值的符号和大小是否与实际经济情况或经济理论相符;另外,当增加或剔除一个解释变量,或者改变一个
21、样本观测值时,回归参数的估计值发生较大变化,往往预示着回归方程可能存在严重的多重共线性。4.“经典”判断法。多重共线性的“经典”特征是R2较高,但参数检验值显著的不多,如果一个回归分析结果中存在这一特征,则应考虑其是否存在多重共线性的问题。5.Klein判别法。先计算多重样本决定系数,然后计算解释变量间的简单相关系数rxl xj。若有某个 rxl xj R2,则xl,xj间的多重共线性对回归模型是有害的。,2023年10月4日,山东财经大学统计学院计量经济教研室,第43页,(二)自变量之间的复决定系数和方差扩大因子,设解释变量为k个,即x1,x2,,xk。我们分别以其中的一个对其它所有的解释变
22、量进行回归,得 k个回归方程:,对每个回归方程求其决定系数分别为:,在这些决定系数中寻其最大而且接近于1者,比如说 Rj2最大,则可以判定解释变量 与其它解释变量中的一个或多个相关程度高,因此就使得回归模型出现高度多重共线性。,2023年10月4日,山东财经大学统计学院计量经济教研室,第44页,计量经济学中在检验多重共线性时,往往称(1-Rj2)为自变量xj的容忍度(Tolerance),其倒数为方差扩大因子(Variance Inflation Factor,简记为VIF),即:,2023年10月4日,山东财经大学统计学院计量经济教研室,第45页,现以二元线性模型 yi=0+1x1i+2x2
23、i+ui 为例:,恰为x1与x2的线性相关系数的平方r2,由于 r2 1,故 1/(1-r2)1,2023年10月4日,山东财经大学统计学院计量经济教研室,第46页,多重共线性使参数估计值的方差增大,1/(1-r2)为方差扩大因子(Variance Inflation Factor,VIF),当完全不共线时,r2=0,当近似共线时,0 r2 1,当完全共线时,r2=1,,2023年10月4日,山东财经大学统计学院计量经济教研室,第47页,注:也可以用k个自变量所对应的方差扩大因子的平均数来度量多重共线性。当模型中全部k个自变量所对应的方差扩大因子的平均数大于1时,就表明存在严重的多重共线性。,
24、经验表明,当VIFj10时,自变量xj与其它自变量之间的多重共线性就非常大了,以至于足以影响到OLSE。,可见,一个自变量与其他自变量的复决定系数越大,即多重共线性越严重,会造成回归系数的OLSE的方差越大,所以我们把VIFj称为“方差扩大因子”,它可以反映多重共线性的严重程度。,2023年10月4日,山东财经大学统计学院计量经济教研室,第48页,(三)利用不包括某一解释变量所构成的回归方 程之决定系数,设多元线性回归模型为以下函数形式:,设其样本决定系数为R2。假定依次缺一个解释变量进行回归,则可得到k个回归方程。,其中Rj2为缺少解释变量xj 的回归方程之决定系数,对应的样本决定系数分别为
25、:,2023年10月4日,山东财经大学统计学院计量经济教研室,第49页,在这些决定系数中选取一个最大者比如说Rj2,则Rj2与R2的差为最小,这样解释变量xj从模型中去掉,对样本决定系数的影响不大,由此说明了解释变量xj对因变量的解释能力已由其它解释变量代替了,从而表明xj可能是其它解释变量的线性组合,因此可以判定解释变量中包含xj引起了多重共线性。,2023年10月4日,山东财经大学统计学院计量经济教研室,第50页,(四)条件指数,k个自变量(不包含常数项)的样本数据构成一个nk的矩阵X,若自变量间存在共线性,则称X为病态的。为一个kk的方阵,其特征根由大到小排列,依次快速递减,存在非常小的
26、特征根(并且有几个共线关系,就有几个很小的特征根)。定义条件数为:,即最大特征根为最小特征根的倍数。经验判断法则是:若K100,则认为多重共线性的程度很小;若100K1000,则认为多重共线性的程度中等或比较严重;若K1000,则认为多重共线性的程度非常严重。,2023年10月4日,山东财经大学统计学院计量经济教研室,第51页,五、消除多重共线性的方法,模型中存在多重共线性,是不是一定不好呢?这要视模型的具体用途而定。如果模型只是用来进行预测,只要多重样本决定系数(R2,)足够大即可,无需消除多重共线性。但如果模型是用来进行结构分析和政策评价,由于多重共线性影响到每个自变量系数估计的正确性和有
27、效性,所以应设法消除多重共线性的影响,确保模型的可用性。,2023年10月4日,山东财经大学统计学院计量经济教研室,第52页,(一)增加样本观测值,如果多重共线性是由样本引起的(例如测量误差或偶然的样本),但解释变量的总体不存在多重共线性,则可以通过收集更多的观测值增加样本容量,避免或减弱多重共线性。对于时间序列资料就是增大观测次数,对于截面数据资料就是增加观测对象,或者把时间序列资料与截面数据资料结合起来使用。,2023年10月4日,山东财经大学统计学院计量经济教研室,第53页,注意:当解释变量总体存在多重共线性时,增加样本容量也无助于减轻多重共线的程度。,已知:,2023年10月4日,山东
28、财经大学统计学院计量经济教研室,第54页,(二)删去不重要的解释变量,对待严重的多重共线性问题,一个最简单的解决办法就是删去那些产生多重共线性、对因变量影响不大且人们认为不重要的解释变量,使模型中剩下那些对因变量起重要作用的解释变量,然后对仅包含重要解释变量的模型应用普通最小二乘法。但应注意的是,由于把删去的解释变量对因变量的影响归入随机项中,有可能使随机项不满足零均值的假设,这时所得的参数估计值可能是有偏的,即产生确定性偏倚。,2023年10月4日,山东财经大学统计学院计量经济教研室,第55页,(三)利用“先验”信息,先验信息既包括从经济理论也包括从实际统计资料中获得的解释变量之间关系的信息
29、。如果我们研究的回归模型存在多重共线性,而线性相关的解释变量之间的关系可由事前信息得到。则只要把事前知道的关系包含进回归模型中,多重共线性就会消失。,2023年10月4日,山东财经大学统计学院计量经济教研室,第56页,例如 CD生产函数y=A L K eu其中,y为产出,K为资本,L为劳动力,A,为参数。将上式转化为对数形式:lny=lnA+lnK+lnL+u因为资金和劳动力之间是高度相关的,所以lnK和 lnL之间也是高度相关的,对数模型存在着多重共线性。,2023年10月4日,山东财经大学统计学院计量经济教研室,第57页,利用+=1将对数模型转化为:,式中,y/L为人均产出,K/L为人均资
30、本量。上式即为人均单位产出对人均资本量的一元回归模型,多元回归存在的多重共线性就被消除了。,2023年10月4日,山东财经大学统计学院计量经济教研室,第58页,又如,消费函数为:,y为消费支出,x1为收入,x2为财富。,就变为一元回归模型,多重共线性就消除了。,从收入与财富的关系来看,是高度相关的。但根据大量的统计数据可以总结出:,将该关系式代入,则上式可化为:,令:,则:,2023年10月4日,山东财经大学统计学院计量经济教研室,第59页,首先利用横截面数据估计出部分参数,再利用时序数据估计出另外的部分参数,最后得到整个方程参数的估计。例:对于中国家用轿车需求模型,(四)横截面数据与时间序列
31、数据并用,目的是要估计价格弹性 和收入弹性。,2023年10月4日,山东财经大学统计学院计量经济教研室,第60页,在时间序列分析中,价格和收入变量一般都有高度共线性的趋势。托宾提出了解决此问题的一种方法。即如果拥有关于消费者定点追踪的横截面数据,如城镇或农村居民住户调查数据,就可能可靠地估计收入弹性。令收入弹性的横截面估计为 就可以将前述时间序列回归写成,其中,。,2023年10月4日,山东财经大学统计学院计量经济教研室,第61页,(五)变量变换,有时通过对模型中变量进行变换能够实现降低共线性的目的。常用的变量变换方式有:使用相对指标将名义数据转换为实际数据将小类指标合并成大类指标,2023年
32、10月4日,山东财经大学统计学院计量经济教研室,第62页,(六)变换模型的形式,有时作为解释变量的某些经济变量之间出现了高度相关,但当我们的研究目的是为了预测,并不需要区分这些相关的解释变量单独对因变量的影响时,我们可以根据问题的需要对原模型加以变形,使新的模型不再出现多重共线性。,2023年10月4日,山东财经大学统计学院计量经济教研室,第63页,例如,某产品的销售量y取决于其出厂价格x1、市场价格x2和市场总供应量x3,设定模型为:,通常 x1、x2、x3 是高度相关的,如果研究的目的主要是为了预测某厂该产品销售量,则可以用相对价格x1/x2 代替x1、x2 对y的影响,采用 ln(x1/
33、x2)为解释变量,建立如下对数回归模型:,从而克服了x1与x2的相关性。,2023年10月4日,山东财经大学统计学院计量经济教研室,第64页,(七)逐步回归法,首先计算被解释变量对每一个解释变量的回归方程,这些回归方程叫做基本回归方程。对每一个基本回归方程进行统计检验,并根据经济理论分析这些回归方程,从中选出最合适的基本回归方程,然后再逐一增加其它的解释变量,重新再作回归。根据这个新加的解释变量的边际贡献(样本决定系数的增加量)和标准差,并考察对每个回归系数的影响,作如下的分析判断:,2023年10月4日,山东财经大学统计学院计量经济教研室,第65页,第一,如果新加进的解释变量改进了R2,并且
34、其它回归系数在统计上仍是显著的,那么,就可以认为新加进去的解释变量是有用的,作为模型中的解释变量予以保留。第二,如果加进去的解释变量未能改进R2,对其它回归系数也没有影响,则不作为解释变量。,第三、如果新加进的解释变量不仅改进了R2,并且主要是显著地影响了回归系数的符号或数值,致使某些回归系数达到不能接受的地步,则可断言产生了严重的多重共线性。,2023年10月4日,山东财经大学统计学院计量经济教研室,第66页,六、案例,对表5.4的数据,用逐步回归法筛选解释变量建立中国电信业务总量的计量经济模型。经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量、中国人口数、市镇人口占总人口的
35、比重、人均GDP、全国居民人均消费水平。,2023年10月4日,山东财经大学统计学院计量经济教研室,第67页,第二节 虚拟变量,虚拟变量含义虚拟变量单独使用虚拟变量与数值型变量一起使用虚拟变量表现为多种状态,2023年10月4日,山东财经大学统计学院计量经济教研室,第68页,一、虚拟变量含义,不能用数值表示的现象特征,如企业的所有制形式、所属行业;职工的性别、学历、职务以及战争、天灾、人祸等非数值变量。在计量经济学中,我们把这些“变量”叫虚拟变量。,量化虚拟变量的方法是当虚拟变量起作用时赋其值为“1”,不起作用时赋其值为“0”,这样就可以把表现某种特性的“变量”变为能用数值表示的变量了,这样才
36、可以对模型进行研究。,虚拟变量既可以单独作为解释变量使用,也可以与一般变量一起使用;既适用于时间序列资料,也适用于截面资料。,2023年10月4日,山东财经大学统计学院计量经济教研室,第69页,例:研究性别与收入(yi)的关系:我们可以定义虚拟变量Di,Di=0时表示女性,Di=1时表示男性,即:,二、虚拟变量单独使用的模型,对于线性回归模型 而言,若假设H0:1=0成立,则说明收入与性别将没有太大关系;若假设H0:1=0不成立,则说明收入与性别有关。,2023年10月4日,山东财经大学统计学院计量经济教研室,第70页,例2 研究学历与收入(yi)的关系:可以建立如下模型:,2023年10月4
37、日,山东财经大学统计学院计量经济教研室,第71页,现利用收集的10个样本点的资料作回归分析。表5.2为10位人士的学历情况与最初参加工作时的起薪。,表5.2 起薪与受教育程度数据,2023年10月4日,山东财经大学统计学院计量经济教研室,第72页,由结果可知,估计值的t检验值为2.3,查表易得显著不为0,说明学历对收入有着显著的影响,即说明受教育水平不同的两类人群的起薪是不同的。由方程可得,大学毕业的起薪均值为2080元,而非大学毕业的起薪均值为1440元,前者比后者高出640元.,最小二乘估计结果:,2023年10月4日,山东财经大学统计学院计量经济教研室,第73页,三、虚拟变量与一般变量一
38、起使用的模型,假定一般情况下,计量模型为:,而虚拟变量为:,引入虚拟变量:,1.仅影响截距的情况,(5.39),(5.38),2023年10月4日,山东财经大学统计学院计量经济教研室,第74页,模型5.39实际上是两条截距不同、斜率相同的直线的组合,如图5.5。这里斜率相同是在模型设定时隐含的假定。,图5.5 模型5.39结果示意图,2023年10月4日,山东财经大学统计学院计量经济教研室,第75页,2.仅影响斜率的情况,模型5.38可改写为:,于是有以下两种情况:,(5.40),2023年10月4日,山东财经大学统计学院计量经济教研室,第76页,这两种情况仅体现在斜率的差异上,用图形表示如图
39、5.6 模型5.40结果示意图,2023年10月4日,山东财经大学统计学院计量经济教研室,第77页,3.既影响截距又影响斜率的情况,模型5.38可改写为:,于是有,这两种情况不仅体现在截距的差异上,又体现在斜率的差异上,用图形示意见图5.7。,(5.41),(5.42),2023年10月4日,山东财经大学统计学院计量经济教研室,第78页,图5.7 模型5.41结果示意图,2023年10月4日,山东财经大学统计学院计量经济教研室,第79页,四、虚拟变量表现为多种状态时的模型,虚拟变量可表现为多种状态,如文化程度可区分为大学、中学、小学、文盲四种状态,季节可区分为第一季度、第二季度、第三季度、第四
40、季度,等等。,含此类虚拟变量模型的建立,应避免犯以下两类错误:,第一,建立一个虚拟变量,分别用0,1,2,3,表示其不同的状态。此方法错误在于,它在设定模型时,假定各种状态均值之间差量为固定值,这显然与事实不符。,2023年10月4日,山东财经大学统计学院计量经济教研室,第80页,第二,建立与状态数相同个的虚拟变量,分别表示各个不同状态。例如文化程度区分为大学、中学、小学、文盲四种状态,如果设置四个虚拟变量,即为:,此方法错误在于,这样的模型存在完全的多重共线性问题。因为 D1+D2+D3+D4=1 这会使得观测值矩阵中虚拟变量所对应的四列相加等于常数项。此类错误称为虚拟变量陷阱。,2023年
41、10月4日,山东财经大学统计学院计量经济教研室,第81页,假定 第一季度 第二季度 第三季度 第四季度对于上述模型可通过引入季度虚拟变量建立如下模型:,正确的建模方法是:如虚拟变量有k种表现状态,可建立(k-1)个虚拟变量。下面以季度虚拟变量为例说明建模的方法。,(5.42),2023年10月4日,山东财经大学统计学院计量经济教研室,第82页,此模型中只引入了第二季度、第三季度、第四季度虚拟变量,分别为D2、D3、D4,第一季度并未引入虚拟变量。这三个虚拟变量的取值为:,因此有下面的关系式:,2023年10月4日,山东财经大学统计学院计量经济教研室,第83页,下面举一个实例说明。例5-5 采用
42、模型(5.42),资料由课本181页表(5-9)给出,yt 代表利润(百万美元),xt代表销售额(百万美元),虚拟变量取Dit=1(i=2,3,4),估计结果如下:,2023年10月4日,山东财经大学统计学院计量经济教研室,第84页,回归结果表明,只有销售额的系数和第二季度的级差截距在5%水平上统计上是显著的。因此可下结论说,每年第二季度有某种季节性因素在运作。应结合具体的情况分析第二季度的这种季节效应。销售额系数0.038告诉我们,在考虑季节效应之后,如果销售额增加(比如说)1美元,则平均利润可望增加约4美分。基底或第一季度平均利润水平虽是6688百万美元,而在第二季度中提高了约1323百万美元即达到了8011百万美元。,2023年10月4日,山东财经大学统计学院计量经济教研室,第85页,分段回归中的虚拟变量应用,