计量经济学-虚拟解释变量模型.ppt

资源描述

《计量经济学-虚拟解释变量模型.ppt》由会员分享，可在线阅读，更多相关《计量经济学-虚拟解释变量模型.ppt（96页珍藏版）》请在三一办公上搜索。

1、1,计量经济学虚拟解释变量模型,在经济计量模型中除了有量的因素外还有质的因素，质的因素包括被解释变量为质的因素和解释变量为质的因素。如果被解释变量为质的因素，主要是逻辑回归要涉及的内容。本章就解释变量为质的因素也就是存在虚拟解释变量时如何进行参数估计等一系列问题进行讨论。,2,第一节引言,在经济计量分析中，经常会碰到所建模型的被解释变量不仅受诸如收入、产量、价格、成本、需求、投资等数量变量的影响，而且也受到诸如战争、自然灾害、国际环境、季节变动以及政府经济政策变动等质量变量的影响。建立经济计量模型若不考虑这些质量变量的影响作用，显然是不适宜的。,3,所以，在建立经济计量模型时，即要考虑数量

2、变量，也要考虑质量变量。但是，质量变量和数量变量不同，数量变量可以在事前规定好的尺度上，用不同的数值表现出来，质量变量却只能以属性、种类的不同具体形式表现出来。,4,例如，性别可表现为男或女；人种可表现为白种人和非白种人；宗教信仰可表现为教徒和非教徒；政府的经济政策可表现为改革开放前和改革开放后，如此等等。,5,显然，这种不同的具体形式是无法直接引入经济计量模型中去的。但由于这类变量通常表现为品质、属性、种类的出现或者未出现，所以我们可以根据质量变量的这一特征将其数量化。给定某一质量变量某属性的出现为1，未出现为0，称这样的变量为虚拟变量。,6,当然，把哪种情况取0，哪种情况取1要视研究情况而

3、定。0和1只是一个符号而已，不代表他们有高低的意义。我们可以把男性设为1，也可以设为0，得到的结果是一致的。这样就可以把量化的质量变量引入经济计量模型中，以便进一步进行数学处理。,7,需要指出的是，虚拟变量主要是用来代表质的因素，但是有些情况下也可以用来代表数量因素。例如在建立储蓄函数时，“收入”显然是一个重要解释变量，虽然是“数量”因素，但是为了方便也可以用虚拟变量表示。,8,虚拟解释变量模型的设定因为质的因素的多少和这些因素特征的多少而引入的虚拟变量也会不同。,第二节虚拟解释变量的设定,9,以一个最简单的虚拟变量模型为例，如果只包含一个质的因素，而且这个因素仅有两个特征，则回归模型中只需

4、引入一个虚拟变量。如果是含有多个质的因素，自然要引入多个虚拟变量。,10,如果只有一个质的因素，且具有m个特征，那么如果是含有截距项的，就要引入m-1个虚拟变量；不含有截距项的，应该引入m个虚拟变量，这就是虚拟变量的设定原则。,11,一、截距变动模型和斜率变动模型,（一）包含一个虚拟变量的截距变动模型首先从最简单的例子入手，假设只有一个定性因素影响被解释变量的变化，而且这个因素仅有两种特征，这时候只需要引入一个虚拟变量。,12,【例8.1】假设有一个包括正常年份和非正常年份（亚洲金融危机或SARS的影响）居民消费的样本，并打算用这些数据估计消费函数。由于在正常年份和非正常年份居民在消费水平上

5、存在明显差异，所以一些外界的影响是一个重要的解释变量。,13,用一个虚拟变量来表示这个质的因素，消费函数为,式中，Yi=第个居民的消费水平，Xi=第个居民的收入水平，D为虚拟变量。我们用D=1表示正常年份这一特征，用D=0来表示非正常年份,（8.1）,14,假设E（u i）=0，式（8.1）可以写成,（8.3）,（8.2）,15,式（8.2）和式（8.3）分别为正常年份和非正常年份的居民消费水平。二者具有相同的斜率，但是截距不同。,16,对 1 作t 检验，若 1 显著地不为0，我们就认为正常年份和非正常年份居民在消费行为上的差异是明显的。若 1 0，则正常年份的居民消费水平高于非正常年份的居

6、民消费水平。,利用最小二乘法对式（8.1）进行估计，可得到,（8.4）,17,通过例8.1，我们可以找出虚拟变量模型的一些特征。,用“1”来代表质的因素的哪个特征是可以任意设定的。我们一般认为，“1”代表具有某些特征，但没有具体规定。在上例中，也可以指定D=1时为非正常年份，而D=0就必然为正常年份。在这种情况下，正常年份和非正常年份的消费函数分别为,18,如果我们绘制图形，得到的结果仍然是一样的。此时，1，非正常年份的线低于正常年份的线，代表非正常年份的消费水平低于正常年份的消费水平。,19,虚拟变量D=0所代表的特性或状态通常称为基础类型。和其它特征或状态比较的意义上说，基础类型为对比的基

7、础，在式（8.）和式（8.）中，非正常年份就是基础类型，而在式（8.5）和式（8.6）中，正常年份就是基础类型。模型中的系数0 为基础类型的截距项，称为公共截距项；系数1 称为差别截距系数，指的是D取1时截距系数和基础类型的截距系数的差异。,20,如果一个回归模型有截距项，而且这个质的因素又有两种特征，也就是将其分两类，则我们只需要引入一个虚拟变量。如我们的例8.1所示。如果一个回归方程有截距项，只有一个质的因素影响被解释变量，它有个m特征，我们就要引入m-1个虚拟变量；,21,如果回归方程没有截距项，那么这个质的因素有多少个特征就要设多少个虚拟变量，这就是虚拟变量的使用原则。如果虚拟变量设定

8、不当，会使最小二乘法无解，称这种情况为虚拟变量陷阱。,22,下面就用线性代数中的知识来说明这一点。同样用例8.1，引入两个虚拟变量对有截距项和没有截距项的情况分别讨论。(1)对有截距项的情况，我们如果设两个虚拟变量，则回归模型为,（8.7）,23,式(8.7)也可表示为,其中，显然如下等式成立。,（8.8）,（8.9）,24,式(8.9)表明模型(8.8)即原模型(8.7)中有完全的多重共线性，将导致最小二乘估计无解。我们称该情景为掉入虚拟变量陷阱。所以，在有截距项的情况下，如果一个质的因素有多少个特征就引入多少个虚拟变量是行不通的。,25,(2)对没有截距的情况，我们如果设两个虚拟变量，,显

9、然模型(8.10)中，解释变量D1,D2和X之间无完全的多重共线性。可以使用普通最小二乘法估计式（8.10）的参数。,（8.10）,26,（二）斜率变动模型在实际问题中，斜率单独变动出现的情形一般比较少，它指的是改变了变动的速率也就是弹性。例如城镇居民家庭与农村居民家庭的消费函数，在边际消费倾向（斜率）上可能会有所不同，假设它们的消费函数在截距项没有区别。,27,那么回归模型可记为,（8.11）,其中，Yi=第个家庭的消费水平，Xi=第个家庭的收入水平，,28,式（8.11）可以表示为,（8.12）（8.13）,29,（三）包含多个虚拟变量的截距变动模型如果一个质的因素仅有两种特征，只需引

10、入一个虚拟变量。但是，很多质的因素往往不只具有两个特征，例如全世界的国家可以分为发达国家、发展中国家、不发达国家。,30,我国少数民族在很多问题上有差异，所以当把民族作为虚拟变量时，不能简单将其分为汉族和非汉族；季节因素是我们最常见的质的因素，它具有四个特征，按照前面的原则，我们要引入三个虚拟变量。,31,例如，我们用季度资料研究各种商品消费额在季节上有没有什么区别？可以建立模型如下：,（8.14）,其中，Yt=季度的消费，Xt=季度的收入，对于四个季度，我们引入了三个虚拟变量：,32,这里，第四季度为基础类型，其截距项为0。而其它三个季度的截距项分别为 0+1，0+2，0+3。1，2,3 代

11、表季节变动引起的消费差异。,33,四个季度的回归模型分别为,（8.15）（8.16）（8.17）（8.18）,34,（四）截距和斜率同时变动模型在多数情况下，质的因素不但对回归模型的截距有影响，而且还会改变模型的斜率。例如城镇居民和农村居民的消费函数不但在斜率上有差异，在截距上也是有可能不一致的，将两个问题同时考虑进来，我们可以得到回归方程,35,（8.19）,式中，Yi=第个家庭的消费水平，Xi=第个家庭的收入水平，,36,1和 3 分别表示城镇居民家庭和农村居民家庭的消费函数在截距和斜率上的差异。,式（8.19）可以表示为,（8.20）（8.21）,37,我们一般通过t 检验来判定它们之

12、间是否有差异。1.若10，30，则为截距和斜率同时变动模型；2.若 10,3=0，则为截距变动模型；3.若 1=0，3=0,则表示城镇居民家庭和农村居民家庭有着完全相同的消费模式；4.若 1=0，30,则为斜率变动模型，这种情况在现实中出现得不是很多。,38,下面，以我国的农村和城市的消费样本为例，实际体会虚拟变量模型从建模到检验再到估计参数最后下结论的全过程。【例8.2】已有数据资料为我国城镇居民家庭1955年至1985年人均收入和人均储蓄。根据经验，也就是先验信息，再通过某些检验，我们发现储蓄和收入有很强的相关关系而且收入的变化会引起储蓄的变化。,39,假定它们之间为线性关系，我们可以建

13、立储蓄模型如下,式中，St=人均储蓄，Xt=人均收入，t=年份（t=1955，1956，1985）。,（8.22）,40,把1955年作为基期并把该期的价格水平定为100，再分别扣除包含在和中的物价上涨因素。用最小二乘法估计式（8.22），得到,R2=0.833，DW=0.398,（8.22）,41,模型（8.23）包含了这样一个假定，那就是在1955到1985年期间我国城镇居民家庭的储蓄行为大体保持不变。这一假定实际上是行不通的，因为在十一届三中全会召开之后，居民的收入大大增加，而且与居民储蓄有关的许多重要因素在1979年以后发生了明显变化。在改革开放之前，我国居民的收入水平仅仅能够维持温饱

14、水平，根本不可能有多少储蓄；,42,1979年以后，我国居民的收入水平大幅度提高，同时，居民储蓄也在大幅度增长。从这些可以看出来，1979年前后两个时期，我国居民的边际储蓄倾向有显著性差异。,43,在改革开放前的大多数年份,我国的消费市场常常是供不应求,许多商品要国家下达计划指标,居民凭票证购买,经常出现的问题是顾客即使有钱也难买到需要的商品,就不得不把钱存起来。这时候的储蓄就带有非自愿的性质。,44,而在1979年以后,物资逐渐丰富,商品的买卖也取消了票证的限制,消费者储蓄的主要目的之一是购买高档耐用消费品，储蓄不再具有“被迫”的性质。,45,为了验证城镇居民的储蓄行为是否有显著变化,可以建

15、立下面的截距和斜率同时变动模型。,（8.24）,式中,St和Xt仍代表人均储蓄和人均收入,D为虚拟变量，,46,用最小二乘法估计式(8.24),可以得到,（8.25）,47,其中,参数估计值下面括号中的数字为统计值。显然,在1979年前后储蓄模型的截距和斜率有明显差异。式(8.25)可以写为两个方程,（8.26）（8.27）,48,由以上模型可知，我国城镇居民的边际储蓄倾向在1979年以前仅为0.004,也就是收入增加1元,储蓄平均增加4厘;而从1979年到1985年这段时间,城镇居民的边际储蓄倾向增至0.256。,49,然而,在式(8.23)中得到的边际储蓄倾向却是0.17。很明显,式(8.

16、23)既不代表改革开放之前城镇居民的消费行为,也不能正确描述1979年以后城镇居民储蓄与收入之间的关系。,50,我们单从模型的拟合也可以看出引进虚拟变量可以改善估计效果。式(8.23)中的随机误差项存在正自相关(DW=0.398),拟合优度效果也不太好(R2=0.833)。引入虚拟变量后的模型消除了自相关(DW=1.67),判定系数也上升到0.967。所以,虚拟变量的引入很有必要。,51,二、多个质的因素的虚拟变量模型,我们讨论的回归模型只包括一个质的因素，但是在很多情形下,往往有两个以上的质的因素影响回归模型的被解释变量。例如,在考察居民的食品消费行为时,可以考虑的质的因素有居民的性别、民族

17、、受教育程度、地理区域等等。,52,再如,除收入水平外,冰琪凌消费量还会受到季节和地区等质的因素影响。这些质的因素可能不仅仅改变模型的截距和斜率,质的因素之间也往往有相互影响。例如,高收入水平和低收入水平的居民在家电消费量上的差异会随着季节不同而改变的。为了方便,我们建立以下简单的食品消费模型。,53,（8.28）,54,式(8.28)中,Ct和At分别表示居民的食品消费和居民的收入,D1,D2，D3,D4，D5是虚拟变量，分别表示性别因素、年龄因素和学历因素。性别因素只有两个特征男和女，设一个虚拟变量D1。,55,年龄分为三个层次，25岁以下、25到50岁和50岁以上，设二个虚拟变量D2和D

18、3。受教育程度分为三个层次,初中以下、高中和高中以上,设二个虚拟变量D4 和D5。模型中还有虚拟变量之间的乘积，考虑了截距项的各种变化可能。,56,Di取值不同，截距不同，如：,其余的依次类推。6 和 7 为性别和年龄层次的相互影响系数。采用通常的统计检验方法对各种可能的情况进行检验。,57,例如，如果 1 在统计上显著说明性别这个质的因素会明显影响食品的消费量。同时，2 在统计上显著，就表明25岁以下居民在食品消费上和别的层次的居民是有显著差异的，那么年龄也会是个很重要的影响因素。,58,上述假定虚拟变量仅仅影响回归模型的截距，由此可以推广到更一般的情形，也就是虚拟变量同时改变回归模型的截距

19、和斜率，那样考虑得更周全，但是也会更复杂，在这里我们不作讨论。,59,第三节变参数模型和分段回归,一、变参数模型,从上一节的讨论可知，由于引入了虚拟变量，回归模型的截距或斜率不再是固定不变的。但是模型中参数的变化是离散的，而不是连续的。,60,例如，在式（8.24）中，只是假定在1979年以前和1979年以后两个时期城镇居民有不同的消费行为，也就是说，回归模型的截距和斜率并不是每年都发生变化。变参数模型是虚拟变量模型的推广，它认为回归模型的截距或斜率会随着样本观察值的改变而系统地改变。,61,（一）截距变动模型系统变参数模型也可以分为截距变动模型和截距、斜率同时变动模型。设线性回归模型为,

20、(8.28),62,式中，X=解释变量，Y=被解释变量。如果的变化为非随机的，而且这种变化完全由外生变量决定，那么式（8.29）就是一个非随机变参数模型。,63,我们观察到截距项和我们前面的虚拟变量模型的截距项有所不同，下面多了一个下标t。这就是说，虽然回归模型斜率在整个样本时期保持不变，但是截距项是随着时间的变化而变化的。,64,1t定义如下,（8.30）,式中，0和1 为我们要求的参数，也可以称为“超参数”，Zt 是用来解释 1t 变动情况的外生变量将式（8.30）代入式（8.29）中，整理得到,65,（8.31）,可用最小二乘法对式（8.31）中的超参数和其它参数一并进行估计。如果Zt

21、为虚拟变量，那么式（8.31）就是一个虚拟变量模型，而且是一个截距项变动斜率不变的模型。因此，虚拟变量模型是变参数模型的一种特殊形式。,66,（二）截距和斜率同时变动模型和虚拟变量模型的思路一样，再来讨论斜率和截距同时存在系统变动的情况。我们只需要在式（8.31）的基础上进行改进。将换为，且假定有如下关系式：,（8.32）,67,将式（8.32）代入式（8.31），则有,（8.33）,68,以上模型只假定 1t 和 2t 存在系统变化，实际上还有很多参数都可能存在这种变化，甚至可能存在1t 和 2t 等系数有可能不是线性变化的，也就是说超参数本身可能不为常数。这种情况只是在理论上提出来，实际

22、操作会因为太复杂而没有太多的应用。,69,用最小二乘估计得到式（8.33）中的参数估计值后，就可以对参数是否存在系统变化进行统计检验。如果1和b1在统计上不显著，就可以把 1和 1看作常数；否则，我们认为 1 和 2 存在系统变化。,70,显然，如果错误地把 1 和2 当作常数，就等同于错误地解释了经济变量之间的关系。此外，由于相当于省略了重要的解释变量 Zt 和 Wt，还可能会产生自相关等问题。,71,（三）应用案例【例8.3】众所周知，我国居民的消费行为在经济体制改革开放前后存在巨大差异。但是，在这期间居民的消费行为是否也在不断变化？我国的经济体制改革走的是一条渐进的道路，与居民消费有关的

23、诸多因素必然会随着改革开放的不断推进而逐步改变。,72,这些变化对居民消费的影响主要有三个方面：第一、观念的变化。与改革开放初期相比，我国居民的观念已经发生了深刻的变化。人们的市场意识、风险意识、对通货膨胀的心理承受能力等均大大增强；对“铁”饭碗的依赖思想已明显减弱。,73,第二，消费者的经济决策权逐渐扩大，消费品市场供给日益丰富；劳动力市场的建立使人们有越来越多的择业机会；居民金融资产的迅速积累，使消费者可以在一定时间范围内提前或延期消费。,74,第三，不确定因素增多。随着市场因素的增多，经济生活的不确定因素也在增加。例如，职工的实际收入已不再是完全“刚性”，个人的实际收入可能会因为通货膨胀

24、、企业经济效益下降而减少。不确定因素的增加，迫使消费者在安排消费时更多顾及长远利益，消费行为渐趋向理性。,75,综上所述，我们似乎没有理由认为居民消费行为在1979年以后是固定不变的。但是这种变动是否显著？变动趋势是怎么样的？这一切还需要用系统变参数模型加以验证。,76,利用1980年至1993年我国城镇居民家庭收支调查资料，我们建立一个简单的系统变参数模型：,（8.34）,式中，Xt和Yt分别代表城镇居民家庭某年人均实际收入和人均实际支出（以1980年的价格水平为100，从收入和支出中分别扣除价格上涨因素的影响）。t=年份，ut=随机误差项。,77,注意到模型的截距1t 和边际消费倾向 2t

25、是随着时间的推移而不断变化的，也就是说，消费与收入的关系是逐年变化的。引起 1t 和 2t 变化的因素中有许多是不可观测或难以度量的，所以无法把这些因素作为解释变量直接引入模型。,78,因此，我们可以用时间序号T 来代表这些因素。假定 1t 和 2t 的变化可以由下面的关系式来表示：,（8.35）（8.36）,79,将式（8.35）和式（8.36）代入式（8.34），得到,（8.37）,80,用最小二乘法估计式（8.37）的参数，得到参数估计值后，可以对a1,a2和b1,b2进行统计检验。如果a1,a2和b1,b2部分或全部显著地不为零，则表明在经济体制改革期间消费模型参数存在系统的变化；反

26、之，就认为消费模型在改革期间是稳定的。,81,经试算发现a0,a1,a2和b1在统计上都不显著，所以把模型确定为,（8.38）,（8.39）,用最小二乘法估计式（8.38），得到结果如下,82,（8.40）,式（8.40）中，参数估计值下面括号中的数字是统计值。由R2和DW值可知，模型对消费支出Yt变化的拟合程度很好，而且不存在自相关问题。,83,估计和检验结果表明：b2在统计上是高度显著的，从而证明我国城镇居民的消费行为在改革期间是不断变化的。由=-0.0004可知，我国城镇居民的边际消费倾向呈下降趋势，这一结果与改革以来居民金融资产迅速增加的事实相吻合。,84,边际消费倾向的变动曲线为,（

27、8.41）,从这一曲线可以看出，在改革的头几年边际消费倾向下降的速度很慢，随后下降速度逐渐加快。,85,1982年对应的T值为2，由上式可以计算出，1982年的边际消费倾向为0.9738，比1981年下降0.0012；而1992年对应的T值为12，边际消费倾向为0.9178，比较而言，比1991年下降了0.0092。,86,如果忽略居民消费行为的变化，将模型设定为,（8.42）,则估计结果为,（8.43）,87,显然，虽然模型的拟合优度很高，但是由于边际消费倾向是固定不变的，模型（8.43）错误的描述了消费和收入的关系。而且，如果将其用于预测，随着时间的推移误差会越来越大。,88,在前面的内容

28、，我们都是用虚拟变量代表质的因素。但在有些情况下，虚拟变量也可以代表量的因素，分段线性回归就属于这种类型。,二、分段回归,89,在经济关系中常有这样的情况：当解释变量X的值达到某水平 X*之前，与被解释变量Y 之间存在某种线性关系；当解释变量X的值达到或超过X*以后，与被解释变量的关系就会发生变化。此外，如果已知X 的转折点X*，我们就可以用虚拟变量来估计每一段的斜率。这就是分段线性回归。,90,【例8.4】在1979年以前，我国居民的消费支出呈缓慢上升的趋势，从1979年开始，居民消费支出为快速上升趋势。显然，1979年是一个转折点，即 X*=1979。于是，可以用以下模型描述我国居民在19

29、55年至1985年期间消费支出的变动趋势。,91,（8.44）,式中，Yt为某年的消费支出，t为年份（t=1955，1956，1985）,D为虚拟变量，满足,（8.45）,92,于是，两个不同时期的消费趋势为,（8.46）（8.47）,在1979年以前，回归模型的斜率是1，而在1979年之后回归模型的斜率则为(1+2)。如果在 2 统计上是显著的，则表明1979年以后消费支出趋势发生了明显变化。,93,【例8.5】例8.4中X只有一个转折点，但在某些情况下，解释变量存在多个转折点。例如，职工收入与职工年龄有关。一般而言，年龄大的职工收入高于年龄小的职工。但是，在不同年龄段收入与年龄的关系是不同的。为了方便，我们仅考虑3个年龄段：18岁以下、18岁至22岁、22岁以上。,94,显然，18岁和22岁都是转折点。事实上，18岁和22岁分别为多数人的高中及大学毕业年龄。因此，不同年龄段实际上也代表不同文化水平。设Yi为收入，Xi为年龄，=18，=22，可以建立以下回归模型,95,其中，D1和D2都是虚拟变量，而且有,（8.48）,假定E(ui)=0，我们有,96,这里,1 为18岁年龄段以下的斜率，(1+2)和（1+3）分别为18岁到22岁和22岁以上年龄段的斜率。,（8.48）,

展开阅读全文