《一般离散因变量模型和面板离散因变量模型课件.ppt》由会员分享,可在线阅读,更多相关《一般离散因变量模型和面板离散因变量模型课件.ppt(40页珍藏版)》请在三一办公上搜索。
1、如果回归模型的解释变量中含有定性变量,则可以用虚拟变量进行处理。在实际经济问题中,被解释变量也可能是定性变量。如通过一系列解释变量的观测值观察人们对某项动议的态度,是否签订合同。对某一商品是否购买(汽车或房子),某件事情的成功和失败,求职者对某种职业是否接受或者拒绝,那么这种选择就可以用1或者0来表示,这与解释变量的虚拟变量一样,只不过这里的变量为被解释变量,建模过程就较为复杂。当被解释变量为定性变量时怎样建立模型呢?这就是要介绍的二元选择模型或多元选择模型。这里主要介绍Tobit(线性概率)模型,Probit(概率单位)模型和Logit模型。,1Tobit(线性概率)模型Tobit模型的形式
2、如下,Yt=+Xt+t(1)其中t为随机误差项,Xt为解释变量,和 为待估计的参数。Yt为二元选择变量。此模型由James Tobit提出,因此得名。如利息税、机动车的费改税问题等。设,例如有如下数据,其X和Y的散点图为:,obsXY132112351033610438105340164210743508490194830105101115230125640135450145781155941,对Yt取期望,E(Yt)=+Xt(2)下面研究Yt的分布。因为Yt只能取两个值0和1,所以Yt 服从二项分布。把Yt的分布记为:pt=P(Yt=1)1-pt=P(Yt=0)则:E(Yt)=1P(Yt=1
3、)+0P(Yt=0)=pt=P(Yt=1)(3)由(2)和(3)式有 pt=P(Yt=1)=+Xt(4)其中Yt的样本值是0或1,而预测值(拟合值)是概率。因此模型(2)称为线性概率模型.,以pt=-0.2+0.05Xt 为例,说明Xt 每增加一个单位,则采用第一种选择(Yt=1)的概率增加0.05。假设用这个模型进行预测,当预测值落在 0,1 区间之内(即Xt取值在4,24 之内)时,则没有什么问题;但当预测值落在0,1 区间之外时,则会暴露出该模型的严重缺点。因为概率的取值范围是 0,1,所以此时必须强令预测值(概率值)相应等于0或1(见下图)。,采用线性回归的方式来构建二元选择模型,会导
4、致如下问题:(1)、模型的随机误差项不能满足同方差的假设,因为线性概率模型的随机误差项的方差不是一个常数,因此不能用OLS来估计模型,线性概率模型往往使用极大似然法估计参数,有关极大似然法的推导见书P238-239。logistic回归参数的极大似然估计具有如下性质:一是极大似然估计为一致估计。二是极大似然估计是渐进有效的,当样本容量较大时,极大似然估计的方差小于其它方法的方差。三是极大似然估计为渐进的正态分布。因此变量的显著性检验是采用Z统计量。(看相关的书:赵卫亚著计量经济学,机械工业出版社,2008年9月,p188-189)。,(2)、线性概率模型要求Yt的取值落入0,1内,但是模型参数
5、估计后,,(3)、在线性概率模型 P(Yt=1)=+Xt中,模型假设Yt=1的概率随Xt的变化而线性变化,这个假设通常与实际情况不相符。以家庭购买汽车为例,当某个家庭的年收入X很低时,即便给予这个家庭一定幅度的增加收入,其购买汽车的概率也不会比原来增加多少,当某个家庭的年收入X很高时,因本来其购买汽车的概率就很大,即便再给予这个家庭一定幅度的增加收入,其购买汽车的概率也不会比原来增加多少,通常情况是:当X很大或者很小时,P(Yt=1)的变化均较缓慢,而当X取其它值时,P(Yt=1)的变化较快,P(Yt=1)与Xt不是线性关系,如下图,因此必须要寻求符合这样非线性关系的模型。,基于线性概率模型上
6、述缺点,希望能找到一种变 换,使模型满足如下条件:(1)使解释变量Xt所对应的所有预测值(概率值)都落在(0,1)之间。(2)同时对于所有的Xt,当Xt增加时,希望Yt也单调增加或单调减少。显然累积概率分布函数F(Zt)能满足这样的要求。采用累积正态概率分布函数的模型称作Probit模型。用正态分布的累积概率作为Probit模型的预测概率。另外logistic函数也能满足这样的要求。采用logistic函数的模型称作logit模型(服从Logistic分布)。,仍假定:Yt=+Xt,即Yt 服从正态分布,其累积概率分布函数曲线在pt=0.5附近的斜率最大。对应Yt在实轴上的值,相应概率值永远大
7、于0、小于1。显然Probit模型比Tobit模型更合理。Probit模型需要假定Yt 服从正态分布。,该模型是McFadden于1973年首次提出。其采用的是logistic概率分布函数。其形式是:,对于给定的Xt,pt表示相应个体做出某种选择的概率。,Probit曲线和logit曲线很相似,logit曲线近似于自由度为4的t分布曲线。两条曲线都是在pt=0.5处有拐点,但logit曲线在两个尾部要比Probit曲线厚。而且logit曲线计算上也比较方便,所以Logit模型比Probit模型更常用。,对logit曲线模型(6)式作如下变换:,其中pt=P(Yt=1),由上式知回归方程的因变量
8、是对数的某个具体选择的机会比(概率比)。回归系数是“对数发生比率”。相应地,Exp()是“发生比率”,以1 为临界值,根据变量类型的不同有相应的解释。自变量的发生比率是相对于参照组而言的。当发生比率大于1 时(系数为正时),表明其对应的自变量(相对于参照组而言)对结果(pt=P(Yt=1)出现的概率有积极影响,且值越大,积极影响越强;当发生比率小于1 时(系数为负时),表明其对应自变量对结果出现概率有消极影响,且值越小,消极影响越强。,logit模型的一个重要优点是把在 0,1 区间上预测概率的问题转化为在实数轴上预测一个事件发生的机会比问题。logit累积概率分布函数的斜率在这pt=0.5时
9、最大,在累积分布两个尾端的斜率逐渐减小。说明相对于pt=0.5附近的解释变量Xt的变化对概率(P(Yt=1)的变化影响较大,而相对于pt接近0和1附近的Xt值变化进一步对概率的变化影响较小(即原来取Y=1或Y=0的概率变化不大)。,南开大学国际经济研究所1999级研究生考试分数及录取情况见下页数据表(N=97)。定义变量SCORE=考生考试分数;Y:考生录取为1,未录取为0;虚拟变量D1:应届生为1,非应届生为0。数据文件为:二元离散模型例1.dta。,数据表,得Logit模型估计结果如下命令:logit y score d1,因为D1的系数没有显著性。说明“应届生”和“非应届生”不是决定是否
10、录取的重要因素。剔除D1。得Logit模型估计结果如下:,如何分析?每增加一分,录取的概率pt增加多少?注意是Z统计量,而不是T统计量。,拟合值图为:Logit模型预测值,拐点坐标(358.7,0.5),说明358.7分以上录取概率大。,选取Probit模型:在估计Probit模型过程中,D1的系数也没有显著性。剔除D1,Probit模型最终估计结果是:拐点坐标(358.5,0.5),说明358.5分以上录取概率大。,两种估计模型的部分预测结果如下表,,例题见P245,某商业银行从历史贷款客户中随机抽取78个样本,根据抽设计的指标体系分别计算它们的商业信用支持度(记为XY)、市场竞争地位等级(
11、记为SC)和是否决定贷款(记JG)。数据文件为:二元离散模型例2.dta,研究JG与XY和SC的关系。,probit模型和logit模型的估计结果检验显示,两个模型差不多。总体拟合优度较好,但是变量的显著性较差。实证分析:如果有一个新客户,把他的XY和SC资料代入到模型中,就可决定是否贷款。,例3 关于测度哈萨克斯坦居民贫困程度的二元选择模型(作者:国际粮食政策研究所的Surech BABU和heValerie RHOE,世界野生生物基金的William Reidhead),自1991年哈萨克斯坦脱离前苏联独立以来,哈萨克斯坦居民贫困程度加剧。GDP平均每年下降6.9%。从一个粮食纯输出国变成
12、了一个粮食进口的国家。1997年的畜牧业产量也比1992年下降了30%。据调查全国平均15.8%的学龄前儿童处于发育不良状态。调查后划定每人每天消费不足79.87坚戈(tenge,哈萨克斯坦货币单位)的为贫困(Yt=1),高于79.87坚戈的为非贫困(Yt=0)。共找到9个影响贫困程度的解释变量,建立Logit二元选择模型,得估计结果如下:,注:带*号为显著性在1%以上.每人每天消费不足79.87坚戈的为贫困(Yt=1),高于79.87坚戈的为非贫困(Yt=0)。如何分析结果?,例4:农户劳动力的非农就业模型。,本文的主要考察天津市农村居民家庭的劳动力非农就业的主要因素,尤其重点考察教育程度的
13、影响。影响因素:1、在劳动力市场发育相对成熟的条件下,教育可以提高劳动力非农就业的概率,及劳动力教育程度越高,非农就业的机会越多,非农就业的倾向也就越高。2、农村居民家庭所在地区的区位条件,在其他条件保持不变的条件下,离中心城市越近,非农产业越发达,提供的就业机会就越多,同时农户进入非农产业就业的成本也越少,这样家庭中的劳动力进入非农业就业的可能性也越大。3、被调查调查对象所在村镇的乡镇企业的发达程度直接影响农村居民的非农就业。乡镇企业越发达,农村居民非农业就业的概率越高,反之就越低。4、农户拥有生产资料情况也是影响其劳动力非农就业的重要因素。其中,如果其他条件相同,则非农业生产性固定资产越多
14、,则农户中劳动力的非农业就业倾向越大。而农业生产性固定资产对劳动力非农就业倾向影响比较复杂,如果农户所拥有农业生产性固定资产属于有劳动力替代型的,则它与劳动力非农就业倾向之间的关系是正相关的,反之如果属于劳动力互补型的,则它与非农就业倾向之间存在着负相关关系。5、农户所拥有的耕地的数量影响其非农就业的倾向,在我国现有的农业现代化程度比较低的条件下,耕地越多意味着农户必须将更多的劳动力分配到农业生产中,因此农户劳动力的非农就业倾向越小,反之,耕地越少则非农就业的倾向越高。6、家庭结构也是影响农户劳动力非农就业的重要因素,家庭负担越轻,劳动力从事非农就业的倾向越大。,根据上述分析,我们构建了如下的
15、计量模型:F=C+1DQCODE+2NGDZC+3FGDZC+4XZQY+5GD+6FDINDEX 其中:F为因变量,代表农户中是否有非农业就业的劳动力,如果有取1,没有则取0;DQCODE为地区代码,如果被调查对象属于滨海三区和四郊取1,否则取0;NGDZC代表农户所拥有的人均农业生产性固定资产的价值;FGDZC代表农户拥有的人均非农业生产性固定资产的价值;XZQY代表农户所在村镇乡镇企业的个数;GD代表农户家庭人均拥有的耕地的数量;FDINDEX代表家庭结构的劳动力负担系数;schoolk代表变量农户拥有的不同教育程度的劳动力的人数,其中school1代表家庭中文盲或识字很少的劳动力的人数
16、;school2为家庭中小学文化程度的劳动力的人数;school3为家庭中具有初中文化程度的劳动力的人数;school4为高中文化程度的劳动力的人数;school5为中专文化程度的劳动力的人数;school6大专以上文化程度的劳动力的人数。,将被调查的样本将数据输入计算机得到上述计量模型,具体结果见下表中的模型。,自变量的边际影响为其系数除以该自变量的样本标准差。,模型包含了全部样本在内,模型只包含了五县的样本,模型只包含了四个近郊和滨海三区的样本,结果显示,教育程度school对劳动力的非农业就业倾向有着非常明显的作用,估计系数显示,除文盲外,随着教育程度的提高,农户中的劳动力从事非农就业的
17、倾向越大。区位因素DQCODE和当地乡镇企业XZQY的发达程度对农户的劳动力从事非农就业产生了明显的促进作用。农户拥有农业生产固定资产NGDZC对其农就业的影响是负的,而非农业生产性固定资产FGDZC的影响则是正的。这表明农户的资产存量对其非农就业的影响是双向的,具体的情况主要取决于资产的种类。同时,农户拥有的耕地数量GD对其非农业就业的影响是负的,这表明我国农业生产的产业化程度还比较低,农业生产方式还具有劳动密集型的特点。劳动力负担系数FDINDEX对非农业就业未产生显著的影响。之所以如此的主要原因在于,在农村老人往往更多地承担起了照顾孩子的责任。劳动力的负担并未成为制约农户劳动力非农就业的
18、主要因素。这一点与其他学者的研究结论类似。,从各因素的边际影响程度看,教育程度的提高对农户劳动力非农就业倾向变动的影响程度逐渐增大。每增加一名大专及以上school6教育程度的劳动力,农户中劳动力非农就业的概率就增加59.36%;其次是中专为24.7%;再次是高中为21%;文盲排在第四位,为17.22%;初中排在第五位,小学的边际影响程度最小。在其他正向因素中,区位变动DQCODE对农户非农就业概率变动的影响最大,农户从远离中心城市的边远农村迁入周边的近郊,其非农就业的概率会增加13%左右。乡镇企业XZQY的因素次之,当地每增加一个乡镇企业,农户劳动力非农就业的概率会增加3%以上。农户拥有非农
19、业生产性资产存量FGDZC的影响很小,每增加1000元的人均非农业生产性资产,农户非农就业的概率增加不足1%。在其他制约农户劳动力非农就业的因素中,耕地GD的边际影响最大,农户的人均耕地每增加一亩,其劳动力非农就业的概率就减少2.3%。农业生产性资产存量的影响较小,农户每增加1000元的人均农业生产性资产,其劳动力的非农就业概率减少不足1%。,模型的结果表明,区位因素对农户劳动力非农就业倾向的影响非常显著。为了对比不同区位中,各因素对农户非农就业倾向的影响,我们将样本非为两组,滨海三区和四个近郊的样本为一组,五县的样本为另一组。将这两组样本分别代入上述计量模型,结果见下表中的模型和模型。,当我
20、们只将滨海三区和四个近郊的样本代入模型后,计算结果表明(模型),教育对农户劳动力非农就业概率的影响依然很显著,并且随着农户劳动力教育程度的提高,其非农就业概率也逐步增加。与全部样本的计算结果不同的是,生产性资产存量NGDZC对农户劳动力非农就业没有产生显著的影响。其原因可能在于,处于中心城市周边的四郊和滨海三区,由于其非农产业非常发达,优越的区位条件在一定程度上弱化了农户的生产性资产存量对其非农就业的影响。将五县的样本代入模型后计算结果(模型)与包含全部样本的计算结果类似,这里不再赘述。,对比模型和模型的结果表明,相对于近郊而言,教育程度对距离中心城市相对较远的农户劳动力非农就业倾向的影响更大
21、。从边际影响看,在滨海三区和四个近郊中,农户每增加一名小学、初中、高中、中专教育水平的劳动力,其非农就业的概率相应地增加8.08%、10.47%、15.52%、22.65%。而在距离中心城区较远的五县,农户每增加一名小学、初中、高中、中专和大专及以上教育水平的劳动力,其非农就业的概率相应地增加14.39%、17.15%、24.44%、58.27%、63.26%。其中中等专业技术水平的教育的影响最为明显,这意味着在边远的农村地区大力发展教育,尤其是专业技术教育对增加农户的非农就业有明显的促进作用。,我们曾经提到,目前我国农村劳动力非农就业的途径主要有三条:外出进城打工、进入本地区的乡镇和私营企业
22、和从事非农业家庭经营。接下来,我们进一步考察教育对这三种非农就业途径的影响。实证模型中自变量的选择与前文相同,只不过这里的因变量分别为农户中是否有劳动力外出打工、进入本地企业就业和是否从事非农业家庭经营。为了使结果更具有集中性,我们将全部样本中只有农业劳动力,没有非农业劳动力的样本全部剔除。将其余样本代入模型,计算结果略。,在农户外出打工的模型中,小学、初中、中专和大专及以上教育水平对农户外出打工产生了明显的促进作用,而高中教育的影响则不显著。区位因素则对外出打工的影响是负面的,距离中心城区越近,农户月容易在本地获得非农就业的机会,外出打工的倾向越小。农户所拥有的生产性资产存量的影响并不显著。
23、比较奇怪的是本地区乡镇企业的发达程度并为对农户外出打工产生显著的抑制作用。相比之下,农户人均耕地的数量明显地制约了农户外出打工。从变量的边际影响上看,就教育而言,农户每增加一名小学教育程度的劳动力,其外出打工的概率相应地增加19%;每增加一名初中教育程度的劳动力,其外出打工的概率增加15%;每增加一名中专教育程度的劳动力,其外出打工的概率增加24%;每增加一名大专及以上教育程度的劳动力,其外出打工的概率增加26%。农户的人均耕地每增加1亩,其劳动力外出打工的概率相应地减少2.3%。农户从相对边远的县城迁入近郊,其劳动力外出打工的概率减少25%。,当离散因变量取值不止一个时,就要用到多元选择模型
24、,这样现象较普遍。例如,在银行信用风险管理中,企业贷款的信用从高到低分为5个等级,正常贷款、关注贷款、次级贷款、可疑贷款和损失贷款等。则Y可以化为:正常贷款(取值0)、关注贷款(取值1)、次级贷款(取值2)、可疑贷款(取值3)和损失贷款(取值4)。又如:购买房子:有能力购买并已实现、有能力购买但没实现、想买但无能力购买、不想购买。,1.面板数据的logit模型实例:15省收入消费面板数据.dta经过处理后得到:15省收入消费面板离散因变量数据.dta2.面板数据的probit模型3.面板数据的tobit模型,clear use 15省收入消费面板离散因变量数据.dta,clear xtlogit y cp2-cp15 ip2-ip15/由probchi2=0.9942知拟合效果不好.因为y是乱取的.xtlogit y cp2-cp15 ip2-ip15 year2-year6*如果考虑到fe(固定效应)或者re(随机效应),则加上fe或re.xtlogit y cp2-cp15 ip2-ip15,re xtlogit y cp ip,fe*2.面板数据的probit模型 xtprobit y cp2-cp15 ip2-ip15 year2-year6*-*3.面板数据的tobit模型 xttobit y cp2-cp15 ip2-ip15 year2-year6,