《第四章 定性变量的建模课件.ppt》由会员分享,可在线阅读,更多相关《第四章 定性变量的建模课件.ppt(118页珍藏版)》请在三一办公上搜索。
1、第四章 定性变量的建模 背景,定类与定序变量统称为定性变量在经济领域,许多重要因素都需要使用定性数据加以刻画: 经济体制(改革前-改革后)、所有制形式(国有-集体-外资等等)、区域(东-中-西)、性别(男-女)、信用等级自变量采用定性数据,在量化与解释上要十分注意,因变量如果采用定性数据,会给模型的估计与解释带来更大的困难。,背景,本章的研究对象是定性变量无论是定类还是定序,处理方法是一致的但,当定序变量的水平很多时,可以当定量变量处理 例:大学排名,背景,定性变量的水平可以是自然的,也可以是人为规定的 自然的:性别 人为规定: 规定水平:相貌对工资的影响 合并水平(计量等级的退化): 地区差
2、异对人均收入的影响 大学排名对最初工资的影响,背景,有时,自变量的影响有如下模式:在某个区间内的变动,不会显著影响因变量,但区间外与区间内的不同则会有显著影响。此时直接用原始变量效果不好,则可将变量转换为水平较少的定性变量进行建模 定量变量的系数不显著,有时将其退化为定性变量就会显著。,背景,定性变量有些来自于不得已有些来自于主动,主要内容,一、定性变量作为自变量的建模方法 虚拟变量法 二、定性变量作为因变量的建模方法,一、定性变量作为自变量的建模,(一)二值变量的建模 1、二值变量的量化方法 2、回归系数的含义 3、多个虚拟变量的建模与解释 4、含虚拟变量模型的其他变化 5、Chow检验(二
3、)多值变量的建模,(一)二值变量的建模,所谓二值变量,是指变量只有两种可能取值,是某种属性或者不是二值变量可以是自然的,也可以是人为规定的 人为规定:所有制:国有企业-非国有企业,1、二值变量的量化方法,可以有三种量化方法1),1、二值变量的量化方法,2),1、二值变量的量化方法,3),1、二值变量的量化方法,使用虚拟变量(dummy variable)的基本原则0,1只是代号用0,1代入,会有较好的经济含义二值变量,只需设置一个虚拟变量,否则会出现完全共线性问题(有截距项),2、回归系数的含义,较正式的表述:,2、回归系数的含义,虚拟变量回归系数的基本含义: 不同属性模型之间的截距移动,2、
4、回归系数的含义,虚拟变量回归系数可以解释为:在其他因素水平相同的情况下,不同属性的平均差异以前数据为例,虚拟变量回归系数为67, 意味着在资本水平相同的情况下,三资企业的平均利润要高于国有及国有控股企业67亿元。在解释时,一定要注意谁是基组(取0),2、回归系数的含义,类似模型都蕴含有一个假定: 斜率是一致的,即无论对于哪一组(按虚拟变量属性划分),其它变量对因变量的影响都是一样的,3、多个虚拟变量的建模与解释,如果在自变量有两个以上虚拟变量,则可以有三类建模方法,3、多个虚拟变量的建模与解释,3、多个虚拟变量的建模与解释,第一种模型可以变化为四组方程:,3、多个虚拟变量的建模与解释,所以,虚
5、拟变量回归系数的含义:,3、多个虚拟变量的建模与解释,第二种模型也可以变化为四组方程:,3、多个虚拟变量的建模与解释,所以,虚拟变量回归系数的含义(平均意义上):,4、含虚拟变量模型的其他变化,考虑交互影响的模型显然,资本水平不同,利润会有不同,三资企业和国有企业的差异也不会都是67亿元,4、含虚拟变量模型的其他变化,在交互模型中,虚拟变量前的回归系数只表示在资本为0情况下,三资企业与国有企业的利润差距,4、含虚拟变量模型的其他变化,交互模型中虚拟变量前回归系数的经济含义不好,可以采用如下方法解决:,4、含虚拟变量模型的其他变化,4、含虚拟变量模型的其他变化,交互项的引入实际意味着非虚拟变量的
6、斜率是不一致的。,4、含虚拟变量模型的其他变化,判断是否需要交互项,可通过相应系数的t检验来进行; 要注意到:是否需要交互项等价于检验斜率是否相等;,5、Chow检验,简言之,所以需要虚拟变量,是因为在虚拟变量不同水平下,自变量对因变量的影响程度有差别,这种差别表现在截距和斜率上。判断系数是否相同的方法是使用Chow statistics进行检验。,5、Chow检验,邹至庄统计量( Chow statistics )检验对象: 两个变量相同、样本不同的模型的回归系数是否相同。,5、Chow检验,检验统计量:,5、Chow检验,判断规则 如果样本F值大于临界值,则可拒绝原假设,认为各回归系数(包
7、括截距项)中至少有一个系数不同。如果不能,则两组样本可以合并,统一建模。,如果允许截距不同,仅需要判断斜率是否相同,办法是: 在模型中设置交互项,检验所有交互项的联合显著性,如果不能拒绝原假设,应认为斜率无显著差异。,(二)多值变量的建模,多值变量意味着虚拟变量有3个以上取值, 如考虑季节的影响,则季节有四个水平。,(二)多值变量的建模,正确量化方法,(二)多值变量的建模,基本原则:只用0,1来量化,0,1只表示真或不真只需设置比水平数少一个的虚拟变量,(二)多值变量的建模,基本解释 每个虚拟变量前的系数都表示和基组(不专设虚拟变量的组)相比,在因变量上的平均差异。,(二)多值变量的建模,对于
8、定序变量而言,由于水平之间的差值依然没有意义,所以,上述方法仍然适用。,(二)多值变量的建模,有时,某定性因素的多个虚拟变量在统计上都不显著,但这并不意味着该因素就一定是不显著的,此时联合检验将发挥关键作用。,要点,自变量中定性变量的回归系数,在解释上与定量变量有很大不同,此时判定系数含义,主要不使用导数,而是依靠将定性变量代入,计算不同方程之间的差别。,二、因变量为定性变量,线性概率模型(LPM)Logit模型Probit模型Tobit模型,(一)线性概率模型,Linear Probability Model,(一)线性概率模型,线性概率模型的解释,(一)线性概率模型,线性概率模型的问题 1
9、、异方差 2、常规检验失效 3、函数设定不当 4、易出现无法解释的结果,异方差,函数设定不当,线性概率模型是线性的,而实际是非线性关系,函数设定不当,易出现无法解释的结果,由于函数形式设定不当,预测时很难避免出现得到的Y值大于1或小于0的情况,为结果的解释带来困难。,解决思路,(二)Logit模型,又称Logistic模型,该模型克服了线性概率模型的取值范围的弱点。,(二)Logit模型,(二)Logit模型,(二)Logit模型,(二)Logit模型,(二)Logit模型,1、模型的解释2、模型的数据与估计3、模型的检验4、累积模型与多项模型,1、模型的解释,1、模型的解释,发生比和发生比率
10、(Odds and Odd Ratio)发生比率是为了比较发生比而提出的指标,1、模型的解释,计算发生比与发生比率,1、模型的解释,自变量为定量变量的解释,1、模型的解释,发生比的相对变化率,1、模型的解释,自变量为定量变量的解释 回归系数的指数表示在其他因素不变情况下,相应自变量增加1个单位,发生比变化的幅度与方向,即发生比率。 价格上升1单位,发生比率为0.9564,即需求超过100的发生比下降,变化率为-4.36%,1、模型的解释,自变量为定量变量的解释 需要了解自变量发生一个离散的变化,如价格下降100元时,发生比的变化。,1、模型的解释,自变量为虚拟变量的解释,1、模型的解释,自变量
11、为虚拟变量的解释,1、模型的解释,自变量为虚拟变量的解释 回归系数的指数表示在其他因素不变情况下,两种属性在发生比上的差异。 高等级与低等级,发生比率为57.76,即高等级产品需求大于100的发生比为低等级的57.76倍,2、模型的数据与估计,进入模型的数据分为两类: 微观数据 分组数据,2、模型的数据与估计,微观数据,2、模型的数据与估计,分组数据,2、模型的数据与估计,对于微观数据,最小二乘法是无用武之地的。,2、模型的数据与估计,对于分组数据,为避免异方差,可以使用加权最小二乘 关键在于同一分组有几个数据,可以计算概率,2、模型的数据与估计,对于微观数据,一般采用极大似然估计 (Maxi
12、mum Likelihood Estimation,MLE)基本思想 假定一枚硬币,其抛掷后为正面的真实概率有两种可能取值:0.1和0.01,如果做一次试验,结果为正面,则应估计概率为0.1。,2、模型的数据与估计,MLE的基本思想,2、模型的数据与估计,在Y为二分变量的情况下,服从贝努里分布,得到一个观测值的概率为:,2、模型的数据与估计,为便于计算,取对数:,2、模型的数据与估计,2、模型的数据与估计,极大似然估计主要适用于大样本(100以上基本可以)当大样本情况下,MLE将具有一致性、渐近有效性和渐近正态性等优良性质。,2、模型的数据与估计,分组数据:加权最小二乘法 用根据样本获得的频率
13、来代替概率,获得对数发生比,进行计算。,2、模型的数据与估计,2、模型的数据与估计,2、模型的数据与估计,由此可知,方差的估计为:,3、模型的检验,模型整体的评价拟合优度拟合准确性模型卡方统计参数的检验,3、模型的检验,模型整体的评价(1)拟合优度 Hosmer-Lemeshow指标 AIC SC,(1)拟合优度,Hosmer-Lemeshow指标 将预测概率值按升序排列,根据预测概率值的大小将数据分成大致相同规模的10个组,由于有相同预测概率的数据必须放在同一组中,所以各组规模一般不会相同,由于同样的原因,也有可能无法分成10组。,(1)拟合优度,Hosmer-Lemeshow指标,(1)拟
14、合优度,Hosmer-Lemeshow指标 决策规则:如果HL小于临界值,不显著,则表示模型拟合数据 注意:如果分组少于5,则不能使用这一指标。,(1)拟合优度,AIC(Akaikes information criterion),(1)拟合优度,SAS当中AIC的定义只能用以比较同一数据的不同模型,(1)拟合优度,SC(Schwarts criterion)AIC和SC都是越小越好的,(2)拟合准确性,类R2指标(Analogous R2),(2)拟合准确性,等级相关评价 用类似肯达尔系数的方法观察所有因变量不同值的观测数据对。 Concordant:如果值为1的预测概率大于为0的,为con
15、cordant ; Discordant:如果值为1的预测概率小于为0的,为discordant ; Tie:如果值为1的预测概率等于为0的,为tie ;,(2)拟合准确性,例:,(2)拟合准确性,因变量不同值的总对数:6 (取0值样本数乘以取1值样本数)concordant:5对discordant:1对tie:0对,(2)拟合准确性,一致对比例越大越好,基于极大似然估计的检验,似然比检验(likelihood ratio)Wald检验Lagrange乘数检验( Lagrange multiplier),基于极大似然估计的检验,似然函数原假设或者理解为对参数估计的约束条件,基于极大似然估计的
16、检验,基于极大似然估计的检验,似然比检验的统计量(大样本),基于极大似然估计的检验,Wald检验的统计量,基于极大似然估计的检验,Lagrange乘数检验,基于极大似然估计的检验,一般的结果 WLRLM,(3)模型卡方统计,所谓模型卡方是指零假设模型与所设模型在-2倍对数似然值上的差距,回归系数的检验,Wald检验,4、累积模型与多项模型,当因变量分类数须在3个以上时,可以使用累积Logit模型(Cumulative Logit Model)或多项模型(Multinomial Logit Model)前者适用于定序变量,后者适用于分类变量,4、累积模型与多项模型,多分类定序变量 成绩:(优、良
17、、中、差) 态度:(强烈反对、反对、中立、支持、强烈支持) 需求:(大于200、大于100、不到100) 信用、股票表现等等,4、累积模型与多项模型,有学者认为,当分类超过5个,可以当定量变量处理但由于定序变量差距的含义始终是无意义的,所以即使超过5个,也会产生误导,4、累积模型与多项模型,累积模型的定义,4、累积模型与多项模型,核心思想: 构造一个隐变量,它是一个连续变量,而将实际变量理解为这个隐变量的一个外在的表现。,4、累积模型与多项模型,给定X的累积概率可以按如下形式表示:,4、累积模型与多项模型,采用Logistic函数(为一种分布函数),则模型可以表示为:,4、累积模型与多项模型,
18、假如J=4:,4、累积模型与多项模型,不同Logit函数之间 斜率相同 截距不同所以,使用累积模型需要检验不同累积对数发生比的回归线是否平行,非截距项是否相同,4、累积模型与多项模型,例:注意: 对SAS而言,系数不要乘以负号; 截距不表示门槛,是门槛与截距项之和。,4、累积模型与多项模型,获得对数发生比,可以推出累积概率,进一步可以推出特定类别的概率。,4、累积模型与多项模型,4、累积模型与多项模型,如果为分类变量,或者拒绝了斜率相同假设,还可以使用多项模型在多项模型中,logit的it是指两种属性水平的发生比多项模型中,每一模型不仅截距不同而且斜率也不一样。,(三)其他广义线性模型,Probit模型 用标准正态分布的累积分布函数代替Logistic函数,(三)其他广义线性模型,robit模型的系数和logit模型不具有可比性,一般认为,probit模型的系数乘以1.84,就可以得到logit模型系数的近似值,也有人认为,应乘以1.6。,(三)其他广义线性模型,Tobit模型 适用于截取样本(Censored sample),例如 在正值区间为连续变量,但总体中有相当部分取值为0的情况,