调查数据分析二元Logistic回归.ppt

上传人:牧羊曲112 文档编号:5318286 上传时间:2023-06-25 格式:PPT 页数:59 大小:2.42MB
返回 下载 相关 举报
调查数据分析二元Logistic回归.ppt_第1页
第1页 / 共59页
调查数据分析二元Logistic回归.ppt_第2页
第2页 / 共59页
调查数据分析二元Logistic回归.ppt_第3页
第3页 / 共59页
调查数据分析二元Logistic回归.ppt_第4页
第4页 / 共59页
调查数据分析二元Logistic回归.ppt_第5页
第5页 / 共59页
点击查看更多>>
资源描述

《调查数据分析二元Logistic回归.ppt》由会员分享,可在线阅读,更多相关《调查数据分析二元Logistic回归.ppt(59页珍藏版)》请在三一办公上搜索。

1、许多社会科学的观察都只分类而不是连续的比如,政治学中经常研究的是否选举某候选人;经济学研究中所涉及的是否销售或购买某种商品、是否签订一个合同等等这种选择量度通常分为两类,即“是与“否”在社会学和人口研究中,人们的社会行为与事件的发生如犯罪、逃学、迁移、结婚、离婚、患病等等都可以按照二分类变量来测量。,分类变量分析通常采用对数线性模型(Log-linear model),而因变量为二分变量时,对数线性模型就变成Logistic回归模型.logistic回归是一个概率型模型,因此可以利用它预测某事件发生的概率。例如在可以根据消费者的一些特征,判断购买某项产品概率有多大。,目的:作出以多个自变量估计

2、因变量的logistic回归方程。属于概率型非线性回归。,资料:1.因变量为反映某现象发生与不发生的二值变量;2.自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。,用途:研究哪些变量影响因变量,影响程度方向、大小等。,4,Logistic回归模型,一.模型的引进二.Logistic回归模型估计三.Logistic回归模型的评价四.Logistic回归系数的统计推断五.Logistic回归诊断,回归建模二元Logistic回归模型,当虚拟变量作为因变量,虚拟变量有两个取值,可使用二元Logistic回归。例:在一次有关公共交通的调查中,一个调查项目为“是乘坐公交车上下班,还是

3、骑自行车上下班”。因变量有两个取值,当取值为1,乘坐公交车上下班;取值为0,骑自行车上下班。,回归建模二元Logistic回归模型,回归建模二元Logistic回归模型,自变量(解释变量):X1:年龄,取值从18到58;X2:月收入(元),取值850、950、1000、1200、1300、1500、1800、2100;X3:性别,取值为1,表示男性;取值为0,表示女性。,8,回归建模二元Logistic回归模型,研究目的:X1,X2,X3等因素对因变量(使用什么交通方式)有无影响?建立Y与X的多元线性回归模型?,(取值0和1),9,回归建模二元Logistic回归模型,建立p(Y=1|X)与X

4、的多元线性回归模型?,(取值范围01),线性回归模型的基本假定:(1)随机误差项具有均值:(2)随机误差项具有同方差:(3)随机误差项在不同样本点之间是独立的,不存在序列相关:(4)随机误差项与解释变量(自变量)之间不相关:(5)随机误差项服从均值、同方差的正态分布,回归建模二元Logistic回归模型,1、发生概率p的大小取值范围0,1,p与自变量的关系难以用多元线性模型来描述。2、当p接近0或者1时,p值的微小变化用普通的方法难以发现和处理好。总:能不能找到一个p的严格单调函数Q,就会比较方便;同时要求Q对在p=0或p=1的附近的微小变化很敏感。,回归建模二元Logistic回归模型,13

5、,回归建模二元Logistic回归模型,Logit(P),P,14,回归建模二元Logistic回归模型,建立logit(p)与X的多元线性回归模型:,(取值范围-+),优势比(odds)机会比(odds),15,logistic回归模型,Logistic回归模型:,16,Logistic回归模型估计:极大似然估计,Logistic回归模型估计的假设条件与OLS的不同(1)logistic回归的因变量是二分类变量(2)logistic回归的因变量与自变量之间的关系是非线性的(3)logistic回归中无相同分布的假设(4)logistic回归没有关于自变量“分布”的假设(离散,连续,虚拟),L

6、ogistic回归模型估计:极大似然估计,多元回归采用最小二乘估计,使因变量的真实值和预测值差异值的平方和最小化;Logistic变换的非线性特征使得在估计模型的时候采用极大似然估计的迭代方法,找到系数的“最可能”的估计,在计算整个模型拟合度时,采用似然值。,18,Logistic回归模型估计:极大似然估计,最小二乘估计(OLS):根据线性回归模型,选择参数估计值,使得模型的估计值与真值的离差平方和最小。极大似然估计(MLE):选择使得似然函数最大的参数估计值。,19,由于各项观测相互独立,其联合分布为:,Logistic回归模型估计:极大似然估计,20,求似然函数的极大值,Logistic回

7、归模型估计:极大似然估计,21,分别对参数求偏导,然后令它等于0:求得 的估计值,从而得到(pi的极大似然估计),这个值是在给定xi的条件下yi=1的条件概率的估计,它代表了Logistic回归模型的拟合值。,Logistic回归模型估计:极大似然估计,22,Logistic 回归系数的解释,因此每个 代表当保持其他变量不变时,每单位量的增加对对数发生比的影响发生比率若发生比率1,则说明该变量增大时,则Y=1事件发生的比例也就越高。,Logistic回归模型估计:极大似然估计,24,Logistic回归模型的评价,1 拟合优度检验(Goodness of fit)1.1 皮尔逊检验1.2 Ho

8、smer-Lemeshow检验 2 Logistic回归模型的预测准确性Cox&Snell R Square指标和Nagelkerke R Square指标,拟合优度检验,Logistic回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。如果预测的值与实际观测的值越接近,说明模型的拟合效果越好。模型的拟合优度检验方法有偏差检验(Deviance)、皮尔逊(pearson)检验、统计量(Homser-Lemeshow),分别计算统计量X2D、X2 P、X2HL值。统计量值越小,对应的概率越大。原假设H0:模型的拟合效果好。模型拟合优度信息指标有:-2

9、lnL、AIC、SC。这3个指标越小表示模型拟合的越好。,类R2是预测准确性的粗略近似,在自变量与因变量完全无关时,类R2值趋近于0;当和模型能够完美预测时,类R2趋近于1.,26,2.1 Logistic回归模型的预测准确性,27,2 Logistic回归模型的预测准确性,Cox&Snell R Square指标 其中 与 表示零假设模型与所设模型各自的似然值,n为样本容量。,28,2.1 Logistic回归模型的预测准确性,然而对于logistic回归,上面定义的R最大值却小于1Nagelkerke提出一种logistic回归的调整确定系数,30,Logistic回归模型的统计推断,Lo

10、gistic回归方程的检验(对模型回归系数整体检验):似然比检验(likehood ratio test)、比分检验(score test)和Wald检验(wald test)Logistic回归系数的显著性检验:Wald检验Logistic回归参数的的置信区间 Logistic回归系数的置信区间发生比率的置信区间,31,1 Logistic回归方程的显著性检验,检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也即方程是否成立。检验的方法有似然比检验(likehood ratio test)、比分检验(score test)和Wald检验(wald test)。三种方法中

11、,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。,似然比检验(likehood ratio test),通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G(又称Deviance)。G=-2(ln Lp-ln Lk)样本量较大时,G近似服从自由度为待检验因素个数的分布。,似然比检验,当G大于临界值时,接受H1,拒绝无效假设,认为从整体上看适合作Logistic回归分析,回归方程成立。,Logistic回归系数的显著性检验,为了确定哪些自变量能进入方程,

12、还需要对每个自变量的回归系数进行假设检验,判断其对模型是否有贡献。检验方法常用Wald X2检验。,35,Logistic回归系数的显著性检验,Wald检验 该检验是基于在大样本情况下值服从正态分布的性质。其中 为 的标准误。原假设:该自变量下的回归系数=0,36,Logistic回归参数的的置信区间,Logistic回归系数 的置信区间为:发生比率的置信区间,37,二分类Logistic回归,回归建模二元Logistic回归模型,Logistic回归可直接预测事件发生的概率,若预测概率大于0.5,则预测发生(Y=1);若预测概率小于0.5,则不发生(Y=0)。,43,Logistic回归模型

13、的诊断,多重共线性的诊断异常值的诊断,44,多重共线性的诊断,相关系数矩阵容忍度方差膨胀因子由于只关心自变量之间的关系,所以可以通过线性回归得到容忍度指标。,45,异常值的诊断(一),标准化残差(Pearson残差)yj为第j个协变量组合的阳性(取值为1)观察值个数nj为第j个协变量组合的观察单位数Pj为第j个协变量组合的概率估计值一般认为残差值超过2则可能为异常点,46,异常值的诊断(二),Deviance残差其中sgn表示此式的正负号与(yj-njpj)的相同一般认为残差值超过2则可能为异常点,47,例题:高中毕业生继续进入大学学习的可能性的影响因素,如果一个高中毕业生升入了大学,则y=1

14、;如果没有升入大学,则y=0。P为高中毕业后升入大学的概率。自变量为性别Gender(1为男性,0为女性),高中类型Keysch(1为重点中学、0为普通中学),高中成绩Meangr。前两个为虚拟变量,Meangr为连续变量。Logistic回归模型为:,48,数据,49,最后的回归结果为:,分组数据的二元Logistic回归模型,例:在一次住房展销会上,与房地产商签订初步购房意向书的共有n=313名顾客。在随后的3个月的时间,只有部分顾客确实购买了房屋。购买房屋的顾客记为1,没有购买房屋的顾客记为0。以顾客的年家庭收入(万元)为自变量x,建立Logistic回归模型。,分组数据的二元Logis

15、tic回归模型,分组数据的二元Logistic回归模型,分组:9个组,不同的组别,不同的年家庭收入(万元),分组数据的二元Logistic回归模型,变换后的模型是普通的一元线性模型,分组数据的二元Logistic回归模型,利用回归模型可以对购房比例进行预测,如:当收入x=8时,有 即在展销会上与房地产商签订初步购房意向书的年收入8万元的家庭中,预计实际购房比例为59%。,分组数据的二元Logistic回归模型,回归模型的一个不足之处,异方差性没有解决。可以使用加权最小二乘。当ni较大时,ln(pi/(1-pi)的近似方差为,分组数据的二元Logistic回归模型,分组数据的二元Logistic回归模型,分组数据的二元Logistic回归模型,分组数据的二元Logistic回归模型,分组数据的Logistic回归适用大样本的分组数据,对小样本的分组数据不适用。可以用极大似然估计直接你和未分组数据的Logistic回归模型。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号