含定性变量的回归模型.ppt

上传人:牧羊曲112 文档编号:5693109 上传时间:2023-08-10 格式:PPT 页数:82 大小:630KB
返回 下载 相关 举报
含定性变量的回归模型.ppt_第1页
第1页 / 共82页
含定性变量的回归模型.ppt_第2页
第2页 / 共82页
含定性变量的回归模型.ppt_第3页
第3页 / 共82页
含定性变量的回归模型.ppt_第4页
第4页 / 共82页
含定性变量的回归模型.ppt_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《含定性变量的回归模型.ppt》由会员分享,可在线阅读,更多相关《含定性变量的回归模型.ppt(82页珍藏版)》请在三一办公上搜索。

1、1,第9章 含定性变量的回归模型,信计学院统计系 沈菊红,2,变量的类型,间隔尺度(数值型变量),有序尺度(有次序关系),名义尺度(定性变量),(定量变量),如身高、重量等连续的量,如某产品分上、中、下三等,如医学化验中的阴性、阳性,3,对定性变量数量化:只取0和1两个值的变量称为虚拟变量。,4,虚拟变量的回归,9.1 含有一个虚拟自变量的回归9.2 用虚拟自变量回归解决方差分析问题9.3 因变量是定性变量的回归模型9.4 Logistic回归模型,5,含有一个虚拟自变量的回归,6,虚拟变量(dummy variable),用数字代码表示的定性变量虚拟变量可有不同的水平只有两个水平的虚拟变量比

2、如,性别(男,女)有两个以上水平的虚拟变量贷款企业的类型(家电,医药,其他)虚拟变量的取值为0,1,7,虚拟自变量的回归,回归模型中使用虚拟自变量时,称为虚拟自变量的回归当虚拟自变量只有两个水平时,可在回归中引入一个虚拟变量比如,性别(男,女)一般而言,如果定性自变量有k个水平,需要在回归中模型中引进k-1个虚拟变量,8,虚拟自变量的回归(例题分析),【例】为研究考试成绩与性别之间的关系,从某大学商学院随机抽取男女学生各8名,得到他们的市场营销学课程的考试成绩如右表,9,虚拟自变量的回归(例题分析),散点图,y与x的回归,10,回归方程为,11,虚拟自变量的回归(例题分析),引进虚拟变量时,回

3、归方程可写为:E(y)=0+1x男(x=0):E(y)=0男学生考试成绩的期望值女(x=1):E(y)=0+1女学生考试成绩的期望值注意:当指定虚拟变量0,1时0总是代表与虚拟变量值0所对应的那个分类变量水平的平均值1总是代表与虚拟变量值1所对应的那个分类变量水平的平均值与虚拟变量值0所对应的那个分类变量水平的平均值的差值,即 平均值的差值=(0+1)-0=1,12,虚拟自变量的回归(例题分析),【例】为研究工资水平与工作年限和性别之间的关系,在某行业中随机抽取10名职工,所得数据如右表,y与x1的回归及分析,y与x1,x2的回归及分析,13,虚拟自变量的回归(例题分析),引进虚拟变量时,回归

4、方程可写为:E(y)=0+1x1+2x2女(x2=0):E(y|女性)=0+1x1男(x2=1):E(y|男性)=(0+2)+1x10的含义表示:女性职工的期望月工资收入(0+2)的含义表示:男性职工的期望月工资收入 1含义表示:工作年限每增加1年,男性或女性工资的平均增加值 2含义表示:男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值(0+2)-0=2,14,15,16,例题分析,【例9.1】某经济学家想调查文化程度对家庭储蓄的影响,在一个中等收入的样本框中,随机调查了13户高等学历家庭与14户中低学历的家庭。因变量y为上一年家庭储蓄增加额,自变量 为上一年家庭总收入,自变量 表

5、示家庭学历。高学历家庭,低学历家庭,调查数据见下表。,17,18,19,建立 对 的线性回归,并计算残差,20,两个自变量 与 的系数都是显著的,复决定系数,回归方程为,该结果表明,中等收入的家庭每增加1万元收入,平均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少于低学历的家庭,平均少3701元。,21,如果不引入学历定性变量,用 对家庭年收入 作一元线性回归,得 说明拟合效果不好。对 的一元回归残差 见表中。,22,如果不考虑家庭年收入,13户高学历家庭的平均年储蓄增加额为3008.62元,14户低学历家庭的平均年储蓄增加额为5059.36元,高学历家庭每年的储蓄额比低学历的家庭平均少

6、5059.363008.622050.74元,而用前面的回归法算出的值是3701元,两者并不相等。3701元是在假设两者的家庭年收入相等的基础上的储蓄差值,反映了学历高低对储蓄额的真实差异。(调整后的),23,说明:虽然虚拟变量取某一数值,但这一数值没有任何数量大小的意义,它仅仅用来说明变量的性质或属性。,24,自变量中含有定性变量的回归模型的应用,25,一.回归系数相等的检验【例9.2】在例9.1中引入01型虚拟自变量的方法是假定储蓄增加额y对家庭收入的回归斜率 与家庭年收入 无关,只影响。该假定是否合理,需作统计检验。检验方法是引入含交互效应的回归模型,(9.1),回归模型(9.1)可以分

7、解为如下的两个线性回归模型 高学历家庭,低学历家庭,(9.2),(9.3),26,要检验两个回归方程的回归系数相等,就是检验,当拒绝 时,认为,这时高学历与低学历家庭的储蓄回归模型被拆分为两个不同的模型(9.2和(9.3)式;当接受 时,认为,此时高学历与低学历家庭的储蓄回归模型是,(9.4),拟合模型(9.1),回归系数检验如下表,27,从输出结果看到,应该接受。问题:是否首先剔除?,否,因为与经济意义不符,对模型(9.2)与(9.3),当 时,表明两个回归方程的常数项相等,当 时,表明两个回归方程的斜率相等。,28,二.用虚拟自变量回归解决方差分析问题,29,设 是正态总体 的样本,原假设

8、为记 则有 进而有,记 则上式改写为,引入虚拟自变量,将(2)式表示为多元线性回归模型,(2),(1),30,其中,由于c个自变量 之和恒等于1,存在完全共线性。为此,剔除,建立回归模型,(3),31,(1)式回归方程显著性检验的原假设为,由 可知,(1)式和(4)式的两个原假设是等价的。作(4)式的显著性F检验,该检验与单因素方差分析的F检验是等价的。称自变量全是定性变量的回归模型为方差分析模型;如果模型中既包含数量变量,又包含定性变量,其中以定性自变量为主,称这样的模型为协方差模型。,(4),32,方差分析的回归方法(例题分析),引进虚拟变量建立回归方程:E(Y)=0+1x1+2x2+3x

9、3用Excel进行回归0家电制造业投诉次数的平均值(0+1)零售业投诉次数的平均值(0+2)旅游业投诉次数的平均值(0+3)航空公司投诉次数的平均值,33,使用虚拟变量需注意的问题,虚拟变量陷阱:若定性变量有k个类别,则引入k个虚拟变量将会产生完全多重共线性问题,避免方法:只引入(k-1)个虚拟变量,34,自变量中含有定性变量的回归模型的应用,三.分段回归【例9.2】用分段回归建立某工厂生产批量 与单位成本(美元)的回归模型。,35,单位成本对批量的散点图,36,假定回归直线的斜率在 处改变,建立回归模型,来拟合,其中,(9.5),模型(9.5)实际上是一个二元线性回归模型,记,则有,(9.6

10、),37,(9.6)式可以分解为两个线性回归方程 当 时,(9.6)式的回归方程为,(9.7),当 时,(9.6)式的回归方程为,(9.8),用普通最小二乘法拟合模型(9.6),38,39,用普通最小二乘法得回归方程为,对回归系数 作显著性检验,不能认为本数据适合于折线回归拟合。此模型说明生产批量小于500时,每增加1个单位批量,单位成本降低0.004美元;当生产批量大于500时,每增加1个单位批量,单位成本降低0.004+0.004=0.008美元.,40,作 对 的一元线性回归。,41,一元回归方程为,42,因变量是定性变量的回归模型,因变量只有两个可能结果,可用虚拟变量来表示。定性因变量

11、的回归方程的意义设因变量是只取0,1两个值的定性变量,对于线性回归模型因变量均值 的意义由于 是01型贝努利随机变量,则得概率分布,43,得,即有,由回归函数给定的因变量均值 是自变量水平为 时 的概率。2.定性因变量回归的特殊问题(1)离散非正态误差项 误差项 只取两个值:,44,2.零均值异方差性,回归方程的限制 由于回归方程代表概率分布,所以,0-1型随机变量的方差,45,Logistic回归分析(Logistic Regression Analysis),46,Logistic回归分析,在医学研究中,经常要分析某种结果的产生与哪些因素有关。例如:生存与死亡,发病与未发病,阴性与阳性等结

12、果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等许多因素有关。如何找出其中哪些因素对结果的产生有显著性影响呢?Logistic回归分析能较好地解决这类问题。,47,Logistic回归分析一、Logistic回归模型,48,1、Logistic回归模型的构造,若因变量 为连续型正态定量变量时,可采用多元线性回归分析 与变量 之间的关系:现 为发病或未发病,生存与死亡等定性分类变量,不能直接用上述模型进行分析。,能否用发病的概率P来直接代替 呢?,用 的比例代替 本身作为因变量;回归函数是0,1区间的连续曲线。,?,49,等式左边 变化范围,P 发病概率 0 P1,1P 不发病概率 0 P

13、1,p/1-p 比数(ratio)0 p/1-p+,ln(p/1-p)对数比(ratio)-ln(p/1-p)+,50,2、Logistic 回归模型为:定义:为 Logistic变换,Logistic 回归模型为:,51,Logit变换,经数学变换可得:exp表示指数函数。,52,Logistic回归模型是一种概率模型,它是以疾病,死亡等结果发生的概率为因变量,影响疾病发生的因素为自变量建立回归模型。它特别适用于因变量为二项,多项分类的资料。在临床医学中多用于鉴别诊断,评价治疗措施的好坏及分析与疾病愈后有关的因素等。,53,SPSS软件要求,对分类变量Y数量化,而且赋值为:发病(阳性,死亡,

14、治愈等)未发病(阴性,生存,未治愈等)注意:,即发病的概率。,软件的要求,54,回归系数 的意义,设只有一个自变量,Logistic方程为 表示非暴露,1 表示暴露。时的发病概率为;时的发病概率为。则优势比(相对危险度),55,56,logistic 回归系数的意义,表示自变量每增加一个单位,其优势比的对数值的改变量,,亦即自变量每增加一个单位,其相对危险度为。,57,例如,吸烟与肺癌的关系的研究 令 吸烟 肺癌 不吸烟 非肺癌,若求得:,,意思是:吸烟的人得肺癌的危险性是不吸烟的2.71828倍。,58,注意变量X的赋值与OR的关系令 0 吸烟 X=1 不吸烟 则求得,若求得:,意思是:不吸

15、烟的人得肺癌的危险性是吸烟的36.79%。,59,二、logistic回归的作用,(1)建立logistic回归模型:(2)预测预报 若已知 数值大小时,通过模型可 以预测发病、死亡等的概率;(3)因素分析 寻找对发病、死亡等影响有显著性的因素。,60,设研究问题中含有p个指标变量 及Y;有 n个观察对象,其数据结构为:编号 1 2 n Y 的值要求数值化;Y=1 为发病。,三、数据结构,61,四、Logistic分析的具体任务:,1)采用极大似然估计或加权最小二乘估计确定方程中系数 2)采用(剩余)卡方检验对回归方程进行检验;3)采用Wald检验对方程中的每个系数 进行显著性检验。,62,五

16、、SPSS的实现,63,例题讲解,【例1】为评价某新疗法的疗效,某研究者随机抽查了40名某病患者,治疗后一定时间内观察其康复状况。变量y为康复状况(y=0表示未康复,y=1表示康复);变量 为病情严重程度(表示不严重,表示严重);变量为疗法(表示传统疗法,表示新疗法),请作统计分析。,64,65,上表为因变量赋值情况。Binary Logistic 过程默认以因变量较大取值的概率P(Y=1),而不是以P(Y=0)建立模型。,Analyze Regression Binary Logistic,66,首先给出的是模型不含任何自变量,而只有常数项时的输出预测分类结果,此时所观察对象都被预测为未康复

17、,总的预测准确率为57.5。,模型拟合,Block 0:Beginning Block,67,模型中只有常数项的检验结果。,68,该表反映的是如果将现有模型外的各个变量纳入模型,则整个模型的拟合优度改变是否有统计学意义。若将(疗法)引入,则模型改变有统计意义(),而将(病情严重程度)引入,则模型改变无统计意义。,69,这是模型总的全局检验,为似然比检验,共给出三个结果:Step统计量为每一步与前一步相比的似然比检验结果;Block统计量是将Block 1与Block 0相比的似然比检验结果;Model统计量则是上一个模型与现在模型相比的似然比检验结果。结果表明 两个变量至少有一个的作用是有统计

18、意义的。,Block 1:Method=Enter,70,该表为引入 的模型对因变量的分类预测情况。预测准确率由57.5上升到67.5,说明新变量的引入对改善模型预测效果的确有意义。,71,上表结果表明,排除病情严重程度的混杂作用后,传统疗法促使患者康复的能力为新疗法的0.188倍;排除疗法的混杂作用后,病情严重促使患者康复的能力为病情不严重的0.403倍。对于变量(病情严重程度)的Wald检验结果P=0.209表明,病情严重程度对康复无影响。常数项的OR=2.529,是指病情不严重且接受新疗法者比数的自然对数值。,72,剔除,建立 与 的Logistic回归方程,73,【例2】在一次关于公共

19、交通的社会调查中,一个调查项目是“是乘坐公共汽车上下班,还是骑自行车上下班”。因变量 表示主要乘坐公共汽车上下班,表示主要骑自行车上下班。自变量 是年龄,作为连续型变量;是月收入;是性别,表示男性,表示女性。调查对象为工薪族群体,试建立 与自变量间的Logistic回归。,例题分析,74,75,首先给出的是模型不含任何自变量,而只有常数项时的输出预测分类结果,此时所观察对象都被预测为未康复,总的预测准确率为53.6。,76,该表反映的是如果将现有模型外的各个变量纳入模型,则整个模型的拟合优度改变是否有统计学意义。若将(性别)引入,则模型改变有统计意义;将(年龄)引入,则模型改变也有统计意义;将

20、(月收入年龄)引入,则模型改变无统计意义;,77,该表为引入 的模型对因变量的分类预测情况。预测准确率由53.6上升到82.1,说明新变量的引入对改善模型预测效果的确有意义。,78,根据上表计算结果,变量 的Wald检验结果表明,年龄和月收入对是否乘坐公共车和骑自行车无影响。,79,剔除,重新作Logistic回归,排除 的作用后,男性乘坐公共汽车的比例为女性的0.108倍,排除 的作用后,年龄每增加一岁,乘坐公共汽车的比例是年龄未增加时乘坐公共汽车的比例的1.108倍,最终的回归方程为,80,分组数据的Logistic回归模型,81,例3 在一次住房展销会上,与房地产商签订初步购房意向书的共有n=325名顾客,在随后的3个月的时间里,只有一部分顾客确实购买了房屋。购买了房屋的顾客记为1,没有购买房屋的顾客记为0。以顾客的年家庭收入为自变量,数据见购房.sav。建立Logistic回归模型。,82,谢谢,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号