《第16章 logistic回归.ppt》由会员分享,可在线阅读,更多相关《第16章 logistic回归.ppt(114页珍藏版)》请在三一办公上搜索。
1、第十六章 logistic回归分析,陈 炳 为,2023/11/18,2,多元线性回归回顾,1 模型的建立=a+b1X1+bnXn资料中要求:Y变量服从正态分布 X变量为可精确测量,2023/11/18,3,2 模型的检验:(1)方程的检验 方差分析法、决定系数、复相关系数(2)自变量检验的方法 偏回归平方和、t检验、标准化回归系数3 自变量选择方法(1)全局择优法(2)逐步选择法 前进法、后退法、逐步回归法4 SPSS操作,2023/11/18,4,资料的分类,2023/11/18,5,基本概念,1 病例对照研究(case-control study)、队列研究(cohort study)2
2、 暴露(exposure)3 优势比,比数比(odds ratio,OR),相对危险度(relative risk,RR),2023/11/18,6,危险度(risk):指发生某有害事件的概率。常用总体的发病率(incidence of a disease),患病率(prevalence rate),死亡率(death rate)表示。,2023/11/18,7,如吸烟者的肺癌患病率高,对一个在吸烟但没患肺癌的人可以说他的肺癌的危险性高。,2023/11/18,8,计算举例,例3-3某锡矿的矿工肺癌发病率308.39/10万,非矿工的肺癌发病率为25.48/10万,试计算发病的相对危险度。RR
3、=308.39/25.48=12.10注意:这是样本率计算得到的样本指标存在抽样误差;只有前瞻性研究(队列研究cohort)才能得到率的指标,因为观察了所有可能得病的样本或总体。所以该指标常用。,2023/11/18,9,优势odds与优势比odds ratio,优势(比势)为某病患者(或非患者)某暴露因素存在的比例P(E)和不存在的比例(1-P(E)的比例。,Odds=P(E)/1-P(E),2023/11/18,10,例:有人做宫外孕与腹部手术的病例对照研究,试问腹部手术史与宫外孕的发生是否有关?,2023/11/18,11,优势比odds ratio,OR,患者与非患者某因素优势的比值被
4、称作优势比(比数比)。OR=odds1/odds0,例 病人有腹部手术的优势 odds1=55/199=0.276非病人有腹部手术史的优势 Odds0=120/593=0.202 OR=odds1/Odds0=0.276/0.202=1.366,2023/11/18,12,2023/11/18,13,2023/11/18,14,OR值的95%CI公式:,95%CI:,2023/11/18,15,2023/11/18,16,混杂因素(confounding factor),定义:混杂因素指干扰了所研究的因素与疾病发生相关程度测定的非研究因素。如:抽烟与肺癌关系的研究中,若抽烟组年龄与不抽烟组的年
5、龄分布不同,则年龄就成为一个混杂因素。,2023/11/18,17,例:在心血管疾病与口服避孕药(OC)关系的研究中,年龄为一混杂因素,将年龄分为 岁和40岁两个层。计算调整年龄后,心血管疾病与OC使用的OR并做假设检验。(此数据为构造的)OR1=2,OR2=2,不调整年龄的OR23.45。,2023/11/18,18,混杂因素的判断,要从两方面考虑:(E为暴露因素,F为可疑混杂因素,D为疾病)(A)与暴露因素有关,但不是其结果。即:(B)在非暴露人群中,该因素是疾病发生的“危险因素”。,2023/11/18,19,2023/11/18,20,Mantel-Haenszel分层分析法,用于控制
6、一个或多个混杂因素,然后估计研究因素与疾病的相对危险度或比数比调整后的,2023/11/18,21,调整年龄后的OR值,不调整年龄的OR23.45,2023/11/18,22,SPSS执行,2023/11/18,23,SPSS结果,2023/11/18,24,2023/11/18,25,主要内容,1 logistic回归模型简介2 条件logistic回归3 多类结果的logistic回归4 有序结果的累计比数logistic回归5 logistic回归的应用及其注意事项,2023/11/18,26,1 logistic回归模型简介,Mantel-Haenszel方法的不足:1 只适用于分层层
7、次较少的情况,随着混杂变量的增加,可能会使格子出现少于0的情况。2 当暴露因素或混杂因素为连续型变量时,按等级分出现信息损失。1970年代发展起来的logistic回归可以克服上述弱点。,2023/11/18,27,Logistic回归的应用,1 病例对照研究 食管癌的发生与吸烟、饮酒、不良饮食习惯等危险因素。2 队列研究 研究腹泻与喂养方式的关系。追踪观察并比较不同喂养方式下的腹泻情况。,2023/11/18,28,1.1 模型简介,Y为二值变量,取值:,2023/11/18,29,P阳性结果发生的概率,0P1。1-P为阴阳性结果发生的概率。,Cox(1970)logit变换,2023/11
8、/18,30,为“机会”或“优势”(odds)logit P为优势之对数(log odds),2023/11/18,31,Logistic函数的图形,LogitP,2023/11/18,32,logistic回归模型的几种形式,2023/11/18,33,1.2 传统方法与logistic回归,四格表资料(病例对照)与logistic的关系分层四格表资料与logistic的关系,2023/11/18,34,例:腹部手术史与宫外孕的发生是否有关?,2023/11/18,35,X=1 表示有腹部手术X=0 表示没有腹部手术,2023/11/18,36,X=1时 X=0 时,2023/11/18,3
9、7,SPSS操作,2023/11/18,38,SPSS结果,2023/11/18,39,例 分层四格表资料与logistic回归,研究吸烟是否增加胰岛素依赖性糖尿病人患肾病有危险性,2023/11/18,40,SPSS操作,先定义权重:,2023/11/18,41,CMH卡方的操作,2023/11/18,42,Logistic回归,2023/11/18,43,SPSS两结果的比较,2023/11/18,44,传统方法与logistic回归的关系,单因素病例对照研究的OR,与logistic回归等价;分层病例对照研究的ORMH,与logistic回归结果近似。logistic回归是传统方法的扩展
10、。,2023/11/18,45,混杂因素的控制,在logistic模型中,控制某混杂因素,实际上就是将该因素纳入模型。在解释暴露因素的影响时,该混杂因素实际上是控制了。,2023/11/18,46,1.3 回归系数的解释,1 回归系数的解释:一个暴露因素时,当暴露为1,非暴露为0时,ln(OR),2023/11/18,47,一个暴露因素:暴露为1,非暴露为0。一个混杂因素时:水平数分别为:1,2,,当x2固定时(取某个值的前提下):,2023/11/18,48,一个暴露因素时,当暴露为c1,非暴露为c0时,,2023/11/18,49,2 截距的解释,令,2023/11/18,50,截距的意义
11、,在横断面调查研究中,表示基线状态下,个体患病率的比数的对数值;在队列研究中,有下式成立:,2023/11/18,51,例 胃癌危险因素研究,食管癌与吸烟及饮酒间的关系。,2023/11/18,52,=-0.9909表示不吸烟且不吸酒的人患食管癌与不患食管癌概率之比的对数1=0.8856,exp(1)=2.42,表明控制饮酒因素后,吸烟者与不吸烟者相比,患食管癌的比数比为2.42。2=0.5261,exp(2)=1.69,表明控制吸烟因素后,饮酒者与不饮酒者相比,患食管癌的比数比为1.69。,2023/11/18,53,等级变量:一般以最小等级或最大等级作为参考组,并按等级顺序依次取为0,1,
12、2,。此时,exp()表示X增加一个等级时的优势比,exp(k)表示增加k个等级时的优势比。连续性变量:表示增加1(个计量单位)时的优势比。,2023/11/18,54,多分类变量:哑变量(dummy variable)x1时:x10,x20,x30 表示A型血x2时:x11,x20,x30 表示B型血x3时:x10,x21,x30 表示AB型血x4时:x10,x20,x31 表示O型血exp(1)表示B与A比之OR;exp(2)表示AB与A比之OR;exp(3)表示O与A比之OR。,2023/11/18,55,极大似然法的基本思想,先看一个简单例子:,一只野兔从前方窜过.,是谁打中的呢?,某
13、位同学与一位猎人一起外出打猎.,如果要你推测,,你会如何想呢?,只听一声枪响,野兔应声倒下.,2023/11/18,56,1.4 模型的估计,Y=1 时:Y=0时:可统一写成:,2023/11/18,57,似然函数与对数似然函数,2023/11/18,58,例 四格表资料的求解,2023/11/18,59,四格表的似然函数,2023/11/18,60,极大似然求解,2023/11/18,61,1.5 模型的假设检验,模型的假设检验:(1)整个模型检验:(2)单个参数的假设检验:,2023/11/18,62,似然比检验(likelihood test),似然比检验是通过比较两个相嵌套模型的对数似
14、然函数统计量G(又称Deviance)来进行的,其统计量为:GGPGK 2ln(LP)+2ln(LK)其中,模型P中的变量是模型K中变量的一部分,另一部分就是我们要检验的变量(模型P嵌套在模型K中)。G服从自由度为K-P的2分布。当p=0时就是判断k个参数是否同时为0。,2023/11/18,63,5个logistic回归模型及其对数似然函数值,2023/11/18,64,对于模型的整体假设:G=2(lnL(X1,X2)-lnL0)=2(-579.711(-613.984)=68.546查表得:具有统计学意义。,2023/11/18,65,单个参数的假设检验,2023/11/18,66,Wal
15、d检验,Wald检验实际上是比较估计系数与0的差别来进行的,其检验统计量为:Wald的2检验是 z 的平方。,2023/11/18,67,SPSS结果,2023/11/18,68,交互作用,模型五中考虑交互作用,交互作用的模型为:经模型4与模型5比较:,2023/11/18,69,交互作用模型的参数意义:,1 不吸咽也不饮酒人,患胃癌与不患胃癌概率之比的对数值。1 表示不饮酒人群中,吸烟者与不吸烟者相比,患胃癌的比数比对数值。1+3 表示饮酒人群中,吸烟者与不吸烟者相比,患胃癌的比数比对数值。,2023/11/18,70,2 表示不吸烟人群中,饮酒者与不饮酒者相比,患胃癌的比数比对数值。2+3
16、 表示吸烟人群中,饮酒者与不饮酒者相比,患胃癌的比数比对数值。3本身只代表是否存在交互作用。,2023/11/18,71,1.5 实例分析,2023/11/18,72,SPSS分析,2023/11/18,73,SPSS结果,2023/11/18,74,任一建模过程均应从详细的各变量的单因素分析开始,单变量分析可采用卡方检验与单因素logistic回归两种方法。在考虑单变量分析时,检验水准可取为0.1。,实际操作,2 在单变量分析和相关自变量分析的基础上,进行多因素的逐步筛选,,3 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项。,2023/11/18,75,2 条件logistic
17、回归,配比设计资料目的提高均衡性 可使优势比的估计方差缩小10-15%。配比的原则:相同,相近配比是把混杂因素相同的进行配比,不能把研究因素纳入配比。,2023/11/18,76,1:m配比设计的资料格式,2023/11/18,77,条件logistic模型,由于模型假设自变量的作用在各个配比组相同,而截距是各配比组特有的,即当自变量为零时的基线风险。而且对自变量的解释无关所以该表达式不含截距项。,2023/11/18,78,例 数据来源于陈峰医用多元统计分析方法 P280。探讨软组织肉癌与接触苯氧乙酸或氯酚的关系。数据如下:,2023/11/18,79,软组织肉瘤与接触苯氧乙酸或氯酚的原始数
18、据,2023/11/18,80,模型估计,2023/11/18,81,配对四格表资料的条件logistic回归,暴露者患病概率为P1,非暴露者患病概率为P0,2023/11/18,82,考虑两个人中一人患病,另一人不患病的情况,两人均暴露,则一人患病一人不患病的条件概率为 1/2两人均未暴露 则一人患病一人不患病的条件概率亦为1/2,2023/11/18,83,考虑两个人中一人患病,另一人不患病的情况,一人暴露,一人未暴露 则暴露者患病,非暴露者不患病的条件概率为:,一人暴露,一人未暴露 则暴露者不患病,非暴露者患病的条件概率为:,2023/11/18,84,似然函数及极大似然解,2023/1
19、1/18,85,例16-3 某北方城市研究喉癌发病的危险因素,用1:2配对的病例对照研究方法进行了调查。现选取了6个可能的危险因素并节录25对数据,各因素的赋值说明见表16-6,资料列于表16-7。试作条件logistic逐步回归分析。,2023/11/18,86,部分数据,2023/11/18,87,对于条件logistic在SPSS、SAS上没有直接程序。它可利用Stata及Egert软件来实行,也可利用SPSS、SAS中的生存分析程序实行。,2023/11/18,88,data ex16_3;input i y x1-x6;t=2-y;cards;1 1 3 5 1 1 1 0 1 0
20、1 1 1 3 3 0 1 0 1 1 1 3 3 0 2 1 1 3 1 1 3 0 2 0 1 1 1 3 2 0 2 0 1 2 1 3 2 0.;proc phreg;model t*y(0)=x1-x6/selection=stepwise sle=0.1 sls=0.1 ties=discrete;strata i;run;,2023/11/18,89,SPSS计算,先计算时间,2023/11/18,90,2023/11/18,91,2023/11/18,92,SPSS结果,2023/11/18,93,多类结果的logistic回归模型,设结果变量Y,三类结果,Y=0,1或2 可得
21、到两个logistic函数:一个是Y=1与Y=0相比;另一个是Y=2与Y=0相比。Y=2与Y=1相比的logit是上述两个logit的差,2023/11/18,94,2023/11/18,95,各类概率,2023/11/18,96,产后大出血与人工流产史和妊高症的关系,2023/11/18,97,SPSS操作,定义权重(对于原始资料无须定义),2023/11/18,98,2023/11/18,99,结果:,2023/11/18,100,4 有序分类资料的logistic回归,常见的有序分类问题:临床疗效的“无效、好转、显效、治愈”疾病严重程度的“无、轻、中、重”智商的“弱智、睚常、超常”设结果
22、变量y为k个等级的有序变量,k个等级分别用1,2,k表示。,2023/11/18,101,某病疗效与性别和两种治疗方法间的关系(见张文彤 SPSS统计分析教程),2023/11/18,102,SPSS操作,2023/11/18,103,SPSS,2023/11/18,104,SPSS结果,2023/11/18,105,结果说明:,两个自变量都有统计学意义。女性比男性疗效好,OR=3.798,新疗法比传统疗法疗效好,OR=6.032。,2023/11/18,106,5 logistic回归的应用及其注意事项,一 logistic回归的应用 1 流行病学危险因素分析 logistic回归可用于队列
23、研究(cohort study)、病例对照研究(case-control study)、横断面研究(cross-sectional study)除病例对照的常数项与另外两项不同,回归系数的意义相同。,2023/11/18,107,2 临床试验数据分析 临床试验的目的是为了评价某种药物或治疗方法的效果,若存在非处理因素的在两种不均衡,可能使结果不正确。可考虑利用logistic回归调整。3 分析药物或毒物的剂量反应4 预测与判别,2023/11/18,108,二 logistic回归应用的注意事项,logistic回归的应用条件独立性。各观察对象间是相互独立的。logitP与自变量的关系是线性关
24、系。队列资料,建议用Poisson回归。,2023/11/18,109,1 变量的取值形式:变量采用不同的取值形式,参数的含义、量值及符号可能发生改变。对于连续型变量,取值按其大小根据专业分成几个组。如年龄,一般增加一岁其意义不大。再如白细胞。,2023/11/18,110,2023/11/18,111,2 logistic回归的样本含量病例与对照的例数至少各有3050例。对抽样调查、普查或队列研究,每个自变量至少需要出现10个阳性结果。对于单个logistic,样本的配对数目应为纳入方程变量数目的20倍。对照例数一般取为相等,配比一般不超过1:4。,2023/11/18,112,3 模型评价:对每个自变量进行检验;回归方程进行检验。,2023/11/18,113,似然比检验:最可靠Wald检验:未考虑各因素的综合作用,当存在共线性时,结果不可靠。故在筛选变量时应慎重。可信区间是基于Wald统计量计算的。比分检验。与似然比检验一致在对混杂因素进行分析时,如协变量对回归系数的影响较大,则该变量就认为有重要影响的变量,无论该变量是否有统计学意义,都应放入模型进行控制。,2023/11/18,114,影响logistic回归可能的原因,资料的质量。异常值。样本含量太少,或考虑的变量太多。应用条件不成立。自变量间的共线性。暴露率极低或极高,甚至为0或1。常会导致回归系数估计无效。,