第三部分Logistic回归SPSS与SAS.ppt

资源描述

《第三部分Logistic回归SPSS与SAS.ppt》由会员分享，可在线阅读，更多相关《第三部分Logistic回归SPSS与SAS.ppt（93页珍藏版）》请在三一办公上搜索。

1、复习：,1.多元统计分析中指标的量化法2.多元线性回归分析的数据结构与模型3.多元线性回归分析的具体任务4.筛选变量的常用方法5.多元线性回归分析的实现方法,.多元统计分析指标的量化法：,（1）二分类（2）无序多分类（3）有序多分类,.多元线性回归分析的数据结构与模型：,.多元线性回归分析的具体任务,1)采用最小二乘法原理确定方程中系数bi i=0,1,2,3p;2)采用F检验对回归方程整体进行假设检验；3)采用t检验对方程中的每个系数bi进行假设检验。4)结合专业给出合理的解释。,.筛选变量的常用方法,向前法(forward selection)后退法(backward selection)

2、逐步回归法（stepwise selection),.多元线性回归的实现过程,操作过程：Analyze-Regression-Linear-y选入Dependent-x1、x2、X3选入Independent-Stepwise-options-ok,logistic regression analysis,Logistic回归,内容:,（一）基本概念和原理,1.应用背景 Logistic回归模型是一种概率模型，适合于病例对照研究、随访研究和横断面研究，且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量，建立回归方程。,设资料中有一个因变量y、p个自变量x1,

3、x2,xp，对每个实验对象共有n次观测结果，可将原始资料列成表1形式。,2、Logistic回归模型的数据结构,表1 Logistic回归模型的数据结构实验对象 y X1 X2 X3.XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp,表2 肺癌与危险因素的调查分析例号是否患病性别吸烟年龄地区 1 0 1 0 30 0 2 0 0 1 46 1 3 1 0 0 35 1 30 1 0 0 26 1 注：是否患病中，1代表否，0代表是。性别中1代表男，0代表女，吸烟

4、中1代表吸烟，0代表不吸烟。地区中，1代表农村，0代表城市。,表3 配对资料(1:1)对子号病例对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 10 2 2 2 0 0 0注：X1蛋白质摄入量，取值：0，1，2，3 X2不良饮食习惯，取值：0，1，2，3 X3精神状况，取值：0，1，2,Logistic回归-Logistic回归与多重线性回归联系与区别,联系:用于分析多个自变量与一个因变量的关系，目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等.区别:线性模型中因变量为连续性随机变量，且要求呈正态分布.L

5、ogistic回归因变量的取值仅有两个，不满足正态分布.,3、Logistic回归模型,令：y=1 发病（阳性、死亡、治愈等）y=0 未发病（阴性、生存、未治愈等）将发病的概率记为P，它与自变量x1,x2,xp之间的Logistic回归模型为：可知，不发病的概率为：,经数学变换得：定义：为Logistic变换，即：,4、回归系数i的意义流行病学的常用指标优势比（odds ratio,OR)或称比数比，定义为：暴露人群发病优势与非暴露人群发病优势之比。即Xi的优势比为：,故对于样本资料OR=exp()95%置信区间为：可见是影响因素Xi增加一个单位所引起的对数优势的增量，反映了其对Y作用大小

6、。如果要比较不同因素对Y作用大小，需要消除变量量纲的影响，为此计算标准化回归系数,5.假设检验,（1）回归方程的假设检验 H0：所有 H1：某个计算统计量为：G=-2lnL，服从自由度等于n-p的分布（2）回归系数的假设检验 H0：H1：,计算统计量为：Wald,，自由度等于1。,（二）Logistic回归类型及其实例分析,1、非条件Logistic回归当研究设计为队列研究、横断面研究或成组病例对照研究时，要用非条件Logistic回归。,实例1,某研讨究者调查了30名成年人，记录了同肺癌发病的有关因素情况,数据见表4。其中是否患病中,1代表否,0代表是.性别中 1代表男,0代表女,吸烟

7、中 1代表吸烟,0代表不吸烟.地区中,1代表农村,0代表城市。试分析各因素与肺癌间的关系。,表4 肺癌与危险因素的调查分析例号是否患病性别吸烟年龄地区 1 0 1 0 30 0 2 0 0 1 46 1 3 1 0 0 35 1 30 1 0 0 26 1 注：是否患病中，1代表否，0代表是。性别中1代表男，0代表女，吸烟中1代表吸烟，0代表不吸烟。地区中，1代表农村，0代表城市。,Data log1;Infilelog1.dat;-读取数据 Input n y x1-x4;-指出变量Proc logistic;-调logistic回归模块 model y=x1;run;-作单变量(

8、x1)分析Proc logistic;model y=x2;run;Proc logistic;model y=x3;run;Proc logistic;model y=x4;run;Proc logistic;model y=x1-x4;run;-作多变量分析,data a;infiled:/a.xls;input a b y x1-x22;要导入（）Proc print;Run;proc logistic;model y=x1-x4;run;,表6 单因素Logistic回归分析结果模型号变量系数标准误 Wald 卡方 P值 1 X1 1.7047 0.8006 4.5344 0.

9、0332 2 X2 2.5649 0.9364 7.5029 0.0062 3 X3 0.1428 0.0467 9.3409 0.0022 4 X4-0.2719 0.7387 0.1355 0.7128 结果表明,性别,吸烟,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.,表7 多元Logistic回归分析结果变量系数标准误 Wald 卡方 P值 INTERCPT-9.75 4.09 5.66 0.02 X1 2.52 1.82 1.92 0.17 X2 3.98 1.98 4.06 0.04 X3 0.19 0.08 5.67 0.

10、02 X4-1.30 1.58 0.68 0.41 由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的发生有显著的影响。所得的回归方程为:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.,SPSS操作步骤:,Analyze-Regression-Binary Logistic-Dependent框(y)-Covariates框（x1,x2,)-ok,非条件Logistic回归SPSS操作步骤:,结果表明,性别,吸烟,年龄三个因素都与肺癌有关.由于在对某一因素进行单因素分析时没有控制其它因素的干扰,因此结果不可靠.,单因素分析的

11、结果,多因素分析的结果,由上最大似然估计分析知因素X2(吸烟),X3(年龄)对肺癌的发生有影响。所得的回归方程为:Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4.,2.条件logistic回归分析,配对设计的类型：1:1、1:m、n:m（可采用分层COX模型来拟合）。例如：某市调查三种生活因素与胃癌的关系，资料见表5。,表5 配对资料(1:1)对子号病例对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 10 2 2 2 0 0 0注：X1蛋白质摄入量，取值：

12、0，1，2，3 X2不良饮食习惯，取值：0，1，2，3 X3精神状况，取值：0，1，2,data log2;input no y x1 x2 x3;-输入变量cards;1 0 1 3 0（对子号、病人、x1、x2、x3)1 1 1 0 1（对子号、对照、x1、x2、x3)2 0 0 3 1 2 1 1 3 0.10 1 0 0 0;,proc phreg;-调用实现条件 Logistic回归和COX回归模块 model y=x1;-作单变量分析 strata no;run;,proc phreg;model y=x1-x3;-作多变量分析 strata no;run;,配对Logistic回

13、归SPSS操作步骤:,Analyze-Survival-COX Regression-Time框（outcome)-Status框（Status）-Define Event:Single value 1:continue-Covariates框（x1、x2、x3)-Strata框（id）-Options-at last step-ok,3、逐步Logistic回归分析,（1）向前法(forward selection),开始方程中没有变量，自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献（P值的大小）由小到大依次挑选，变量入选的条件是其P值小于规定进入方程的P界值Enter,缺省值

14、P(0.05)。,（2）后退法(backward selection),开始变量都在方程中，然后按自变量因变量的贡献（P值的大小）由大到小依次剔除，变量剔除的条件是其P值小于规定的剔除标准Remove,缺省值 p(0.10)。,（3）逐步回归法逐步引入-剔除法（stepwise selection),前进逐步引入-剔除法是在前进法的思想下，考虑剔除变量，因此有两个p界值Enter,Remove。,SPSS无论是条件还是非条件Logistic回归，在多变量分析时均可以采用逐步回归方法，实现的方法是：在 method后加选项：Enter：所有变量一次全部进入方程。Forward：逐步向前法 Ba

15、ckward：后退法变量移出方程所采取的检验方法：Conditional;LR;Ward(尽量不用),二分类Logistic回归,Logistic回归检验方法,似然比检验（likelihood ratio test）记分检验(score test)Wald检验三种方法比较通常应用似然比检验结果相对较可靠.在小样本情况下记分的分布根接近于卡方分布，所以记分检验导致的第类错误的可能性要小一些.Wald检验在计算和使用上较容易.但是结果略偏于保守.通常在样本较大时三种检验的结果是一致的.,SPSS 软件实现方法,FileOpen相应数据(已存在)Statistics RegressionBina

16、ry Logistic Dependent(y)Covariates(自变量）Mothod（逐步回归方法）Specify model(单因素或多因素）save(欲保存的内容）Options(输出选项）OK,调试法：P从大到小取值0.5，0.1，0.05，一般实际用时，Enter、Remove应多次选取调整,解释,设第i个因素的回归系数为bi，表示当有多个自变量存在时，其它自变量固定不变的情况下，自变量Xi每增加一个单位时，所得到的优势比的自然对数。当bi0时，对应的优势比(odds ratio,记为ORi）:ORi=exp(bi)1,说明该因素是危险因素；当bi0时，对应的优势比ORi=ex

17、p(bi)1,说明该因素是保护因素。,Logistic回归回归系数解释,1.如果考察的自变量是定性的此时计算的exp(i)是该定性变量取相邻两个等级时的比数比。i0，即exp(i)1：表明该变量每上一个等级比数比就在原来的基础上扩大exp(i)倍；i0，即exp(i)1，表明该变量每下一个等级比数比就在原来的基础上减低1/exp(i)倍；,Logistic回归回归系数解释,2.考察的自变量是定量的此时计算的exp(i)是在其他变量保持不变的情况下，该变量每增加一个单位比数比（OR值）就增加exp(i)倍。i0，即exp(i)1：表明该变量每增加一个单位比数比就在原来的基础上扩大exp(i)

18、倍；i0，即exp(i)1，表明表明该变量每减少一个单位比数比就在原来的基础上降低1/exp(i)倍；,Logistic回归标准回归系数解释,如果比较各自变量对反应变量Y的贡献爱女大小时，需要消除量纲的影响.可以先将各自变量标准化后再进行Logistic回归，然后比较各自变量的回归系数的大小，即可判断各自变量对Y的贡献大小.各自变标化后得到的回归方程的回归系数就称为标准回归系数，其可以直接用于比较各自变量对反应变量的贡献大小.一般程序直接给出标准回归系数.,Logistic逐步回归结果 Parameter Standard Wald Pr RiskVariable DF Estimate Er

19、ror Chi-Square Chi-Square Ratio X2 1 1.2218 0.8410 2.1107 0.1463 3.393 X3 1 2.2947 1.8072 1.6124 0.2042 9.922,采用Logistic逐步回归：Proc logistic;model y=x1-x3/noint selection=stepwise ale=0.5 sls=0.3;Run;,Block 1:Method=Forward Stepwise(Likelihood Ratio),在本例中不良饮食习惯X2，取值：0、1，2、3，b=3.021,OR=20.505,表示不良饮食习惯是

20、危险因素；精神状况X3，取值：0、1、2，b=0.054,OR=1.161,表示精神状况不良影响发病,是危险因素。,4.Logistic回归-Logistic回归种类,注意自变量是多分类（n）无序变量时，需要先转换成n-1个哑变量，以哑变量进行分析。自变量为连续变量时回归系数的解释。连续自变量是否转换成分组变量视具体情况而定；,例现对乳腺癌患者的数据进行分析，其中的变量包括年龄(age)、患病时间(time)、肿瘤扩散等级(pathscat)、肿瘤大小(patsize)、肿瘤史(histgrad)和癌变部位的淋巴结是否含有癌细胞In_yesno，建立一个模型，对癌变部位的淋巴结是否含有癌细

21、胞的情况进行预测.,SPSS程序操作analyzeregressionbinary logistic dependent:In_yesno covariates:age pathscat pathsize time histgrad(自(协)变量)method:enter catergorical:pathscat histgrad(多分类协变量)change contrast:reference catergory first-chang(多分类协变量类间多重比较及比较方法选择)-continue-ok,二分类Logistic回归多重比较的方法,Indicator第一类或最后一类为参照类，每

22、一类与参照类比较Simple-除参照类外，每一类与参照类比较Difference-除第一类外，每一类与其前各类的平均效应比较，有称反HelmertHelmert-除最后一类外，每一类与其后各类的平均Repeated相邻两类比较，除第一类外，每类与其前一比较Polynominal正交多名义分类比较，该法假设每一分类都有相等的空间，仅适于数值变量Deviation除参照类外，每一类与总效应比较,二分类Logistic回归多重比较的方法,Reference catergory 参照类的选择，有第一类和最后一类两种选择。Indicator、Simple、Deviation方法可选第一类，也可选

23、最后一类。,二分类Logistic回归频数资料分析,例成组病例-对照研究。在饮酒与食道癌的病例-对照研究中，考虑到年龄可能是混杂因素，按年龄分层后资料整理如下变量标示 ID病例:1 对照:0 Drink饮酒:1 不饮酒:0 Age年龄 1(25-34),2(34-44),3(45-54),4(55-64),5(65-74),6(75-85),二分类Logistic回归频数资料分析,二分类Logistic回归频数资料分析,频数加权：DATA-WEIGHT CASES-WEIGHT CASES BY FREQ-OK ANALYZEREGRESSIONBINARY LOGISTIC DEPEND

24、ENT：ID COVARIATES：DRINK,AGE MTHOD：ENTER CATERGORICAL：AGE CHANGE NTRASTREFERENCE CATERGORY FIRST-CHANGE-CONTINUE-OK,Logistic回归多分类有序Logistic回归(Binary Logistic Regression),特征因变量是多（k水平）分类有序变量；每个水平建立一个回归方程；自变量是连续变量或分类变量.,多分类有序Logistic回归-实例分析,例研究性别和两种治疗方法对某疾病疗效的影响。疗效的评价分为3个有序等级：显效、有效和无效，资料见下表，试用有序分类logi

25、stic模型进行分析疗效与性别和治疗方案的关系。,多分类有序Logistic回归-实例分析,DATA-WEIGHT CASES-WEIGHT CASES BY FREQ-OK ANALYZE-REGRESSION-ORDINAL-DEPENDENT ID-COVARIATE SEX,TREAT-OK,Logistic回归多分类无序Logistic回归,特征因变量是多（水平）分类且各水平之间没有递增或递减关系，即反应变量是多分类名义变量；每个水平建立一个回归方程；自变量是连续变量或分类变量.方法拟合一个通用Logistic模型(general logistic model).,多分类无序Lo

26、gistic回归实例分析,例 1992年美国总统选举的数据，候选人为Bush(布什)、Perot(帕罗特)、Clinton(克林顿)，评价分析不同选民的投票情况。因变量：pred92 自变量：edu：受教育程度 degree：学历 sex：性别,多分类无序Logistic回归实例分析,变量标示因变量：Pres92 1=Bush 2=Perot 3=Clinton自变量:sex 1=famlae，2=male edu 0=高中以下 1=高中 2=大专 3=学士 4=研究生,多分类无序Logistic回归实例分析,SPSS程序操作 AnalyzeRegressionMultinomial Logi

27、stic-Depenfent:Pres92-Factor:sex edu-OK,例3 实战练习,据报道目前全世界每年的自杀率为1010万，我国自杀率为2310万，我国高校自杀率则为210万。为了了解当代大学生综合素质现状、为了进行提高大学生综合素质的对策研究，利用中国现场统计研究会教育统计与管理专业学会设计的中国大学生综合素质调查问卷，采用分层整群抽样，选择了不同年级、不同性别、不同专业以及不同生源的医学大学生554名的调查问卷，其中129人有过自杀的意念。应用 Logistic回归分析，探讨大学生有自杀意念的影响因素。,部队3所院校，1121份有效问卷、地方3所院校1874份有效问卷。,表6

28、各校有效问卷情况单位有效问卷份数军队：北京军医学院 554 海军工程大学 450 解放军信息工程大学 117 地方：同济医学院 778 中国科技大学 628 广西工学院 468,1.各项目的名称及量化方法在中国大学生综合素质调查问卷中又增加的2个小题记为A01，A02。基本情况A共有21项，分别记为A1，A2，A21。当有的项目中又分为2项时再分别赋予不同的名称，如A10父母亲文化程度分为：父亲文化程度A10.1、母亲文化程度A10.2。其它项目的名称以此类推。,利用EXCEL将调查问卷各项进行量化：有序的项目按照顺序赋值0，1，2，；两分类无序项目赋值0和1；多项无序和多选项目，

29、根据例数多少进行合并成两项或引进哑变量。去掉了几项人数少或不容易量化的个别多选题：A9.1父亲职业、A9.2母亲职业、B16加入WTO后大学生最应具备的素质、B17在当代大学生中你认为普遍欠缺的东西、C10.1对学习吃力的再回答、C19.1决定考研者进一步需回答、C21.1-C21.3参与过科研或社会实践者进一步需回答的问题。最终确定的变量个数是：A类有22个、B类有17个、C类有38个、D类有32个、E类有20个，总计129个变量。,大学生产生自杀念头的影响因素和程度按入选顺序样本资料情况依次是：抚养人对其关爱是不关爱方向的0.326倍；考试作弊严重的是不作弊方向的1.405倍；当认定一个目

30、标能够尽力去做并持之以恒的是时做时不做方向的0.734倍；认为同学中考试作弊人数多的是少方向的 1.295倍；对自己心理素质的评价高的是低方向的 0.553倍；,对自己各方面的综合评价高的是低方向的 2.008倍；做事常半途而废是能坚持方向的1.732倍；家庭幸福度自我评定高的是低方向的0.699 倍；认为自己在学习上接受与理解能力强的是不强方向的1.451倍；身体健康状况较好是较差方向的0.688倍。,对自己心理素质评价低、身体健康状况差、做事常半途而废、认为同学中考试作弊人数多、认为考试作弊是严重的、抚养人对其不关爱、家庭不幸福、认为自己在学习上接受与理解能力强、身体健康状况差、当认定一个目标不能持之以恒者，容易产生自杀的念头。归纳起来主要是：个人精神健康问题、生长环境两大因素。,Logistic 回归的注意事项,1.变量的取值形式在作危险性因素分析时,以定性资料的形式出现为好。2.样本含量要足够大一般地：病例与对照研究应至少各有30-50例，且变量越多例数也要增多；配对资料样本的匹配组数应为纳入方程中自变量个数的20倍以上。3.大多数情况下模型的常数项没有多大的意义，所以不用对常数项作解释；4.条件Logistic回归不能用于预测.,谢谢！,谢谢！,

展开阅读全文