医学统计学logistic回归.ppt

上传人:小飞机 文档编号:4956750 上传时间:2023-05-26 格式:PPT 页数:45 大小:260.50KB
返回 下载 相关 举报
医学统计学logistic回归.ppt_第1页
第1页 / 共45页
医学统计学logistic回归.ppt_第2页
第2页 / 共45页
医学统计学logistic回归.ppt_第3页
第3页 / 共45页
医学统计学logistic回归.ppt_第4页
第4页 / 共45页
医学统计学logistic回归.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《医学统计学logistic回归.ppt》由会员分享,可在线阅读,更多相关《医学统计学logistic回归.ppt(45页珍藏版)》请在三一办公上搜索。

1、卫生统计学,第十五章 多因素对某定性指标 的影响分析,第一节 Logistic回归分析一、基本概念 应变量是分类变量 1 出现阳性结果(发病、有效、死亡等)Y=0 出现阴性结果(未发病、无效、存活等),P:Y=1的率,P/(1-P)称优势(比数),0:表示暴露剂量为0时个体发病与不 发病概率之比的自然对数i:表示在其它自变量不变的条件下,Xi改变一个单位时logit P=的改变量。,Logistic 回归的特点,1、Logistic 回归方程中,各自变量Xi变化范围可以从-到+,Xi 可以是定量指标、等级指标或定性指标(需经数量化),而应变量P的变化范围为0到1。Z时,P值渐近于1 Z-时,P

2、值渐近于02、Logistic 回归系数和流行病学中反映各危险因素对疾病作用大小的优势比有直接的联系,并把单因素两水平下的优势比的定义扩展到多因素任意取值。,设在一组自变量取值X0 下,某病发病的概率为P0,而在另外一组取值X1 下,某病发病的概率为P1,变量Xi 由 改变为 而固定其它自 变量取值时,有ORi=exp i()ORi 1,高水平(数据大)率大,特别当=1 时,,(Xi=1为暴露,Xi=0为非暴露)ORi=exp i 3、对于流行病学两类调查研究方法 前瞻性的队列研究和回顾性的病例对 照研究,所建立的Logistic 回归方 程,除常数项不同外,其它各回归系 数均相同。,二、Lo

3、gistic 回归模型的配合,1.应变量为二分类的Logistic 回归模型参数估计采用最大似然函数估计法(maximum likelihood estimate),即根据n例实际观测数据建立一个样本的似然函数:,Pi:i例暴露条件下阳性率,Yi=1阳性,Yi=0 阴性。若某对象阳性,,用迭代方法使以下目标函数达极大值,估计出bj,(1)AIC检验法(Akaike Information Criterion)L是最大似然函数,g为应变量分类变量的分类数,k为模型中包含的自变量个数。AIC值越小,模型拟合越好。用于同一组数据下的不同模型间的比较。,H0:H1:不全为0(含全不为0),(2)SC检

4、验法(Schwarte Criterion),式中,L是最大似然函数,g为应变量分类变量的分类数,k为模型中包含的自变量个数,n是样本例数。和AIC一样,SC值越小,模型拟合越好。用于比较同一组数据下的不同模型间的比较。,(3)似然比检验法,服从自由度为k-p的2分布,p和k是两个模型中包含的自变量个数。P,则有统计学意义。(4)计分检验法(Score)公式很复杂,它服从2分布,用于检验模型中全部自变量对应变量的联合作用。,(5)Wald检验法,H0:H1:Wald 似然比检验法最可靠。Somers D、Gamma、Tau-a 和C,越接近于1 说明模型拟合得的越好。选项“LACKFIT”对模

5、型进行拟合优度检验(Goodness of fit statistics),P越大则说明模型拟合的越好。,例15-1.为研究病情x1(0表示不严重,1表示严重)、年龄x2(岁)及不同治疗方法x3(0表示传统疗法,1表示新疗法)对某病疗效的影响,某研究者随机抽取40名某病的患者,其中有20名患者采用传统疗法,另20名患者采用新疗法,经过一段治疗后记录下康复的情况y(0表示未康复,1表示康复),作logistic回归分析。,data ex15_1;input y x1-x3;cards;1 0 20 0 1 0 23 0 1 0 32 0 1 0 38 0 1 1 25 0 1 0 20 1 1

6、0 24 1 1 0 28 11 0 30 1 1 0 32 1 1 0 38 1 1 1 26 1 1 1 29 1 1 1 34 1 1 1 33 1 1 1 38 11 1 40 1 0 0 22 0 0 0 26 0 0 0 29 0 0 0 34 0 0 0 30 0 0 0 38 0 0 0 37 00 1 24 0 0 1 25 0 0 1 29 0 0 1 32 0 0 1 34 0 0 1 37 0 0 1 40 0 0 1 40 00 0 33 1 0 0 36 1 0 1 24 1 0 1 34 1 0 1 32 1 0 1 36 1 0 1 38 1 0 0 39 1;

7、proc logistic descending simple;model y=x1-x3/stb scale=none aggregate lackfit;units x2=10;run;,Response Profile Ordered Total Value y Frequency 1 1 17 2 0 23,Deviance and Pearson Goodness-of-Fit StatisticsCriterion DF Value Value/DF Pr ChiSqDeviance 31 33.9290 1.0945 0.3281Pearson 31 27.2708 0.8797

8、 0.6585,Testing Global Null Hypothesis:BETA=0Test Chi-Square DF Pr ChiSqLikelihood Ratio 9.5290 3 0.0230Score 8.5958 3 0.0352Wald 6.9431 3 0.0737,Analysis of Maximum Likelihood Estimates Standard StandardizedParameter DF Estimate Error Chi-Square Pr ChiSq EstimateIntercept 1 2.3789 2.0279 1.3762 0.2

9、407x1 1-0.7767 0.7497 1.0731 0.3002-0.2168x2 1-0.1068 0.0677 2.4864 0.1148-0.3517x3 1 1.9570 0.8036 5.9303 0.0149 0.5464,Odds Ratio Estimates Point 95%WaldEffect Estimate Confidence Limitsx1 0.460 0.106 1.999x2 0.899 0.787 1.026x3 7.078 1.465 34.198 Adjusted Odds Ratios Effect Unit Estimate x2 10.00

10、00 0.344,data ex15_1;input y x1-x3;cards;1 0 20 0 1 0 23 0 1 0 32 0 1 0 38 0 1 1 25 0 1 0 20 1 1 0 24 1 1 0 28 11 0 30 1 1 0 32 1 1 0 38 1 1 1 26 1 1 1 29 1 1 1 34 1 1 1 33 1 1 1 38 11 1 40 1 0 0 22 0 0 0 26 0 0 0 29 0 0 0 34 0 0 0 30 0 0 0 38 0 0 0 37 00 1 24 0 0 1 25 0 0 1 29 0 0 1 32 0 0 1 34 0 0

11、 1 37 0 0 1 40 0 0 1 40 00 0 33 1 0 0 36 1 0 1 24 1 0 1 34 1 0 1 32 1 0 1 36 1 0 1 38 1 0 0 39 1;proc logistic descending simple;model y=x1-x3/selection=stepwise sle=0.1 sls=0.1 stb scale=none aggregate lackfit;units x2=5;run;,The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard

12、StandardizedParameter DF Estimate Error Chi-Square Pr ChiSq EstimateIntercept 1 2.2718 1.9771 1.3204 0.2505x2 1-0.1135 0.0663 2.9302 0.0869-0.3739x3 1 1.8346 0.7744 5.6126 0.0178 0.5122,Odds Ratio Estimates Point 95%WaldEffect Estimate Confidence Limitsx2 0.893 0.784 1.017x3 6.263 1.373 28.573Adjust

13、ed Odds RatiosEffect Unit Estimate x2 5.0000 0.567,平均康复率大1岁是小1岁的0.893倍,平均康复率新疗法是旧疗法的6.263倍,平均康复率大5岁是小5岁的0.567倍,2.应变量为有序分类变量的logistic回归模型,医学研究中经常要用到的应变量为有序分类变量,例如治疗效果分为“无效、好转、有效、治愈”,疾病的严重程度分为“无、轻、中、重”与“I期、期、期”等,分析各种因素自变量对这种有序分类变量的应变量的影响时也可采用logistic回归模型。SAS软件中的logistic回归过程是以累积概率函数的形式提供的。,设应变量y为k个等级的有

14、序分类变量,不妨设y的k个取值按等级顺序为1、2、k。对y取值小于等于等级j(j=1、2、k)的概率即取前j个值的累积概率用来表示,则有:,当,j=1、2、k-1,例如对k=3时有:,因而应变量y取等级1、2、3的概率为:,例15-2.某医院外科采用两种不同绷带(x1=0为第一种绷带,x1=1为第二种绷带)和两种不同的包扎方式(x2=0为第一种包扎方式,x2=1为第二种包扎方式)进行腿部溃疡处理。治疗效果分为三个等级:不愈、有效、痊愈(y=0为不愈,y=1为有效、y=2为痊愈)。治疗结果如表15-3 所示。试分析不同的治疗方式对治疗效果的影响。,data ex15_2;input y x1 x

15、2 f;cards;00019 1 004200 2 0 109110 8 2 10600121 1 013201 2 0 11 1011110 2 115;proc logistic descending;model y=x1 x2/stb scale=none aggregate lackfit;freq f;run;,Analysis of Maximum Likelihood Estimates Standard StandardizedParameter DF Estimate Error Chi-Square Pr ChiSq EstimateIntercept 1-2.6678

16、0.4656 32.8253.0001Intercept2 1-1.1709 0.3929 8.8791 0.0029 x1 1 1.6430 0.4380 14.0708 0.0002 0.4550 x2 1-0.1903 0.4189 0.2063 0.6496-0.0527 Odds Ratio Estimates Point 95%WaldEffect Estimate Confidence Limitsx1 5.171 2.191 12.201x2 0.827 0.364 1.879,Y取值2、痊愈:等级1;Y取值1、有效:等级2;Y取值0、无效:等级3。,三种治疗效果的概率估计为:

17、,痊愈:,有效:,无效:,但是回归系数的假设检验结果只有绷带种类x1有统计意义,包扎方式x2无统计意义。x1的OR=5.171,95%的可信区间为(2.191,12.201),区间不包含1,表示使用第二种绷带约是使用第一种绷带效果(痊愈的比例,痊愈及有效的比例)的5.171倍。,第二节 条件Logistic回归,在研究设计阶段,为控制混杂干扰因素常按干扰因素的不同取值设置相匹配的配比组,病例与对照之比为1:1或n:m。,i=1,2,n,例15-3 收集了63对有关子宫内膜癌的数据,Y=0为对照,Y=1为病例,自变量因素为胆囊有无病变(gall=0为无病变,gall=1为有病变)和有无高血压Hy

18、per(hyper=0为无,hyper=1为有).试分析在控制血压的条件下胆囊有无病变所引起的相对风险。,data li15_3;input i y x1-x2;t=2-y;cards;1 1 0 0 1 0 0 0 2 1 0 0 2 0 0 03 1 0 1 3 0 0 1 4 1 0 0 4 0 1 05 1 1 0 5 0 0 1 6 1 0 1 6 0 0 07 1 1 0 7 0 0 0 8 1 1 1 8 0 0 19 1 0 0 9 0 0 0 10 1 0 0 10 0 0 0.;proc phreg;model t*y(0)=x1-x2/ties=discrete;stra

19、ta i;run;,The PHREG Procedure Testing Global Null Hypothesis:BETA=0 Test Chi-Square DF Pr ChiSq Likelihood Ratio 4.5487 2 0.1029 Score 4.3620 2 0.1129 Wald 4.0060 2 0.1349 Analysis of Maximum Likelihood Estimates Parameter Standard HazardVariable DF Estimate Error Chi-Square Pr ChiSq Ratio x1 1 0.97

20、041 0.53073 3.3432 0.0675 2.639 x2 1 0.34807 0.37696 0.8526 0.3558 1.416,data li15_3;input i y x1-x2;t=2-y;cards;1 1 0 0 1 0 0 0 2 1 0 0 2 0 0 0 3 1 0 1 3 0 0 1 4 1 0 0 4 0 1 0 5 1 1 0 5 0 0 1 6 1 0 1 6 0 0 0 7 1 1 0 7 0 0 0 8 1 1 1 8 0 0 1 9 1 0 0 9 0 0 0 10 1 0 0 10 0 0 0 11 1 1 0 11 0 0 0 12 1 0

21、0 12 0 0 1;proc phreg;model t*y(0)=x1-2/selection=stepwisesle=0.1 sls=0.1 ties=discrete;strata i;run;,Analysis of Maximum Likelihood Estimates Parameter Standard HazardVariable DF Estimate Error Chi-Square Pr ChiSq Ratiox1 1 0.95551 0.52623 3.2970 0.0694 2.600 Summary of Stepwise Selection Variable

22、Number Score WaldStep Entered Removed In Chi-Square Chi-Square Pr ChiSq1 x1 1 3.5556.0.0593,子宫内膜癌发病率有胆囊病变平均是无胆囊病变的2.6倍,例15-4 为研究肥胖X1(X1=1为肥胖,X1=0为不肥胖)、口服避孕药雌激素X2(X2=1为服用雌激素,X2=0 未服用雌激素)与子宫内膜癌的关系,随机选取20名患者。对于每名患者,再随机选取年龄相近的2名正常人作为对照。,data li15_4;input i x1-x2 y;t=2-y;cards;1 1 1 1 1 0 0 0 1 0 0 0 2 1

23、 1 1 2 1 1 0 2 0 1 0 3 1 1 1 3 0 1 0 3 1 1 0 4 0 1 1 4 0 0 0 4 0 1 0 5 0 0 1 5 1 0 0 5 0 1 0 6 1 1 1 6 0 0 0 6 1 0 0 7 1 1 1 7 0 1 0 7 1 1 0 8 1 1 1 8 1 0 0 8 1 1 0 9 1 0 1 9 1 1 0 9 1 1 0 10 0 1 1 10 0 1 0 10 0 0 0 11 0 1 1 11 0 1 0 11 1 0 0 12 0 1 1 12 0 1 0 12 0 1 0 13 1 1 1 13 0 0 0 13 1 1 0 14

24、1 1 1 14 0 0 0 14 1 0 0 15 1 1 1 15 0 0 0 15 0 1 0 16 0 1 1 16 0 1 0 16 0 1 0 17 0 1 1 17 0 0 0 17 1 0 0 18 1 1 1 18 1 0 0 18 0 1 0 19 1 0 1 19 0 1 0 19 0 1 0 20 1 1 1 20 0 1 0 20 0 0 0;proc phreg;model t*y(0)=x1-x2/selection=stepwise sle=0.1 sls=0.1 ties=discrete;strata i;run;,Testing Global Null H

25、ypothesis:BETA=0Test Chi-Square DF Pr ChiSqLikelihood Ratio 10.6377 2 0.0049Score 8.8725 2 0.0118Wald 5.9789 2 0.0503 Analysis of Maximum Likelihood Estimates Parameter Standard HazardVariable DF Estimate Error Chi-Square Pr ChiSq Ratiox1 1 1.82388 0.84948 4.6098 0.0318 6.196x2 1 1.58959 0.80897 3.8

26、611 0.0494 4.902,第三节 Logistic 回归模型的医学应用及其注意事项,一、Logistic 回归模型在医学中的应用 1、分析流行病学的研究中进行危险因子的筛选。2、校正混杂因子。把混杂因子当作自变量来对 待,利用Logistic 回归对其进行调正和分析。3、Logistic 曲线拟合可用于分析药物或毒物的 剂量反应。4、判别分析与预测。,二、Logistic 回归模型应用的注意事项,1.变量的取值形式Y:两分类,多分类有序,多分类无序X:连续变量(可转换成多分类有序变量)多分类有序变量多分类无序变量(转换成k-1个哑变量),2、要有足够的样本含量。n大于自变量个数的 20倍,配比组设计时,匹配组数20m。3、因素间的交互作用。交互作用的自变量相 乘产生一个新的自变量后参加计算分析过程,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号