《精品课程医学统计学教学课件-logistic回归分析.ppt》由会员分享,可在线阅读,更多相关《精品课程医学统计学教学课件-logistic回归分析.ppt(53页珍藏版)》请在三一办公上搜索。
1、第十五章 logistic回归分析 Logistic Regression Analysis,山东大学公共卫生学院,回归分析的分类,多个因变量(y1,y2,yk),一个因变量 y,logistic回归(logistic regression)是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。在流行病学研究中,常需要分析疾病与各种危险因素间的定量关系,同时为了能真实反映暴露因素与观察结果间的关系,需要控制混杂因素的影响。(1)Mantel-Haenszel分层分析:适用于样本量大、分析因素较少的情况。当分层较多时,由于要求各格子中例数不能太
2、少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。(2)线性回归分析:由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非线性。,logistic回归:不仅适用于病因学分析,也可用于其他方面的研究,研究某个二分类(或无序及有序多分类)目标变量与有关因素的关系。logistic回归的分类:(1)二分类资料logistic回归:因变量为两分类变量的资料,可用非条件logistic回归和条件logistic回归进行分析。非条件logistic回归多用于非配比病例-对照研究或队列研究资料,条件logisti
3、c回归多用于配对或配比资料。(2)多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。,队列研究(cohort study):也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露情况。,RR(相对危险度relative risk):表示暴露组与非暴露
4、组发病率(或死亡率)的比值。也称为危险比(risk ratio)。反映了暴露与疾病发生的关联强度。RR表明暴露组发病或死亡的危险是非暴露组的多少倍。,病例对照研究(case-control studies):一种由果及因的回顾性研究,先按疾病状态确定调查对象,分为病例(case)和对照(control)两组,然后利用已有的记录、或采用询问、填写调查表等方式,了解其发病前的暴露情况,并进行比较,推测疾病与暴露间的关系。,相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率,只能计算比值比OR值。OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组的
5、多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。,OR1,说明 该因素是疾病的危险性增加,为危险因素;OR1,说明 该因素是疾病的危险性减小,为保护因素;,病例对照研究的类型,(一)病例与对照不匹配-非条件logistic回归在设计所规定的病例和对照人群中,分别抽取一定量的研究对象,一般对照应等于或多于病例数,此外无其他任何限制。,(二)病例与对照匹配-条件logistic回归匹配或称配比(matching),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。,(二)病例与对照匹配-条件logistic回归1、成组匹配(cat
6、egory matching):匹配的因素所占的比例,在对照组和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组也是如此。2、个体匹配(individual matching):以病例和对照的个体为单位进行匹配叫个体匹配。1:1匹配又叫配对(pair matching),1:2,1:m匹配时称为匹配。匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混杂因子,否则不应匹配。(三)巢式病例对照研究也称为队列内的病例对照研究,是将队列研究和病例对照研究相结合的方法。,第一节 logistic回归,二、logistic回归模型的参数估计,例15-1,观察例数,三、logisti
7、c回归模型的假设检验,对所拟合模型的假设检验:,四、变量筛选,例 某工作者在探讨肾细胞癌转移的有关临床病理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例。试用logistic回归分析筛选出于癌细胞转移有关的危险因素(变量选入和剔除水平均为0.10)。,用逐步回归法拟合模型,变量选入和剔除水平均为0.10,指定选项“des”是为了按照y=1(有转移)的概率拟合模型。如果不加此选择项,则软件会按照y=0(无转移)的概率拟合模型,此时,应变量的排序水平发生颠倒,且所有参数估计的符号相反,OR值为原来的倒数。,logistic逐步回归分析筛选出两个有统计学意义的变量为x2和
8、x4,回归系数分别为2.4134和2.0963,比数比分别为11.172和8.136。结果中还给出了标准化偏回归系数,肾癌细胞核组织学分级(x4)在引起癌细胞转移中的危险性大于肾细胞癌血管内皮生长因子(x2)。,第二节 条件logistic回归,例 研究肥胖(x1,肥胖为1,不肥胖为0)、口服避孕药雌激素(x2,用药为1,不用药为0)与子宫内膜癌(y,病例为0,对照为1)的关系,采用1:2配对做病例-对照研究,共调查20个配比组。试分析肥胖、口服避孕药雌激素与子宫内膜癌的关系。,第三节 logistic回归的应用及其注意事项,如果药物或毒物不止一种,也可以用logistic模型分析其联合作用。,4预测与判别 logistic回归模型是一个概率型模型,对非条件Logistic回归,在给定的条件下可通过logistic回归模型计算某事件发生的概率。因此可以利用它预测某事件发生的概率。在临床上也可以根据疾病与临床检查指标资料,建立logistic回归模型,对新的对象可根据其临床检查指标,计算其患某种疾病的概率的大小,进行判别分析。,