《多元逐步等回归分析.ppt》由会员分享,可在线阅读,更多相关《多元逐步等回归分析.ppt(77页珍藏版)》请在三一办公上搜索。
1、袁克虹办公电话:26032453办公地点:L楼305B邮件:,多元逐步回归模型,2,回归分析内容,3,逐步回归分析,多元线性回归建立的回归方程包含了所有的自变量,但在实际问题中,可能有这样的情况:参加回归方程的P个自变量中,有些自变量单独看对因变量Y有作用(相关程度密切),但P个自变量又可能是相互影响的,在作回归时,它们对因变量所起的作用有可能被其他自变量代替,而使得这些自变量在回归方程中变得无足轻重。这时把这些自变量留在回归方程中,不但增加计算上的麻烦,而且不能保证有好的回归效果。为了克服这些缺点,提出了多元逐步回归。,4,多元逐步回归要求回归方程中包含所有对因变量作用显著的自变量,而不包含
2、作用不显著的自变量,从而建立最优回归方程。,5,1、强行进入法(Enter):预先选定的自变量全部进入回归模型,这是系统默认方式。2、消去法(Remove):根据设定的条件剔除部分自变量。,逐步筛选变量的方法:,6,3、向前引入法(Forward):自变量由少到多一个一个引入回归方程,将与因变量的相关系数最大的第一个自变量选入方程并进行检验,如果F值Fa,拒绝H0;将其余的变量中与因变量的相关系数最大的第二个自变量选入方程,当F值Fa,拒绝H0;如此下去,不断引入新的自变量,直到不能拒绝H0,再没有变量被引入为止。,7,4、向后剔除法(Backward):自变量由多到少一个一个从回归方程中剔除
3、,首先,对预先选定自变量全部进行回归,然后把对因变量影响不显著的自变量从方程中剔除并进行检验,如果F值Fa,接受H0,一个一个剔除对因变量不显著的自变量,直到再不能剔除为止。,8,5、逐步引入剔除法(Stepwise):向前引入法与向后剔除法的结合。,9,逐步回归的主要用途:建立一个自变量个数较少的多元线性回归方程,可用于描述某些自变量与某一医学现象间的数量关系,以及进行疾病的预测预报,辅助诊断等。,10,2、进行因素筛选,有助于从大量因素中筛选出对某一医学现象作用显著的因素和因素组,因此在病因分析和疗效分析中有着广泛的应用。,11,非线性回归模型按变量个数也可以分为一元非线性回归模型和多元非
4、线性回归模型;曲线的形式也因实际情况不同而有多种形式,如指数曲线、双曲线、S形曲线等。,非线性回归模型,12,非线性回归模型的形式,非线性回归模型,13,非线性回归模型,14,根据非线性回归模型线性化的不同性质,上述模型一般可以分成三种类型:第一类:直接换元型 这类非线性回归模型通过简单的变量换元可直接化为线性回归模型,如式(1)、式(2)、式(3)、式(4)。第二类:间接代换型 这类非线性回归模型经常通过对数变形代换间接地化为线性回归模型,如:式(5)、式(6)。第三类:非线性型 这类非线性回归模型属于不可线性化的非线性回归模型,如式(7)和式(8)。,非线性回归模型,非线性回归模型的分类,
5、15,直接换元法,16,对于式(5)、式(6)和式(7)所示的非线性回归模型,因变量与待估计参数之间的关系也是非线性的。因此不能通过直接换元化为线性模型。对此类模型,通常可通过对回归方程两边取对数将其化为可以直接换元的形式。这种先取对数再进行变量代换的方法称为间接换元法。,间接换元法,17,间接换元法,18,本章小节,线性回归模型的一般形式为,19,本章小节,Logistic回归,21,回归分析的分类,多个因变量(y1,y2,yk),一个因变量 y,22,研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。logistic回归:本讲解从病因学
6、位例子开始,不仅适用于病因学分析,也可用于其他方面的研究,研究某个二分类(或无序及有序多分类)目标变量与有关因素的关系在流行病学研究中,常需要分析疾病与各种危险因素间的定量关系,同时为了能真实反映暴露因素与观察结果间的关系,需要控制混杂因素的影响。,logistic回归,23,(1)Mantel-Haenszel分层分析:适用于样本量大、分析因素较少的情况。当分层较多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。(2)线性回归分析:由于因变量是分类变量,不能满足其正态性要求;有些自变量
7、对因变量的影响并非线性。,logistic回归,24,一、二分类logistic回归:因变量为两分类变量的资料分为:1:非条件logistic回归(1)队列研究资料(2)非配比病例-对照研究 2:条件logistic回归进行分析。此回归多用于配对或配比资料。二、多分类资料logistic回归:因变量为多项分类的资料,可用多项分类logistic回归模型或有序分类logistic回归模型进行分析。,logistic回归的分类,25,也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率
8、或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。,队列研究(cohort study),26,队列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露情况。,队列研究(cohort study),27,RR(相对危险度relative risk):表示暴露组与非暴露组发病率(或死亡率)的比值。也称为危险比(risk ratio)。反映了暴露与疾病发生的关联强度。RR表明暴露组发病或死亡的危险是非暴露组的多少倍。,队列研究(cohort study),28,一种由果及因的回顾性研究,先按疾病状态确定调查对象,分为病例(case)和对照(contro
9、l)两组,然后利用已有的记录、或采用询问、填写调查表等方式,了解其发病前的暴露情况,并进行比较,推测疾病与暴露间的关系。,病例对照研究,29,病例对照研究,30,病例对照研究(不考),31,相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率,只能计算比值比OR值。OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。OR1,说明该因素是疾病的危险性增加,为危险因素;OR1,说明该因素是疾病的危险性减小,为保护因素;,病例对照研究,32,病例对照研究的三种类型,(一)病例与对照不匹配-非条件
10、logistic回归在设计所规定的病例和对照人群中,分别抽取一定量的研究对象,一般对照应等于或多于病例数,此外无其他任何限制。,33,病例对照研究的三中类型,(二)病例与对照匹配-条件logistic回归匹配或称配比(matching),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。1、成组匹配(category matching):匹配的因素所占的比例,在对照组和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组也是如此。2、个体匹配(individual matching):以病例和对照的个体为单位进行匹配叫个体
11、匹配。1:1匹配又叫配对(pair matching),1:2,1:m匹配时称为匹配。匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混杂因子,否则不应匹配。,34,(三)巢式病例对照研究也称为队列内的病例对照研究,是将队列研究和病例对照研究相结合的方法。,病例对照研究的三中类型,35,logistic回归,36,37,38,39,40,41,二、logistic回归模型的参数估计,42,43,44,例15-1,45,观察例数,46,47,48,三、logistic回归模型的假设检验,49,50,对所拟合模型的假设检验:,51,四、变量筛选,52,某工作者在探讨肾细胞癌转移的有关临床病
12、理因素研究中,收集了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例。试用logistic回归分析筛选出于癌细胞转移有关的危险因素(变量选入和剔除水平均为0.10)。,例子,53,用逐步回归法拟合模型,变量选入和剔除水平均为0.10,指定选项“des”是为了按照y=1(有转移)的概率拟合模型。如果不加此选择项,则软件会按照y=0(无转移)的概率拟合模型,此时,应变量的排序水平发生颠倒,且所有参数估计的符号相反,OR值为原来的倒数。,54,55,logistic逐步回归分析筛选出两个有统计学意义的变量为x2和x4,回归系数分别为2.4134和2.0963,比数比分别为11.172和8.1
13、36。结果中还给出了标准化偏回归系数,肾癌细胞核组织学分级(x4)在引起癌细胞转移中的危险性大于肾细胞癌血管内皮生长因子(x2)。,56,条件logistic回归,57,58,59,60,61,条件logistic回归应用实例,62,研究肥胖(x1,肥胖为1,不肥胖为0)、口服避孕药雌激素(x2,用药为1,不用药为0)与子宫内膜癌(y,病例为0,对照为1)的关系,采用1:2配对做病例-对照研究,共调查20个配比组。试分析肥胖、口服避孕药雌激素与子宫内膜癌的关系。,例子,63,64,65,logistic回归的应用及其注意事项,66,67,如果药物或毒物不止一种,也可以用logistic模型分析其联合作用。,68,4预测与判别 logistic回归模型是一个概率型模型,对非条件Logistic回归,在给定的条件下可通过logistic回归模型计算某事件发生的概率。因此可以利用它预测某事件发生的概率。在临床上也可以根据疾病与临床检查指标资料,建立logistic回归模型,对新的对象可根据其临床检查指标,计算其患某种疾病的概率的大小,进行判别分析。,69,70,71,72,73,74,75,76,77,