第一章生存分析介绍要点课件.ppt

资源描述

《第一章生存分析介绍要点课件.ppt》由会员分享，可在线阅读，更多相关《第一章生存分析介绍要点课件.ppt（99页珍藏版）》请在三一办公上搜索。

1、第一章生存分析介绍,1 导言2 简略摘要3 目标4 正文5 总结6 练习7 实验8 练习答案,导言,这一章给出了生存分析数据的描述性分析步骤。分析步骤包括生存分析涉及的问题类型、结局变量的考虑、删失数据的考虑、生存函数和风险函数的表述、生存分析数据的规划（即数据输入计算机时的编排方法）、生存分析的目标、生存分析实例。因为该章主要是描述性内容，数学、统计学、流行病学知识并不是绝对必要的。但是读者对流行病学原理以及对数学符号和公式的了解将会大有利于对本书的学习。,简略摘要,1 什么是生存分析2 删失数据3 术语及符号4 生存分析的目的5 基于计算机应用的数据格式6 用于理解分析的数据格式7 生存

2、时间的描述性统计8 例题9 多变量例题10 生存分析的数学模型,学习目标,1 辨认或描述生存分析所涉及的问题类型2 删失数据的定义3 右删失数据的定义4 造成数据删失的三个主要原因5 生存函数的定义、辨认、解释6 风险函数的定义、辨认、解释7 生存函数与风险函数的关系8 生存分析的三个主要目的9 应用于计算机的原始数据编排格式的识别或辨认，特别是能够按照这种编排格式进行数据设置,10 应用于模型理论理解的编排格式或组成部分的识别或辨认，特别是能够按照这种编排格式进行数据设置11 实例的生存曲线或风险函数的解释及比较12 给出一个实例，根据解释变量与生存时间之间的关系来陈述生存分析的目的13 平

3、均生存期或平均风险的计算或解释14 两组生存数据风险比的定义或解释,正文（Presentation）,该章给出了生存分析的总体介绍，基于流行病学特定类型或其他数据的流行的数据分析步骤。这一章的重点是生存分析涉及的问题、目的、主要的术语及符号、原始数据编排、实例。,重点,问题,目的,术语及符号,数据排版,例题,一生存分析,一般而言，生存分析是数据分析的统计学过程的集合。它所关心的结局变量为研究事件发生时的时间。,生存时间：单位是年、月、周、日。是从对研究对象开始随访到研究事件发生的时间。研究事件：可以是死亡、疾病发生、复发、痊愈或者是任何事先指定的感兴趣的事件。虽然在一次研究中会有不止一个结局

4、事件发生，但是我们假设只有一个事件是研究者感兴趣的。当考虑的结局事件不止一个时，涉及到的统计学问题为周期性事件或竞争性危险问题，这将在第八、第九章中分别介绍。,1 生存分析,在生存分析中，通常把时间变量称为生存时间，因为它代表了研究对象在随访期间“生存”的时间。研究事件称为终点，因为研究事件通常是死亡、疾病发生或其他消极事件。生存时间也可以是经过外科手术重返工作岗位的时间按。这里的终点是一个积极事件。,1 生存分析,结局变量：研究事件发生的开始随访研究事件,时间,1 生存分析,研究事件：死亡、发病、复发、痊愈,假设结局为一个研究事件周期性事件一个研究事件或竞争性危险,时间生存时间事件

5、终点事件,1 生存分析,简要介绍关于生存分析的五个例题,第一个例子：，对处于缓和期的白血病患者，随访几个星期后，看其能保持缓和期多长时间。第二个例子：对一个身体健康无疾病的队列，随访几年后看有哪些研究对象患心脏病。第三个例子：对一个年龄大于60岁的人群，随访13年，观察他们的生存期。第四个例子：对一些新近释放的假释犯，随访几个星期，观察他们是否又被重新拘捕。这种研究称为累犯研究。第五个例子：追踪随访经过心脏移植手术的患者的生存期。,1 生存分析,以上五个例子均属于生存分析的范畴，因为他们的结局变量都是某个特定事件发生时的时间。在第一个关于白血病患者的例子中，研究者感兴趣的终点事件是患者脱离缓

6、和期，结局变量是处于缓和期的病人从进入研究到脱离缓和期所用的时间（周）。第二个例子的终点事件是“患心脏病”，结局变量是健康人群从进入研究到患心脏病所用的时间（年）。第三个例子的终点事件是死亡，结局变量是年龄大于60岁的人群从进入研究到死亡所用的时间（年）。第四个例子是一个社会学研究而不是一个医学研究，所关心的终点事件是“重新被拘捕”，结局变量是假释犯从被释放到再一次被拘捕所经历的时间（周）。第五个例子的终点事件是死亡，结局变量是患者从接受心脏移植到死亡生存的时间。,1 生存分析,二删失数据,绝大多数的生存分析必须考虑删失问题，当我们获得了研究对象生存时间的部分信息，而不知道确切的生存时间时，

7、删失就发生了。,删失不知道确切生存时间,举一个简单的关于删失的例子，以X表示一组处于缓和期的白血病患者，对他们进行随访直到这些患者脱离缓和期。对于某个患者，当研究结束时，他仍处于缓和期，终点事件没有发生，该病人的生存时间就认为是删失的。对于这个患者，他的生存时间至少是研究者对他进行随访的时间，但是若他在研究结束以后才脱离缓和期，研究者就不知道他的确切的生存时间。,2 删失数据,一般造成删失的原因有三个1 直到研究结束时研究对象仍未发生终点事件2 研究对象在研究期间发生失访3 研究对象因死亡而退出研究（如果死亡不是研究者感兴趣的事件）或其他原因（如药物副反应或其他风险）研究结束终点事件未发生删

8、失失访中途退出,2 删失数据,2 删失数据,以图例的形式描述几个研究对象的随访经历，以X表示发生终点事件的研究对象。例,研究对象A在研究开始时进入研究，五周后发生终点事件，他的生存时间是5周，不属于删失研究对象B也是在研究开始时进入研究，但是在12周的研究期结束以后仍未发生终点事件，生存时间属于删失，因为我们只知道他至少生存的12周研究对象C在研究开始后第2.5周进入研究，在第六周时退出研究，他的生存时间为3.5周，属于删失研究对象D在研究开始后第4周进入研究，直到研究结束时仍未发生终点事件，他的删失时间为8周研究对象E在研究开始后第3周进入研究，在随访到第九周时发生失访，他的删失时间为6

9、周研究对象F在研究开始后第8周进入研究,随访到第11.5周时发生终点事件，与研究对象A一样，没有发生删失，他的生存时间为3.5周,2 删失数据,总结六个研究对象中，有两个发生终点事件，为A与F，四个发生删失，为B、C、D、E。,2 删失数据,六名研究对象的生存时间表,2 删失数据,在该表最后一列中，以1表示研究对象发生了终点事件，以0表示发生删失。生存时间的单位为周,删失类型,2 删失数据,2 删失数据,右删失当研究结束时研究对象未发生终点事件、失访、中途退出造成的删失称为右删失。虽然研究对象也可能发生左删失，但大部分删失都是右删失。,左删失研究对象的确切生存时间小于或等于观察的生存时间。例如

10、，随访一个研究对象直到他表现为HIV阳性，研究者一般将研究对象第一次HIV测试阳性作为终点事件。但是研究者不知道研究对象接触到HIV病毒的确切时间，也就不知道研究对象确切的HIV呈阳性的时间。这样该研究对象的生存时间属于左删失，因为他真正的生存时间是从随访开始到感染HIV的时间，小于观察的生存时间（从随访开始到HIV测试阳性的时间）,2 删失数据,三术语与符号,T随机变量，生存时间，大于或等于0,t随机变量T的某一个确切值，例如，观察某个研究对象经过癌症治疗以后生存期能否超过5年，此时 t=5，T5?,3 术语与符号,以希腊字母作为终点事件是否发生的指示变量，它是一个随机变量,3 术语与符

11、号,研究结束时未发生终点事件=0 失访中途退出,生存函数与风险函数,3 术语与符号,生存函数表示研究对象活过某个时间的概率，即Tt的概率,3 术语与符号,生存函数是生存分析的基础，因为知道了不同t值的生存概率，就获得了关于生存数据的最关键信息,理论上，t的取值范围为0-，生存函数的图形是一条光滑的曲线,3 术语与符号,以生存时间t为横轴，生存函数s(t)为纵轴，绘制生存曲线。由图可以观察得到生存曲线的以下特点,（1）生存曲线是一条非增曲线，随着t的增加，不断下降。（2）t=0时，s(t)=s(0)=1。即研究开始时，没有研究对象出现终点事件。在0时刻的生存概率为1（3）t时，s(t)=s()

12、=0。即理论上，若研究时间没有限制，最后将没有研究对象存活。所以生存曲线最终下降为0。这种情形是生存曲线的理论模型,3 术语与符号,对于实际数据，生存函数的图形是阶梯状的，而不是光滑曲线。由于研究期限不可能无限长以及竞争风险的存在，因此不是所有的研究对象都会发生终点事件。以表示估计的生存函数，在研究结束时，生存曲线不一定下降为0。,3 术语与符号,以h(t)表示风险函数，风险函数公式为,3 术语与符号,表示一个小的时间区间,h(t)表示在时间t仍存活的研究对象，每单位时间终点事件发生的瞬时可能。与生存函数相反，生存函数关注的是未发生终点事件，风险函数关注的则是终点事件的发生。在某种程度上，风

13、险函数可以认为是给出了生存函数蕴含的信息的相反的一面。,3 术语与符号,以速度的例子解释瞬时可能的意义。在你开车时看到速度仪显示的速度为60英里每小时，这意味着在未来的一小时内你将在这条路上行驶60英里。这就是瞬时可能的意义。速度仪上的数字决定你在未来一小时内行驶多长的距离。由于你可能在未来的一小时内减速或加速，也有可能停车，所以60英里每小时的读数并不能说明你在未来一小时内真正行驶的距离。速度仪仅仅说明你在某一瞬间的行驶速度。与速度的含义相似，风险函数表示生存到t时刻的研究对象，在t时刻失效事件（死亡或发病）发生的瞬时可能。这与速度的例子是类似的，假设你已经行驶了一段时间，这时速度仪上的速度

14、也是一个瞬时可能。,3 术语与符号,风险函数公式极限符号右侧的分子部分是一个条件函数，它表示在给定条件A的前提下，B的概率。即已经生存到t时刻的研究对象在（t,t+）时间区间内终点事件发生的概率。,由于风险函数利用了条件概率的形式，因此风险函数有时被称为条件风险率。,3 术语与符号,风险函数是一个比率而不是概率,由风险函数的公式可知，极限符号右侧是两个数值之比，分子是条件概率，分母是一个小的时间区间，分子与分母相除以后得到的是每单位时间的概率，不再是概率而是比率，它的取值范围与概率的取值范围不同，概率的取值范围为0-1，而极限符号右侧的取值范围为0-，其大小取决于时间的单位是天、周、月还是年。

15、,3 术语与符号,举例说明风险函数的取值，以P表示条件概率，P=1/3,时间区间为1/2天，两数相除可得每单位时间的概率，P值保持不变，时间区间的单位由天改为周，则1/2天等于1/14周，两数相除可得每单位时间的概率，计算结果见下表,3 术语与符号,对于相同的条件概率，时间区间的单位不同时，计算得到的结果不同，其值有可能大于一。,3 术语与符号,趋于零，对公式右侧的表达式取极限，可以得到t时刻每单位时间失效事件发生的概率。另一种说法是风险函数或条件风险比表示已生存到t时刻的研究对象，在t时刻每单位时间失效事件发生的瞬时可能。,3 术语与符号,下图是三个风险函数随时间变化的图形，不同于生存函数，

16、风险函数的取值不一定从1开始，一直下降为0，而是可以从任意值开始，向任意方向上升或下降，但总是大于零。,3 术语与符号,对于一个给定的t值，风险函数具有以下两个特点：,1 风险函数是非负的，h(t)02 风险函数没有上界，即风险函数的取值范围为0-原因：由风险函数的公式可知，风险函数的分子与分母都是非负的，分母的取值范围为0-,3 术语与符号,风险函数的图形类型1 常数风险函数,3 术语与符号,第一个图是健康人群的风险函数图，由图可知，不论t取何值，h(t)均等于一个常数，即对于一个研究对象而言，若他/她在研究期间一直保持健康状态，那么他/她在研究期间的任何时间患病的瞬时可能性均相同。当风险

17、函数为一常数时，这时的生存模型就是指数模型,2 随时间递增的风险函数,由图可知，风险函数随着时间的延长而增大。这种图形称为递增的Weibull 模型。这种图形适用于以死亡为失效事件的白血病，而不是用于疾病治疗后的反应。对于一个白血病人，随着生存期的延长，预后变差，病人的死亡风险将会增加。,3 术语与符号,3 随时间递减的风险函数,风险函数随时间不断减小。这种类型的图形称为递减的Weibull模型。这种模型适用于经过外科手术治疗处于恢复期的病人，失效事件为死亡。处于恢复期的病人，随着生存期的延长，预后变好，病人的死亡风险将会减少。,3 术语与符号,4 先增后减的风险函数,该图显示风险函数是先增加

18、后减少。该类型的代表是对数正态生存模型。肺结核病人的风险函数属于这种类型，病人的死亡风险在早期是递增的，经过一段时间以后会逐渐下降。,3 术语与符号,生存函数与风险函数的关系,生存函数对于生存数据的分析而言，具有更大的吸引力，因为它直接描述一个研究队列的生存经历。,3 术语与符号,应用风险函数主要基于以下几个原因,1 风险函数可以计算瞬时可能性（概率），而生存函数则是条件累积概率2 风险函数可以鉴别模型类型，例如对于一组数据，它的模型是指数模型，Weibull模型，还是对数正态模型3风险函数是生存分析的数学模型,3 术语与符号,生存函数与风险函数的关系：知道其中一个就可以推导出另一个。,例如，

19、风险函数等于一个常数，即h(t)=，则相应的生存函数s(t)=,3 术语与符号,可以用两个微积分公式表示生存函数与风险函数的更一般的关系,在实际的数据分析中，电脑程序可以给出生存函数与风险函数的数字转换，不需要研究者自己利用公式计算。,3 术语与符号,总结,对于一个已生存到t时刻的研究对象，生存函数侧重于生存，而风险函数则侧重于失效事件的发生,3 术语与符号,四生存分析的目的,生存分析的基本目标1 估计及解释生存数据的生存函数和/或风险函数2比较生存函数和/或风险函数3 评价解释变量与生存时间的关系,生存分析的目的,以下是两个生存函数的曲线图（针对第一个目的）,左侧的生存函数显示在随访早期生

20、存率下降很快，后期下降较慢；右侧的生存函数则相反，在随访早期生存率下降较慢，后期则下降很快。,生存分析的目的,治疗组与安慰剂组生存函数的比较（针对第二个目的）,在六周以前，治疗组的生存函数曲线一直在安慰剂组的上方，六周以后，两组的生存曲线基本重叠，这说明在六周以前，治疗组的效应大大好于安慰剂组，六周以后两组的效应基本相同。,生存分析的目的,数学模型（针对第三个目的）,实现这个目的，需要应用数学估计模型，例如Cox比利风险模型就是最常使用的。,生存分析的目的,五基于计算机的数据编排,基于计算机应用数据编排类型基于理解,左表是基于计算机的原始数据的编排形式。设样本量为n，表的第一列是研究对象

21、的编号，从一到n；第二列为生存时间，第一个研究对象的生存时间记为，第二个研究对象的生存时间记为，以此类推。第二列给出了所有研究对象的观察的生存时间，不论研究对象是否发生失效事件。第三列是表示是否发生删失的指示变量，若研究对象发生了失效事件，则=1，否则=0.,五基于计算机的数据编排,对于第五个研究对象，在研究期间发生了失效事件，则=1，第八个研究对象在研究期间发生删失，则=0,等于失效事件发生的总和，n,因为不是所有的研究对象都会发生失效事件。为解释性变量，例如年龄、暴露情况以及乘积变量（年龄种族）等,五基于计算机的数据编排,解释变量 X1 对应的一列数据是n个研究对象该变量的观测值,X1

22、1表示第一个研究对象的第一个解释变量的值,X21表示第二个研究对象的第一个解释变量的值，其他的以此类推。,对于第j个研究对象，他对应的研究信息为tj,，Xj1,Xj2,Xjp,五基于计算机的数据编排,例题两组白血病患者的研究数据,将42名白血病患者分为两组，每组21人，一组接受治疗，一组使用安慰剂。该数据来自Freireich于1963年发表在Blood杂志的文章。左侧表的数据编不能直接录入计算机进行分析，需要重新进行编排。该数据给出了每一个研究对象在研究期间处于缓和期的周数，知道他发生失效事件或删失。在该研究中，脱离缓和期为失效事件，若研究对象在研究结束仍未发生失效事件、失访或研究结束前

23、退出，这些都视为删失。以生存时间后加一个加号表示删失数据。,五基于计算机的数据编排,五基于计算机的数据编排,由下表可知，前三个研究对象都在第六周时发生失效事件，之后的六名研究对象也先后发生失效事件，他们的生存时间集中在7-23周之间。其余的研究对象都发生了删失事件，他们的生存时间集中在6-35周之间。例如第三行的第一个数据为6，其后有加号标识，表示该研究对象在第六周时发生了删失。第一组的21名研究对象有九名发生了失效事件，其余12名均为删失。第二组没有删失数据，即第二组的21名研究对象在研究期间均脱离了缓和期。,五基于计算机的数据编排,。,五基于计算机的数据编排,上表为经过编排的可用于

24、计算机分析的数据,五基于计算机的数据编排,表的前半部分为治疗组的数据（1-21），后半部分为安慰剂组的数据（22-42），表的第一列为研究者编号，第二列为生存时间，第三列为指示变量（删失还是失效），第四列为解释变量（组别），1代表治疗组，0代表安慰剂组。表中的一行数据代表了一个研究对象的信息，例如，对3号研究对象而言，他的生存时间为六周，=1，即该研究对象在研究期间脱离了缓和期，X=1表示该研究对象属于治疗组。对于14号研究对象，他的生存时间为17周，=0.即研究对象在研究期间发生了删失，X=1表示该研究对象也属于治疗组；对于第32号研究对象，他的生存时间是8周，=1，即该研究对象在研究期间

25、发生了失效事件，X=0表示他属于安慰剂组。,六基于理解分析的数据编排,该部分将有助于理解生存分析的分析过程及生存曲线的绘制。,表中第一列为按升序排列的生存时间，其中不包括删失的生存时间，以，表示。K等于失效时间数。第二列表示在某个生存时间发生失效的人数。,六基于理解分析的数据编排,六基于理解分析的数据编排,上页为经过整理的两组白血病人的生存数据，对第一组，21个患者有九个发生了失效事件，其中在第六周有三个患者发生失效事件，在7、10、13、16、22和23周各有一名患者发生失效事件，因此k=7。将这7个生存时间按升序排列，=6，=7，=23.对于第二组，21名患者全部发生失效事件，且在同一个

26、生存时间有相持发生,例如在第一周有两名患者脱离缓和期，在第二周也有两名患者脱离缓和期，这21名患者总共有12个时间点，即k=12,这12个时间点列在表的第一列。表的第一行为t=0时的信息，这一行的作用将在介绍第三列时解释。表的第三列给出了在同一个时间点发生失效事件的患者数，以表示。在某个时间点没有相持发生时，=1,对于第一组数据，只在第六周时有相持发生，其他时间点都未发生。对于第二组数据，在第1、2、4、5、8、11、12 周均发生了相持。相加的和为相应组中发生失效事件的患者总和，即第一组中，第二组中。,六基于理解分析的数据编排,第三列为在时间区间内删失的患者数，以表示，例如，第一组中有

27、5个非零的的，将其相加，和为第一组中删失的患者数，即，且,六基于理解分析的数据编排,六基于理解分析的数据编排,上页中，左侧表是第一组患者的未经整理的原始数据，右侧为整理以后的数据。左表中的第十号患者在第6周发生删失，因此右侧表中的=1，即表中与=6相对应的第二行第三列。左表中的11号患者在第9周发生删失，由于该患者是在7,10)的时间区间内删失的，故=1，第12号患者在第十周发生删失，已不属于这个区间，他属于10,13)的时间区间。左表中的12、13号患者，他们分别在第10周、第11周发生删失，这两个时间都属于10,13)的时间区间，因此=2.,q的计算,六基于理解分析的数据编排,对于右侧的表

28、，表的第一行为=0，加入这一行是为了防止有研究对象在第一个失效时间之前就发生删失，因此有可能是非零的。对于该例的两组数据，均没有研究对象在第一个失效时间之前发生删失。右侧的表的最后一列为“风险趋势”，风险趋势既不是数值变量也不是频数变量，它是特定研究对象的集合。风险趋势表示至少生存到时间的研究对象的集合，即对于每个研究对象，他的生存期为或比更长，而不考虑该研究对象是否发生了删失。,六基于理解分析的数据编排,例如，对于第一组的研究对象，在研究开始时，生存期都大于0周，因此在0周时的风险趋势就包含了第一组中的所有研究对象。第一组第六周的风险趋势也包含了所有的研究对象，因为这21名研究对象至

29、少活过了第六周。在第六周时，21名研究对象中有3名发生了失效事件，因为他们在这个时间点是活着的并处于失效的风险中。,六基于理解分析的数据编排,现在来看第一组研究对象第七周的风险趋势，它包括17名研究对象，因为这17名研究对象至少活到了第七周。在这里我们排除了上一页表中用“X”划去的研究对象，这包括在第六周发生失效事件的3名研究对象及在第六周发生删失的一名研究对象，这四人均未活到第七周。虽然发生删失的研究对象的生存期可能大于7周，但是我们关于该研究对象的信息只到第六周，因此必须要将他从中排除。,六基于理解分析的数据编排,对于某一时间的风险趋势的计算，必须要将该时间点之前的研究对象全部排除，不管研

30、究对象是删失还是发生了失效事件。例如，对于第一组在13周的风险趋势，必须排除13周之前的发生失效事件的研究对象，也不能包括13周之前发生删失的研究对象和13周中发生失效及删失的研究对象。从21名研究对象中减去9，剩下的12名研究对象在第13周仍处于风险之中，即13周的风险趋势包括了这12名研究对象。,六基于理解分析的数据编排,对删失数据的处理:利用直到删失发生的所用信息，不随意丢失信息,对于经过整理的按生存时间排序的表，允许我们在进行生存分析时利用发生删失的研究对象的信息。虽然发生删失的研究对象的信息是不完整的，即我们不知道研究对象的确切生存时间，但是我们仍然可以利用研究对象发生删失之前的信息

31、。对于发生删失的研究对象，不能简单的将其删除，而是要利用研究对象发生删失之前的所有信息。,六基于理解分析的数据编排,例如，对于第一组中在16-20周内发生删失的三个研究对象而言，我们获得了他们在16周之前的所有信息，这是不能忽略的。这三个研究对象在16周之前也都处于发生终点事件的风险之中，即他们均有可能在16周时发生终点事件。,六基于理解分析的数据编排,七生存经历的描述性度量,左图是非表格形式的白血病患者缓和期数据。观察两组患者的生存数据，可以看出治疗组大部分研究对象的生存期要长于安慰剂组大部分研究对象的生存期。如果我们忽略以+标识的删失数据，仅仅计算每组21名研究对象生存期的均数，以表示

32、，则治疗组的平均生存期为17.1周，安慰剂组的平均生存期为8.6周。由于治疗组中有几个研究对象在研究期间发生删失，这就意味着第一组的平均生存期要长于之前计算的平均生存期。按照之前计算得到的平均生存期，治疗要比安慰剂有效地多。,七生存经历的描述性度量,相较于之前计算的简单的平均数，还可以用另一种方式来度量每一组的生存经历，即平均风险比，以表示。这个比值是用每一组中发生终点事件的研究对象的总数除以所有研究对象（包括发生终点事件与发生删失的研究对象）的生存期的总和得到的，对于第一组，=9/359=0.025,对于第二组，=21/182=0.115。,七生存经历的描述性度量,与生存率相比，风险比

33、表明的是终点事件发生的可能性，因此若某一组具有较高的风险比，相应的生存率就较低。,在白血病患者的例子中，治疗组的风险比低于安慰剂组的风险比。通过风险比的比较，可以看出治疗组研究对象的表现要好于安慰剂组，即治疗组研究对象发生终点事件的可能性要小于安慰剂组。,使用平均数和风险比对两组研究对象的生存经历进行描述性度量，可以提供治疗组与安慰剂组的总体比较。但是这种描述性度量无法进行随时间变化的两组的总体比较。而生存曲线可以解决这个问题。,七生存经历的描述性度量,左图是治疗组与安慰剂组的估计生存曲线。这种曲线的绘制方法称为Kaplan-Meier法。这种方法将在第二章详细介绍。生存曲线可以使我们比较随

34、时间变化的两组的差异。从图中可以看出治疗组的生存曲线一直在安慰剂组之上，这种差异提示在随访期间的任一时间点上治疗都是有效地。在研究开始的几周中，两组的生存曲线很接近，但是随后两组生存曲线间的间隔变得很大，这种变化表示治疗在随访后期比前期更加有效。,七生存经历的描述性度量,生存曲线还可以用来估计中位生存期，即每一组中生存率为0.5时对应的时间即是中位生存期。治疗组的中位生存期为23周，安慰剂组的中位生存期为8周。,八扩展的缓和期数据,右表在之前缓和期数据的基础上又给出了两组研究对象的对数白细胞数。之所以加上这个变量是因为白细胞数是影响白血病人预后的重要因素，白细胞数越高，预后越差。因此两组研

35、究对象的生存状况的比较必须要考虑像这样的因素(白细胞数)的可能的混杂效应。,假设治疗组研究对象具有较低的白细胞水平，安慰剂组研究对象的白细胞水平较高，在本例中，治疗组的对数白细胞取均值为1.8，安慰剂组的对数白细胞取均值为4.1.由于安慰剂组的白细胞水平高于治疗组的，因此有理由怀疑之前对治疗组和安慰剂组进行比较得到的结论有可能是错误的。变量对数白细胞数提示治疗组研究对象的生存期较长可能仅仅是因为治疗组的白细胞水平较低造成的，而不是治疗有效。在本例中，治疗效果有可能受白细胞水平的影响。,进一步分析，治疗组的对数白细胞分布有可能与安慰剂组有很大的不同。下图绘制的是治疗组与安慰剂组对数白细胞数频数分

36、布的极端情况，并不是根据原始数据绘制的，若治疗组与安慰剂组的白细胞数分布严重不平衡，则需要对白细胞数进行调整。如果白细胞水平确实对治疗效果有影响，则在生存分析时不应该对白细胞数进行约束（即应该考虑白细胞的对治疗效果的影响）。,另一个需要考虑的问题是对数白细胞所起的作用有可能是交互作用，即治疗的效果有可能随对数白细胞水平变化而变化。例如，假设研究对象具有较高的对数白细胞水平，治疗组的生存率在随访期间一直高于安慰剂组，如下图第一个图所示。相反的，对于第二个图，假设研究对象具有较低的对数白细胞水平，治疗组与安慰剂组的效应在整个随访期间没有明显的差别。综上所述，我们可以说治疗与白细胞之间存在交互效应，

37、即治疗的效应大小依赖于白细胞水平。,之前的例子中存在交互作用，而在一些案例中交互作用是不存在的。与混杂一样，在这一章中不对交互作用作详细的介绍。对于扩展的缓和期数据要考虑的基本问题如下：对对数白细胞数可能存在的混杂或交互作用进行校正以后再对两组研究对象的生存经历进行比较。在扩展的缓和期数据中要考虑的解释型变量变成了两个，而之前我们的分析一直是围绕一个变量（分组变量）进行。在用计算机进行数据分析，数据录入时需要加上对数白细胞数这个变量下页给出了应用于计算机的数据编排格式。,上页中的表给出的两个自变量,分别代表组别与对数白细胞数。组别是主要的研究内容，即研究者感兴趣的暴露变量。变量对数白细胞数是一

38、个外扰变量，利用它来控制和解释混杂或交换效应。,对于扩展的缓和期数据，由于对数白细胞数可能存在混杂或交互作用，因此需要使用一定的方法来校正或估计它对研究对象的影响，从而对治疗的效果做出正确的估计。以下是两种最常用的分析方法：1 将对数白细胞数作为分层变量，对不同层中的生存曲线进行比较 2 使用数学模型，例如比例风险模型或其他的生存模型,九多变量的例子,这一部分的目的是描述更一般的多元生存分析问题的类型。这一部分涉及的例子是对一个固定的队列从1967年-1980年随访13年的研究。样本量n=170；研究对象是年龄大于等于60岁的白人男性；结局变量为T，即从进入随访直到发生死亡所经历的年数；该例

39、中包括以下几个解释变量，一个是作为主要研究内容的暴露变量，其他的是可能的潜在混杂因素或交互作用变量主要的暴露变量是社会网络指数（SNI）该指标的数据来源于问卷调查，是评价研究对象社会接触程度的指标，SNI的取值范围是从0（没有任何社会网络）到5（丰富的社会网络）,研究的目的是为了确定社会网络指数是否是死亡的保护因素（protective against death）。如果假设是正确的，那么社会网络指数得分越高，研究对象就将具有更长的生存年限。为了研究这个问题，除了调查研究对象的SNI指数，研究者还在随访开始时测量了其他的几个解释变量，包括年龄、心脏收缩压（SBP）,慢性疾病是否存在的指示变量（

40、CHR）、Quetelet 指数、社会等级（SOCL）。其中Quetelet 指数=以上五个变量被纳入研究，是因为研究者认为它们对研究对象生存期的长短具有单独或联合的影响。因此，在评估社会网络指数对研究对象生存期的影响时，将这五个变量看做是潜在的混杂因素或交互作用变量。经过以上解释，该例题可以简单表述为：控制SNI、SBP、CHR、Quetelet 指数、SOCL这几个变量，描述社会网络指数与死亡时间之间的关系。,这一部分的目标是利用生存分析解决以下几个问题：1 校正其他五个变量的作用之后，描述SNI与死亡时间的关系2 绘制不同社会网络类型的研究对象生存率随时间变化的生存曲线，尤其是对具有丰富

41、的社会网络的研究对象的生存经历与具有贫瘠的社会网络的研究对象的生存经历进行比较。在绘制生存曲线时，需要对其他解释变量的效应进行控制（排除混杂或交互）。3 为了实现以上两个目标，需要进行两个中间步骤，即对除SNI以外的5个解释变量进行校正及确定一种合适的校正方法,下表是基于计算机的数据编排格式，第一列是170名研究对象的编号，第二列是生存时间，第三列是发生删失事件还是终点事件的指示变量，剩下的几列是六个解释变量，,十生存分析的数学模型,生存分析的典型问题是在控制混杂因素或交互作用变(,)以后描述暴露变量（E）与结局变量（D)之间的关系。在生存分析例题中，E是社会网络指数SNI,D是生存时间变量

42、，混杂因素或交互作用变量有5个，分别是AGE、SBP、CHR、QUET、SOCL。,结局变量类型不同，则使用的模型也不相同。在生存分析中，结局变量是终点事件发生时的时间，还可能含有删失数据。在线性回归模型中，结局变量通常是连续的，例如血压变量。在Logistic模型中，结局变量是二分类的，例如CHD变量。如果用线性回归模型或Logistic模型分析生存数据，则无法利用随访时间的信息。,与线性回归和Logistic回归一样，生存分析的一个统计学目标是在校正了混杂或交互作用变量的影响后得到效应的估计，以此来描述暴露因素与结局之间的关系。在线性回归模型中，通常使用回归系数来进行效应大小的测量；在Logistic回归模型中，通常用优势比（）来测量效应的大小。,在生存分析中，一般用风险比度量效应的大小，与Logistic回归一样，风险比也是对回归系数取指数得到的，即HR=,虽然风险比与优势比的计算方法不同，但是它们对于效应强度的解释是相似的.例如风险比等于1的意义，与优势比等于1一样，都意味着暴露与结局之间没有关系.风险比等于10，与优势比等于10一样，意味着暴露组发生终点事件的风险是非暴露的10倍。风险比等于1/10,与优势比等于1/10一样，意味着暴露组发生终点事件的风险是非暴漏组的1/10.,

展开阅读全文