生存分析首医大研究生.ppt

上传人:李司机 文档编号:4263265 上传时间:2023-04-12 格式:PPT 页数:96 大小:2.17MB
返回 下载 相关 举报
生存分析首医大研究生.ppt_第1页
第1页 / 共96页
生存分析首医大研究生.ppt_第2页
第2页 / 共96页
生存分析首医大研究生.ppt_第3页
第3页 / 共96页
生存分析首医大研究生.ppt_第4页
第4页 / 共96页
生存分析首医大研究生.ppt_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《生存分析首医大研究生.ppt》由会员分享,可在线阅读,更多相关《生存分析首医大研究生.ppt(96页珍藏版)》请在三一办公上搜索。

1、Survival analysis and Cox regression analysis,生存分析与Cox回归分析,引例1假定用甲、乙两种药物治疗某病,其治愈率均为,能否说两种疗效一致?,还应考虑时间效应问题,如果甲药平均天治愈,而乙药平均天治愈,则可以认为甲药比乙药的疗效好。,引例2 现用新旧两种方法治疗某癌病患者各100人,结果如下表,试评价其疗效 表1新旧两种方法治疗某癌病 死亡人数 新法组 旧法组 RR一年 16 15 1.01,二年 25 35 0.70,五年 40 80 0.50*,Survival analysis,生存分析,“生存”的概念 生物生存 与死亡,仪器始使正常 与出

2、现故障,疾病产生 与治愈,疾病治愈 与复发,阴性 与阳性,起始事件 随访时间 终点事件,疾病确诊 死亡,治疗开始 死亡,治疗开始 痊愈,接触危险物 出现反映,1.观察起点,观察起点是指对个体开始观察的时刻。在一项研究中对观察起点应作统一、明确地规定。根据研究目的不同可有不同起点:第一次发现症状日期,不够准确;确诊日期;接受手术治疗、放疗、化疗日期;手术后存活出院日期。,观察终点是指个体出现最终结局的时刻,但有时由于某些原因,一些个体无法观察至终点,不得不停止对他们的观察,即出现截尾值(censored data)。一般包括:观察期内病人死于其他疾病;由于迁移或其他原因与病人失去联系;观察结束时

3、病人仍健在。,2.观察终点,(1)生存分析中的基本概念,生存时间(survival time):疾病治疗的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短。所经历的时间称为生存时间。,完全与不完全数据 一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的,称为完全数据;另一部分病人由于失访、意外事故、或到观察结束时仍存活等原因,无法知道确切的生存时间,它提供了不完全的信息,称为不完全数据(截尾数据、删失数据:censor data)。,ta+tb+tc+td,生存分析(survival analysis):生存时间一般是通过随访收集。不完全数据提供了部

4、分信息。须要用专门的方法进行统计处理,这类统计方法起源于对寿命资料的统计分析,故称为生存分析。,生存资料统计学处理方法,(一)设计目的:专业目的:据专业知识确定。统计学目的:估计:根据样本生存资料估计总体生存率及其它有关指标(如中位生存期等),如根据脑瘤患者治疗后的生存时间资料,估计不同时间的生存率、生存曲线以及中位生存期等。比较:对不同处理组生存率进行比较,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗方案较优。,影响因素分析:目的是为了探索和了解影响生存时间长短的因素,或平衡某些因素影响后,研究某个或某些因素对生存率的影响。如为改善脑瘤病人的预后,应了解影响病人预后的主要因素,包括病人的年

5、龄、性别、病程、肿瘤分期、治疗方案等。预测:具有不同因素水平的个体生存预测,如根据脑瘤病人的年龄、性别、病程、肿瘤分期、治疗方案等预测该病人t年(月)生存率。,方法:确定起始事件、终点事件、随访终止日期、生存时间、截尾。确定可能的影响因素、水平以及量化方法。,设计调查表:调查表中应包括可能的影响因素观察起点和终点(年、月、日)生存时间 生存结局样本含量:非截尾例数至少是可能影响因素的10倍。,三联体数据,(二)搜集资料可能的影响因素:从病历获得。生存时间及结局:短期可观察到的结局可从病历获得;长期结局一般不能从病历直接获得,通过信访、电话等得到。,生存资料基本要求,样本由随机抽样方法获得,要有

6、一定的数量。死亡例数不能太少,截尾比例不能太大。生存时间尽可能准确。因为常用的生存分析方法都在生存时间排序的基础上作统计处理,即使是小小的舍入误差,也可能改变生存时间顺序而影响结果。缺项应尽量补齐。,随访记录表,随访资料记录 记录的项目通常包括处理组别,开始观察日期,终止观察日期,结局,生存时间等。,大肠癌患者的随访记录 编号 性别 年龄 手术日期 随访终止日期 随访结局 生存时间(天)1 男 45 1991.05.20 1995.06.04 死亡 1476 2 男 50 1992.01.12 1998.08.25 死亡 2417 3 女 36 1991.10.24 1994.03.18 失访

7、 876+4 男 52 1994.11.02 2000.12.30 存活 2250+5 女 56 1994.06.25 1995.03.17 死亡 265 6 女 60 1993.12.05 1996.08.16 死于其它 985+,生存时间,生存时间的度量单位可以是年、月、日、小时等。常用符号t表示,截尾数据在其右上角标记“+”。生存资料的主要特点:含有截尾数据。截尾数据的特点:真实的生存时间未知,只知道比观察到的截尾生存时间要长。生存时间的分布一般不呈正态分布。,9例病人的随访记录,病号 性别 开始日期 终止日期 结局 处理 1 男 08/31/82 10/31/89 死亡 手术 2 男

8、08/31/82 08/28/86 失访 非手术 3 女 10/30/83 03/31/90 死亡 非手术 4 男 12/01/84 10/01/87 死亡 非手术 5 女 01/01/84 10/01/88 死亡 手术 6 男 07/01/85 10/01/88 死亡 手术 7 男 08/31/87 12/30/90 生存 手术 8 女 07/11/86 12/17/90 死亡 手术 9 男 08/31/86 10/01/90 死亡 非手术,(三)整理资料认真检查、核对原始数据,包括影响因素、生存时间和生存结局。尽量避免缺失值。建立数据库FoxBase、Foxpro、Epidata等专业数据

9、库统计软件数据库(SAS、SPSS等)Office办公软件中的Excel、Access,9例病人随访记录的数据库,n sex time outcome treat 1 1 7 1 1 2 1 4 0 0 3 0 6 1 0 4 1 3 1 0 5 0 4 1 1 6 1 3 1 1 7 1 3 0 1 8 0 4 1 1 9 1 4 1 0,(四)分析资料估计:乘积极限法,寿命表法比较:log-rank检验影响因素分析:Cox比例风险回归模型(Cox回归模型),是生存分析中最重要的模型之一。预测:Cox回归模型预测生存率。,截尾数据的处理,因为不太好处理截尾数据,很多临床研究工作者常常将失访或

10、中止等原因造成的截尾数据在分析时抛弃。截尾数据提供的信息虽然是不完全的,但也很有价值,不应随便删掉它。,例在对资料进行描述时:5名癌症患者存活时间(月)6 10 14 20 20 n=5 平均生存时间,mean=18,median=,当有截尾数据时,7 8+25 35+50?,死亡概率(mortality probability),是指死于某时段内的可能性大小.记为q年死亡概率计算公式为:某年内死亡数q 某年年初人口数若年内有删失,则分母用校正人口数:校正人口数年初人口数1/2删失数,()生存资料常计算的几种率,死亡概率(2)是指已活满t时刻的个体,在此后一段时期(t至)内死亡的可能性。死亡概

11、率的计算公式为,若t至 内有截尾值,上式的死亡概率将偏低,可对分母加以调整,为:如果间隔时期很短,即 时,死亡概率/为t时刻的瞬时死亡概率,或称为风险函数(hazard function,h(t)),其意义为刚刚活过t时刻的个体在t时刻死亡的概率。,生存概率(survival probability),表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小,记为p。年生存概率计算公式为:活满某一年人数p 1q 某年年初人口数 若年内有删失,则分母用校正人口数。,生存概率与死亡概率之间关系:p=1-q,生存率与生存函数,生存率是研究对象存活时间长于t的概率,它是时间t的函数。,若令s(

12、t)为任意时刻t的生存率,T为生存期,得s(t)=p(Tt)0t,称s(t)为生存率函数,简称生存函数,生存曲线 将各时刻终检值的生存率所对应的点标在在直角坐标系中,然后将各点向右连成与横轴平行的阶梯形曲线,称为生存曲线。,()生存分析的主要内容,第一,描述生存过程 研究生存时间的分布特点,估计生存率,生存曲线;第二,比较生存过程(假设检验)对两组或多组生存率进行比较;第三,影响生存时间的因素分析 了解影响生存过程的主要因素为改善预后提供指导。,.生存率估计(描述),医学研究中的生存资料分布常常不规则、不确定或未知分布,因而常用非参数法估计生存率。根据样本含量的大小可分别选择乘积极限估计法(小

13、样本时);寿命表法(大样本时)。,(1)乘积极限估计法 Product-limit method,简称积限法或PL法,它是由统计学家Kaplan和Meier于1958年首先提出的,因此又称为Kaplan-Meier法.基本思想:将生存时间(包括截尾数据)逐个由小到大依次排列,并对其中的每个死亡点进行死亡概率、生存概率和生存率估计。应用条件:数据个数较少时。,步骤:,1)对生存时间从小到大进行排序2)列出各时点ti死亡例数di 3)列出各时点ti起始病例数,即期初例数ni4)计算死亡概率qi和生存概率pi qi=di/ni,pi=1-qi 5)计算生存率s(ti)s(ti)=p0 p1 p2 p

14、i,例1 随访9名用一种新治疗方法对淋巴癌患者的治疗结果,其存活时间分别为3,3,3+,4,4,4,4+,6,7,资料的生存率计算见表2。,存活时 死亡 终检 期初 死 亡 生 存 生存率 间(年)人数 人数 人数 概 率 概 率(%)t d c n q=d/n p=1-q S(t)3 2 1 9 2/9 7/9 77.8(7/9)4 3 1 6 3/6 3/6 38.9(7/9*3/6)6 1 0 2 1/2 1/2 19.9(7/9*3/6*1/2)7 1 0 1 1 0 0.0,表2 乘积极限法估计生存率计算表,例 采用某疗法治疗10名骨髓癌患者后,患者的的存活月数分别为:2+,13,7

15、+,11+,6,1,11,3,17,7,试估计其生存率。带“”为存活终检值。,CHISS操作:数据模块 找到文件名为:a9_0生存分析.DBF修改数据确认。统计模块重复测量生存分析乘积极限法时间变量:time;终检值指标:censor确认。结果模块 查看结果。,还可以通过以下操作画出生存曲线:生存分析Kaplan-Meier生存曲线X:time;Y:生存率确认,结果见图,(2)寿命表法(Life table method),简称LT法。基本思想:随访时间划分成若干个时间区间,t时刻的生存率为t时刻前各时间区间生存概率的乘积。应用条件:数据个数多,经分组时应用。,术后 期内死 期内删 期初观 校

16、正年 死亡 生存 t+1年年数t 亡人数 失人数 察人数 初人数 概率 概率 生存率0 7 3 104 102.5 0.068 0.932 0.932 1 3 6 94 91 0.033 0.967 0.9012 1 11 85 79.5 0.013 0.987 0.889 3 3 8 73 69 0.043 0.957 0.8514 5 5 62 59.5 0.084 0.916 0.7795 10 1 32 52 36 0.027 0.973 0.758 15 0 14 19 12 0 1 0.758 20 0 4 5 3 0 1 0.758,例2 某院普外科1957年至1977年甲状腺癌

17、患者104例,资料见表3,试计算其各年生存率。,表3 104例甲状腺癌患者其各年生存率,例 某医院1995年1月1日至2001年12月31日收治的107例胃癌病例,生存情况见表,试用寿命表法估计生存率。表 107例胃癌病例的生存情况 时间(年)期初例数 死亡例数 删失例数 0-107 38 19 1-50 6 11 2-33 3 9 3-21 0 8 4-13 0 8 5-5 1 3 6-1 0 1,首先将数据整理成下表的形式,统计模块重复测量生存分析寿命表法L:弹出在寿命表生存分析对话框中,例3两种疗法治疗骨髓癌的存活月数如下:对照组:2+,13,7+,11+,6,1,11,3,17,7,新

18、疗法组:10,2+,12+,13,18,6+,19+,26,9+,8+,6+,43+,9,4,31,24+带“”为终检值,试分析两种疗法治疗的生存期有无差别?,.生存过程的比较(假设检验),比较两个或多个样本生存率是否有差异,实际上是对两条或多条生存曲线的分布情况进行比较,即对各样本不同时点生存率的综合分析。其原理是计算出不同时期两种疗法的观察人数和死亡人数,并由此根据两种疗法疗效相同的假设计算出两种疗法在该日期的理论死亡数,若无效假设是对的,则实际值和理论值相差不会很大。检验方法:时序(log-rank)检验对数秩检验 广义Wilcoxon检验 似然比(Likelihood ratio)检验

19、,应用范围,均为两组或多组生存率比较的方法,但:对数秩检验 Logrank test,且近似服从 Weibull分布,数值较小的失效时间所起的作用较大。广义Wilcoxon检验,最适合数值较大的失效时间所起的作用较大。似然比(Likelihood ratio)检验,最适合生存资料近似服从指数分布。,此检验比较两组或多组生存曲线,实为一单因素分析。要求各组生存曲线不能交叉,如交叉提示存在混杂因素,应采用分层分析方法或多因素方法来校正混杂因素。当假设检验有统计意义时,可从以下几方面来评价各组效应大小:生存曲线图目测判断、中位生存期比较等。,Logrank test,重复测量生存分析生存资料分析S时

20、序检验S生存时间(s):time;终检值指示(c):censor;分组因素(f):group 确定,例4 某医院肝胆外科探讨如何提高肝移植手术成功率,延长受术者寿命的科研工作。(其中探讨心脏停搏供肝冷灌注液中扩血管药物的筛选是一个很重要的环节。利用均匀设计综合比较异丙肾上腺素、利多卡因、普鲁卡因、硫酸镁、硝普钠、罂素碱6种药物组合产生的作用,筛选出新型用药方法)。,实验对象是统一种系的猪。两种方案进行肝移植后的存活天数如下:方案A:4,58,98,163,263,320,365,452,496,548+,570+,783+方案B:10,25,33,70,76,180,195,210,232,2

21、53,396,412+,440+,Cox回归分析Cox regression,Cox回归分析(Cox regression),Cox比例风险回归模型(Coxs proportional hazards regression model),简称Cox回归模型。该模型由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。其优点:多因素分析方法不考虑生存时间分布利用截尾数据,设含有p个变量x1,x2,xp及时间T和结局C的 n个观察对象.其数据结构见表。表 COX模型数据结构实验对象 t C X1 X2 X3.XP 1 t1 1 a11 a12

22、 a13 a1p 2 t2 0 a21 a22 a23 a2p 3 t3 1 a31 a32 a33 a3p n tn 1 an1 an2 an3 anp,1、数据结构,(1)风险率(hazard rate):患者在t时刻仍存活,在时间t后的瞬间死亡率,以h(t)表示。,2、COX回归模型(Cox regression model),(2)COX回归模型的构造,多元线性回归模型:,Logistic回归模型:,(3)Cox比例风险回归模型,ln(h(t)/h0(t))=1x1+2x2+pxp,另一种形式:h(t)=h0(t)exp(1x1+2x2+pxp),h(t)t时刻风险函数、风险率或瞬时死

23、亡率(hazard function)。h0(t)基准风险函数,即所有变量都取0时t时刻风险函数。X1、X2、Xp协变量、影响因素、预后因素。1、2、p回归系数。由于h0(t)是未知的,所以COX模型称为半参数模型。,由Cox模型表达式可知,P个协变量共同影响下,时刻t的风险函数为使得风险函数由 增至 倍,故Cox模型是一种乘法模型。,任两个个体风险函数之比,即风险比(risk ratio,RR)该比值与 无关,在时间 t上为常数,即模型中协变量的效应不随时间而改变,称为比例风险假定(assumption of proportional hazard),简称PH假定,比例风险模型由此得名。,变

24、量xj暴露水平时的风险率与非暴露水平时的风险率之比称为风险比hr(hazard ratio)hr=ei,(4)参数意义,hr风险比相对危险度RR,0,RR1,说明变量X增加时,危险率增加,即X是危险因素。0,RR1,说明变量X增加时,危险率下降,即X是保护因素。=0,RR=1,说明变量X增加时,危险率不变,即X是危险无关因素。,(5)Cox回归模型的检验,(一)参数估计 最大似然法(二)假设检验,Cox模型的检验 对Cox模型的检验可采用似然比检验。假设为H0:,H1:至少有一个。将H0和H1条件下的最大部分似然函数的对数值分别记为 和。可以证明在H0成立的条件下,统计量 2-2-服从自由度为

25、p的2分布。,Cox模型中回归系数的检验 假设为 H0:,其它参数固定;H1:,其它参数固定。H0成立时,Wald统计量 2 bkSE(bk)2 服从自由度为1的2分布。,3、Cox回归模型的作用,(1)可以分析各因素的作用(2)可以计算各因素的相对危险度(relative risk,RR)(3)可以用 1x1+2x2+pxp(预后指数)估计疾病的预后。,分析结果(结果解释),与生存相关的因素因素作用大小及方向:保护因素还是危险因素、相对危险度的大小。因素作用大小排序:标准化回归系数的绝对值。个体的预后指数及预后分组:预后指数(prognostic index,PI)=预后指数越小,预后越好;

26、预后指数越大,预后越差。,4、筛选变量(逐步COX回归分析),变量筛选方法向前引入法(前进法)Forward向后剔除法(后退法)Backward逐步引入-剔除法(逐步法)Stepwise,Enter和Remove的确定,调试法:P从大到小取值0.5,0.1,0.05,一般实际用时,Enter,Remove应多次选取调整。,例 现有50例急性淋巴细胞性白血病病人的随访记录.在入院治疗时,测得外周血中白细胞数x1和浸润淋巴结等级x2,经过治疗达到完全缓解后,有的病人有巩固治疗有的没有x3,并随访取得每例病人的生存时间的资料如下。试进行COX回归分析。,表 50例急性淋巴细胞性白血病病人的随访记录

27、病例号 X1 X2 X3 T(月)病例号 X1 X2 X3 T(月)1 2.5 0 0 3.40 26 4.7 0 0 11.00 2 1.2 2 0 3.73 27 6.0 0 0 11.77 3 173.0 2 0 3.73 28 128.0 2 1 11.83 4 3.5 0 0 3.83 29 3.5 0 1 11.83 23 2.8 0 0 8.33 48 32.0 0 1 66.83 24 2.7 2 1 8.80 49 12.8 0 1 73.57 25 2.5 0 0 9.23 50 1.4 0 1 124.17+,表中“+”代表仍存活,X1代表白细胞数(千个/mm3),X2代

28、表浸润淋巴结程度,分为0、1、2三级,X3代表是否有巩固治疗,1为有,0为无。,进行统计计算 点击 模型数学模型COX模型 解释变量:x1,x2,x3 反应变量:time 删失标记变量:CENSOR 确认,Cox 模型的估计参数(生存时间=TIME,删失标记=CENSOR)参数名 估计值 标准误 u值 p值 RR 95%CIX1 0.001 0.002 0.591 0.5543 1.00 0.9971.005 X2 0.456 0.206 2.211 0.0270 1.58 1.0532.364 X3-1.885 0.376 5.008 0.0000 0.15 0.0730.317 G(卡方)

29、=244.7115 自由度=3 p值=0.0000。Cox分析知,变量X2和X3有统计学意义,X1没有统计学意义。从相对危险度来看,X3巩固治疗是减少相对危险度,提高生存时间的主要因素。X2浸润淋巴结的存在对于延长生存时间是不利因素,而白细胞的个数对生存时间的影响无统计学意义。,注意事项,应用条件:除生存资料的基本要求外,还要求因素对生存时间的作用不随时间变化(比例风险假定)。如观察年限超过10年时,癌症手术后放疗的治疗作用可能逐渐消失,从而不满足这一要求。,筛选变量时,考虑该指标是否容易收集、是否费用较高等临床因素。对连续变量,看其分布,如服从偏态分布,一般进行变换后参与计算。,选入模型的变

30、量是统计学上的有关变量,不一定都与生存时间有因果关系。其中某些变量可能只是伴随关系而已,未选入模型的变量不一定全是无关变量,要考虑是否模型内的某些变量代替了它的作用,或因例数不够,或试验中对该变量进行了控制而引起。,检查可能的交互作用项是否显著(方法:一次引入一个交互作用项,看其对应的回归系数是否为0)。生存率分析:生存曲线不能随意延长,也不能轻易用于预测预报,经过大量研究所得的生存曲线才有可能推广应用。,强调设计的重要性专业知识角度:选择疾病种类、终点事件、影响因素及结果的专业解释等。统计学角度:样本例数、因素的赋值、生存时间准确到天数、因素筛选方法、结果的统计学解释等。,Cox回归与多元线

31、性回归、logistic回归的比较,案例分析,某研究者观察了确诊后采取同样方案进行化疗的26例急性混合型白血病患者,欲了解某种不良染色体是否会影响患者病情的缓解,将治疗后120天内症状是否缓解作为结果变量(缓解0;未缓解1),有无不良染色体作为研究因素。整理资料见下表。,有无不良染色体与缓解的关系不良染色体 缓解 未缓解 合计 缓解率()有 5 13 18 27.8 无 3 5 8 37.5 合 计 8 18 26 30.8 考虑到例数较小,采用Fisher确切概率法,得到P0.667,尚不能认为不良染色体影响病情的缓解。,这种情况下的结果并不可靠,原因是两个比较组之间其它影响患者病情缓解的因

32、素不一定均衡,因而需要考虑平衡其它可能的影响因素如年龄(岁)、骨髓原幼细胞分组(501;500)、CD34表达(阳性1;阴性0)、性别(男1;女0)的作用。,多因素logistic回归分析结果 因素 回归系数 Wald卡方 P OR染色体 1.457 1.161 0.281 4.29骨髓原幼 2.961 4.778 0.029 19.2细胞分组采用多因素logistic回归分析,经逐步法按0.10水准,平衡骨髓原幼细胞分组后,有无不良染色体不影响患者的缓解(P0.281)。,有一位临床医生指出,仅考虑是否缓解还不够,如果进一步利用缓解时间的长短来进行分析,信息利用得更充分。费了很大辛苦,幸好查到了所有患者的缓解时间,于是采用log-rank检验比较有无不良染色体两组病人的生存曲线,得卡方1.28,P0.2579,仍然显示患者的缓解时间与不良染色体无关。,生存时间的比较仍然需要考虑组间的可比性,经多因素Cox回归分析,当检验水准0.10时的结果如下。因素 回归系数 卡方 P RR染色体 1.838 3.709 0.054 6.29CD34 1.877 8.904 0.003 6.54骨髓原幼 3.205 8.838 0.003 24.4细胞分组,Thank You!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号