cox比例风险回归模型及其R程序.ppt

上传人:小飞机 文档编号:5423189 上传时间:2023-07-05 格式:PPT 页数:46 大小:1,023.50KB
返回 下载 相关 举报
cox比例风险回归模型及其R程序.ppt_第1页
第1页 / 共46页
cox比例风险回归模型及其R程序.ppt_第2页
第2页 / 共46页
cox比例风险回归模型及其R程序.ppt_第3页
第3页 / 共46页
cox比例风险回归模型及其R程序.ppt_第4页
第4页 / 共46页
cox比例风险回归模型及其R程序.ppt_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《cox比例风险回归模型及其R程序.ppt》由会员分享,可在线阅读,更多相关《cox比例风险回归模型及其R程序.ppt(46页珍藏版)》请在三一办公上搜索。

1、Cox回归分析,刘瑞红,利用生存率函数S(t,X)与风险函数h(t,X)的关系可导出,较好地解决截尾值的问题,反映了协变量X与生存函数的关系,Cox模型的基本形式,所有危险因素为0时的基础风险率,它是未知的,但假定它与h(t,X)是呈比例的。,右侧可分为两部分:h0(t)没有明确的定义,分布无明确的假定,参数无法估计,为非参数部分;另一部分是参数部分,其参数可以通过样本的实际观察值来估计的,正因为Cox模型有非参数和参数两部分组成,故又称为半参数模型。,若i0,则RR1,该因素为危险因素;若i0,则RR1,该因素为保护因素;若i=0,则RR=1,该因素为无关因素。,偏回归系数i的意义是,当其它

2、协变量都不变时,Xi每变化一个单位,相对危险度的自然对数(lnRR)变化i个单位。,相对危险度RR,相对危险度RR,同时考虑2个协变量,2个因素都存在的危险率与2个因素都不存在时的危险率之比(相对危险度)为,Cox回归基本模型的两个前提假设,各危险因素的作用不随时间变化而变化,即 不随时间变化而变化;对数线性假定:模型中的协变量应该与对数风险比成线性关系。,Cox回归模型与一般的回归分析不同,它不是直接用生存时间作为回归方程的因变量,协变量对生存时间的影响是通过风险函数和基础风险函数的比值反映的,其中的风险函数和基础风险函数是未知的。另外偏回归系数的估计需要借助于偏似然函数的方法。在完成参数估

3、计的情况下,可对基础风险函数和风险函数做出估计,并可计算每一个时刻的生存率。,二、Cox回归分析的一般步骤,1.分析前的准备-数据整理2.参数估计,建立最佳模型3.假设检验4.Cox模型的解释及应用5.Cox模型拟合优度的考察,1.分析前的准备-数据整理,严密的研究设计收集资料:影响疾病的因素、病人的个性及行为特征等资料(如病人的年龄、性别、职业、是否饮酒、是否吸烟及病情、病理类型等资料)、研究对象的生存时间和截尾指示变量(一般用变量t表示生存时间,用变量d表示是否截尾)。资料应尽量避免偏性及主观因素的影响。样本含量:不宜过小。一般情况下,样本例数应为分析因素的5-20倍。数据预处理:如数据的

4、变换、日历数据与生存时间的转化等。同时要对数据进行描述性分析。,2.参数估计,建立最佳模型,(1)参数估计-偏似然估计假定有n个病人,他们的生存时间由小到大排列:t1t2tn 对于每个生存时间ti来说,凡生存时间大于等于ti的所有病人组成一个危险集,记为R(ti)。在危险集内的病人,在ti以前尚生存,但处在危险之中,随着时间的推移,危险集内的病人陆续死亡,逐渐退出观察,直至最后一个病人死亡时,危险集消失。,代表ti时刻以后危险集R(ti)中对似然函数作贡献的个体,将n个病人死亡的 条件概率相乘,两边取自然对数,(2)建立最佳模型,为建立最佳模型常需对研究的因素进行筛选,筛选方法有前进法、后退法

5、和逐步回归法。实际工作中要根据具体情况选择使用,最常用的为逐步回归法。因素筛选时需规定显著性水平,一般情况下初步筛选因素的显著性水平确定为0.1或0.15,设计较严格的研究显著性水平可确定为0.05。另外,筛选因素时,还要考虑因素间共线性的影响。当存在共线性时,应考虑消除共线的影响,如采用主成分回归等方法。,3.参数的假设检验,(1)似然比检验(likelihood ratio test)(2)得分检验(score test)(又称为拉格朗日乘数法)(3)Wald检验是三种基于极大似然法大样本检验方法。,似然比检验:用于模型中原有不显著变量的剔除和显著变量的引入,以及包含不同变量数时模型间的比

6、较。检验新增加的协变量是否有统计学意义的统计量为:,拉格朗日乘子检验(LM),基本思想:拉格朗日乘子检验(LM),又称为Score检验。该检验基于约束模型,无需估计无约束模型。假设约束条件为,在约束条件下最大化对数似然函数,另 表示拉格朗日乘子向量,此时,拉格朗日函数为约束条件下最大化问题就是求解下式根,,拉格朗日乘子检验(LM),如果约束成立,对数似然函数值不会有显著变化。这就意味着在一阶条件下,第二项应该很小,特别是 应该很小。因此,约束条件是否成立检验转化成检验,这就是拉格朗日乘子检验的思想。但是直接检验 比较困难,有一个等价而简单的方法。如果约束条件成立,在约束估计值处计算对数似然函数

7、的导数应该近似为零,如果该值显著异于零,则约束条件不成立,拒绝原假设。对数似然函数的导数就是得分向量,因此,LM检验就是检验约束条件下参数估计值的得分向量值是否显著异于零,因而,LM检验又称为得分检验。,拉格朗日乘子检验(LM),在最大似然估计过程中,通过解似然方程,可以求出无约束估计量;如果计算有约束估计量 在此处得分,则 一般不为零,但是如果约束有效,则 趋近于零。在原假设成立条件下,,拉格朗日乘子检验(LM),对于线性约束将有关量代入上式得,拒绝域,,拉格朗日乘子检验(LM),LM统计量另一种表达形式,LR、Wald、LM关系(一般情况下成立):,4.Cox模型的解释及应用,(1)探索结

8、局事件发生的危险因素,分析各因素的作用大小。(2)计算个体预后指数(prognosis index,PI),对个体进行定性的预后评价。(3)通过估计生存率,对群体定量地进行预后评价。,影响因素Xi的标准差,标准正态离差,相应偏回归系数的标准误,(2)计算个体预后指数(prognosis index,PI),对个体进行定性的预后评价。定义第j个观察单位的预后指数为:式中 为第i个协变量的标准偏回归系数 的估计值(),为第j个观察单位(个体)第i个协变量的标准化值。若PIj=0,说明该个体死亡风险处于平均水平;若PIj0,说明该个体死亡风险高于平均水平;若PIj0,说明该个体死亡风险低于平均水平。

9、,3通过估计生存率,对群体定量地进行预后评价。,由于生存率与基础生存率相关,故只要估计出基础生存率,再结合各因素的偏回归系数就可以估计出生存率,即,ti 时刻的基础生存率公式,ti 时刻的基础累计风险函数公式,在tk时刻的死亡人数,ti 时刻的生存率计算公式,2.Breslow法,5.Cox模型拟合优度的考察,可将研究对象按个体预后指数恰当地分组,用乘积极限法估计各组的生存率曲线,并与按Cox模型预后指数分类的生存率曲线在同一坐标系内进行比较,若两种曲线具有一致性,说明模型拟合较理想。也可以使用卡方检验的方法。,比例风险假定(PH假定):,PH假定的检验方法大致可以分为图法和正规的检验方法。图

10、法:即通过观察散点图中散点的分布或趋势是否满足既定模型基本假设下的形状来判断资料是否满足或近似满足模型假定,主要的方法有:比较COX-KM生存曲线、基于累计风险函数的图示法、Schoenfeld残差图、Score残差图;正规的检验方法:通过构造满足既定模型基本假定下服从某一已知分布的统计量,利用P值来检验资料是否满足或近似满足模型假定。主要方法有:时协变量法、线性相关检验、加权残差Score检验、三次样条函数法.Cox比例风险回归模型诊断及预测有关问题的研究_余红梅.caj.caj,对数线性假定,主要的方法:多重法;鞅残差法;改进的鞅残差法;构造变量法Cox回归影响点的分析鞅残差,剩余残差,得

11、分残差,Schoenfeld残差,加权Schoenfeld残差,R程序:,在survival包中的函数:coxph(formula,data,weights,subset,na.action)formula:反应变量要有Surv()函数定义cox.zph(fit,transform=,global=T/F)检验比例风险假定basehaz(fit,centered=T/F)计算基础风险率的函数,getwd()setwd(C:/Users/Administrator/Desktop)my-read.csv(pharynx.csv,header=T)attach(my)my-myCOND!=9&GR

12、ADE!=9,#去掉两个缺失值 CONDCOND=3|COND=4-2CONDCOND=0-1aa-table(COND)aamydata-my,-c(1,11)library(survival)fit-coxph(Surv(TIME,as.numeric(STATUS).,data=mydata)#cox比例风险模型函数plot(survfit(fit)summary(fit),basehaz(fit)#基础风险函数aa-cox.zph(fit)#比例风险假定的检验print(aa)plot(aa6),多重分数多项式模型,library(mfp)f-mfp(Surv(TIME,as.nume

13、ric(STATUS)fp(AGE,df=4,select=0.05)+INST+SEX+TX+GRADE+COND+SITE+T_STAGE+N_STAGE,select=0.15,family=cox,data=mydata)print(f)(rsq=1-sum(f$residuals)2/sum(mydata$TIME-mean(mydata$TIME)2)#R2,SAS程序:,proc phreg data=;model=/选项;strata freq;by;Proportionality_test:test;/*比例风险假定,时协变量法*/run;,libname ll F:R语言学

14、习COX;data a;set ll.pharynx;run;data a;set a;if cond=9 or grade=9 then delete;if cond=3 or cond=4 then cond=2;if cond=0 then cond=1;run;proc phreg data=a;model time*status(0)=tx cond site t_stage n_stage age grade inst/selection=stepwise risklimits sle=0.15 sls=0.15;baseline out=cox survival=suv stde

15、rr=stderr/method=ch;run;,四、Cox模型的适用范围及注意事项,1.适用范围Cox模型适用于生存资料的统计分析,属半参数模型,对资料没有特殊的要求,也可以估计各因素的参数,并能做多因素的统计分析。该模型的主要优点在于能从众多的影响因素中排除混杂因素的影响,找出影响生存时间的因素,根据各因素的参数估计出个体的生存率。另外,Cox模型能分析具有截尾数值的生存时间。Cox模型可以分析多种因素对疾病预后的影响,使其更适合于临床的随访研究。Cox模型使临床观察的定性指标又加上定量指标进行分析,提高了分析的效率。,2.注意事项,(1)设计阶段应注意的问题 样本的代表性要好。样本的含量

16、为观察协变量的5-20倍。所有危险因素要在设计时考虑全面,避免漏掉重要因素和加入无关因素。生存时间的定义要明确。起始事件和终点事件要有明确规定,时间尽可能精确测量。研究的协变量在研究对象中的分布要适中,否则会给参数的估计带来困难。在设计时要注意影响时间的效应因素。如研究吸烟对肺癌患者生存率的影响,若本来吸烟的人因患肺癌而戒烟,则一般模型不易分析吸烟的作用,需考虑吸烟量随时间变化的趋势。如果研究的因素随时间而发生变化,必要时可以采用伴时协变量的Cox模型进行分析。,注意事项,(2)模型拟合时应注意的问题 多重共线性问题:医学研究中的许多变量间并不是独立的,但通常不会影响分析的结果,如果变量间存在

17、高度的相关,则会影响Cox模型的参数估计,此时可采用主成分分析法或R型聚类分析法消除多元共线性的影响。应注意Cox模型要求病人的风险函数与基础风险函数呈比例,如果这一假定不成立,则不能用Cox模型进行分析。,注意事项,(3)模型应用时应注意的问题 结果的解释应结合专业知识。Cox模型与其他回归分析一样,当进入模型中的因素有统计学意义时,该因素与生存时间不一定有因果关系,其中有一部分因素与生存时间的关系为伴随关系。Cox回归的生存率一般不宜用于不同资料之间的比较,因为基准危险率函数只在同一份资料内保持相同,不同资料的基准危险率往往不同;而且在多因素分析的情况下,协变量组合也很难一致,可比性难以保证。,3.Cox模型的局限性,Cox模型估计参数时,首先要假定偏似然函数具有最大似然的性质,这个问题在理论上尚不完善。Cox模型对异常值较为敏感,所以在进行模型配合时要注意Cox模型拟合优度的检验。Cox模型估计参数时,不是利用精确的生存时间,而是利用生存时间的顺序统计量,这损失了一定的样本信息。当引进的协变量随时间的变化剧烈时,偏似然函数损失的信息也增多。,五、扩展的Cox回归模型,伴时协变量Cox回归模型分层Cox回归模型分组数据的Cox回归模型多状态Cox回归模型,Thank you!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号