[计算机软件及应用]spss教程第十三章.doc

资源描述

《[计算机软件及应用]spss教程第十三章.doc》由会员分享，可在线阅读，更多相关《[计算机软件及应用]spss教程第十三章.doc（31页珍藏版）》请在三一办公上搜索。

1、第十三章活着Survival菜单详解（上）（医学统计之星：董伟）上次更新日期： 13.1 Life Tables过程13.1.1 界面说明13.1.2 结果解释13.2 Kaplan-Meier过程13.2.1 界面说明13.2.2 结果解释13.3 Cox Regression过程13.3.1 界面说明13.3.2 结果解释13.4 Cox w/Time-Dep Cov过程13.4.1 界面说明13.4.2 结果解释对于急性病的疗效考核，一般可以用治愈率、病死率等指标来评价，但对于肿瘤、结核及其他慢性疾病，其预后不是短期内所能明确判断的，这时可以对病人进行长期随访，统计一定期限后的生存和死

2、亡情况以判断疗效，这就是生存分析。生存分析是用于以处理生存时间（survival time）为反应变量、含有删失数据一类资料的统计方法。所谓生存时间，狭义地讲是从某个标准时点起至死亡止，即患者的存活时间。例如，患有某病的病人从发病到死亡或从确诊到死亡所经历的时间。广义地说，“死亡”可定义为某研究目的“结果”的发生，如宫内节育器的失落，疾病的痊愈，女孩月经初潮的到来等（生存分析中往往统指各“死亡”为失效）。此类资料的生存时间变量多不符从正态分布，且常含有删失值，故不适于用传统的数据分析方法如t检验或线性回归进行分析。根据不同的研究目的和资料类型，可采用不同的分析方法，如寿命表、Kaplan-Me

3、ier法、Cox回归模型等分析方法进行分析。而这正是下面我将要给大家介绍的主要内容。“喂，你在这里说的都是些什么呀？又是删失、又是Cox的，搞的我一头雾水。”那位给我提意见了。列位看官切莫着急，且听在下慢漫道来。所谓删失值，就是因各种原因对随访对象的随访可能失访或终检（censoring），如研究对象由于其他原因死亡、研究者与病人失去了联系及直到对资料作总结时随访对象还活着但尚未发生所规定的事件。这种数据就叫做删失值，也叫做截尾数据。能处理截尾数据是生存分析的一个优点。Cox回归是一种多变量的生存分析方法。这是本世纪6070年代发展起来的、应用于生存资料分析的比例分险模型（the propor

4、tional hazard model）。1972年，英国统计学家D.R.Cox的研究工作使得比例分险模型的理论和实用性更大地推进了一步。因此许多统计学者就把它称为Cox比例风险或Cox回归。13.1 Life Tables过程Life Tables过程用于：1、制作寿命表。2、绘制各种曲线如生存函数、风险函数曲线等。3、对某一研究因素不同水平的生存时间分布进行比较，控制另一因素后对研究因素不同水平的生存时间分布进行比较，包括从总体上比较和不同水平之间进行两两比较。例13.1 某临床试验对20名第或第期黑色素瘤患者进行随访研究，截至研究期结束，记录的生存资料见表1。试计算100周生存率。

5、12.8 15.6 24.0+ 26.4 29.2 30.8+ 39.2 42.0 58.4+ 72.0+77.2 82.4 87.2+ 94.4+ 97.2+ 106.0+ 114.8+ 117.2+ 140.0+ 168.0+注：数据后跟符号“+”表示该数据为删失数据。13.1.1 界面说明图1 寿命表主对话框【Time】框选入生存时间变量。【Display Time Intervals】框欲输出生存时间范围及组距。在by前面的框内填入生存时间上限，本例填入200（此区间必须包括生存时间的最大值）；在by后面的框内填入生存时间的组距，本例填入20，以保证结果列出“100-”的组段。【Sta

6、tus】框选入生存状态变量，并定义终结事件的标记值。选入变量“Status”后，【Define Event】钮被激活变黑，击该按钮，弹出定义终结事件标记值的对话框（图1）。对二分类变量，一般以死亡、复发、恶化等表示终结事件。本例以死亡为终结事件，其标记值为1，故在Single value 框内填入1。击Continue钮。若生存状态变量取值为一连续型变量，如反应变量为收缩压，则在下面的Range of values 框中输入140 through 400，此处上限输入400是我随便输入的一个上限，目的是为了定义高血压患者，实际上恐怕没有人的血压能达到400，这样才能保证包括所有的高血压病例，具

7、体情况具体分析。图2 定义终结事件标记值的对话框【Factor】框定义第1层因素，即分组因素。【By Factor】框定义第2层因素，即分层因素。【Options】选项击Options按钮，弹出选项对话框。（图3）图3 寿命表选项对话框 Life Table(s)：输出寿命表，系统默认。Plot：统计图。 Survival：累积生存函数曲线。 Hazard：累积风险函数散点图。 One minus survival：生存函数被1减后的曲线。 Log survival：对数累积生存函数曲线。 Density：密度函数散点图。Compare Levels of First Factor：对第1层因

8、素不同水平的比较，即主对话框（图1）中的factor框中所选入的因素。 None：不做比较。系统默认。 Overall：整体比较。 Pairwise：两两比较。本例因没有分组因素，故Compare Levels of First Factor选项均不可选。13.1.2 结果解释1、寿命表This subfile contains: 20 observationsLife TableSurvival Variable TIME survival time(week)说明：20例观察单位，生存变量为“Time”，变量标签为“survival time(week)”NumberNumberNum

9、berNumberCumulIntrvlEntrngWdrawnExposdOfPropnPropnPropnProba-StartthisDuringtoTermnlTermi-Sur-SurvbilityHazardTimeIntrvlIntrvlRiskEventsnatingvivingat EndDenstyRate-.020.0.020.02.0.1000.9000.9000.0050.005320.018.02.017.03.0.1765.8235.7412.0079.009740.013.01.012.51.0.0800.9200.6819.0030.004260.011.01

10、.010.51.0.0952.9048.6169.0032.005080.09.03.07.51.0.1333.8667.5347.0041.0071100.05.03.03.5.0.00001.0000.5347.0000.0000120.02.0.02.0.0.00001.0000.5347.0000.0000140.02.01.01.5.0.00001.0000.5347.0000.0000160.01.01.0.5.0.00001.0000.5347.0000.0000 The median survival time for these data is 160.00+ SE of S

11、E of Intrvl Cumul Proba- SE of Start Sur- bility Hazard Time viving Densty Rate- - - - .0 .0671 .0034 .0037 20.0 .0999 .0042 .0056 40.0 .1081 .0029 .0042 60.0 .1157 .0031 .0050 80.0 .1261 .0039 .0071 100.0 .1261 .0000 .0000 120.0 .1261 .0000 .0000 140.0 .1261 .0000 .0000 160.0 .1261 .0000 .0000 Intr

12、vl Start Time：生存时间的组段下限。 Number Entrng this Intrvl：进入该组段的观察例数。 Number Wdrawn During Intrval：该组段的删失例数。 Number Exposed to Risk：暴露于危险因素的例数，即有效观察例数。 Number of Termnl Events：终结事件的例数，即死亡例数。 Propn Terminating：终结事件比例，即死亡比例。 Propn Surviving：生存比例。 Cumul Propn Surv at End：至本组段上限的累积生存率。 Probability Densty：概率密度。

13、 Hazard Rate：风险率。 SE of Cumul Surviving：累积生存率的标准误。 SE of Probability Densty：概率密度的标准误。 SE of Hazard Rate：风险率的标准误。 The median survival time for these data is 160.00+：本例的中位生存时间为“160.00+”，从下图的累积生存函数曲线看，曲线与生存率等于0.5的横线不相交，故中位生存时间无法估计。本例的100周生存率为53.47%。2、累积生存函数曲线：图4。图4 累积生存函数曲线13.2 Kaplan-Meier过程Kaplan-Me

14、ier法用于：1、估计某研究因素不同水平的中位生存时间。2、比较该研究因素不同水平的生存时间有无差异。3、控制一分层因素后对研究因素不同水平的生存时间比较（此时将按分层因素的不同水平对研究因素对生存时间的影响分别进行分析）。怎么样，有点拗口吧？例13.2 3种疗法治疗66例白血病患者的缓解时间（天）A 疗法4,5,9,10,11,12,13,28,28,28,29,31,32,37,41,41,57,62,74,100,139,20+,258+,269,B疗法8,10,10,12,14,20,48,70,75,99,103,162,169,195,220,161+,199+,217+,24

15、5+C疗法8,10,11,23,25,28,28,31,31,40,48,89,124,143,12+,159+,190+,196+,197+,205+,219+注：数据后跟符号“+”表示该数据为删失数据。13.2.1 界面说明图5 Kaplan-Meier法主对话框【Time】框选入生存时间变量。【Status】框选入生存状态变量。【Factor】框选入分组变量。【Strata】框选入分层变量。【Lables Cases】框给个体标记。【Compare Factor】选项击Compare Factor按钮，弹出选项对话框。（图6）图6 分组因素水平间比较对话框l Test Statistic

16、s:检验统计量。 Log rank：检验生存分布是否相同，各时间点权重一样。Breslow：检验生存分布是否相同，以各时间点的观察例数为权重。Tarone-Ware：检验生存分布是否相同，以各时间点的观察例数的平方根为权重。Linear trend for factor levels：分组因素水平间的线性趋势检验。 Pooled over strata：水平间的整体比较。系统默认。 For each stratum：按分层变量，对每一层进行分组因素各水平间的整体比较。 Pairwise over strata：分组因素各水平间的两两比较。 Pairwise for each stratum：按

17、分层变量，对每一层进行分组因素各水平间的两两比较。【Save】选项击Save按钮，弹出Save New Variables（保存新变量）对话框（图7）。图7 保存新变量对话框Survival：累积生存率估计。Standard error of survival：累积生存率估计的标准误。Hazard：累积风险函数估计。Cumulative events：终结事件的累积频数。在各水平内，按生存时间和生存状态排序。【Options】选项击Options按钮,弹出选项对话框（图8）。图8 K-M法选项对话框l Statistics：统计量。Survival table(s)：生存分析表。Mean a

18、nd median survival：平均生存时间和中位生存时间及其标准误和可信区间。Quartiles：生存时间的第25百分位数、中位生存时间、第75百分位数。l Plot：统计图。Survival：累积生存函数曲线。One minus survival：生存函数被1减后的曲线。Hazard：累积风险函数散点图。Log survival：对数累积生存函数曲线。操作如下：1. Analyze=Survival =Life Tables2. Time框：选入remission time3. Status框：选入status；击define events钮,在single value框右边的空格中

19、输入14. Factor框：选入group；5. Compare factors列表框：l Test Statistics:选择Log rank、Breslow、Tarone-Warel Linear trend for factor levels:选Pooled over strata或Pairwise over strata6. Option列表框：l Statistics: 选Survival table(s)、Mean and median、Survivall Plots: 选Survival单击OK钮13.2.2 结果说明1、生存分析表Survival Analysis for TI

20、ME remission time(days)对生存时间变量Time进行分析，其变量标签是remission time(days)。 Factor GROUP = A疗法 Time Status Cumulative Standard Cumulative Number Survival Error Events Remaining 4 恶化 .9600 .0392 1 24 5 恶化 .9200 .0543 2 23 9 恶化 .8800 .0650 3 22 10 恶化 .8400 .0733 4 21 11 恶化 .8000 .0800 5 20 12 恶化 .7600 .0854 6

21、19 13 恶化 .7200 .0898 7 18 20 删失 7 17 23 恶化 .6776 .0940 8 16 28 恶化 9 15 28 恶化 10 14 28 恶化 .5506 .1010 11 13 29 恶化 .5082 .1017 12 12 31 恶化 .4659 .1017 13 11 32 恶化 .4235 .1009 14 10 37 恶化 .3812 .0993 15 9 41 恶化 16 8 41 恶化 .2965 .0936 17 7 57 恶化 .2541 .0893 18 6 62 恶化 .2118 .0838 19 5 74 恶化 .1694 .0770

22、20 4 100 恶化 .1271 .0684 21 3 139 恶化 .0847 .0572 22 2 258 删失 22 1 269 删失 22 0 Number of Cases: 25 Censored: 3 ( 12.00%) Events: 22 Survival Time Standard Error 95% Confidence Interval Mean: 57 15 ( 28, 86 ) (Limited to 269 ) Median: 31 3 ( 25, 37 )说明：限于篇幅原因，此处仅列出A治疗组的结果。 Time:观察时间。 Status:生存状态。 Cumu

23、lative Survival:累积生存率。 Standard Error: 累积生存率的标准差。 Cumulative Events:累计死亡数。 Number remaining: 组中剩余人数，即在时间Time的暴露人数。2、生存时间估计Survival Analysis for TIME remission time(days)Factor GROUP = A疗法Survival Time Standard Error 95% Confidence IntervalMean: 57 15 ( 28, 86 ) (Limited to 269 ) Median: 31 3 ( 25, 3

24、7 )Factor GROUP = B疗法 Survival Time Standard Error 95% Confidence Interval Mean: 112 20 ( 72, 152 ) (Limited to 245 ) Median: 99 24 ( 52, 146 )Factor GROUP = C疗法 Survival Time Standard Error 95% Confidence Interval Mean: 95 19 ( 58, 132 ) (Limited to 219 ) Median: 40 11 ( 18, 62 ) Total Number Numbe

25、r Percent Events Censored Censored GROUP A疗法 25 22 3 12.00 GROUP B疗法 19 15 4 21.05 GROUP C疗法 22 15 7 31.82Overall 66 52 14 21.21说明： Mean是生存时间的算术均数。 “Limit to 269”表示A疗法组的最长生存时间为219天。 Median为中位生存时间，即生存率为50%所对应的生存时间。A、B、C疗法的中位生存时间分别为31、99、40。 A、B、C疗法组中位生存时间的95%可信区间分别为（25，37）、（52，146）、（18，62）。 A、B、C疗法的删

26、失例数分别为3、4、7，删失率分别为12%、21.05%、31.82%。3、水平间的整体比较Test Statistics for Equality of Survival Distributions for GROUP Statistic df Significance Log Rank 4.31 2 .1158 Breslow 3.67 2 .1595 Tarone-Ware 4.35 2 .1137说明： 3种疗法的生存时间差异无显著性意义，3个检验统计量的P值均大于0.1。在实际分析中，当各组的总体水平比较无统计学意义时，不宜再进行两两比较，此处仅是为了演示一下。4、水平间的两两比较L

27、og Rank Statistic and (Significance) Factor 1 2 2 3.65 ( .0561) 3 2.84 .03 ( .0917) ( .8677) Breslow Statistic and (Significance) Factor 1 2 2 3.23 ( .0722) 3 1.77 .07 ( .1832) ( .7967) Tarone-Ware Statistic and (Significance) Factor 1 2 2 3.85 ( .0498) 3 2.26 .07( .1324) ( .7981)说明： 3种检验方法两两比较差异均无显

28、著性意义。括号外数值为检验统计量，括号内数值为P值。4、生存曲线第十四章活着Survival菜单详解（下）（医学统计之星：董伟）上次更新日期： 13.1 Life Tables过程13.1.1 界面说明13.1.2 结果解释13.2 Kaplan-Meier过程13.2.1 界面说明13.2.2 结果解释13.3 Cox Regression过程13.3.1 界面说明13.3.2 结果解释13.4 Cox w/Time-Dep Cov过程13.4.1 界面说明13.4.2 结果解释13.3 Cox Regression过程上面给大家介绍的是两种生存分析方法，但它们只能研究一至两个因素对生存

29、时间的影响，当对生存时间的影响因素有多个时，它们就无能为力了，下面我给大家介绍Cox Regression过程，这是一种专门用于生存时间的多变量分析的统计方法。Cox Regression过程主要用于：1、用以描述多个变量对生存时间的影响。此时可控制一个或几个因素，考察其他因素对生存时间的影响，及各因素之间的交互作用。例13.3 40名肺癌患者的生存资料（详见胡克震主编的医学随访统计方法1993，77页）生存时间状态生活能力评分年龄诊断到研究时间鳞癌小细胞癌腺癌疗法癌症类别41117064510011.0012616063910011.00118170651110011.00注：原数据库是用

30、亚变量定义肺癌分类：0，0，0为其它癌；1，0，0为鳞癌；0，1，0为小细胞癌；0，0，1为腺癌。表中的最后一个变量是我加上去的癌症类别，1为鳞癌；2为小细胞癌；3为腺癌；4为其它癌。实践表明结果与用亚变量计算一样。13.3.1 界面说明图9 Cox回归主对话框【Time】框、【Status】框前文已经介绍过了，这里我就不再废话唠叨的了。Block 1 of 1右边的Next钮被激活。这个按钮用于确定不同自变量进入回归方程的方法，详见Method框的内容。用同一种方法进入回归方程的自变量在同一个Covariates框内。【Covariates】框选入自/协变量，即选入你认为可能对生存时间有影响

31、的变量。【Method】框选择自变量进入Cox回归方程的方法，SPSS提供下面几种方法： Enter: Covariates框内的全部变量均进入回归模型。 Forward: Conditional: 基于条件参数估计的向前法。 Forward: LR: 基于偏最大似然估计的向前法。 Forward: Wald: 基于Wald统计量的向前法。 Backward: Conditional: 基于条件参数估计的后退法。 Backward: LR: 基于偏最大似然估计的后退法。 Backward: Wald: 基于Wald统计量的后退法。【Strata】框定义分层因素,将生存时间按分层因素分别进行Co

32、x回归。【Categorical】选项用于告诉系统，Covariates框内的变量中哪些是分类变量或字符型变量。系统默认字符型变量为分类变量，数字型变量为连续型变量。选入自变量后，categorical钮被激活。按categorical钮，进入确定分类变量的对话框。见图10。图10 确定分类变量对话框左边的Covariates框中列出了刚刚被选取的自变量，将分类变量选入Categorical Covariates框中。此时Change Contrast框被激活，请你选择比较方法，即计算参数OR/i的方法。当选入分类变量后，Change Contrast框被激活，此时可选择比较方法。SPSS提供

33、下面几种比较方法。 Indicator:指示对比。用于指定某一分类变量的基线，即参照水平。这样计算出来的参数OR/i是以该变量的第一个或最后一个水平为基准水平（取决于下面的reference category中你选择的是last还是first）。在这里SPSS自动创建亚变量，对照水平在对比分类矩阵中用0行代表。在这里我再多说两句，如本例中的肿瘤类型，若规定鳞癌为1，小细胞癌为2，腺癌为3，其它癌为4。若选indicator及last,则以其它癌为参照，计算出来的OR及i是以其它癌为基准，即其它癌的OR为1，其他计算出来的OR值是与其它癌相比的结果。 Simple:差别对比。可计算该分类变量的各

34、水平与参照水平相比的OR值。参照水平自己当然就不用跟自己相比了。对于本例来说，Simple与Indicator选项是一样的，前提是下面的Reference Category中你所选择的同是last（或first）。 Difference:差别对比。分类变量欲比较水平与其前面的各水平平均值进行比较，当然也不包括第一水平。与Helmert法相反，因此也叫反Helmert法。如3水平与1、2水平的平均值相比，下同。 Helmert:赫尔默特对比。分类变量欲比较水平与其后面各水平平均值进行比较，当然不包括最后一个水平。 Repeated:重复对比。分类变量的各水平与其前面相邻的水平相比较（第一水平除外

35、）。 Polynomial:多项式对比。仅用于数字型的分类变量。无效假设是假设各水平是等距离的（可以是线性的关系，也可以是立方、四次方的关系）。例如年龄每增加10岁，死亡风险的增加值是一样的，但实际情况常常与此相反，如在20岁与60岁年龄段，年龄都增加10岁，所增加的死亡风险肯定是不一样的，具体情况需根据各人的研究课题，专业而定。 Deviation:离差对比。除了所规定的参照水平外，其余每个水平均与总体水平相比。 Reference category：如果你选择了Deviation, Simple, 或Indicator三个选项，就必须选择First或Last作为参照水平。完成上述选择后，击

36、change钮，确认选择。你若对上面写的一段不感兴趣的话，可跳过去，直接用系统默认的选项。【Plots】选项图11 Cox回归统计图对话框 Survival：累积生存函数曲线。 Hazard：累积风险函数曲线。 Log minus log：对数累积生存函数乘以-1后再取对数。 One minus survival：生存函数被1减后的曲线。 Change Value：系统默认用各变量的均数进行作图，但对字符型变量如癌症类型取均值则没有实际意义。若用分类变量的其它水平进行作图，则选定该变量，此时Change Value钮被激活，按Value钮，在其右边的框内输入你所想要用于作图的值。击Change。 Separate Line for：输入分类变量的名称，此时可以用分类变量的不同水平进行作图，对于本例则可作出不同癌症的曲线。此分类变量必须包括在前面的自变量框中。【Save】存为新变量图12

展开阅读全文