临床试验中的统计学讲解.doc

资源描述

《临床试验中的统计学讲解.doc》由会员分享，可在线阅读，更多相关《临床试验中的统计学讲解.doc（261页珍藏版）》请在三一办公上搜索。

1、小胖说统计之一：认识, 要了解生物统计在临床试验中的应用，首先需从认识,开始，就是这两个不起眼的符号贯穿了临床试验生物统计的始终。和的定义是比较拗口的，特别是对于那些没学过统计的人来说，这两个东西是怎么也搞不明白具体是怎么回事。虽然比较拗口，但咱还得在这里重复一下和的科学定义：又称第I类错误或显著性水平，指拒绝了实际上成立的H0，又称第II类错误，指不拒绝实际上不成立的H0。对应的还有一个概念叫power，国内翻译为把握度，它等于1，指拒绝实际上不成立的H0的概率。说得通俗一点，临床试验中你会犯俩错误，一种错误就是两种药本来没啥区别，却说成您的药优于人家的药，这就是；另一种错误就是你的药的

2、确优于人家的药，却说成两种药没啥区别，这就是。那1呢，就是咱的优秀药物被发现的概率啊。不知道，上边的解释，您听明白了吗？如果听明白了，小胖要问您了，谁应该最关心啊，那又谁应该最关心啊？最关心的当然是我们伟大的SFDA以及诸如FDA之类的药品审批机构啊，为啥？他们当然不希望一种药明明和别的药没啥区别，却被药厂说成疗效更好，换言之，他们可不希望审批无效的药物进入市场。所以啊，它们要限定这种错误发生的概率，也就是我们的了，一般情况下，被限定为0.05。最关心的当然是我们的药厂了，为啥？为钱，哈哈！药厂当然不希望明明他的药优于别人的药，却被说成两种药没啥区别吧，所以它们希望降低这种错误发生的概率，也就

3、是降低了。换言之，他希望提高把握度（1），使自己的药能有更高的概率作出来优于别的药物，从而进入市场，赚取钞票。一般情况下，应小于0.2，甚至0.1，对应的把握度为80或90。当然药厂降低，也就是提高把握度，会提高你试验成功的概率，但这也同时意味着同等条件下样本量的增加，样本量的增加就意味着money的增加，这些都是矛盾的，没办法，谁让这世界本来就是一个矛盾的世界呢，你只好去权衡利弊，找个平衡点呗。今天就到这里吧，休息，休息。小胖说统计之二：怎样认识Nonpositive 试验在上一博认识完和后，我们继续深入探讨一下。在很多情况下，我们会经常遇到临床试验的结果是Nonpositivie（P0.0

4、5）,此时你会怎么解释呢？有的同学比较干脆，看到p0.05，就立马认为两种药无差别，更有甚者，如果对照组是安慰剂的话，那这个药就被判定为无效，彻底over了。当然这些同学未免有点武断了，其实大多数情况下，这是由于underpowered造成的，下边小胖就给大家举个例子看看吧。咱保护人家的知识产权，先说明这个例子的referencnce为: Arch Pediatr Adolesc Med. 2006;160(11):1126-1129, 仅供咱参考学习之用。试验是这样的：本试验比较Duct Tape和placebo治疗小学儿童人乳头瘤病毒（疣）的疗效，主要疗效指标是6周后的wart resol

5、ution，最后的试验结果是Duct Tape组16，placebo组6，p0.12。看到这个结果，你会得出啥结论？别，咱先别急，先看看它的最初的样本含量和把握度设计的叙述：根据以往综述，placebo治疗10周后约有30的wart resolution。假设双测检验0.05显著水平，每组需要39例病人才能有80的把握检验出Duct Tape和placebo组wart resolution30的的差异。考虑到失访，最终入组100例（每组50例）。看完这个叙述，你应该会发现点东西了吧，对！研究者过高地估计了placebo的wart resolution，同时也过高地估计了两组之间的差别。研究者那

6、个后悔啊，肠子都悔青了，后来经过反省，他发现了俩估计上的问题：（1）人家以前的综述，是说10周后的wart resolution是30，本试验主要指标是6周后的wart resolution，当然这个率应该低一些；（2）与placebo30的差别，也太过于自信了吧，人家临床上觉得你的药有15的提高就有临床意义了，你把标准提得这么高，不是自找麻烦吗。根据试验结果，我们可以推算出本试验的把握度只有26, 这么低的把握度就怪不得没做出啥来了。这样吧，小胖替研究者重新设计一下，咱假设plcebo组30wart resolution不变，把两组差异降为15，这样算出来，每组做175例，总共350例。假设

7、同样的wart resolution结果，Duct Tape组16，placebo组6，你猜咋得？把握度大于80，P0.05了！咱的Duct Tape有救了！说了这么半天，大家可能也闹胡涂了，算了，记住以下几点吧，随便锻炼一下英文，权当这次没白来看小胖的blog。1. Non-positive ONLY not conclusive2. Not be able to detect a difference does NOT mean there is no difference3. The predominant reason of Non-positive trials is mostly

8、“under-powered”, rather than ineffectiveness of the test therapy小胖说统计之三：优效、等效和非劣效试验（一）小胖在论坛上转悠了一阵子了，发现有很多同学对优效、等效和非劣效试验都做过一些讨论，小胖不才，在这里再给大家解释一下，权当班门弄斧，如有偏颇，大家尽管拍砖，就算小胖来找残吧，所谓小胖不入地狱，谁入地狱，小胖开博开讲了。先从优效性试验开讲吧。顾名思义，优效性试验的目的是显示试验药物的疗效优于对照药。优效性检验的第一步往往是对两组进行统计学检验，看看有没有显著性差异。当两组有显著性差异后，下一步就得判断两组之间的差异是否有临床意义

9、。这里小胖需要强调的是，统计学显著性差异并不意味着差异有临床意义。举个极端的例子，只要样本量足够大，10000甚至100000，哪怕是0.01的差异都能有统计学意义，但这个0.01的差异当然在临床上是不会被认可的。考虑到这一点，当计算优效性试验的样本量时，你假设的两组差异必须在临床上是有意义的。关于优效性试验还有一个大家常碰到的问题是，究竟是单侧检验还是双侧检验呢？其实这个问题统计学界本身存在着争议，至于具体争议，小胖就不在此赘述了，小胖想让大家知道的是，现在通常优效性试验取的都是双侧0.05显著水平。至于具体的统计检验，可通过双侧0.05显著水平或双侧95可信区间两种方法来实现，当然了优效性

10、试验要求p0.05，或两组疗效（治疗对照）之差的95可信区间的下限大于0。今天小胖就罗唆到此，下次继续。休息。小胖说统计之四：优效、等效和非劣效试验（二）在上篇博客中，小胖给大家简单地介绍了一下优效性试验，不知大家明白一点没有，如大家有何问题，尽可拍砖。今天继续讲一下等效/非劣效试验，首先小胖问大家一个问题，为啥要做等效/非劣效试验？其实说起来很简单，现在开发出一种疗效确实优于现有标准治疗的药那有那么容易啊，那你就要得从别的方面考虑了，就是首先保证你的药不差于人家的药的基础上，在别的方面有优势啊，不然人家为什么批准你上市。那这些别的方面的优势是啥呢？（1）你的药便宜，这个就不用多说了（2）

11、你的药副作用少，考察一个药可不只是疗效，现在安全性也越来越重要了（3）你的药服用方式方便，例如，你的是口服，人家的是静脉；你的每周一次，人家的每周三次，等等（4）你的药的依从性好，这个和服用方式也有较大的关系，当然也包括剂量疗程等方面的考虑（5）你的药能更好地改善生活质量，这年头病人生活质量改善是越来越时髦了还有别的很多很多，反正你必须找一个让人家审评机构认可的理由，不然谁批准你啊！关于这个非劣效检验的问题，小胖不得不先在这里发一下牢骚，可能大家也知道现在国内临床试验的现状，这几年还好，以前大家做临床试验基本上就是找个对照药，每组做个100例，两者一比较，如果p0.05，ok！说俺的药和

12、人家的药没啥区别，SFDA也就稀里糊涂地批了。现在吗，进步了，SFDA也学习人家，开始在试验设计和统计上有要求了，但在缺乏原创的中国，优效试验（当然安慰剂排除）是没啥把握的，只好非劣效试验了，但非劣效试验的样本量大家是知道的，一般情况下是优效试验的4倍以上，但咱的药厂就算是外资药厂，动不动就几百个病人的试验，在这个还是销售市场驱动的中国市场，何以承受！所以现在很多药厂频频打擦边球，SFDA呢，我也不知道他怎么办的，不好评述，反正不敢恭维。小胖这几年做下来的感觉，一句话SFDA和FDA的差距比中国和美国经济的差距还大，不过也没办法，人家FDA多少年了，你SFDA才几年啊，况且你SFDA面对的是仿

13、制药横行的中国，其实冷静下来想，最适合的就是最好的，也许这是最适合中国国情的，况且它也在不断进步中，对比这几年的变化，小胖也应该为他鼓掌。跑题了，跑题了，_。下次小胖一定言归正传，好了，下次继续。小胖说统计之五：优效、等效和非劣效试验（三）上篇博客中，小胖发了一通牢骚，还望众弟兄见谅，今天小胖给大家谈一下等效性试验。首先等效性试验的目的是显示试验药物的等同于对照药，这里大家要注意了，你的药要和人家的药疗效相同，既不能优于人家，也不能差于人家哦。等效性试验主要在生物等效性研究中使用，在中国还真不少用。为啥，咱仿制药多哦，和人家原创药怎么也得做个生物等效吧。但是在生物等效性试验不可行的情况下，需做

14、临床等效，比如说一些吸入的或局部给药的药物。生物等效性试验一般比较药代动力学参数的90可信区间，而临床等效呢，一般是95可信区间。等效性检验采用双侧可信区间，当可信区间完全落在等效界值之内，则推断为等效。至于界值咋确定，这个关键的问题小胖下次重点白话一下。今儿，周末了，少写点，小胖要早点休息了。祝大家周末愉快！小胖说统计之六：优效、等效和非劣效试验（四）经过一个周末的休息调整，小胖开博继续，今天着重给大家讨论一下非劣效试验界值的选择问题。首先看看非劣效试验的目的，显示试验药物的疗效在临床上不劣于阳性对照药，说白了就是证明您的药不差于人家的药。要做非劣效试验有两点特别重要，啥呢？一是选择对照药，

15、当然你选择的对照组必须是广泛应用的，已被证实疗效的标准用药，特别强调的是对照药以前必须在过往的优效性临床试验中证实疗效，这点不难理解，你选择了和安慰剂差不多的药做对照，还说自己的药非劣于它，这不找死吗。二是确定非劣效界值，这是重中之重。咋确定呢？小胖在这必须严正指出，非劣效界值的确定取决于临床实践，必须由临床医生作出，统计师只是在统计理论上加以考虑，那种把非劣效界值确定一股脑全部抛给统计师的做法是相当错误的，也是极端不负责任的，从这个角度，什么SFDA规定的必须在15%还有什么20或者其他数字之内的说法都是极不科学的。其实非劣效界值的确定，小胖总结了三原则：1 必须基于临床判断和统计理论的结合

16、，上边已说，不再赘述2 必须小于对照药和安慰剂之间疗效的差异，很好理解，比如对照药和安慰剂之间应答率差异总共才10，你整个非劣效界值15，那你的药还有啥疗效，还成了负疗效不成。3 不能高于最小的临床有意义的差异值，比较拗口，啥意思呢，举个例子，比如临床上认为治疗某种疾病，在应答率方面如果有超过10的差异就算有临床意义了，那么我们确定的非劣效界值就不能高于10。这也很好理解，你确定的界值如果大于这个值，比如15了，就算你作出来差个14，虽说满足了非劣效界值的要求，但在临床上你差个14，从临床上判断这个差别就是有临床意义的差别，就很难被临床接受。非劣效界值的确定是个很复杂的工作，没有一个统一具体的

17、定量的规定，都是case by case的，不能搞一刀切。作为提高国内临床试验质量的主体，研究者包括临床医生必须明确自己在其中的主导作用，而不是一味地推诿给sponsor，推诿给统计师，讲到这里，我们不得不承认我们的研究者在临床试验的道路上还有不少路要走。关于非劣效界值的确定，EMEA有一个专门的guideline，www.emea.europa.eu/pdfs/human/ewp/215899en.pdf；FDA的guideline好像也会在不久以后颁布，其研究也在不断完善中。小胖说统计之七：优效、等效和非劣效试验（五）上次博客中，小胖着重给大家介绍了一下非劣效界值的选择，今天继续讲一下非劣

18、效试验的其他方面的东西。怎么证实非劣效呢，很简单，根据非劣效界值D，非劣效性检验通常采用单侧95可信区间，如果两组疗效差值的95可信区间的下限大于D，则推断为非劣效。比如你在研究设计中确定非劣效界值为5，那么你的药减去人家的药的差值的95可信区间的下限如果大于-5，OK！恭喜！侬的要过关了！在这里我们要坚决讨伐一下以前国内的某些临床试验，有些人对两组的疗效进行比较，发现P0.05, 就说他的药非劣于或等于人家的药，这种推断是十分错误的。讲了非劣效了，有人会问小胖了，有没有可能本来你设计成非劣效试验，结果作出来是优效的了。当然有这种情况，咱们可以在证实了非劣效的基础上再寻求优效啊，呵呵，没办法，

19、人总得往高处走啊，要真能证实了优效，那不是意外之馅饼，何乐而不为呢。那具体上怎么实现呢？首先，你必须在方案中说明，比如说俺这个试验设计为非劣效试验或优效性试验，啥意思呢，就是说首先证实非劣效，然后在非劣效的基础上，满足什么条件，就推断为优效，诸如此般的说法，至于啥条件呢，就是两组疗效差异的95可信区间的下限不仅大于D，还大于0。方案中一旦规定好了，就相当于咱这是事先规定的，不是事后诸葛亮，ok，下一步就根据你的95可信区间下限来判断了。在这里小胖又得罗索一下，也是俺多年悟出来的真理啊，临床试验统计的第一原则是什么，小胖告诉你，是计划，英文叫planned，就是你所有的统计方法都必须在方案中或统

20、计分析计划书中事先规定好，不能等到数据分析时，来这个，来那个，这种ad hoc 分析都是不对的，统计学上有个专业术语，你这样就会产生bias，而我们所要做的就是要减少bias。还有人会问小胖，我们能不能先设计个优效试验，如果优效试验不满足的话，再证实非劣效，小胖说的是可以，和从非劣效到优效的转换一样，你必须在方案中说明，特别是对非劣效界值确定的说明。以上就是小胖所讲的优效和非劣效之间的转换，小胖看到过比较多的从非劣效到优效的转换，但从优效到非劣效的转换很少，当然这与许多因素有关，在此不再详述。关于优效和非劣效之间的转换，EMEA也有个专门的guideline：www.emea.europa.e

21、u/pdfs/human/ewp/048299en.pdf，有兴趣的同学可以阅读一下，受益匪浅哦。小胖说统计之八：如何从统计角度来review研究方案（一）一个临床试验研究方案的撰写，离不开统计，那么对于一个完整的研究方案，从统计角度它应该包括什么内容，或者一个统计师应从那些方面来review呢，小胖从今天开始陆续在此小谈一下，个人愚见，仅供参考。1 必须有具体明确的研究目的。这点勿容置疑，如果你连研究目的和用来证实研究目的的终点指标都没搞清楚，你就别做了，准备洗洗睡吧。研究目的是啥？研究目的就是你做这个试验想要回答的问题。设立正确的研究目的是临床试验最关键的一部分。研究目的一旦确定，它就直接

22、决定着你的临床试验设计、数据的收集、数据的分析乃至最后的结论的确立和解释，因此研究目的可谓整个临床试验的基石。当我们review我们临床试验的研究目的时，首先要问自己两个问题：（1）这个研究目的是否合理和切合实际？很简单咱不能做不切实际的幻想。（2）这个研究目的可否可以被证实，就是说根据我们的研究方案能否回答我们的研究目的。研究目的应该尽量具体化，而不是仅仅说确立某某药的疗效和安全性。研究目的不宜过多，如果研究目的不止一个，那么应对研究目的进行排序。2 必须有清楚的终点指标（endpoints）。一般会有主要终点和次要终点。主要终点是临床试验最重要的指标，能最确切地反应药物的疗效或安全性。

23、通常情况下，主要终点只有一个，这也是最理想的状态，当然在一些疾病的临床试验中，需要同时从两个方面对疗效进行评估，这时会出现co-primary endpoints。如果存在多个主要终点时，就要考虑控制I类错误。所以小胖建议大家在设计临床试验时，尽量选择单一的主要终点，比较易于设计、分析和解释。主要终点也是样本量计算的依据，这一点很重要哦。还有一点小胖要提醒大家的是，在选择主要终点时，尽量选择客观性指标。如果选择一些生活质量评分诸如此类的主观性指标，很容易在研究者评分或受试者评分时产生较大的偏倚，小胖就曾看到过双盲安慰剂对照的临床试验因为把所谓的受试者评分作为主要终点，结果因为产生较大的偏倚而导

24、致失败的例子，因此说实话，特别是在国内，这种主观性的评分还是不要作为主要终点为好，来自研究者、受试者以及各方面的偏倚会很多。关于次要终点，就强调两点，一是必须与试验目的相关，二是数目不要太多。好了，今天先讲这两点，下次待续。小胖说统计之九：如何从统计角度来review研究方案（二）接上篇博文，继续从统计角度review研究方案：3终点指标的定义和测量方法。在研究方案中必须加以详细描述，特别注意一些关键的时间点的定义，比如基线和终点时间等。这对以后的统计分析至关重要。这里需要强调的是在一些肿瘤临床试验中，终点指标的定义比如应答的定义等。测量方法比如MMR等的描述必须详细准确。4符合入选/排除标准

25、的研究人群。小胖在这里简单说两句。你可以首先简单问自己两个问题，一是你选择的人群的疾病是不是太轻度以至于无法检测出差异，二是你选择的人群的疾病是不是太严重以至于无法检测出差异。另外，小胖需要说的是，一些标准可以在入选标准中出现，也可以在排除标准中出现，而不用在入选/排除标准中同时出现。现在很多方案，明明在入选标准中已经说明了，非要在排除标准中再不厌其烦地反着说一遍。比如你在入选标准里规定了1875岁的受试者，结果你还要在排除标准里写上年龄75的受试者。不是说不对，但小胖认为这样不大专业。5入组和随机化分配方法。方案中应详细说明受试者入组和随机化分配方法。随机化方法主要有简单随机化、区组随机化和

26、分层随机化。现在我们的多中心试验大部分采取的是以中心为分层因素的中心区组随机化。至于具体的随机化方法，小胖将在以后的博文中设立专题介绍，这里不再赘述。好了，周末了，外边还下雨，今天就讲这三点，下次继续。小胖说统计之十：如何从统计角度来review研究方案（三）6根据研究目的确定样本量。样本量的计算也许是统计师遇到的最常见的问题之一，关于样本量的确定，小胖会在以后单独讨论。在这里小胖先给大家讲几点。一样本量的计算通常应根据主要指标；二是你需要提供给统计师最重要的东西是difference，也就是两组之间的差异（非劣效试验为非劣效界值）；三是样本量的计算的关键和难处在于effect size 的估

27、计，这是一个广泛阅读文献和临床实践的过程，当然最难的工作不属于统计师，统计师的工作就是计算，这个吗，简单，有公式，有软件。7合适的临床试验设计。不好意思，这一项应排在第三位，小胖遗漏了。在review研究设计时，可首先问自己一个问题，就是这个试验设计能不能回答你的研究目的？这是最重要的。啥临床试验设计类型那，有平行设计、交叉设计、析因设计以及现在hot的成组序贯设计等。当然大家接触的最多的是平行设计。当然在比较类型上还有优效、等效和非劣效。这里的临床试验设计包括很多方面，review啥呢，其实把研究方案中的study flow chart看好了，就基本差不多了。8数据收集。很简单，这是建立da

28、tabase和进行统计分析的基础，无须多言9盲底保存和揭盲的方法。这个进局限于盲态试验，这个我相信每个公司都有自己的SOP，具体小胖以后将做介绍。待续。小胖说统计之十一：如何从统计角度来review研究方案（四）10中期分析及数据监查的办法。中期分析在肿瘤试验中比较常见，但因涉及到一类错误的调整、独立数据核查机构等较为复杂的问题，在国内临床试验中较为少见。小胖以前一直在强调的一点，就是plan，这一点在中期分析上尤为重要。对中期分析的具体操作方法和统计处理方法必须在研究方案中事先规定，而不能在试验开始后，随便进行到一段时间后，就来个分析，还美其名曰中期分析。11样本量的核查以及变更。这一点较为

29、少见，主要适用于adaptive design，就是根据中期分析的结果进行样本量的调整。12 统计学假设（Hypothesis）。就是你统计检验要检验的东西，这个必须与你的研究目的相对应。13多重性问题。主要包括多个主要变量和多个处理组间的比较，在统计学方法上会涉及到一类错误的调整以及对power的影响。14 对失访、缺失以及方案违背的处理15对各种类型数据的统计分析方法，具体说是连续型数据，分类型数据，时间事件数据等。16数据管理和统计分析使用的系统和软件，无非是clintrial，OC，SAS等等。好了，以上几篇文章简单介绍了16项review内容，在以后的博文中，小胖将陆续针对这里边的项

30、目进行专题详细的讨论。小胖说统计之十二：How many subjects do I need? （一）How many subjects do I need? 这是个问题，是一个临床试验中最常见的问题。在回答此问题前，咱先看看如果咱的临床试验没有足够的样本量会造成啥后果。大家在临床试验中最常见的就是试验结果无法下结论，明明作出来一个35，一个20，相差15，很明显咱的药很好，可p值却怎么也不小于0.05，咋办，白做了呗，冤啊！这个还好，要是由于机遇（play of chance）的原因，甚至你的药看起来比人家的药差就玩完了，这可不是吓唬你哦，这种风险可是存在的。其实说到底，最严重的后果是啥，

31、当然是浪费钱了，作了半天，啥都没做出来，甚至还整了个相反的结果，费人费钱费力啊。明白了这个问题的重要性，那谁来回答这个问题呢，研究者和统计师！在这里研究者的知识和假设起着关键作用，而统计师只是进行技术性的计算作用。那小胖问大家样本量计算难吗？难！研究者难！研究者为了确定那几个effect size参数值，需要阅读大量文献，需要长期临床实践，这可真是一个艰难决策的过程。这个难可以理解为科学决策的难！Sponsor难！样本量的大小直接决定着budget的大小！每个sponsor总想最少的钱办最大的事，可风险呢，怎么平衡呢，难啊！不难！统计师不难！咱不怕，等他们决定好了，咱就是动动手，简陋的，有计算

32、器，高级的，有软件。PASS、nQuery、EAST等样本量计算软件的出现，让咱的工作更简单了，咱不就是填填参数吗。小胖说统计之十三：How many subjects do I need? （二）关于样本量的计算，可以分为两类：1 Precesionbased2 Powerbased那怎么来选择呢？让小胖来简单介绍一个判断的过程，在判断前，你可以首先问自己一个问题，即你的研究问题是否涉及到了特定的比较，比如治疗组和安慰剂的比较，治疗组和阳性对照组的比较等？如果你的回答是yes，那么你就应该选择powerbased即根据研究假设和把握度等来计算样本量；如果你的回答是No，那么你就可以选择pre

33、cisonbased，根据估计的精确度来计算样本量。这里还有一种关于比较的特殊情况，即在研究中涉及到了两组间的比较，但研究关心的问题是估计两组之间的差异有多大，那么还应选择precisionbased。啥为precesionbased？通俗地讲，比如你想知道你的药治疗哮喘的应答率情况，你不能让所有的哮喘病人都吃你的药吧，所以你就要从所有的哮喘病人中选择一定数量的哮喘病人来做临床试验，通过这一部分人的应答率来估计整个哮喘病人的应答率。此时，所有的哮喘病人就是一个总体，所有哮喘病人的应答率就是总体率，而你选择的那一定数量的哮喘病人就是一个样本，那他们的应答率就是样本率。因此，我们做的就是利用样本率

34、来估计总体率，当然通过样本率来估计总体率总会有精确不精确的问题，这时我们就需要对这个精确度（precesion）有个要求，而这个又通过95可信区间来实现，比如说咱要求咱估计出来的率的95可信区间在真值的5范围内，你也可以这样简单地理解，就是你临床试验作出来的应答率和整个哮喘人群的应答率的差异不会超过5。此时5就是这个precesion。很显然precesion越小，你估计的越精确，当然需要的样本量越多。你也可以反过来想想，当你抽取的样本量越大，即做的受试者越多时，你估计出来的结果就越接近总体的真实值啊。小胖说统计之十四：How many subjects do I need? （三）今天小胖通

35、过例子给大家介绍一下precisionbased样本量计算。precisionbased样本量计算最常见于一些单组的观察研究，下边是一个简单的例子：假设你想做一个A药治疗XX疾病的单组观察试验，主要疗效指标是应答率，那怎么计算样本量呢？我们先看公式吧 n = z21-/2*P*(1-P)/d2那我们继续看里边的参数的意义：z21-/2这一般是固定的即0.05，此时这个值为1.962P为你估计的应答率，即你估计的A药治疗XX疾病的应答率d为precesion，即精确度，即与总体率相差不大于d其实这时你需要确定的是p和d，如果你实在无法估计p，可以用0.5来代替，为什么呢？大家可以看一下公式，P*

36、(1-P)在p0.5时最大，此时n也最大，即最保守，所以你不知道p的情况下，可以用0.5来代替，此时n最大，这也是最保守的估计。这样我们需要确定的最关键的是d值。下边是关于样本量的英文叙述，供大家参考：A sample size of approximately XX subjects will allow an estimate (using 95% confidence limits) to be within XX of the response rate.An approximate total sample size of XX patients will provide a pre

37、cision of XX for 95% confidence interval for the response rate.至于中文，比较拗口，仅供参考，大家可以有更好的说法。大约需要XX例受试者以95可信区间可使应答率在真值的XX范围内。小胖说统计之十五：How many subjects do I need? （四）今天小胖给大家简单介绍一下最常见的powerbased sample size calculation，不外乎两种最常见的情况，一是连续性变量的比较和分类变量的比较。1. 连续性变量：假如你想比较治疗组与对照组某个变量的均值，那么每组需要的样本量是：N=f(,)*2*S2/2

38、f(,):根据和计算所得，最常用的为：当0.05, =0.2时，f(,)7.9当0.05, =0.1时，f(,)10.5为你认为的有意义的两组最小能检测出的差异值，通常根据文献以及临床实践来确定S 为标准差，需要根据以前的研究来确定血压的例子：假设标准差为20mmHg，有90的把握度在0.05显著水平上能检验出治疗组和对照组10mmHg的差异，则需要的样本量为每组：N=f(,)*2*S2/2=10.5*2*202/102=84以下是关于这类样本量计算的描述，供大家写方案时参考：英文：The total target sample size will be subjects (subjects

39、per treatment). With this sample size, a difference of between (active arm) and (control arm) in (primary endpoint) can be detected with (X) % power assuming a standard deviation of and significance level of .中文：假设标准差为xx，则需xx例受试者（每组xx）有90的把握度在xx显著水平上检验出治疗组和对照组xx的差异。当然在最后的样本量确定时，还要考虑一定的失访率。总结一下，在这个两均

40、数比较的样本量的计算中，你需要知道的什么？标准差和差异！Remember！小胖说统计之十六：ICH E9临床试验的统计学指导原则解析（一）ICH E9 Statistical principles for clinical trials （临床试验的统计学指导原则）可谓生物统计师的bible，目的在于协调欧洲、日本和美国在进行药品上市申请的临床试验时所应用的统计学方法的指导原则。虽说中国是协调三方之外的国家，SFDA还为此另外制定了自己的化学药物和生物制品临床试验的生物统计学技术指导原则，但其内容基本还是照抄翻译了ICH E9的内容。首先，我们先看一下ICH E9的内容概况：1 引言2 整个临

41、床试验的基本考虑3 试验设计中的基本考虑4 试验进行中的基本考虑5 数据分析6 安全性与耐受性评价7 研究报告小胖将结合自己的拙解，对ICH E9涉及的一些内容陆续进行一番探讨，认识难免不足，主要抛砖引玉，供大家一起讨论。p.s. ICH E9 Statistical principles for clinical trials 下载小胖说统计之十八：ICH E9临床试验的统计学指导原则解析（三） Confirmatory Trial（验证性试验）和Exploratory Trial （探索性试验）对整个临床试验的角度考虑，我们通常可以把临床试验分为Confirmatory Trial（验证性

42、试验）和Exploratory Trial （探索性试验）两种类型。什么是验证性试验呢？简单地讲，验证性试验就是检验假设（hypothesis-testing）的试验，是一种事先提出假设，并对其进行检验的有对照组的试验。可以提供疗效和安全性方面的确定的证据。我们进行的验证性试验包括所有的III期试验、大多数IV期试验以及一些晚期的II期试验。当然对于验证性试验，我们接触最多的便是III期注册试验。其中验证性试验最核心的部分就是假设（Hypothesis），而对于它必须做到：1 假设必须直接根据试验的主要目的确定2 假设必须在试验前事先确定3 假设必须在试验完成后进行检验与之对应的探索性试验，对

43、数据作一些探索分析，可能会做一些假设检验，但这些假设不需要是事先确定的，而是根据数据的特点而定的，因此不能作为证实疗效的正式依据。虽然说是探索，但其也应有清晰的明确的目的。其实，一系列的探索性试验正是验证性试验必要性及设计的基础。简单地说，探索性试验是产生假设（hypothesis-generating），验证性试验是检验假设（hypothesis-testing）。探索性试验常见于一些II期试验，现在越来越多被一些研究者申办的上市后研究所采用（post-marketing exploratory study），基本是为了探索新的用法以及新的应用范围等。在这里小胖顺便提一下探索性试验样本量的确

44、定，因为探索性试验没有预先确定的假设，因此样本量的确定就只能是precisionbased，即对试验结果的精确度有个要求，关于具体的内容可参加小胖开博之十三：How many subjects do I need? （二）。小胖说统计之十七：ICH E9临床试验的统计学指导原则解析（二）临床研发计划中的统计思维众所周知，药物临床研究的主要目标就是以最小的成本和最快的时间，科学地评估有希望进入市场的药物的风险效益。万事计划为先，为了保证药物研发的成功，制定一个临床研发计划（clinical development plan）是十分必要的。那什么是临床研发计划包括哪些内容呢？通常地，临床研发计划包

45、括研发依据、试验的一些基本情况、时间表、预算以及所需的人力物力财力资源等。在大多数公司，在开展一项临床试验前，可能不会有一项正规的成文的临床研发计划，但总会考虑到上述这些内容。尽管临床研发计划的确定主要基于医学和科学的正确合理，但其他方面比如生物统计、注册、市场甚至管理层的影响也同等重要。在这里我们重点讨论一下，统计在临床研发中的作用。首先，小胖问大家一个问题，管理者在做临床研发计划时希望从生物统计师这里获得什么？是的，当然最重要的是一些有助于他们决策的有用的信息。他们需要在市场销售、医学、注册等各方面追求一个平衡。他们需要明确知道药物研发的风险收益。正如小胖在前边小胖开博之一：认识,中所说的

46、那样，制药公司尤其关注II类错误即，大家都不希望投入了几亿美金，却得不出有意义的结果吧！统计师要做的就是告诉你的计划团队特别是管理者这些风险，以及如何估算和管理这些风险，使说的文绉绉点，就是要对他们进行变异、不确定性以及风险这些概念的教育，呵呵。小胖说统计之十九：ICH E9临床试验的统计学指导原则解析（四研究人群（population）众所周知，临床试验一个主要的目的就是提供某种药物对于患有某种疾病的病人群体的准确可靠的临床评估。而我们的统计和临床推断都是基于这个病人群体中的抽取的样本。什么意思呢？举个例子，我们要做一个降脂药治疗原发性高胆固醇血症的试验，那么研究人群（population）

47、就是原发性高胆固醇血症病人，在具体实践中，我们会根据样本量的大小，从原发性高胆固醇血症病人（总体）抽取一定数量的病人（样本），进行病人入组，接受治疗，然后对这些抽取的病人（样本）的疗效和安全性进行评估，并进行统计和临床推断，然后再推广到整个原发性高胆固醇血症病人（总体），进而得出最后的结论，这就是一个样本描述推断总体的过程。临床试验中的研究人群是通过入选/排除标准来确定的，因此入选/排除标准的确定对于试验的成功显得十分重要。入选/排除标准的确定主要应基于病人的基本特征、诊断标准以及疾病严重程度等。在研究方案制定时，对临床试验目标人群的选择十分重要。这时往往存在两种选择偏差情况，一种情况是选择的人群过于宽泛，比如说，你的研究药物可能只对程度严重的某种疾病更为有效，可是你选择了轻、中、重各种程度的病人，结果导致观察不到期望的临床疗效；另一种情况对选择的人群过于限制，比如你只选择了某种疾病中某个基因型或者具有某个基线特征的病人，虽然得到了你期望的临床疗效，但批准的适应症很可能也仅限于这个特征的病人人群，在以后的市场推广方面会受到很大的限制。一句话，一切

展开阅读全文