《高级医学统计学课件.pptx》由会员分享,可在线阅读,更多相关《高级医学统计学课件.pptx(62页珍藏版)》请在三一办公上搜索。
1、BootStrap,研究生医学统计学2课程,主要内容,Bootstrap简介参数和非参数Bootstrap不同资料的Bootstrap处理Bootstrap应用实例,统计学的基本过程,我们需要知道的是某些变量的平均和误差执行某些测量若干次误差随着测量次数的增加而减少,中心极限定理,有时候,R2的分布?独立性假设被违背时,回归系数的分布?某些先进方法中的指标分布?随机森林分析中的重要性得分?预测模型的AUC?,“Pulling oneself up by ones bootstraps”,“I found myself stunned,and in a hole nine fathoms und
2、er the grass,when I recovered,hardly knowing how to get out again.Looking down,I observed that I had on a pair of boots with exceptionally sturdy straps.Grasping them firmly,I pulled with all my might.Soon I had hoist myself to the top and stepped out on terra firma without further ado.-Campaigns an
3、d Adventures of Baron Munchausen,1786.吹牛大王历险记,Bootstrap,一种估计抽样误差和计算可信区间的方法。1979 Efron BradleyEfron B(1979).Bootstrap methods:Another look at the jackknife.Ann.Statist.7 12620世纪70年代以来统计学上“唯一的伟大进展”。Kotz and Johnson,1992,Efron Bradley,Bradley Efron博士现任斯坦福大学统计系Max H.Stern讲席教授。Efron教授是公认的当今世界最有影响力的统计学领域的
4、权威。他的主要贡献包括Bootstrap再抽样方法。经验贝叶斯方法,微分几何在统计推断中的应用,生存分析方法,生物芯片数据分析方法等。Efron教授是麦可阿瑟奖获得者,美国国家科学院院士,美国科学与艺术学院院士。他还获得过统计学领域几乎所有的著名奖项,包括著名的Wilks奖章,Parzen奖,Rao奖。2005年,Efron教授获得了美国国家科学奖章(美国自然科学最高奖)以表彰他在统计学领域所作出的杰出贡献。这一奖章在2007年7月27日在白宫举行的一个特别仪式上由时任美国总统乔治 W.布什亲自颁发。,Bootstrap的前身:Jack-knife(刀切法),一种特殊的Bootstrap每个J
5、ackknife样本包括原样本-1个个体,Bootstrap的基本流程,从一个给定的数据中有放回地重复抽样若干次数,得到若干个样本;对于某个样本,计算相应的统计量;得到这个统计量的分布是其真实分布的估计;,Bootstrap:resampling with replacement,D、E、A、C、E、B、A、D、A、,Bootstrap对资料的基本要求,样本必须是总体的代表;照着苹果永远画不出一个桔子出来!,一个最简单的小例子,假设总体是均数为5,标准差为3的正态分布;现有样本包含100个个体;如何求中位数的方差及其95%CI?理论上,手头样本,data 13 4 10 5 5 10 6 1
6、3 4 9 12 6 6 5 3 10 6-1 7 4 2 4 23 2 3 3 0 8 5 2 9 6 4 8 34 8 7 7 7 5 4 4 3 4 1 12 45 9 2 4 4 7 5 6 5 5 9 4 56 10 0 7 5 6 6 3 4 2 2 6 67 6 5 8 11 4-2 8 3 3 8 4 78 1 6 5 5 6 4 7 4 6 8 6 89 4 8 8 7 6 3 9 3 12 10 4 100 2,从中有放回地抽取100个个体,重复20次,resamples1 1 3 12 6 5 3 4 7 2-1-1 7 0 4 5 5 4 7 3 4 7 2 12 8
7、8 10 4 4 0 11 30 7 3 1 4 10 8 4 4 7 10 5 4 6-1 2 4 8 4 12 12 8 0 2 6 8 9 6 6 3 59 4 8 6 4 5 3 5 7 8 7 10 6 6 3 1 6 1 3 10 4 1 2 8 5 4 2 10 4 6 88 2 10 5 9 9 1 4 8 6 4 9 4 5r.median-sapply(resamples,median)5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 5.0 4.0 4.5 5.0 5.0 4.0 5.0 5.0 5.0 5.0 5.0 5.0sqrt(var(r.media
8、n)0.5250313 mean(r.median)4.875,求95%CI,利用近似正态分布的原理利用百分位数区间(4,5),什么时候可以用Bootstrap法?,当统计量的理论分布过于复杂或者难于获得时;样本含量偏小,不足以进行统计推断;当需要进行效能计算时,且手头有个小预实验时;需要一个快速的答案。,Bootstrap的分类,参数Bootstrap假设样本来自的总体分布已知;利用手头样本估计总体参数;按照估计出的总体分布产生样本;根据样本计算统计量的分布非参数Bootstrap将手头样本当成总体,从中抽样;,参数和非参数Bootstrap,出生体重和70-100体重间的关系,非参数Boo
9、tstrap,从所有的个体中有放回地抽取n个,eg.4,5,2,4,9,10,3,3,6,2,1,6,9,8计算感兴趣的统计量重复B次,得到统计量的分布,参数Bootstrap,先拟合回归方程,估计残差方差,2=14.1从N(0,2)中随机抽取n个残差根据第一步中回归方程估计,计算Y的Bootstrap 样本根据Yb和X计算斜率重复得到斜率的Bootstrap分布。,半参数Bootstrap,先拟合回归方程,估计残差对残差进行Bootstrap抽样根据第一步中回归方程估计,计算Y的Bootstrap 样本根据Yb和X计算斜率重复得到斜率的Bootstrap分布。仅当残差为独立同分布时适用。,如
10、何用Bootstrap进行估计,令Yi,i=1,n为样本T(Y)为Y的函数Yb,1,Yb,n为第b个Bootstrap样本,b=1,.,B则Var(T)的Bootstrap估计值为T的95%CI可以根据Boostrap分布的百分位数得到。,Bootstrap的可信区间估计,非学生化枢轴法(non-studentized pivotal method)Bootstrap-t法百分位数法偏倚校正法Bootstrap confidence intervals:when,which,what?A practical guide for medical statisticians.J Carpenter
11、 and J.Bithell.Statistics in Medicine,2000;19:1141-64.,Bootstrap的可信区间估计,Bootstrap t法,优点:简单,一般较可靠缺点:计算较为复杂,耗时,百分位数法,优点:简单缺点:当分布不近似对称时,覆盖率可能较低,偏移校正法,校正因子Z校正因子ArA1及rA2作为百分位数区间的下限和上限。,不同资料的Bootstrap处理,单样本资料两样本资料回归分析Bootstrap假设检验,单样本情形,两样本情形,两组分别Bootstrap合并组成BS样本;,回归与Bootstrap,Y:应变量X:自变量0、1:回归系数:残差,两种Boo
12、tstrap方法,针对数据对的Bootstrap针对残差的Bootstrap,针对残差的Bootstrap,先估计 和:eg.最小二乘法求残差;对残差进行Bootstrap对于某一个残差Bootstrap样本,根据下式求Y的Bootstrap样本。注意X与实际样本完全相同!这是半参数Bootstrap,两种Bootstrap选哪一个,针对残差的Bootstrap:残差和自变量是独立的!自变量最好是指定的固定取值变量!针对对子的Bootstrap:X和Y都是随机变量也取决于我们有多么信任模型是否正确!,回归的Bootstrap,Dose Surv.Prop LogSurvProp 1 1.175
13、 0.44000-0.82098062 1.175 0.55000-0.59783703 2.350 0.16000-1.83258154 2.350 0.13000-2.04022085 4.700 0.04000-3.21887586 4.700 0.01960-3.93222577 4.700 0.06210-2.77900938 7.050 0.00500-5.29831749 7.050 0.00320-5.744604510 9.400 0.00110-6.812445111 9.400 0.00015-8.804875312 9.400 0.00019-8.568486513 1
14、4.100 0.00700-4.961845114 14.100 0.00006-9.7211660,模型,去除离群值,最小中位二乘回归(Least Median Square Regreession,LMS),LMS的估计结果:Dose,1=-0.7515Bootstrap SE of 1:0.2308,LMS的估计结果:Dose2,2=-0.0256Bootstrap SE of 2:0.0335,复杂抽样,复杂抽样时,方差的估计往往较为困难;Bootsrap法的一个吸引人之处便是其可用于复杂抽样时统计量方差的估计;分层抽样;整群抽样;,多少次Bootstrap抽样较为合适?,多少个Boo
15、tstrap样本合适?没有标准答案!10002000?先试100个,再试1000个,看看结果有没有巨大改变,Bootstrap的优缺点,优点简单!Simple!直接!straightforward!缺点过于乐观!有时候忽略了很多假设!,应用实例:相加交互作用的假设检验,传统基于logistic回归的模型相加交互作用,步骤:,在B=0时,估计A的单独效应在A=0时,估计B的单独效应估计A和B一起作用时的效应计算AB-A-BBootstrap求方差!,相乘交互作用结果,Coefficients:Estimate Std.ErrorPr(|z|)(Intercept)-2.4423 0.36863.
16、45e-11*A 1.2340 0.43860.0049*B 1.0561 0.44540.0177*A:B 0.5162 0.54420.3428,Bootstrap法估计结果,Mean of OR:12.33Variance of OR:59.3695%CI of OR:(3.65,32.16),等级资料的等效性检验,了考察克林霉素磷酸酯阴道凝胶对细菌性阴道病的治疗效果;采用阳性对照;细菌学疗效评价如下:试验药与对照药是否等效?,基本思想取两组平均秩和的比值作为检验统计量;等效区间0.801.25;从试验组和对照组分层有放回地抽取一个Bootstrap样本;编秩,求平均秩和的比值R;重复1
17、000次,得到比值R的经验分布;用百分位数法计算R的95%CI,观察其是否被包含在等效区间之内。,Mean of Ratio:1.0095%CI(0.88,1.14)可以认为克林霉素磷酸酯阴道凝胶与阳性药物是等效的。,使用Bootstrap时的其他问题,Bootstrap的效果与模型是否正确的指定有关:数据是否独立?当参数模型可以使用时,Bootstrap一般不会比正确的参数模型效果更好。软件实现:几乎所有主流软件均包含,文献导读Lancet 2013;381:63950,背景和方法,Thank You,作业:在PubMed检索采用Bootstrap法的案例;阅读这些文献并简述作者的实施过程。2016.11.09日前发到,