《统计学秩和检验.ppt》由会员分享,可在线阅读,更多相关《统计学秩和检验.ppt(71页珍藏版)》请在三一办公上搜索。
1、等级资料的秩和检验,陈涛,Department of Epidemiology&Biostatistics,School of Public Health Nanjing Medical University,Rank Sum Test of Ranked Data,Biostatistics,2,资料的分类,数值变量资料 分类资料,二分类 多分类,无序多分类有序多分类(等级资料),Biostatistics,3,内容提要:,1 医学研究中的等级资料2 秩次与秩和 3 两样本比较的秩和检验4 多样本比较的秩和检验5 配对设计的秩和检验6 配伍组比较的秩和检验7 秩和检验的正确应用,Biosta
2、tistics,4,1 医学研究中的等级资料,疗 效:痊愈、显效、有效、无效、恶化化验结果:、+、+体格发育:下等、中下、中等、中上、上等心功能分级:I、II、III、IV文化程度:小学、中学、大学、研究生营养水平:差、一般、好,Biostatistics,5,等级资料的特点,既非呈连续分布的定量资料,也非仅按性质归属于独立的若干类的定性资料;比“定量”粗,而比一般的“定性”细;等级间既非等距,亦不能度量。,Biostatistics,6,2 秩次与秩和,Wilcoxon在1945年首先提出了比较两个总体分布函数的秩和检验。秩和检验以及其它的秩检验法,都是建立在秩及秩统计量基础上的非参数方法。
3、秩次(rank),秩统计量 是指全部观察值按某种顺序排列的位序;秩和(rank sum)同组秩次之和。,Biostatistics,7,例1 编秩(page86),A组:、+、+、+、+B组:+、+、+、+、+、+,A:+B:+,1 2 3 4 5 7 6 8 9 10 11 12,1 2 4.5 4.5 4.5 8.5 4.5 8.5 8.5 8.5 11 12,1 2 4.5 4.5 4.5 7 4.5 8 9 10 11 12,1 2 4.5 4.5 4.5 8.5 4.5 8.5 8.5 8.5 11.5 11.5,尿白细胞:,等级相同(tie)取平均秩次!,Biostatistics
4、,8,秩和,A组:、+、+、+、+秩和:1 2 4.5 4.5 4.5 8.5 TA25 B组:+、+、+、+、+、+秩和:4.5 8.5 8.5 8.5 11.5 11.5 TB53,TA+TB=N(N+1)/2=78,Biostatistics,9,秩次:在一定程度上反映了等级的高低;秩和:在一定程度上反映了等级的分布 位置。对等级的分析,转化为对秩次的分析。秩和检验就是通过秩次的排列求出秩和,进行假设检验。,2 秩次与秩和,10,假如两组等级分布相同,理论上两组秩和相近.,A,两样本合并排序,示例,B,Biostatistics,11,3 两样本比较的秩和检验,检验假设 H0:A、B两组
5、等级分布相同;H1:A、B两组等级分布不同。=0.05。,Distribution of two populations when their locations are same,分布情况,第1 种情形第2种情形,A,B,B,A,13,Biostatistics,14,基本思想,如果H0 成立,即两组分布位置相同,则A组的实际秩和应接近理论秩和n1(N+1)/2;(B组的实际秩和应接近理论秩和n2(N+1)/2).或相差不大,差值很大的概率应很小。如果相差较大,超出了预定的界值,则可认为H0不成立。,Biostatistics,15,A组 B组 和 实际秩和 25 53 78 理论秩和 n1
6、(N+1)/2 n2(N+1)/2 N(N+1)/2 39 39 78差值 14 14 0 抽样误差?如果H0成立,则理论秩和与实际秩和之差纯粹由抽样误差造成。,基本思想,Biostatistics,16,两样本秩和检验 T 界值,n1=6,n2-n1=0 双侧 单侧 2850 0.10 0.05 26 52 0.05 0.025 24 54 0.02 0.01 23 55 0.01 0.005,间距 22 26 30 32,6(12+1)/2=39(理论值),Biostatistics,17,检验结果,如果H0成立,则按0.05水准,A组秩和之界值为2652。现A组的实际秩和为25,在界值之
7、外,故拒绝H0,接受H1,认为两组的分布位置不同。,Biostatistics,18,秩和检验的结论判断,A组的实际秩在界值之外,(小于或等于下界,大于或等于上界)则拒绝H0,接受H1。A组的实际秩在界值之内,(大于下界且小于上界)则不拒绝H0。,Biostatistics,19,例题,【例】某实验室观察在缺氧条件下猫和兔的生存时间,结果见表,试检验在缺氧条件下猫和兔的生存时间有无差别?,Biostatistics,20,例题,Biostatistics,21,检验假设 H0:猫和兔在缺氧条件下生存时间总体分布相同;H1:猫和兔在缺氧条件下生存时间总体分布不同。=0.05。检验统计量T值 n1
8、=8,n2=12,检验统计量T=127.5 确定P值和作出推断结论 查附表10得T界值是58110。则双侧P0.05,按=0.05水准,拒绝H0,接受H1,差异有统计学意义,故可认为在缺氧条件下猫的生存时间较兔长。,例题,Biostatistics,22,例8.2 用复方猪胆胶囊治疗老年性慢性支气管炎患者403例,疗效见表8.1第(1)(3)栏。问该药对此两型支气管炎疗效是否相同?,例题(page87),Biostatistics,23,例题(page87),Biostatistics,24,例题(page87),Biostatistics,25,建立检验假设 H0:两型老慢支疗效分布相同;H
9、1:两型老慢支疗效分布不同;=0.05。检验统计量 n1=182,n2=221,检验统计量T=40682.5。,例题(page88),Biostatistics,26,样本含量较大时,用 u 检验,相同秩次较多时需要校正,Biostatistics,28,确定P值和作出推断结论 P0.01,按=0.05水准,拒绝H0,接受H1,差异有统计学意义。可认为复方猪胆胶囊治疗老年性慢性支气管炎喘息型与单纯型的疗效有差别。,例题(page88),Biostatistics,29,4 多组比较的秩和检验,Kruskal-Wallis法先对所有数据编秩,求各组秩和;计算 H 统计量;查 H 界值表,或用近似
10、 2 检验,计算 P 值;界定 P 值,作出结论。注:相同观察值不同组时取平均;相同组时,按位置顺序编号,Biostatistics,30,【例】某医生在研究再生障碍性贫血时,测得不同程度再生障碍性贫血患者血清中可溶性CD8抗原水平(U/ml),问不同程度再生障碍性贫血患者血清中可溶性CD8抗原水平有无差别?,例题,Biostatistics,31,例题(假设不满足参数检验的要求),Biostatistics,32,例题,Biostatistics,33,多组等级比较的检验假设,建立检验假设 H0:各组总体的等级分布相同;H1:各组总体的等级分布不同或不全相同。=0.05。,计算检验统计量H值
11、,Biostatistics,34,多组等级比较的检验假设,若组数k=3,每组例数ni9,可查附表11,H界值表得出P值。若组数k3,有ni10,则H近似服从=k1的2分布。,Biostatistics,35,确定P值和作出推断结论 本例k=3,查附表12,得P0.001。按=0.05水准拒绝H0,接受H1,差异有统计学意义,可认为不同程度再生障碍性贫血患者血清中可溶性CD8抗原水平有差别。,多组等级比较的检验假设,Biostatistics,36,H 的校正,当有相同秩次时,H 需校正:,Biostatistics,37,例8.3 某医院用三种复方小叶枇杷治疗老年性慢性支气管炎,数据见表8.
12、2第(1)(4)栏,试比较其疗效有无差异。,例题(page89),Biostatistics,38,例题(page89),Biostatistics,39,建立检验假设 H0:三药疗效总体分布相同;H1:三药疗效总体分布不同或不全相同;=0.05。,例题(page89),Biostatistics,40,计算检验统计量H值,例题(page89),Biostatistics,41,由于此资料的相同秩次很多,须校正:,例题,Biostatistics,42,确定P值和作出推断结论 故按=k1=31=2查2界值表,得20.005,2=10.60,Hc20.005,2,P0.005。按=0.05水准拒
13、绝H0,接受H1,差异有统计学意义。认为三药疗效有差别。,例题,Biostatistics,43,多组间的两两比较,如果多组等级比较拒绝H0,认为组间存在差异,则需进行两两比较。两两比较的方法很多。,Biostatistics,44,5 配对符号秩和检验(page91),Wilcoxon符号秩和检验计算等级之差值,对差值进行编秩,并冠以差值的符号。查 T 界值表,或用近似 u 检验,计算 P 值;界定 P 值,作出结论。注:1,差数等于0,舍掉 2,差值的绝对值排序,并冠以差值的符号 3,差值的绝对值相等,取平均秩次,Biostatistics,45,符号秩和检验的假设,H0:差值的总体中位数
14、为0;H1:差值的总体中位数不为0。=0.05。当n50时,查界值表当n50时,用u近似,Biostatistics,46,扁平足疗效例(page91),用配对设计观察两种方法治疗扁平足效果记录如下,问那种方法好。(好=3 中=1 差=0)病例号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 A法 好 好 好 好 差 中 好 好 中 差 好 差 好 中 好 中 B法 差 好 差 中 中 差 中 差 中 差 好 差 中 差 中 差,差值 2 0 2 1-1 1 1 2 0 0 0 0 1 1 1 1,Biostatistics,47,符号秩和检验,病例号 A法 B
15、法 差值 秩次(1)(2)(3)(4)(5)131210233033121043214.5512-1-4.562114.573214.58312109220101101133012110133214.5142114.5153214.5162114.5,T+=61.5 T-=4.5,Biostatistics,48,符号秩和检验的基本思想,总秩和为TN(N+1)/2如H0成立,则正负各半,T+与 T 均接近 N(N+1)/4。如果相差太大,超出了事先规定的界值,则H0不成立。,Biostatistics,49,符号秩和检验 T 界值表,N=11 双侧 单侧 1353 0.10 0.05 10 5
16、6 0.05 0.025 7 59 0.02 0.01 5 61 0.01 0.005,间距 40 46 52 56,11(11+1)/4=33(理论值),Biostatistics,50,本例T=61.5,T=4.5,已超出附表10中双侧P0.01相对应的界值561,故得P 0.01。按=0.05水准拒绝H0,接受H1,认为两种方法疗效的总体分布不同。结合资料可认为A法优于B法。,扁平足疗效例,Biostatistics,51,u 的校正,当重复的秩次较多时,u 需要校正:,Biostatistics,52,【例】某医院检验科试用新旧两种方法检测谷-草转氨酶,新方法的检测时间由20分钟缩短为
17、10分钟。用两种方法测一份血清,结果见表第(2)、(3)栏,问两法所得结果有无差别?,例题(假设不满足参数检验的要求),Biostatistics,53,例题,Biostatistics,54,建立检验假设H0:差值总体中位数Md=0;H1:差值总体中位数Md 0;=0.05。求检验统计量T值T+=18.5,T-=36.5,其和为55,n(n+1)/2=10(10+1)/2=55。,例题,Biostatistics,55,符号秩和检验 T 界值表,N=10 双侧 单侧 1045 0.10 0.05 8 47 0.05 0.025 5 50 0.02 0.01 3 52 0.01 0.005,间
18、距 40 46 52 56,10(10+1)/4=27.5(理论值),Biostatistics,56,确定P值和作出推断结论 本例n=10,T=18.5,查附表10,得=0.05时的T界值为847,T在双侧界值范围内,故P 0.05。按双侧0.05水准,不拒绝H0,差异无统计学意义,故尚不能认为两法测定血清中谷-丙转氨酶含量有差别。查表时,若T在T上、下界值范围外,则P。,例题,Biostatistics,57,6 配伍组比较的秩和检验(page93),Friedman法分别对每一配伍组中的观察值进行编秩;按处理组求各组秩和计算Friedman M 统计量;查M界值表,或用近似 2 检验,计
19、算 P 值;界定 P 值,作出结论。,Biostatistics,58,葡萄酒的等级例:,白 兰 地评委WXYZA四二一三B四一二三C三一二四D四二三一E三一二四Ri,(4)(2)(1)(3)(4)(1)(2)(3)(3)(1)(2)(4)(4)(2)(3)(1)(3)(1)(2)(4)1871015,Biostatistics,59,葡萄酒等级资料的分析,H0:对四种葡萄酒评判结果的总体分布相同;H1:评判结果的总体分布不同或不全相同。=0.05。式中b为配伍组数,k为处理组数。本例b=5,k=4。,Biostatistics,60,检验结果,本例b=5,k=4,查M界值表得:M0.05=7
20、.80,M0.01=9.96。M0.05MM0.01,0.01P0.05。按=0.05水准拒绝H0,接受H1,差异有统计学意义,即可认为四种酒的等级有差别。,Biostatistics,61,7 秩和检验的正确应用,主要对等级资料进行分析;秩和检验可用于任意分布(distribution free)的资料;非参数统计的主要优点是不受总体分布的限制,适用范围广。非参数统计的主要缺点是符合参数检验的资料(如两样本均数比较的t检验),如用非参数检验,因没有充分利用资料提供的信息,检验效率降低。,已知总体分布类型,对未知参数进行统计推断,依赖于特定分布类型,比较的是参数,参数检验(parametric
21、 test),非参数检验(nonparametric test),对总体的分布类型不作严格要求,不受分布类型的影响,比较的是总体分布位置,优点:方法简便、易学易用,易于推广使用、应用范围广;可用于参数检验难以处理的资料(如等级资料,或含数值“50mg”等),缺点:方法比较粗糙,对于符合参数检验条件者,采用非参数检验会损失部分信息,其检验效能较低;样本含量较大时,两者结论常相同。,Biostatistics,63,秩和检验用于定量资料,计量资料中:极度偏态资料,或个别数值偏离过大 各组离散度相差悬殊 资料中含有不确定值 大于5年 0.001 1:1024以上 兼有等级和定量性质的资料,Biost
22、atistics,64,心肌坏死面积例,用二种食物配方饲养大白鼠,观察心肌坏死面积。分析二组间的差异。A组:(n=29,mean 3.61)0,0,0,0,0,0,0,0,0,0,0.2,0.3,0.4,0.4,0.6,1,1.6,2.2,2.6,3.3,4.3,5.1,5.4,5.5,6.1,6.2,9.7,13.8,36B组:(n=28,mean1.06)0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.2,0.2,0.2 0.3,0.4,0.4,0.9,0.9,1.3,1.7,2.8,7.4,13,Biostatistics,65,特点:,0特别多,无论用什么变换均不可能改
23、变分布的偏性;0与其它数的区别是质的区别。,Biostatistics,66,分析一:二组心肌坏死率比较,按四格表作2检验:,无心肌坏死 有心肌坏死 合计 心肌坏死率 甲组 10 19 29 65.5%乙组 15 13 28 46.4%2=2.1081,P=0.147,Biostatistics,67,分析二:二组平均心肌坏死面积的比较,二组平均心肌坏死面积的 t 检验:t=1.7755,P=0.0814,Biostatistics,68,分析三:按等级资料处理:,两组秩和检验:n 秩和 理论秩和 A组29 968 841B组28 685 812合计57 1653 1653u=2.119,P=0.0341。,Biostatistics,69,成组设计两样本比较,如资料满足 t 检验的条件,应该用 t 检验进行分析。此时,如果对这类资料用Wilcoxon秩和检验,实际上是将观察单位的具体数值舍弃不用,只保留了秩次的信息,使检验功效降低;尤其样本含量较小时,降低更加明显。如资料不满足 t 检验的条件,而用了t 检验,同样降低了检验效能。,Biostatistics,70,秩变换检验,基本思想:将等级转换为秩次;对秩次作效应的参数检验(t检验,方差分析,相关等)。在样本含量较大时,秩变换检验与秩和检验结果相同或相近。,Biostatistics,71,many thanks,