《第九章-基于秩次的非参数检验-课件.ppt》由会员分享,可在线阅读,更多相关《第九章-基于秩次的非参数检验-课件.ppt(79页珍藏版)》请在三一办公上搜索。
1、第九章 基于秩次的非参数检验,Statistical Inference,Point estimation,Parameter Estimation,Hypothesis Test,Parameter Estimation,Interval estimation,ReviewStatistical Inference,Nonparametric Test,Parametric Test,t-Test,Z-Test,Anova,Hypothesis Test,Nonparametric Test,2,Gehe,Parametric Test,2检验,校正2检验,确切概率法,四格表资料的假设检验,
2、n40,且T5,n40,且1T5,n 40,或T1,应用条件:,或,R.A.Fisher(1934),前面学习了连续型资料假设检验方法(t检验、方差分析):配对t检验、单样本t检验、两独立样本t检验、方差分析如果各样本所来自总体的分布不清、已知不服从正态分布或经变量转换后仍不服从正态分布时,如何进行检验呢?需要一种不依赖于总体分布类型的检验方法,非参数检验方法-Nonparametric test。,问题的提出:,掌握参数统计、非参数统计的概念;掌握非参数统计法的优缺点、适用范围;掌握各秩和检验的编秩原则与判断方法。了解秩和检验方法与参数检验方法的检验效能的差别。,学习目标,主要内容,第一节
3、参数检验与非参数检验 第二节 单样本及配对设计资料的符号秩和检验第三节 两独立样本比较的秩和检验第四节 完全随机设计多组比较的秩和检验第五节 多组相关样本资料比较的秩和检验,第一节、参数检验与非参数检验 1、参数统计(parametric test)对于总体分布类型已知的资料,用相应于参数的统计量来估计参数所在范围或推断参数有无差别的统计方法。如t检验,F检验,Z检验等 2、非参数检验(nonparametric test)对总体分布类型不作要求,而对总体的分布或分布位置进行检验。亦称任意分布检验(Distribution-free test)。,参数统计(parametric statist
4、ics),非参数统计(nonparametric statistics),非参数统计方法的优缺点,非参数检验的缺点,其检验效能较低仅是参数统计的95%。利用资料信息不充分。对于符合参数统计分析条件者,采用非参数统计分析。,10、15、20 秩和=6 20、50、80 秩和=6,非参数统计方法具体适用范围 1、计量非正态资料 2、极度偏态、分布类型不易确定的资料;3、等级分组资料;4、初筛的资料;符合参数统计条件的首先应用参数统计方法不符合参数统计条件的,经变量变化后符合参数统计条件了,应用参数统计方法 若不符合参数统计条件的,应用非参数统计方法.,第二节 单样本和配对设计资料的符号秩和检验(W
5、ilcoxon signed rank test)适用资料1、单样本资料 2、配对的计量非正态资料,一、单样本资料的符号秩和检验Wilcoxon signed rank test,Frank Wilcoxon(1892-1965),表1 某厂16名工人与当地正常人的尿铅含量比较,例1 已知某地正常人尿铅含量中位数为2.5mol/L,资料分析:对上表中的这些差值进行正态性检验,P0.05,因此不满足t检验关于样本来自正态分布的条件。该资料应该用非参数统计方法,在此选用 Wilcoxon 符号秩和检验。秩次是将数值变量值从小到大,或等级变量值从弱到强所排列的序号,基本思想,求d,1检验假设,确定检
6、验水准H0:差值的总体中位数等于零,即该工厂工人的尿铅含量与正常人相同H1:差值的总体中位数大于零,即该工厂工人的尿铅含量高于正常人=0.05,检验过程:,2、计算统计量(1)求差值di=xi-2.5(2)编秩:按差值的绝对值由小到大编秩,并按差值的正负给秩次加上正负号(a)编秩时,若差值为0,舍去不计,n-1;(b)若差值的绝对值相等,称为相持(tie),这时取平均秩次;(c)求秩和并确定统计量T 分别求出正、负差值秩次之和,T+和T-.双侧时,以绝对值较小者为T值,即T=min(T+,T-);单侧检验时,任取T+或T-为统计量T,TL,TU,3、确定P值和作出推断结论。(1)查表法,T界值
7、表附表9(查P423),判断标准:“内大外等小”。内大:即若T在上下界值范围内,则P值大于相应的概率;外等小:若T在上下界值范围外(或等于界值),则P值小于(或等于)相应的概率.,本例中,T0.05(16)=35-101,本例T=28 在T0.05范围外,P50时)这时可利用秩和分布的正态近似法作出判断。已知H0成立时,近似地有,当相同差值较多(25%)时,应进行校正,式中tj为第j次相持所含相同秩次的个数。,正态近似法:n50时采用,假定有2个差值为1.5,3个差值为6,5个差值为3,则有,二、配对设计资料符号秩和检验(Wilcoxon配对法),一、适用资料自身对照、异体配对的计量非正态资料
8、例2 某医院检验科试用新旧两种方法检测谷-丙转氨酶,新方法的检测时间由20分钟缩短为10分钟。用两种方法检测同一份血清,结果见表1第(2)、(3)栏,问两法测得结果有无差别?,表2 两种方法测定血清谷-丙转氨酶(nmol/s/L),二、检验步骤 1、建立假设 H0:差值总体中位数Md 0 H1:差值总体中位数Md 0 0.05,2、计算统计量T:(1)求差值(2)编秩 编秩原则 依差值绝对值大小,从小到大依次编秩,并冠以“+”或“-”号;若差值相等,符号不同,求平均秩,再冠以+、-号;若差值为零,去掉,对子数相应减少。(3)正负秩次分别求和,以T+和T-表示(4)双侧时,以绝对值较小者为T值,
9、即T=min(T+,T-);单侧检验时,任取T+或T-为统计量。,3、确定P值,做出结论(1)查表法:5n50时,查T界值表(p423)T0.05(10)=8-47,本例T=11,在T0.05范围内,所以P0.05,按所定检验水准,不拒绝H0,故尚不能认为两种方法测定血清中谷-丙转氨酶含量有差别。(2)正态近似法:n50时,第三节 完全随机设计两样本的秩和检验(Wilcoxon两样本比较法)适用资料:两定量非正态资料或两组有序分类(等级)资料。,一、定量变量两组独立样本的秩和检验,基本思想,任一组秩和不应太大或太小,假定H0成立,与平均理论秩和 N(N+1)/4 应相差不大,混合编秩,分别计算
10、两组的秩和,Wilcoxon秩和检验的基本思想总结,假设两总体分布相同,两样本可认为是从同一总体中抽取的随机样本,将两样本混合后由小到大编秩,分别计算两组的秩和,两组的秩和应大小相等,若两组的秩和相差很大,我们就认为无效假设不成立。,例3:两种药物杀灭钉螺,每批用200-300只活钉螺,用药后清点钉螺的死亡数,并计算死亡率(%),结果先表3,试比较两种药物杀灭钉螺的效果有无差别?,表3 两种药物杀灭钉螺死亡率比较,秩和检验的基本思想,1,4,10,2,3,11,13,12,14,15,5,6,7,8,9,16,二、检验步骤1、建立假设 H0:两种药物杀灭钉螺死亡率的总体中位数相等 M1=M2
11、H1:两种药物杀灭钉螺死亡率的总体中位数不相等 M1M2 0.05,2、计算统计量 编秩原则(1)两组数据混合按升序编秩(2)如有相同数据在不同组时,求平均秩次。(3)两组数据分别求秩和(4)统计量的确定:n1n2,以n小者的秩和为统计量T n1n2,则以任一组秩和为统计量T T1=71.5,T2=33.5,3、确定P值,做出结论(1)查表法:n110,n2-n110时,相同秩次较多时,计算出的Z值偏小,应进行校正,本例n1=10,n2-n1=0 查T表附表10,双侧P=0.05时,T界值范围是3669,T0.01界值范围是32-73,而今统计量T=33.5,在T0.01界值范围外,故P0.0
12、1。按=0.05,拒绝H0,接受H1,可认为两种药物杀灭钉螺死亡率的总体死亡率不相等,二、两独立样本比较的Mann-Whitey U检验,两独立样本比较还常用Mann-Whitney U 检验(Mann-Whitney U test)。检验统计量U定义为:两个样本分别排序后,把第一个样本的n1(n1 n2)个变量中的每个值,与第二个样本的n2个变量值逐个比较,小于记1,相等记0.5,大于记0,求其和。当n1和n2小时,如n1+n2 30,有专门的U界值表;,当n1和n2大时,用正态近似法作检验。,三、有序变量两组独立样本的秩和检验两组等级资料的比较,例4,用某药治疗不同病情(单纯型和合并症型)
13、的老年慢性支气管炎病人,疗效见表4第(2)、(3)栏,问该药对两种病情的疗效有无差别?,表4 某药对支气管炎两种病情疗效的秩和检验,分析:以上数据为等级资料 检验步骤、假设、定统计量方法、与两组资料的比较基本相同,只是编秩方法略有差别:(1)两组资料按等级求合计,定秩次范围(2)各等级求平均秩次与小组秩和(3)两组资料分别求秩和(4)判断方法同两组资料的比较方法。,检验步骤 1、建立假设 H0:两种病情病人的疗效总体分布位置相同 H1:两种病情病人的疗效总体分布位置不同 0.05 2、计算统计量 各组段的平均秩次分别与相应组段的例数相乘,得秩和。T1=8780.5 T2=12955.5,本例n
14、1=82,10,用正态近似法:因本例相同秩次很多(超过25%),须按下式校正:C为校正数,tj为第j个相同秩次的个数。,3、确定P值,做出结论:查附表1,Z界值表(或查t界值表自由度为),Z0.05/2=1.96,故P0.05。按0.05的检验水准,不拒绝H0,两种病情病人的疗效差异无统计学意义,尚不能认为该药对两种病情的疗效有差别。,第四节 多组独立样本比较的秩和检验(Kruskal-Wallis法),William Kruskal(1919-2005),W.Allen Wallis(1912-1998),不满足方差分析条件的完全随机设计多组资料比较,采用Kruskal-Wallis(Kru
15、skal-Wallis-H)秩和检验,相当于方差分析的非参数分析方法。此法的基本思想:如果各组处理效应相同,混合编秩号后,各组的秩和应近似相等。,适用资料,多组连续变量非正态分布资料 多组有序(等级分组)资料。各组资料例数可以相等,也可以不等。,一、多组独立样本比较的Kruskal-Wallis H检验,例5,某医院用三种不同方法治疗15例肝癌患者,每种方法各治疗5例。治疗后生存月数见表5第(1)、(3)、(5)栏,问这三种方法对肝癌患者的疗效有无差别?,表5 三种方法治疗肝癌患者的生存月数比较,检验步骤1、建立假设 H0:三种方法疗效的总体分布位置相同 H1:三种方法疗效的总体分布位置不全相
16、同 0.052、计算统计量(1)编秩 各组资料混合按升序编秩 相同数据在不同组时,求平均秩次(2)各组分别求秩和,(3)计算统计量 本例,对H的校正:当各样本相同秩次较多时(如超过25%),按上式计算的H值偏小,应对其进行校正。Hc=H/C,tj为相同秩次的个数,3、确定P值,作出推断结论(1)若组数k=3,且每组例数ni5时,查H界值表,判断:H越大,P越小。(2)若K3,各ni5,查附表8,P482 2界值表。此时,H近似服从=k-1的2分布,判断:H越大,P越小。本例中,各组例数均=5,H近似服从H分布,查得H界值为5.78,得P0.05。按 0.05水准拒绝H0,接受H1,可认为三种方
17、法疗效的生存月数有差别。,例6 某研究者欲研究A、B两种菌对小鼠巨噬细胞吞噬功能的激活作用,将59只小鼠随机分为三组,其中一组为生理盐水对照组,用常规巨噬细胞吞噬功能的监测方法,获得三组的吞噬率(%),结果见表6,试比较不同实验条件下小鼠巨噬细胞的吞噬率有无差别?,二、检验步骤1、建立假设 H0:三组吞噬细胞总体分布相同 H1:三组吞噬细胞总体分布不全相同 0.052、计算统计量(1)编秩 各组资料混合按升序编秩 相同数据在不同组时,求平均秩次(2)各组分别求秩和,(3)计算统计量 本例,对H的校正:当各样本相同秩次较多时(如超过25%),按上式计算的H值偏小,应对其进行校正。Hc=H/C t
18、j为相同秩次的个数,3、确定P值,作出推断结论(1)若组数k=3,且每组例数ni5时,查H界值表,判断H越大,P越小。(2)若K3,各ni5,查2界值表 此时,H近似服从=k-1的2分布,判断H越大,P越小。本例中,各组例数均5,H近似服从2分布,=k-1=3-1=2,查2界值表,得P0.005。按0.05水准拒绝H0,接受H1,三组菌种对小鼠巨噬细胞的吞噬率差别有统计意义,可以认为不同菌种对小鼠巨噬细胞的吞噬率的作用不同。,Thank you!,二、有序变量多组独立样本的秩和检验多组等级资料的比较,方法:,(1)按不同等级分组,定秩次范围(2)各等级求平均秩次与小组秩和(3)多组资料分别求秩
19、和(4)判断方法同多组资料的比较方法,五种病人阴道涂片按巴氏细胞学分级的检查结果,见表7第(1)(6)栏,问五种病人的细胞学分级有无程度上的差别?,表7 五种病人阴道涂片的细胞学分级比较,1建立假设,确定检验水准 H0:五种病人细胞学分级的总体分布位置相同 H1:五个总体的位置不同或不全相同=0.05,2计算检验统计量H值(1)编秩:在编秩时,先按组段计算各等级的合计人数,由此确定各组段秩次范围,然后计算出各组段的平均秩次。相同等级的个体属于相持(2)求秩和:以各组段的平均秩次分别与各等级例数相乘,再求和得到。,(3)计算检验统计量H值 每个等级的人数表示相持的个数,相持过多,需计算Hc值,3
20、确定P值,做出推断结论 k=3,各组n5,由v=3-2=1查2界值P0.005,拒绝H0,认为3种方法疗法治疗慢性咽炎的效果有差别,三、多个样本间的多重比较(Nemenyi法),当P时,拒绝H0,接受H1,认为各总体分布不同或不全相同,需要做两两比较,以推断哪两个总体分布不同完全随机设计多个样本间的多重比较方法 以上例资料为例比较步骤如下:1、建立假设,确定检验水准 H0:任两个总体分布相同 H1:任两个总体的分布不同 0.05 2、求统计量t,其中 分别为两对比组的平均秩次,ni,nj为对比组的样本含量,k为处理组数,N为各组样本量之和,分母为 的标准误(1)求各组的平均秩和 甲组 乙组 丙组,(2)列出两两比较表 表 三组样本秩和的两两比较,3、确定p值,做出推断 以v=总例数-处理组数,查t界值表,做出推断 本例v=478-3=475查t界值表,得p如上表 甲组与乙组疗效有差别,乙组与丙组疗效无差别,小 结,1.非参数检验在假设检验中不对参数作明确的推断,也不涉及样本取自何种分布的总体。它的适用范围较广。常用的非参方法较为简便。易于理解掌握。当资料适用参数检验方法时,用非参常会损失部分信息,降低检验效能。2.秩和检验是通过对数据依小到大排列秩次,求秩和来进行假设检验的方法,可用于两独立样本比较、配对资料比较、多个独立样本比较、随机配伍组比较等。,Thank you!,