《分类变量资料的假设检验.ppt》由会员分享,可在线阅读,更多相关《分类变量资料的假设检验.ppt(82页珍藏版)》请在三一办公上搜索。
1、分类变量资料的假设检验,一、u检验(一)样本率与总体率比较(二)两样本率比较,二、2检验(一)四格表资料的2检验(二)行列(RC)表资料的2检验(三)配对计数资料的2检验(四)行列表的2分割(五)四格表的确切概率法,一、u检验,(一)样本率与总体率比较 样本率与总体率的假设检验的目的是推断样本率所代表的未知总体率与已知总体率0(一般指理论值、标准值或经大量观察得到的稳定值)是否相等,其u检验公式为:式中,p为样本率,0为已知总体率,为根据总体率求得的率的标准误。,例5-6 由临床经验得知,一般溃疡病患者的胃出血率为20%,现某医师观察65岁以上溃疡病人250例,其中80例发生胃出血症状,问老年
2、患者胃出血率与一般患者是否不同?,H0:=0,即老年患者胃出血率与一 般患者相同;H1:0,即老年患者胃出血率与一般患者不同;=0.05,本例 0=20%,n=250,x=80将数据代入上式:,用绝对值查u界值表(t界值表中v=栏):4.743 3.29=u0.001/2 P 0.001 按=0.05,拒绝H0,接受H1,可认为老年患者胃出血率与一般患者不同,老年溃疡病患者更容易出现胃出血。,(二)两样本率比较 两样本率比较的假设检验的目的是推断两样本所来自的两总体的总体率是否相等。,其u检验公式为:,例5-7 为比较工人和农民的高血压患病率,分别调查了5059岁男性工人和5059岁男性农民1
3、281人和387人,其高血压患者分别为386人(患病率30.13%)和65人(患病率16.80%)。问工人与农民的高血压患病率有无不同?,H0:1=2,即工人和农民高血压患病 率相 同;H1:12,即工人和农民高血压患病 率不同;=0.05,本例 p1=30.13%,x1=386,n1=1281;p2=16.80%,x2=65,n2=387;,将有关数据代入u检验公式查u界值表(双侧,t界值表中=栏):5.174 3.29=u0.001/2 P 0.001 按=0.05,拒绝H0,接受H1,可认为5059岁男性工人和 5059岁男性农民高血压患病率不同,工人患病率高于农民。,二、2检验,2检验
4、的基本公式为:式中A为实际频数(actual frequency),T为理论频数(theoretical frequency).,(一)四格表资料的2检验 例5-8 为观察药物A、B治疗某病的疗效,某医师将100例该病病人随机分为两组,一组40人,服用A药;另一组60人,服用B药。结果发现:服用A药40人中有30人治愈;服用B药的60人中有11人治愈。问A、B两药的疗效有无差别?,2检验的基本步骤如下:H0:1=2,即A、B两药疗效相同;H1:12,即A、B两药疗效不同;=0.05,计算理论频数:理论频数指的是在无效假设成立的前提下,理论上在实际频数位置上的频数。本例如无效假设成立,两药疗效相
5、同,则其合计的治愈率为41%。据此,A药组理论治愈人数=4041%=16.4,B药组理论治愈人数=6041%=24.6;同理,合计未愈率为59%,依此算得A药组和B药组未愈人数分别为23.6和35.4。各理论频数计算见上表中括号内的数字。理论频数的计算过程可用下式表示:,上式中,R(row)表示行,C(column)表示列;表示第R行第C列的理论数;nR和nC分别代表第R行和第C列的合计数;N为总合计数。,例如:第一行第一列的理论数 T12、T21、T22也可仿此算出。,将表5-2中的理论数和实际数代入2检验公式:2检验自由度的计算公式为:v=(行数-1)(列数-1)=(R-1)(C-1)本例
6、:(2-1)(2-1)=1,查附表4,2界值表:31.867.88 22 0.005,1 P0.005 P0.005,按=0.05,拒绝H0,接受H1,可认为两药疗效不同,A药疗效优于B药。,对于四格表资料,可用四格表专用公式简化计算,省去求理论频数的过程.式中,a、b、c、d为四格表的四个实际频数据,N为总合计数,N=a+b+c+d。对四格表资料与2检验公式完全等价。仍以上表资料为例:,将上表数据代入上式 计算结果与2检验公式计算结果相同,四格表2检验的条件:1最小的T5,N40,用普通2检验;2有1T5,N40,用校正的2检验;3有T1或N40,用确切概率法。,校正2检验的计算公式:,例5
7、-9 某医师比较甲、乙两药疗效,甲药治疗患者31例,有效23例;乙药治疗同一种病患者48例,有效46例。试问两药疗效是否相同?,H0:1=2,即甲、乙两药疗效相同;H1:12,即甲、乙两药疗效不同;=0.05,由于,故四格表中有一格140,所以2值需校正。将上表数据代入校正检验公式v=(R-1)(C-1)=(2-1)(2-1)=1,查附表4,2界值表:5.02 P 0.01 按=0.05,拒绝H0,接受H1,可认为甲、乙两药疗效不同,乙药疗效优于甲药。,(二)行列(RC)表资料的2检验,检验统计量计算公式,本例为三个率的比较,32=6,为六格表,属于行列表,可用行列表2检验。H0:1=2=3,
8、即三种方案有效率相同;H1:三种方案的有效率不同或不全同;=0.05。,将上表数据代入行列表卡方检验公式 v=(R-1)(C-1)=(3-1)(2-1)=2,查附表态,2界值表:22.80 10.60 2 20.005,2 P 0.005 P0.005,按=0.05,拒绝H0,接受H1,可认为三种方案治疗病毒性肝炎有效率不同或不全同。,本例并非多个率的比较,而是两组资料构成比的比较,24=8,为八格表,属于行列表,可用行列表2检验。H0:两民族居民ABO血型构成相同;H1:两民族居民ABO血型构成不同;=0.05,将上表数据代入行列表卡方检验公式 v=(R-1)(C-1)=(2-1)(4-1)
9、=3,查2界值表:26.15 12.84 2 20.005,3 P 0.005 P0.005,按=0.05,拒绝H0,接受H1,可认为两民族居民ABO血型构成不同,维吾尔族A、B型血者相对多些,回族O型者相对多些。,上表为同时按照两个属性进行交叉分类所形成的双向有序表(A属性分为有序的R类,B属性分为有序的C类),称之为RC列联表(contingency table)。因其仍属于RC表,故2值的计算与普通RC表2值计算无异。H0:年龄与冠状动脉粥样硬化程度间 相互独立(即两者间无关联);H1:年龄与冠状动脉粥样硬化程度间 有关联;=0.05,将上表数据代入行列表卡方检验公式v=(R-1)(C-
10、1)=(4-1)(4-1)=9,查2界值表:71.43 23.59 2 20.005,9 P 0.005 P0.005,按=0.05,拒绝H0,接受H1,可认为年龄与冠状动脉粥样硬化程度间有关联。,若需进一步定量表达两变量间关联程度的大小,可选用列联系数rp,其计算公式如下:,式中,2为统计量,n为样本含量。rp的取值在01之间,0表示完全独立,1表示完全关联。本例列联系数为:表明年龄与冠状动脉粥样硬化之间存在一定的关联性。,行列表2检验注意事项:,12检验要求理论频数不宜太小,否则将导致分析的偏性。RC表资料不宜有1/5以上格子的理论频数小于,或有一个格子的理论频数小于1。对理论频数太小的资
11、料,有几种处理方法:,(1)增大样本含量;(2)删去理论频数太小的行与列;(3)将太小的理论频数所在的行或列的实际频数与性质相近的邻行邻列的实际频数进行合并。三种方法中,后两法可能会损失部分信息,也会损害样本的随机性。不同的合并方式有可能影响推断结论,故不宜作为常规方法使用。,2多个样本率(或构成比)比较的2检验,结论为拒绝检验假设,只能认为至少两个相差大的样本率(或构成比)所代表的总体率(或构成比)之间有差别,还不能说明它们彼此之间都有差别。进一步的分析可作2分割。,(三)配对计数资料的2检验,1两种培养基培养结果之间有无联系?,此时可将表5-8看成双向有序列联表,做关联性分析。因此表只有四
12、个格子,故用普通四格表2检验来分析。H0:两种培养基培养结果相互独立(无 联系);H1:两种培养基培养结果有关联(有联系);=0.05,将上表数据代入四格表卡方检验公式 V=(R-1)(C-1)=(2-1)(2-1)=1,查2界值表:3.84 P 0.025 P0.05,按=0.05,拒绝H0,接受H1,可认为甲、乙两种培养基培养结果有关联(联系)。,本例还可用(phi)系数进一步定量表达两变量关联程度的大小,系数的计算公式如下:式中,2为2统计量,n为样本含量。的取值在-1与+1之间,其绝对值越大,关联程度越高;而符号则表示相互关联的方向,符号的正负与ad-bc的符号一致。,本例:由于121
13、5162,故取正值,因此两种培养基培养结果之间存在正关联性,即甲培养基培养结果阳性(或阴性),乙培养基培养结果也趋向于阳性(或阴性)。,2两种培养基培养结果之间有无差别?,检验统计量计算公式为:分子中的1为连续性校正数,若b+c40是时,可省略。,H0:B=C,即两种培养基培养结果 阴性数相同;H1:BC,即两种培养基培养结 果阴性数不同;=0.05,将上表数据代入上式,查2界值表:9.39 7.88 2 20。005,1 P 0.005 P0.005,按=0.05,拒绝H0,接受H1,两培养基结果之间有差别,乙培养基阳性数高于甲培养基。,(四)行列表的2分割,例5-14 对例5-10三种方案
14、治疗急性无黄疸型病毒性肝炎的有效率作进一步的两两比较。本例西药组与中药组两组有效率差异最小,将它们分割出来,作2检验得2=0.936,v=1,P0.05,差别无统计意义,可将两有效率合并,资料重组为新的四格表,再作2检验得2=21.854,1,P0.05。,2分割的原理是2值及其自由度的可加性。本例原总表2=22.80,2;2分割法合计的2=22.79,v=2,两者一致。若前后不一致,就说明分割方法可能有误。,(五)四格表的确切概率法,本法的基本思想是:在四格表周边合计不变的条件下,用下式直接计算表内四个数据的各种组合出现的概率。式中a、b、c、d为四个实际频数,N为总样本含量,!这阶乘的符号
15、。,例5-15 为了解两种治疗方法对原发性肝癌的疗效,某医师随机把病人分成两组,一组使用5-氟尿嘧啶+辅助治疗(简称5-氟组),另一组使用安慰剂+辅助治疗(简称安慰组)。治疗结果按缓解死亡划分。第1组12人,5人缓解,7人死亡;第2组11人,1人缓解,10人死亡。试问两组疗效是否不同?,本例n40,且四格表中有两格1T5,宜用四格表的确切概率法。H0:1=2,即两种疗法疗效相 同;H1:12,即两种疗法疗效不 同;=0.05,将上表数据代入上式,上表中两组缓解率差值的绝对值|P1-P2|=|0.4167-0.0909|=0.3258。在周边合计数不变的条件下,表内四个数据可能还有其它组合其缓解
16、率差别0.3258,所有这些比样本四格表更极端的情况都应考虑进去,因为这些极端情况在H0条件下都可能发生,其概率是支持H0的。,在周边合计数不变的条件下,可得到多种不同组合的四格表。为方便起见,选定行合计与列合计均最小所对应的格子为基础。本例以C格为基础,其取值的变动范围从0到对应的最小周边合计数。本例C格可变范围为06,可得到7个四格表及其相应的概率见理下表。,上表显示|p1-p2|0.3258的有序号为0,5,6的分表,这几个分表与样本四格表比,属于更极端情况,加上样本四格表,本例所求累计概率为:P=P(0)+P(1)+P(5)+P(6)=0.0092+0.0863+0.0549+0.0046=0.155 P=0.155,按按=0.05不能拒绝H0,尚不能认为两种治疗方法对原发性肝癌的疗效有不同。,注意:如果两组例数相等,则列出的分表是对称的,可以简化计算,即先算出一侧与样本四格表情况及比其更极端情况的分表的概率,再乘以2便为所求概率。如果是单侧检验,只求与样本四格表情况相同及比其更极端情况一侧的概率即可。,