卡方检验方法.ppt

上传人:小飞机 文档编号:6248100 上传时间:2023-10-10 格式:PPT 页数:61 大小:296.50KB
返回 下载 相关 举报
卡方检验方法.ppt_第1页
第1页 / 共61页
卡方检验方法.ppt_第2页
第2页 / 共61页
卡方检验方法.ppt_第3页
第3页 / 共61页
卡方检验方法.ppt_第4页
第4页 / 共61页
卡方检验方法.ppt_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《卡方检验方法.ppt》由会员分享,可在线阅读,更多相关《卡方检验方法.ppt(61页珍藏版)》请在三一办公上搜索。

1、第八章 2检验Chi-square test,掌握内容:,几种常见设计类型资料的卡方检验,熟悉的内容,卡方检验的适用范围,了解内容,1四格表资料的Fisher精确概率法,用样本信息推论总体特征的过程。包括:参数估计:运用统计学原理,用从样本计算出来的统计指标量,对总体统计指标量进行估计。假设检验:又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。,在总体率为的二项分布总体中做n1和n2抽样,样本率p1和p2与的差别,称为率抽样误差。已知0 nP5,n(1-P)5,例为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液作尿棕色素定性检查,结果见下表,

2、问铅中毒病人与对照人群的尿棕色素阳性率差别有无统计学意义?,2检验(Chi-square test)是现代统计学的创始人之一,英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法。,2 检验的用途,用途较为广泛的假设检验方法,本章仅介绍用于分类计数资料的假设检验,用于检验两个(或多个)率或构成比之间差别是否有统计学意义,配对2检验检验配对计数资料的差异是否有统计学意义。,2检验的基本思想,检验实际频数(A)和理论频数(T)的差别是否由抽样误差所引起的。也就是由样本率(或样本构成比)来推断总体率或构成比。,表7-1 两种药物治疗胃溃疡有效率的比较,目的:推断

3、是否1=2?,本例资料经整理成下表形式,即有两个处理组,每个处理组的例数由发生数和未发生数两部分组成。表内有 四个基本数据,其余数据均由此四个数据推算出来的,故称四格表资料。,衡量理论频数与实际频数的差别,ARC是位于R行C列交叉处的实际频数,TRC是位于R行C列交叉处的理论频数。(ARC-TRC)反映实际频数与理论频数的差距,除以TRC 为的是考虑相对差距。所以,2 值反映了实际频数与理论频数的吻合程度,2 值大,说明实际频数与理论频数的差距大。2 值的大小除了与实际频数和理论频数的差的大小有关外,还与它们的行、列数有关。即自由度的大小。,=(行-1)(列-1),理论频数的计算,nR是ARC

4、所在行的合计,nC是ARC所在列的合计,是两个样本例数的合计,理论频数 是根据检验假设 且用合并率 来估计 而定的。,如本例,无效假设是A药组与B药组的总体有效率相等,均等于合计的阳性率66.67%(110/165)。那么理论上,A药组的85例中阳性人数应为85(110/165)=56.67,阴性人数为85(55/165)=28.33;同理,B药组的80例中阳性人数应为80(110/165)=53.33,阴性人数为80(55/165)=26.67。,2检验的基本公式,上述基本公式由Pearson提出,因此软件上常称这种检验为Peareson卡方检验,下面将要介绍的其他卡方检验公式都是在此基础上

5、发展起来的。它不仅适用于四格表资料,也适用于其它的“行列表”。,分布是一种连续型分布(Continuous distribution),v 个相互独立的标准正态变量(standard normal variable)的平方和称为 变量,其分布即为 分布;自由度(degree of freedom)为v。,2分布是一种连续型分布(Continuous distribution),v 个相互独立的标准正态变量(standard normal variable)的平方和称为 2 变量,其分布即为 2 分布;自由度(degree of freedom)为v。,2分布的形状依赖于自由度 的大小:当自由度

6、2时,曲线呈“L”型;随着 的增加,曲线逐渐趋于对称;当自由度 时,曲线逼近于正态曲线。,如果假设检验成立,A与T不应该相差太大。理论上可以证明(A-T)2/T服从x2分布,计算出x2值后,查表判断这么大的x2是否为小概率事件,以判断建设检验是否成立。,在=1,自由度一定时,P值越小,x2值越大,反比关系。当P 值一定时,自由度越大,x2越大。=1时,P=0.05,x2=3.84 P=0.01,x2=6.63 P=0.05时,=1,x2=3.84=2,x2=5.99,第一节 四格表资料2检验,一般四格表的基本形式,四格表2检验的专用公式,n40,T5,为了不计算理论频数T,可由基本公式推导出,

7、直接由各格子的实际频数(a、b、c、d)计 算卡方值的公式:,1建立检验假设,检验统计量2值反映了实际频数与理论频数的吻合程度。,若检验假设H0:1=2成立,四个格子的实际频数A 与理论频数T 相差不应该很大,即统计量2 不应该很大。如果2 值很大,即相对应的P 值很小,若 P,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即12。,2计算检验统计量,(1)当总例数n40 且所有格子的理论频数T5时:用检验的基本公式或四格表资料检验的专用公式;,基本公式,专用公式,(2)当总例数 n40 且有一个格子1T5时:用校正公式;或改用四

8、格表资料的Fisher确切概率法。,2分布是一连续型分布,而四格表资料属离散型分布,由此计算得的 2统计量的抽样分布亦呈离散性质。为改善2统计量分布的连续性,则需行连续性校正(correction for continuity)。2 连续性校正仅用于=1 的四格表资料,当2 时,一般不作校正。,(3)当n40,或T1时,不能用卡方检验,改用四格表资料的Fisher确切概率法。,3作出统计结论,以=1查界值表,若,按检验水准拒绝,接受,可认为两总体率不同;若,按检验水准 不拒绝,尚不能认为两总体率不同。,自由度愈大,2 值也会愈大;所以只有考虑了自由度的影响,2 值才能正确地反映实际频数A和理论

9、频数T 的吻合程度。检验的自由度取决于可以自由取值的格子数目,而不是样本含量n。四格表资料只有两行两列,=1,即在周边合计数固定的情况下,4个基本数据当中只有一个可以自由取值。,例8.5 某药品检验所随机抽取574名成年人,研究抗生素的耐药性(资料如表8-11)。问两种人群的耐药率是否一致?表8-11 某抗生素的人群耐药情况,理论频数的计算,实际数 理论数,2检验的步骤,(1)建立假设并确定检验水准H0:两种人群对该抗生素的耐药率相同,即1=2;(两总体率相等)H1:两种人群对该抗生素的耐药率不同,即12;(两总体不相等)=0.05,(2)计算检验统计量当总例数 n且所有格子的理论频数T5时:

10、用检验的基本公式或四格表资料检验的专用公式:2=23.12,(3)查2界值表(附表7)确定P值,P0.05,得出结论。按0.05水准,不拒绝H0,可以认为两组人群对该抗生素的耐药率的差异无统计学意义。,例2某矿石粉厂生产一种矿石粉时,在数天内即有部分工人患有职业性皮肤炎。后随机抽取15名工人穿新防护服,其余仍穿原用的防护服,一个月后检查两组工人的皮肤炎患病情况,资料见下表,问两组的患病率差别有无统计学意义?,本例n40,因有一格子的理论数5,因而要用校正2 检验。,H0:两组工人皮肤炎总体患病率相等,即1=2H1:两组工人皮肤炎总体患病率不等,即1 2=0.05校正2值为,以=1查界值表,按

11、检验水准不拒绝,接受,尚不能认为穿不同防护服的两组工人的皮肤炎患病率的差别有统计学意义;,注意:两样本率比较的资料,既可用 检验也可用 检验来推断两总体率是否有差别,且在不校正的条件下两种检验方法是等价的,对同一份资料有。,小结 T5,用四格表专用公式n 40 1T5,用连续性校正公式 T1,用确切概率法。n40,用确切概率法。,第三节 配对四格表资料的2检验,与计量资料推断两总体均数是否有差别有成组设计和配对设计一样,计数资料推断两个总体率(构成比)是否有差别也有成组设计和配对设计,即四格表资料和配对四格表资料。,将含量为n的随机样本同时按照两个二项分类的属性进行交叉分类,形成2行2列的交叉

12、分类表,如表8-6,目的是检验两种属性间的阳性率是否相同,表8-6 配对四格表资料表,变量1的阳性率变量2的阳性率,可见,两个变量阳性率的比较只和b、c有关,而与a、d无关。,变量1的阳性率,变量2的阳性率,前面是两个独立样本,行合计是事先固定的;而这里的“两份样本”互不独立,样本量都是n,是固定的,而行合计与列合计却是事先不确定的。,配对四格表资料的2检验的专用公式,b+c40 b+c40,两种白喉杆菌培养基结果比较,配对四格表资料的2检验步骤,配对四格表资料的2检验步骤,1.H0:两种培养基阳性率相同,总体BC;H1:两种培养基阳性率不同,总体BC。0.05。2.计算统计量:23.273.

13、84 3.按0.05水准,不拒绝H0,可以认为甲乙两法血清学检出阳性率无显著性差异,第四节 行列表2检验,RC表的2检验通用公式,几种RC表的检验假设H0,1.多个样本率的比较,例 某医院用3种方案治疗急性无黄疸型病毒肝炎254例,观察结果见表,问3种疗法的有效率是否不同。,检验步骤:,H0:3种治疗方案的有效率相等H1:3种治疗方案的有效率不全相等=0.05,P 0.05,在=0.05的检验水准下,拒绝H0,接受H1,可以认为三种疗法的有效率有差别。,2.样本构成比的比较,例 某研究人员收集了亚洲、欧洲和北美洲人的A、B、AB、O血型资料,结果见表,问不同地区人群ABO血型分类构成比是否不同

14、。,检验步骤,H0:不同地区人群血型分布总体构成比相同H1:不同地区人群血型分布总体构成比不全相同=0.05,P 0.05,在=0.05检验水准下,拒绝H0,认为三个不同地区的人群血型分布总体构成比有差别。,1.对RC表,若较多格子(1/5)的理论频数小于5或有一个格子的理论频数小于1,则易犯第一类错误。出现某些格子中理论频数过小时怎么办?(1)增大样本含量(最好!)(2)删去该格所在的行或列(丢失信息!)(3)根据专业知识将该格所在行或列与别的行或列合并。(丢失信息!甚至出假象),RC表2检验的应用注意事项,行列表2检验时的注意事项,2.多个样本率比较,若所得统计推断为拒绝H0,接受H1时,只能认为各总体率之间总的来说有差别,但不能说明任两个总体率之间皆有差别。要进一步推断哪两总体率之间有差别,需进一步做多个样本率的多重比较。3.当计数资料为双向有序资料时,不可做卡方分析,需做非参数性检验;当分组变量为等级,分析变量为非等级可做卡方分析,分析变量为等级资料不可做卡方分析。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号