卡方检验解释.ppt

上传人:牧羊曲112 文档编号:6248109 上传时间:2023-10-10 格式:PPT 页数:80 大小:2.69MB
返回 下载 相关 举报
卡方检验解释.ppt_第1页
第1页 / 共80页
卡方检验解释.ppt_第2页
第2页 / 共80页
卡方检验解释.ppt_第3页
第3页 / 共80页
卡方检验解释.ppt_第4页
第4页 / 共80页
卡方检验解释.ppt_第5页
第5页 / 共80页
点击查看更多>>
资源描述

《卡方检验解释.ppt》由会员分享,可在线阅读,更多相关《卡方检验解释.ppt(80页珍藏版)》请在三一办公上搜索。

1、许林勇 博士,医学统计学-卡方检验,主讲内容,第一 概述基本思想第二 22表卡方检验第三 配对四格表卡方检验第四 RC表卡方检验第五 Fisher确切概率检验第六 多个样本率的多重比较第七有序分组资料的线性趋势检验,卡方检验概述p136,研究目的:率 or 构成比的假设检验(大样本率或 小样本率)资料类型:计数资料基本思想:检验中的 是希腊字母,称为卡方检验,是一种用途较广的计数资料的假设检验方法,属于非参数检验的范畴,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。,检验的应用,检验两个样本率之间差别的显

2、著性;检验多个样本率或构成比之间差别的显著性;检验两个双向无序分类变量是否存在关联;配对计数资料的比较。,一、两独立样本率检验(一)两独立样本率资料的四格表形式,例7-1 为研究肿瘤标志物癌胚抗原(CEA)对肺癌的诊断价值,随机抽取72例确诊为肺癌的患者为肺癌组,114例接受健康体检的非肺癌患者为对照组。用CEA对其进行检测,结果呈阳性反应者病例组中33例,对照组中10例。问两组人群的CEA阳性率有无差异?,表7-1 CEA对两组人群的诊断结果*,*括号内为理论频数。,本例资料经整理成表7-1形式,即有两个处理组,每个处理组的例数由发生数和未发生数两部分组成。表内有33、39、10、104 四

3、个基本数据,其余数据均由此四个数据推算出来的,故称四格表资料。,(二)检验的基本思想,表7-2 四格表资料的基本形式,基本思想:可通过 检验的基本公式来理解。,式中,A为实际频数(actual frequency),T为理论频数(theoretical frequency)。,理论频数 是根据检验设,且用合并率 来估计而定的。,理论频数由下式求得:,式中,TRC 为第R 行C 列的理论频数 nR 为相应的行合计 nC 为相应的列合计,检验统计量 值反映了实际频数与理论频数的吻合程度。若检验假设H0:1=2成立,四个格子的实际频数A 与理论频数T 相差不应该很大,即统计量 不应该很大。如果 值很

4、大,即相对应的P 值很小,若,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即12。,由公式(7-1)还可以看出:值的大小还取决于 个数的多少(严格地说是自由度的大小)。由于各 皆是正值,故自由度愈大,值也会愈大;所以只有考虑了自由度的影响,值才能正确地反映实际频数A和理论频数T 的吻合程度。检验的自由度取决于可以自由取值的格子数目,而不是样本含量n。四格表资料只有两行两列,=1,即在周边合计数固定的情况下,4个基本数据当中只有一个可以自由取值。,(1)建立检验假设,确定检验水平。H0:1=2H1:12=0.05。,(三)假设检验

5、,(2)求检验统计量值,四格表资料检验的专用公式,(四)四格表资料检验的校正公式,分布是一连续型分布,而四格表资料属离散型分布,由此计算得的 统计量的抽样分布亦呈离散性质。为改善 统计量分布的连续性,则进行连续性校正。,四格表资料 检验公式选择条件:,,不校正的理论或专用公式;,校正公式;,直接计算概率(Fisher)。,连续性校正仅用于 的四格表资料,当 时,一般不作校正。,例7-2 将116例癫痫患者随机分为两组,一组70例接受常规加高压氧治疗(高压氧组),另一组46例接受常规治疗(常规组),治疗结果见表7-3。问两种疗法的有效率有无差别?,表7-3 两种疗法治疗癫痫的效果,本例,故用四格

6、表资料 检验的校正公式,,查 界值表得。按 检验水准不拒绝,尚不能认为组有效率不等。,本资料若不校正时,结论与之相反。,(四)卡方检验的连续性校正问题,赞成依据是:这样做可使卡方统计量抽样分布的连续性和平滑性得到改善,可以降低I类错误的概率,连续性校正后的卡方检验,其结果更接近于Fisher确切概率法。不过,校正也不是无条件的,它只适合于自由度为1时,样本含量较小,如n40,或至少有一个格子的理论频数太小,如T5的情形。,(四)卡方检验的连续性校正问题,反对依据是:经连续性校正后,P值有过分保守之嫌。此外,Fisher确切概率法建立在四格表双边固定的假定下,而实际资料则是单边固定的四格表,连续

7、性校正卡方检验的P值与Fisher确切概率法的P值没有可比性。,就应用而言,无论是否经过连续性校正,若两种检验的结果一致,无须在此问题上纠缠。但是,当两种检验结果相互矛盾时,如例7-2,就需要谨慎解释结果了。为客观起见,建议将两种结论同时报告出来,以便他人判断。当然,如果两种结论一致,如均为或,则只报道非连续性检验的结果即可。,第二节、两相关样本率检验(McNemar检验),配对四格表资料的 检验,与计量资料推断两总体均数是否有差别有成组设计和配对设计一样,计数资料推断两个总体率(构成比)是否有差别也有成组设计和配对设计,即四格表资料和配对四格表资料。,例7-3某抗癌新药的毒理研究中,将78只

8、大鼠按性别、窝别、体重、年龄等因素配成39对,每个对子的两只大鼠经随机分配,分别接受甲剂量和乙剂量注射,试验结果见表7-4。试分析该新药两种不同剂量的毒性有无差异。,表7-4 某抗癌新药两种剂量的毒理实验结果,上述配对设计实验中,就每个对子而言,两种处理的结果不外乎有四种可能:,两只大鼠均死亡(甲乙)数(a);两只均生存(甲乙)数(d);其中一只死亡(甲乙)数(b);其中一只死亡(甲乙)数(c)。,其中,a,d 为两法观察结果一致的两种情况,b,c为两法观察结果不一致的两种情况。,检验统计量为,注意:,本法一般用于样本含量不太大的资料。因为它仅考虑了两法结果不一致的两种情况(b,c),而未考虑

9、样本含量n和两法结果一致的两种情况(a,d)。所以,当n很大且a与d的数值很大(即两法的一致率较高),b与c的数值相对较小时,即便是检验结果有统计学意义,其实际意义往往也不大。,第三节,R C表 检验,行列表资料,多个样本率比较时,有R行2列,称为R 2表;两个样本的构成比比较时,有2行C列,称2C表;多个样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为R C表。,检验统计量,一、多个样本率的比较,例7-4用A、B、C三种不同方法分别处理新生儿脐带,发生感染的情况见表7-6,试比较3种不同方法的脐带感染率有无差异。表9-6 三种脐带处理方法的脐带感染情况,二、两组构成比的比较,

10、例7-5为研究某种新药对尿路疼痛的止痛效果,将有尿路疼痛的患者144例随机分为两组,每组72例,一组服该新药(治疗组),另一组服安慰剂(对照组)。两组患者尿路疼痛的原因见表7-7,问两组患者尿路疼痛原因的分布有无差异?,表7-7 两组患者尿路疼痛原因的分布,三、多组构成比的比较,例7-6 在某项疼痛测量研究中,给160例手术后疼痛的患者提供四种疼痛测量量表,即直观模拟量表(VAS),数字评估量表(NRS),词语描述量表(VDS),面部表情疼痛量表(FPS),患者首选的量表以及患者的文化程度见表7-8,问患者首选疼痛量表与文化程度是否有关?,表7-8 不同文化程度患者首选疼痛量表的类型,四、R

11、C表 检验的条件,1行列表中的各格T1,并且1T5的格子数不宜超过1/5格子总数,否则可能产生偏性。处理方法有三种:,增大样本含量以达到增大理论频数的目的,属首选方法,只是有些研究无法增大样本含量,如同一批号试剂已用完等。,根据专业知识,删去理论频数太小的行或列,或将理论频数太小的行或列与性质相近的邻行或邻列合并。这样做会损失信息及损害样本的随机性。注意:不同年龄组可以合并,但不同血型就不能合并。改用双向无序RC表的Fisher确切概率法(可用SAS软件实现)。,第四节、Fisher确切概率检验,确切概率检验是由Fisher 1934年提出的一种用于两个独立样本率比较的方法,故又称Fisher

12、确切概率法。有人认为,当样本量n和理论频数T太小时,如n40而且T5,或T1,或n20,应该用确切概率检验。这一观点所基于的理论是,当样本量太小时,二项分布的正态逼近性较差,因而不宜用基于正态分布的检验。提出上述条件的另外一种考虑是确切概率法的计算量偏大,但随着计算工具的大大改进,确切概率法的应用不一定限于上述条件。,例7-4 某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非预防组,结果见表7-4。问两组新生儿的HBV总体感染率有无差别?,基本思想,在四格表周边合计数固定不变的条件下,计算表内4个实际频数变动时的各种组合之概率;再按检验假

13、设用单侧或双侧的累计概率,依据所取的检验水准做出推断。,1各组合概率的计算 在四格表周边合计数不变的条件下,表内4个实际频数,变动的组合数共有“周边合计中最小数+1”个。如例7-4,表内4个实际频数变动的组合数共有个,依次为:,1计算现有样本四格表的和及各组合下四格表的,见表7-5。本例、。2计算满足条件的各组合下四格表的概率。3计算同时满足和条件的四格表的累计概率。本例 满足条件,累计概率为,教材批p143,本例,宜用四格表资料的Fisher确切概率法直接计算累计概率。检验步骤为:,即两组新生儿HBV的总体感染率相等:,即两组新生儿HBV的总体感染率不等,第五节 多个样本率间的多重比较,当多

14、个样本率比较的表资料检验,推断结论为拒绝,接受时,只能认为各总体率之间总的来说有差别,但不能说明任两个总体率之间有差别。要进一步推断哪两两总体间有差别,若直接用四格表资料的检验进行多重比较,将会加大犯类错误的概率。,1多个实验组间的两两比较,,k 为样本率的个数。,2、实验组与同一个对照组的比较,第六节 双向无序分类资料的关联性检验,例 7-8 测得某地5801人的ABO血型和MN血型结果如表,问两种血型系统之间是否有关联?,步骤,1、建立检验假设2、计算检验统计量3、求出P值,作结论注意:若须进一步分析关系的密切程度时,可计算Pearson列联系数,第七节 有序分组资料的线性趋势检验,例7-

15、11 某研究者欲研究年龄与冠状动脉粥样硬化等级之间的关系,将278例尸解资料整理成表7-13,问年龄与冠状动脉粥样硬化等级之间是否存在线性变化趋势?,步骤,1、建立检验假设2、计算检验统计量3、求出P值,作结论注意:基本思想是:首先计算表资料的值,然后将总的值分解成线性回归分量与偏离线性回归分量。若两分量均有统计学意义,说明两个分类变量存在相关关系,但关系不是简单的直线关系;若线性回归分量有统计学意义,偏离线性回归分量无统计学意义时,说明两个分类变量不仅存在相关关系,而且是线性关系。,Nonzero Correlation 8 63.3895.0001,Chi-Square 1 71.4325

16、.0001,data ex7_11;input r c f;cards;1 1 701 2 221 3 41 4 22 1 272 2 242 3 92 4 33 1 163 2 233 3 133 4 74 1 94 2 204 3 154 4 14;proc freq;weight f;tables r*c/cmh1;run;,注意,双向有序属性不同的表资料 表资料中两个分类变量皆为有序的,但属性不同,如表7-13。对于该类资料,若研究目的为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序表资料,选用秩转换的非参数检验;若研究目的为分析两个有序分类变量间是否存在相关关系,宜用等级相

17、关分析或Pearson积矩相关分析(见第九章);若研究目的为分析两个有序分类变量间是否存在线性变化趋势,宜用本节所介绍的有序分组资料的线性趋势检验。,summary,1、研究目的:率 or 构成比的假设检验(大样本率或 小样本率)2、资料类型:计数资料3、基本思想:根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。4、应用条件检验两个样本率之间差别的显著性;检验多个样本率或构成比之间差别的显著性;检验两个双向无序分类变量是否存在关联;配对计数资料的比较。,5、理论频数和fisher确切概率法6、多个样本率的多重比较 7、表资料的分类和相应检验目的可以分为双向无序、单向有序、双向有

18、序属性相同和双向有序属性不同4类。A、对于双向无序资料,若研究目的为多个样本率(或构成比)的比较,可用行列表资料的检验;若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表资料的检验以及Pearson列联系数进行分析。,B、单向有序 表资料 有两种形式。一种是表资料中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)是无序的。其研究目的通常是分析不同年龄组各种传染病的构成情况,此种单向有序表资料可用行列表资料的检验进行分析。另一种情况是表资料中的分组变量(如疗法)为无序的,而指标变量(如疗效按等级分组)是有序的。其研究目的为比较不同疗法的疗效,此种单向有序表资料宜

19、用秩转换的非参数检验进行分析(见第八章)。,C、双向有序属性相同的 表资料 表资料中的两个分类变量皆为有序且属性相同。实际上是配对四格表资料的扩展,即水平数3的配伍资料,如用两种检测方法同时对同一批样品的测定结果。其研究目的通常是分析两种检测方法的一致性,此时宜用一致性检验或称Kappa检验(见第二十八章);也可用特殊模型分析方法(可用SAS软件)。,D、双向有序属性不同的 表资料 资料中两个分类变量皆为有序的,但属性不同,如表7-13。对于该类资料,若研究目的为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序表资料,选用秩转换的非参数检验;若研究目的为分析两个有序分类变量间是否存在相关关系,宜用等级相关分析或Pearson积矩相关分析(见第九章);若研究目的为分析两个有序分类变量间是否存在线性变化趋势,宜用本节所介绍的有序分组资料的线性趋势检验。,8、解题思路,实验研究的目的是什么?研究变量是什么?该资料属何种类型资料?属什么实验设计?可以采用什么假设检验方法进行分析?怎样建立检验假设?如果得出假设检验的统计量=37.92,而对应的统计量=5.99,请问如何下结论?,THANK YOU!,许林勇,您的建议是我进步的源泉!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号