《分类变量资料的统计分析-统计推断.ppt》由会员分享,可在线阅读,更多相关《分类变量资料的统计分析-统计推断.ppt(35页珍藏版)》请在三一办公上搜索。
1、,第三节 分类变量资料的统计分析 统计推断,信阳职业技术学院 赵玉霞,一 率的抽样误差与可信区间二 率的统计学推断 1.样本率与总体率比较的u检验 2.两个样本率比较的u检验三 卡方检验 1.四格表2检验(两个率比较)2.配对四格表2检验(两个率比较)3.行列(RC)2检验(多个率或构成比比较),主要内容,能够计算率的标准误并能进行两个率差别的u检验描述总体率的估计方法能够进行两个率或多个率(或构成比)差别的 2检验,学习目标,一 率的抽样误差与可信区间,1.率的抽样误差与标准误 2.总体率的可信区间,1.率的抽样误差与标准误,如果总体均数 未知,用样本均数 估计,样本均数()和总体均数()的
2、差异称为均数的抽样误差(sampling error of rate),用均数的标准误(standard error of rate)度量。,复习,1.率的抽样误差与标准误,样本率(p)和总体率()的差异称为率的抽样误差(sampling error of rate),用率的标准误(standard error of rate)度量。,如果总体率未知,用样本率p估计,率的标准误的计算,2.总体率的可信区间(confidence interval of rate),根据样本率推算总体率可能所在的范围,二 率的统计学推断,1.样本率与总体率比较u 检验 2.两个样本率的比较u 检验,1.样本率与总
3、体率比较的u 检验,u检验的条件:n p 和n(1-p)均大于5时,2.两个独立样本率比较的u 检验,两种疗法的心血管病病死率比较,u检验的条件:n1p1 和n1(1-p1)与n2p2 和n2(1-p2)均 5,小 结,1样本率也有抽样误差,率的抽样误差的大小用p或Sp来衡量。2率的分布服从二项分布。当n足够大,和1-均不太小,有n5和n(1-)5时,近似正态分布。3总体率的可信区间是用样本率估计总体率的可能范围。当p分布近似正态分布时,可用正态近似法估计率的可信区间。4根据正态近似原理,可进行样本率与总体率以及两样本率比较的u检验。,率的u检验能解决以下问题吗?,率的反应为生与死、阳性与阴性
4、、发生与不发生等二分类变量,如果二分类变量为非正反关系(如治疗A、治疗B);反应为多分类,如何进行假设检验?率的u检验要求:n足够大,且n5和 n(1-)5。如果条件不满足,如何进行假设检验?,三 卡方检验,2检验(Chi-square test)是现代统计学的创始人之一,英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率间的比较,计数资料的关联度分析,拟合优度检验等等。本章仅限于介绍两个和多个率或构成比比较的 2检验。,三 卡方检验,1.四格表2检验(两个率比较)2.配对四格表2检验(两个率比较)3.行列(RC)2检验(多个率或构成
5、比比较),卡方检验的基本思想,1.四格表(fourfold table)2检验 两种疗法的心血管病病死率的比较,如果确实p1=p2,那么两种疗法的病死率理论上都应该等于pc,故可算出实际频数A(a、b、c、d)所对应的理论频数T(T11,T12,T21,T22)(H0:1=2=),卡方检验的基本思想1.四格表(fourfold table)2检验,两种疗法的心血管病病死率的比较,T11(a+b)pc=(a+b)(a+c.)/n=R1C1/n=21.3T12(a+b)(1-pc)=(a+b)(b+d.)/n=R1C2/n=182.7T21(c+d)pc=(c+d)(a+c)/n=R2C1/n=6
6、.7T22(c+d)(1-pc)=(c+d)(b+d.)/n=R2C2/n=57.3,如果,H0:1=2=成立,实际数值与理论数值之间差异是抽样误差造成的;若H0:1 2,实际数值与理论数值的差异也有统计学意义。两种疗法病死率的比较,就转变成了格子内的实际数值与理论数值的比较。计算检验统计量:,各种情形下,理论与实际偏离的总和即为卡方值(chi-square value),它服从自由度为的卡方分布。,卡方检验的基本思想1.四格表(fourfold table)2检验,卡方检验的基本思想1.四格表(fourfold table)2检验,实际数值与理论数值的差异越大,2值就越大,H0发生的概率(P
7、)越小,若P0.05或0.01,我们就认为,两疗法病死率差异不显著,无统计学意义。,卡方检验的基本思想1.四格表(fourfold table)2检验,两种疗法的心血管病病死率的比较,查表2(0.05,1)=3.84,2=4.823.84,P0.05 两种疗法病死率差异显著。,3.84,7.81,12.59,P0.05的临界值,2分布(chi-square distribution),2检验的基本公式,上述基本公式由Pearson提出,因此软件上常称这种检验为Peareson卡方检验,下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料,也适用于其它的“行列表”。,四
8、格表专用公式,为了不计算理论频数T,可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:,四格表专用公式,2(1)u2 2.194924.82(n40,所有T5时),四格表连续性校正公式,2分布是一连续型分布,而行列表资料属离散型分布,对其进行校正称为连续性校正(correction for continuity),又称Yates校正(Yates correction)。当n40,而1T5时,用连续性校正公式当n40或T1时,用Fisher精确检验(Fisher exact test),校正公式:,四格表连续性校正公式,因为1T5,且n40时,所以应用连续性校正2检验
9、,2.配对四格表资料的2检验,配对四格表资料的2检验,H0:b,c来自同一个实验总体(两种剂量的毒性无差异);H1:b,c来自不同的实验总体(两种剂量的毒性有差别);=0.05。,3.行列(RC)表资料的2检验,RC表的2检验通用公式,几种RC表的检验假设H0,RC表的计算举例,RC表2检验的应用注意事项,1.对RC表,若较多格子(1/5)的理论频数小于5或有一个格子的理论频数小于1,则易犯第一类错误。出现某些格子中理论频数过小时怎么办?(1)增大样本含量(最好!)(2)删去该格所在的行或列(丢失信息!)(3)根据专业知识将该格所在行或列与别的行或列合并。(丢失信息!甚至出假象),RC表2检验的应用注意事项,2.多组比较时,若效应有强弱的等级,如+,+,+,最好采用后面的非参数检验方法。2检验只能反映其构成比有无差异,不能比较效应的平均水平。3.行列两种属性皆有序时,可考虑趋势检验或等级相关分析。,thank you!,