分类变量资料的统计分析-统计推断.ppt

资源描述

《分类变量资料的统计分析-统计推断.ppt》由会员分享，可在线阅读，更多相关《分类变量资料的统计分析-统计推断.ppt（35页珍藏版）》请在三一办公上搜索。

1、,第三节分类变量资料的统计分析统计推断,信阳职业技术学院赵玉霞,一率的抽样误差与可信区间二率的统计学推断 1.样本率与总体率比较的u检验 2.两个样本率比较的u检验三卡方检验 1.四格表2检验(两个率比较)2.配对四格表2检验(两个率比较)3.行列（RC）2检验(多个率或构成比比较),主要内容,能够计算率的标准误并能进行两个率差别的u检验描述总体率的估计方法能够进行两个率或多个率(或构成比)差别的 2检验,学习目标,一率的抽样误差与可信区间,1.率的抽样误差与标准误 2.总体率的可信区间,1.率的抽样误差与标准误,如果总体均数未知，用样本均数估计,样本均数()和总体均数()的

2、差异称为均数的抽样误差(sampling error of rate)，用均数的标准误（standard error of rate）度量。,复习,1.率的抽样误差与标准误,样本率(p)和总体率()的差异称为率的抽样误差(sampling error of rate)，用率的标准误（standard error of rate）度量。,如果总体率未知，用样本率p估计,率的标准误的计算,2.总体率的可信区间(confidence interval of rate),根据样本率推算总体率可能所在的范围,二率的统计学推断,1.样本率与总体率比较u 检验 2.两个样本率的比较u 检验,1.样本率与总

3、体率比较的u 检验,u检验的条件：n p 和n（1-p）均大于5时,2.两个独立样本率比较的u 检验,两种疗法的心血管病病死率比较,u检验的条件：n1p1 和n1(1-p1)与n2p2 和n2(1-p2)均 5,小结,1样本率也有抽样误差，率的抽样误差的大小用p或Sp来衡量。2率的分布服从二项分布。当n足够大，和1-均不太小，有n5和n（1-）5时，近似正态分布。3总体率的可信区间是用样本率估计总体率的可能范围。当p分布近似正态分布时，可用正态近似法估计率的可信区间。4根据正态近似原理，可进行样本率与总体率以及两样本率比较的u检验。,率的u检验能解决以下问题吗？,率的反应为生与死、阳性与阴性

4、、发生与不发生等二分类变量，如果二分类变量为非正反关系（如治疗A、治疗B）；反应为多分类，如何进行假设检验？率的u检验要求：n足够大，且n5和 n（1-）5。如果条件不满足，如何进行假设检验？,三卡方检验,2检验(Chi-square test)是现代统计学的创始人之一，英国人K.Pearson（1857-1936）于1900年提出的一种具有广泛用途的统计方法，可用于两个或多个率间的比较，计数资料的关联度分析，拟合优度检验等等。本章仅限于介绍两个和多个率或构成比比较的 2检验。,三卡方检验,1.四格表2检验(两个率比较)2.配对四格表2检验(两个率比较)3.行列（RC）2检验(多个率或构成

5、比比较),卡方检验的基本思想,1.四格表(fourfold table)2检验两种疗法的心血管病病死率的比较,如果确实p1=p2，那么两种疗法的病死率理论上都应该等于pc，故可算出实际频数A(a、b、c、d)所对应的理论频数T(T11,T12,T21,T22)(H0:1=2=),卡方检验的基本思想1.四格表(fourfold table)2检验,两种疗法的心血管病病死率的比较,T11(a+b)pc=(a+b)(a+c.)/n=R1C1/n=21.3T12(a+b)(1-pc)=(a+b)(b+d.)/n=R1C2/n=182.7T21(c+d)pc=(c+d)(a+c)/n=R2C1/n=6

6、.7T22(c+d)(1-pc)=(c+d)(b+d.)/n=R2C2/n=57.3,如果，H0:1=2=成立，实际数值与理论数值之间差异是抽样误差造成的；若H0:1 2，实际数值与理论数值的差异也有统计学意义。两种疗法病死率的比较，就转变成了格子内的实际数值与理论数值的比较。计算检验统计量：,各种情形下，理论与实际偏离的总和即为卡方值（chi-square value）,它服从自由度为的卡方分布。,卡方检验的基本思想1.四格表(fourfold table)2检验,卡方检验的基本思想1.四格表(fourfold table)2检验,实际数值与理论数值的差异越大，2值就越大，H0发生的概率(P

7、)越小，若P0.05或0.01,我们就认为，两疗法病死率差异不显著，无统计学意义。,卡方检验的基本思想1.四格表(fourfold table)2检验,两种疗法的心血管病病死率的比较,查表2(0.05,1)=3.84,2=4.823.84，P0.05 两种疗法病死率差异显著。,3.84,7.81,12.59,P0.05的临界值,2分布（chi-square distribution）,2检验的基本公式,上述基本公式由Pearson提出，因此软件上常称这种检验为Peareson卡方检验，下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料，也适用于其它的“行列表”。,四

8、格表专用公式,为了不计算理论频数T,可由基本公式推导出，直接由各格子的实际频数（a、b、c、d）计算卡方值的公式：,四格表专用公式,2(1)u2 2.194924.82（n40，所有T5时）,四格表连续性校正公式,2分布是一连续型分布，而行列表资料属离散型分布，对其进行校正称为连续性校正(correction for continuity),又称Yates校正（Yates correction）。当n40，而1T5时，用连续性校正公式当n40或T1时，用Fisher精确检验(Fisher exact test),校正公式：,四格表连续性校正公式,因为1T5，且n40时，所以应用连续性校正2检验

9、,2.配对四格表资料的2检验,配对四格表资料的2检验,H0：b，c来自同一个实验总体（两种剂量的毒性无差异）；H1：b，c来自不同的实验总体（两种剂量的毒性有差别）；=0.05。,3.行列（RC）表资料的2检验,RC表的2检验通用公式,几种RC表的检验假设H0,RC表的计算举例,RC表2检验的应用注意事项,1.对RC表，若较多格子（1/5）的理论频数小于5或有一个格子的理论频数小于1，则易犯第一类错误。出现某些格子中理论频数过小时怎么办？（1）增大样本含量（最好！）（2）删去该格所在的行或列（丢失信息！）（3）根据专业知识将该格所在行或列与别的行或列合并。（丢失信息！甚至出假象）,RC表2检验的应用注意事项,2.多组比较时，若效应有强弱的等级，如+，+，+，最好采用后面的非参数检验方法。2检验只能反映其构成比有无差异，不能比较效应的平均水平。3.行列两种属性皆有序时，可考虑趋势检验或等级相关分析。,thank you!,

展开阅读全文