研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt

上传人:牧羊曲112 文档编号:5806381 上传时间:2023-08-21 格式:PPT 页数:54 大小:280.50KB
返回 下载 相关 举报
研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt_第1页
第1页 / 共54页
研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt_第2页
第2页 / 共54页
研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt_第3页
第3页 / 共54页
研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt_第4页
第4页 / 共54页
研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt》由会员分享,可在线阅读,更多相关《研究生统计学讲义第6讲第7章分类资料统计描述与推断.ppt(54页珍藏版)》请在三一办公上搜索。

1、第七章 两分类资料的统计描述与推断,第一节 二项分布和Poisson分布,二项分布(binomial distribution)是一种重要的离散型分布。其应用条件:每次试验结果只能是相互对立的两种情况中的一种,例如,某药的疗效为有效或无效;动物毒性试验的结果为存活或死亡;化验结果为阳性或阴性;等等,二者中必居其一,且仅居其一;已知发生某一结果(如阳性)的概率为常数,则另一结果(阴性)发生的概率为(1);在n次重复试验中,各次试验相互独立,即每次试验的结果不会影响其他试验的结果。在医药学中二项分布常用于分类资料的抽样研究,如总体率的估计、两率的比较等。,1定义 若随机变量 X 的概率函数为 Pn

2、(x)=Cnxx(1)nx,(x=1,2,n)(9.1)则称X服从参数为n和的二项分布。式中Pn(x)为Pn(X=x)的简写;n 为试验次数;Cnx为从 n 个不同元素中,每次取出 x 个元素的不同组合的种数;是二项分布一个的参数,而不是圆周率。在医药统计中应用二项分布时,表示总体阳性率,一般用大样本率p来估计;Pn(x)表示n次试验中,发生阳性次数为x的概率,二项分布的概率函数为,Pn(x)=Cnxpx(1p)nx,(x=1,2,n)(9.2),二项分布的图形如图9-1所示。,Cnxx(1-)nx=+(1-)n=1,,Cnxpx(1-p)nx=p+(1-p)n=1。,由于二项分布变量取值的概

3、率函数值Cnxx(1-)nx 或Cnxpx(1-p)nx正好是二项式+(1-)n或p+(1-p)n的展开式中,按或p的升幂排列的各项,故名二项分布。,所以,在 n 次独立重复试验中,一个二项分布变量各取值的概率之和为1。,2二项分布的分布函数 二项分布的分布函数为:F(x)=P(X x)=Pn(0)+Pn(1)+.+Pn(x)(9.3),例9.1 某疗法治痹症的治愈率=60%,用该疗法治疗痹症三例(n=3),治愈例数x(x=0,1,2,3)的情况如表9-1。,表9-1 三例患者中治愈 x 例的情况(治愈率p=0.60;治愈例数x=0,1,2,3),注:*三例患者中治愈x例的概率函数为P3(x)

4、;*P(Xx)为分布函数,3二项分布的均数和标准差 记二项分布的总体阳性率为,未知时,用大样本率 p 来估计。由式(9.1)推导出二项分布变量X的均数用绝对数表示时的计算公式为:总体均数=E(X)=n,相应的样本均数=n p(9.5),改用相对数(率)表示为:总体率=,相应的样本率p(9.6)二项分布变量 X 的标准差用绝对数表示时的计算公式为:,(9.7),二项分布变量的标准差用相对数(率)表示时,称为率的标准误,总体率的标准误记为p,样本率的标准误记为Sp,计算公式为:,(9.8),二、Poisson分布 Poisson分布(Poisson distribution)是一种重要的离散型分布

5、。适用条件:两分类的资料;所考察的事件发生率(一般用大样本率p来估计)很小,n很大,n(或np)为一不大的常数;事件的发生是独立的,如各病人的患病与否与他人无关。如人群中,对某种物质中过敏的人数,遗传缺陷、癌症等非传染性疾病的发病例数;又如大量产品中不合格品出现的次数;用显微镜观察片子上每一格子内的细菌数;细胞发生某种变化或细菌死亡的数目等等,都服从或近似服从Poisson分布。Poisson分布可视为二项分布的特例。Poisson分布常用于研究单位容积(或面积、时间)内稀有事件发生数的规律。,1定义 若随机变量 X 的概率函数为,(x=0,1,2,)(9.9),参数系Poisson分布的总体

6、均数(即数学期望),=。,2Poisson分布的均数、方差 Poisson分布的总体均数=n,相应的样本均数=n p,式中为稀有事件发生的概率(很小),未知时,用大样本率 p 来估计。式(9.10)的意思是:稀有事件在n(n很大)次试验中平均发生n次(未知时,用大样本率 p 来估计)。Poisson分布的方差=均数3Poisson分布的分布函数为,(9.10),4Poisson分布具有可加性 如果相互独立的 k 个随机变量都服从Poisson分布,则它们之和仍服从Poisson分布,且均数为 k 个随机变量的均数之和。如果以较小的度量单位观察某一现象的发生数呈Poisson分布时,把若干个小单

7、位合并为一个大单位后,总计数亦呈Poisson分布,其均数等于以较小的度量单位时的均数之和。例如已知某放射性物质每10分钟放射脉冲数呈Poisson分布,5次测量的结果分别为35,34,36,38,34次,那么50分钟的脉冲数x=35+34+36+38+34=177次,亦呈Poisson分布。Poisson分布资料常利用可加性原理使均数20,以便用正态近似法处理。,5三种分布的渐近关系 二项分布、Poisson分布和正态分布,是三种基本的也是最重要的概率分布,它们之间有着密切的渐近关系,若所考察的事件发生率为p,试验次数为n,则如图9-3。(1)二项分布资料,当0.150时,可用正态分布法近似

8、计算;当p0.9,n50,均数np10时,可用Poisson分布法近似计算;(2)Poisson分布资料,当均数20时,可用正态分布法近似计算。,第一节 分类资料的统计描述,分类资料的统计描述除用频数表示外,更多是用相对数(relative number)。如表7-1的栏,表7-1第、列,都是将分类资料的观察结果,按照分析的要求,分类汇总统计观察单位数(频数),列出的分类资料频数分布表。表7-1中第、两栏及表7-1第列的数据都是绝对数。绝对数说明实际发生的绝对水平,是统计分析的基础。但仅使用绝对数,不能进行比较分析研究,故常计算两个有联系的指标之比,统称为相对数。常用相对数有比、构成比和率。,

9、相对数,表7-1 某年某医院外科病区院内感染发生数及其相对数,表 7-1的栏,表9-3第、列,都是将分类资料的观察结果,按照分析的要求,分类汇总统计观察单位数(频数),列出的分类资料频数分布表。表9-2中第、两栏及表9-3第列的数据都是绝对数。绝对数说明实际发生的绝对水平,是统计分析的基础。但仅使用绝对数,不能进行比较分析研究,1,常用相对数,1比(ratio)亦称相对比(relative ratio),是两个有关指标之比,是说明两对比水平的指标。对比的数量可以是绝对数、相对数或平均数,可以是性质相同,也可以是性质不相同。例如,变异系数CV=(标准差/均数)100%,就是一个相对比。,习惯上,

10、若甲指标大于乙指标,相对比的结果用倍数表示;若甲指标小于乙指标,相对比的结果用百分数表示。如表9-2第栏中,各病区与普外病区院内感染发生数之比分别为69/71,34/71,53/71,即0.97,0.48,0.75。说明各病区院内感染发生数分别为普外病区的97%,48%,75%。又如,我国最早的古典医籍五十二病方载药240种,,发展到明代李时珍集古代医药之大成的科学巨著本草纲目,载药已达1892种,相对比1892/240=7.88,说明本草纲目载药为五十二病方载药的7.88倍。,2构成比(constituent ratio)又称构成指标。说明某事物内部各组成部分在该事物整体中所占的比重或分布,

11、如说明药物的成份构成,或疾病的死因构成、年龄别构成、性别构成、职业构成等,常以百分数表示,计算公式为:,3率(rate)又称频率指标,它指一定条件下某现象发生的频率或强度。如说明治疗的有效率、疾病的病死率等。常用符号表示总体率,而用符号p表示样本率。率的计算公式为:,式中的100%或1000为比例基数。选择依据:习惯,如有效率、感染率、治愈率、病死率习惯用百分率表示;出生率、死亡率习惯用千分率表示。使算得的率至少保留一、二位整数,如恶性肿瘤的死亡率多采用十万分率表示。,4率的标准误 类似于均数的抽样误差,在抽样研究中所获得的样本率与总体率也存着率的抽样误差。表示率抽样误差大小的统计指标称为率的

12、标准误(standard of rate)。由于总体率和总体率的标准误一般未知,常用样本率p来估计总体率,用样本率的标准误sp来估计总体率的标准误:,一般说来,用样本率 p 来估计总体率时,至少 n 应大于30。,率的标准误是衡量样本率稳定性和可靠性的统计指标,它反应率的抽样误差大小,率的标准误越小,表示率的抽样误差越小,用以估计总体率的可靠性就越大。反之,如果率的标准误越大,则由样本率估计总体率的可靠性越小。,5.应用相对数时应注意的问题,(1)计算相对数的分母不宜过小。观察单位数够多时,计算出的相对数较稳定,可以正确反映实际情况。但观察单位过少即分母过小时,计算出来的相对数不稳定,这时最好

13、直接用绝对数表示;必须用相对数时,应同时列出其可信区间。但动物实验可例外,因动物实验可以周密设计,精选对象,严格控制实验条件,例如有的毒理实验,每组用10只小白鼠也可以观察反应率或死亡率。,(2)进行率的对比分析时,应注意资料有可比性。除了被研究的因素之外,其余可能影响指标的重要因素应控制在“齐同对比”的条件下。若两组分类资料的诊断标准或疗效判断标准不一致,则组间缺乏可比性;若两组资料内部构成(如病人的性别、年龄、病程及病情等)缺乏齐同性,则两个总率也不能直接进行比较。如果需要直接比较总率,为了消除某一混杂因素(如年龄,职业,病性等)对观察结果的影响,可作率的标准化处理。,3)避免“以比代率”

14、,“比”、“率”误用。例如临床研究报告中,常用病人的资料来分析疾病与年龄、性别、职业等因素的关系,所计算的相对数一般都是构成比,不能作为率来分析。,(4)样本率(或构成比)的比较,不能仅凭表面数值大小下结论,应进行假设检验。,2,临床诊断试验评价方法的相对数,一项新的临床诊断试验的评价,应该是将该试验与一种较为理想的、公认的标准诊断方法进行对比分析而得出的结论。标准诊断亦称金标准(gold standard)指能较为准确地区分阳性与阴性的诊断方法。临床上常以活体组织检查、手术、尸体解剖、长期追踪观察或其他可靠的方法作为标准诊断。新的诊断方法与金标准对比,一定要有某方面的优点,才能进行推广,否则

15、予以摒弃。,1诊断试验评价中四格表资料的相对数 下面用表9-4的模式,作为诊断试验收集整理出的四格表(four-fold table)资料,介绍诊断试验评价中四格表资料的相对数及其计算公式。,敏感度(Sesitivity,Se):敏感度即真阳性率(true positive rate,TPR),是指实为阳性时该试验诊断为阳性的比例,表示该试验具有正确地识别阳性的能力。按照金标准确定阳性的病例数为(a+c),用诊断性试验确定的阳性病例数为a,敏感度Se为,Se(%)TPR=,(9.4),特异度(specificity,Sp):特异度即真阴性率(true positive rate,TNR),是指

16、实为阴性时该试验诊断阴性的比例,表示该试验具有正确地识别阴性的能力。按照金标准排除的病例数为(b+d),用诊断试验所排除的病例数为d,特异度Sp为,Sp(%)TNR=,(9.6),诊断效率(diagnostic efficiency,DE):诊断效率即该试验诊断的准确率,是指真阳性数、真阴性数占总例数的比例:,诊断效率DE应大于50%,且波动在50100%范围内。DE值愈大,临床应用价值愈好,DE小于等于50%的试验应予废弃,敏感度Se和特异度Sp从正面说明诊断实验的效能,诊断效率DE则综合说明诊断实验的效能。,预断值(predictive value):预断值是指试验结果提示本病存在或不存在

17、的可能性。分为阳性预断值与阴性预断值。,阳性预断值PPV(%)=a/(a+b)100%(9.9)阴性预断值NPV(%)=d/(c+d)100%(9.10),患病率(prevalence):患病率为被检人群中,确诊病例的比值。患病率=(a+c)/(a+b+c+d)(9.11)诊断指数(diagnostic index,DI):诊断指数是敏感性与特异性的总和,反应诊断试验的有效程度,故 诊断指数 DI(%)=Se+Sp(9.12)诊断指数DI值越大,诊断试验的应用价值也越大,当DI100%,这种试验应淘汰。,漏诊率(false negative rate,FNR):漏诊率FNR即假阴性率。漏诊率F

18、NR=c/(a+c)100%=1Se(9.13)c/(a+c)+a/(a+c)=(a+c)/(a+c)=1,可知漏诊率与敏感度互补。在统计学上,将假阴性的概率以表示,1=把握度,从诊断性试验来看,可认为 把握度=1=敏感性。误诊率(false positive rate,FPR):误诊率FPR即假阳性率。误诊率FPR=b/(b+d)100%=1Sp(9.14),b/(b+d)+d/(b+d)=1,可知 假阳性率和真阴性率互补。在统计学上,将假阳性的概率以表示,从诊断性试验来看,可认为 误诊率FPR=1Sp=(9.15)由式(9.14)可知:置信水平(1)=特异度Sp。漏诊率和误诊率是从不足的一

19、面来说明诊断实验的效能。,(9)可用度(diagnostic availablity,DA),可用度DA=,(9.16),任何一个诊断性试验的可用度范围波动应在01之间,一般认为,只有DA0.5的实验才有利用价值。,例9.2 湖南中医学院研究的血吸虫病肝纤维化气虚血瘀证判别模型回代检验结果见表9-5,试评价该判别模型的诊断效果。,敏感度Se=a/(a+c)100%=(36/39)100%=92.31%;特异度Sp=d/(b+d)100%=(40/45)100%=88.89%;诊断效率(准确率)DE=(a+d)/(a+b+c+d)100%=90.48%,可用度DA=,Youden指数A=SeSp

20、100%=81.20%;阳性预断值PPV=a/(a+b)100%=87.80%;阴性预断值NPV=d/(c+d)100%=93.02%;漏诊率FNR=c/(a+c)100%=1Se7.69%;误诊率FPR=b/(b+d)100%=1Sp=11.11%。可见所建立的数学判别模型对气虚血瘀的诊断辨别具有良好的判别效果,在敏感度、特异度、诊断效率及可用度等都达到了满意的效果。,Youden指数(记为Y):Youden指数Y反映该试验在诊断中的正确率。Youden指数又称正确指数:Youden指数Y=1或Y=Se+Sp1(9.17),Youden指数的取值范围在(-1,+1)之间,越接近于+1,诊断中

21、的正确性越好。Youden指数的意义与诊断指数DI基本相同。视Se与Sp同等重要时,有改良Youden指数Y=Se+Sp+4SeSp/(Se+Sp)22(9.19),似然比:似然比是患本病与未患本病的概率比值,分阳性似然比与阴性似然比。,阳性似然比(记为+LR)是指该项诊断试验诊断为阳性时,其正确诊断真正有病的可能性与误诊率之比的多少倍:阳性似然比+LR=真阳性率/假阴性率=Se/(1Sp)=Se/FPR(9.20)阳性似然比+LR反映了诊断试验判断正确的可能程度,取值范围在(0,+)之间,其值越大,该项检测方法证实阳性的能力越强 阴性似然比(记为-LR)是指该项诊断试验获得阴性结果时,其漏诊

22、者为真正无病人数的多阴性似然比-LR=假阴性率/真阴性率=(1Se)/Sp(9.21)阴性似然比-LR反映诊断试验判断错误的可能程度,取值范围在(0,+)之间,其值越小,检测方法排除阳性的能力越好。,3.不同类型疾病的评价指标的选择,1常用的判断预后指标的计算公式,病死率(%)=100%(9.34),(2)治愈率(cure rate)主要用于病程短且死亡率低的疾病,是预后程度与医疗水平的标志,它的生物学意义恰与病死率相反。计算公式为:,治愈率(%)=100%(9.35),(1)病死率(case-fatality)主要用于病程短但死亡率较高的疾病。它既可说明疾病预后的严重程度,又是诊断与医疗水平

23、的重要标志。计算公式为:,(3)存活率(survival rate)常用于反映恶性肿瘤或其它死亡率较高疾病在一定时间内的存活频率。计算公式为:,存活率=100%(9.36),(4)缓解率(remission rate)与复发率(recurrence rate)主要用于病程长、慢性疾病。,缓解率(%)=100%(9.37),复发率(%)=100%(9.38),2不同类型疾病的评价指标的选择 见表9-7。,3选择评价指标时的注意事项(1)对所选指标最基本的要求客观性:指标有客观的记录,如心电图等特异性:如脱落细胞检查诊断胃癌等灵敏性:能测定出反应的微小变化的“阈值”,如脑血流图等精确性:系指准确度

24、和精确度而言。理想的指标是既准确又精密 重现性:在相同的条件下,不管谁作重复试验都能得出相同的评价结果。从统计学角度考虑,一般认为客观指标比主观指标敏感,计量指标比记数指标敏感。(2)以病死率或存活率、治愈率、缓解率等反映预后,虽然简明,但只是提供了一个时点的预后信息,并未反映预后的全貌。单纯比较两组存活率或死亡率)等以说明疗效和预后的差异,仅适于急性疾病。对于大多数疾病,特别是慢性疾病,单个时点存亡比较是相对片面的,正确的作法是进行生存率分析,第六节 总体率的可信区间,样本率 p是总体率 的点估计(无偏估计),与总体均数的估计一样,由于样本率 p 与总体率之间存在着抽样误差,除了点估计以外,

25、常需根据样本率 p 推算总体率以一定的概率所在的范围,即总体率的可信区间.下面介绍查表法和正态近似法求总体率的可信区间。,1查表法(1)二项分布资料:总体阳性发生率为时,在 n 次独立重复试验中,阳性的发生次数 X 是一个服从二项分布的随机变量,阳性的发生次数 X 取某一确定值 x 的概率为:,Pn(x)=Cnxx(1)n x(9.46),最多有 x 例为阳性的累计概率为:,P(Xx)=Pn(0)+Pn(1)+Pn(x)(9.47),最少有 x 例为阳性的累计概率为:,P(X x)=Pn(x)+Pn(x+1)+Pn(n)(9.48,求阳性总体率的1可信区间实际上是求满足P(12)=1的1、2。

26、即求满足式(9.49)的1,以及满足式(9.50)的2:,P(X x1)=Cnx1x(11)nx+Cnx+1(11)n x1+.+1n=/2(9.49),P(Xx2)=(12)n+Cn12(12)n1+.+Cnx2x(12)nx=/2(9.50),据此,统计学家编制了二项分布的总体率可信区间表(见附表5),当二项分布资料的样本例数 n 较小,比如n50时,由附表 1 直接查总体百分率的95%或99%可信区间甚为方便。,例9.3 给10只同品系动物分别注射某药物,结果4只死亡,那么,对该品系的动物说来,注射该药物后死亡的概率约为40%左右,但这只是点估计,实际上,死亡概率不会恰好是40%,需求死

27、亡率的95%可信区间,以n=10,x=4查附表5,二项分布的总体率可信区间表,得其95%的可信区间为(12%,74%)。,注意:附表 1 只列出xn/2 的部分,当xn/2 时,应以(nx)值查表,然后用100减去查得的数值,即为所求可信区间。,例9.4 用某中医疗法矫治15名学生的近视眼,其中10名有效,求其总体有效率的95%可信区间。,本例n=15,x=10,附表5中未列出,先以x=1510=5查附表5,在n=15的横行和x=5的纵列交叉处95%可信区间的数值1262,再10012=88,10062=38,所以该中医疗法矫治近视眼总体有效率的95%可信区间为3888%。,本例95%可信区间

28、的下限为0.38,表明总体有效率=38%时,治疗15例的有效例数虽可达到10例乃至10例以上,但概率只有0.025!可用二项分布变量的概率分布规律验证,当=0.38时:,P(X 10)0.3810(10.38)5+0.3811(10.38)4+.+0.3815 0.025,类似地,总体有效率的95%可信区间上限为0.88表明,即使总体有效率=88%,治疗15例的有效例数可能会低于10例,但可能性不大,其概率只有0.025,可用二项分布变量的概率分布规律验证,当=0.88时:,P(X10)(10.88)15+0.88(10.88)14+.+0.8810(10.88)5 0.025,2正态近似法,

29、(1)二项分布资料:当每次抽取的样本含量n不是太小时,样本率的分布亦近似正态分布,因此,可用正态近似法按正态分布的规律求总体率的(1)可信区间,公式为:,(pu Sp,p+u Sp),缩写为puSp,式中 p 为样本率,sp为率的标准误,u为标准正态分布水准下的界值(为常量),例如求95%可信区间时,=0.05,双侧u0.051.96,单侧u0.051.64;求99%可信区间时,=0.01,双侧u0.02.58,单侧u0.012.33。,总体率的95%可信区间:,双侧时,缩写公式为 p1.96sp,单侧时,公式为 p1.64sp 或 p+1.64sp,总体率的99%可信区间:,双侧时,缩写公式

30、为 p2.58sp,单侧时,公式为 p2.32sp 或 p+2.32sp,例9.6 用中药与针灸治疗石淋病160例,有效81例,p=50.63%,sp=3.95%,估计总体有效率的95%、99%可信区间分别为:,p1.96 sp50.63%1.963.95%=42.958.3%,p2.58 sp50.63%2.583.95%=40.460.8%,注意:n 较小时,不能用正态近似法求总体率的可信区间,例如,在n=2,p=50%时,sp=35.35,,1.96 sp=1.9635.35%=69.29%,p1.96 sp 已就超过0%100%了。,表9-1是用正态近似法推算总体率可信区间时所需 p及

31、 n 大小的参考数字。例如 p=50%时,需 n 在 30及以上方能用正态近似法推算总体率的可信区间。,第七节 样本率与总体率的比较,样本率与总体率比较的目的,是推断样本所代表的未知总体率与已知总体率是否相等。,一、利用概率函数计算概率,1利用二项分布的概率函数计算概率(1)当从阳性率为的总体中随机抽检n例时,其中恰有x例为阳性的概率可按二项分布的概率函数式(9.46)计算。(2)从阳性率为的总体中随机抽取n例,最多有x例为阳性的概率可按二项分布的分布函数F(x)=P(Xx)=Pn(0)+Pn(1)+Pn(x)计算。(3)从阳性率为的总体中随机抽取n例,最少有x例为阳性的概率可按式(9.48)

32、计算。,例9.6 用某中药单方治疗某病,治愈率=60%,未愈率40%,问:15人全部治愈的概率;治愈14人的概率;今用某中药复方治疗该病15人,结果有1人未愈,该复方疗效是否较单方好?本例,=60%,可用二项分布函数计算,按式(9.46):,15人全部治愈的概率为P15(15)C15150.6015(1-0.60)1515(0.60)150.00047;治愈14人的概率为P15(14)0.6014(1-0.60)151415(0.60)14(0.4)0.0047;H0:复方疗效单方疗效(60%);H1:复方疗效较单方为好(60%)。=0.05,虽然题中受试者15人结果有1人未愈,但可考虑1人未

33、愈及更少人未愈的情形,而P15(未愈人数1)=P15(未愈人数=0)+P15(未愈人数=1)=1(0.40)0(0.60)15+15(0.40)1(0.60)140.00517。因P=0.005170.05,按所取=0.05水准,拒绝H0,接受H1,可以认为中药复方治疗该病较单方为好。,如使用SPSS11.5统计软件,建立数据文件L9.8.sav以后,(1)先加权频数变量:Data Weight Cases(加权观测),选择Weight Cases by,指定例数,OK。,2)再 Analyze,Nonparametric Tests,指定检验变量为效果,因题给治愈率=60%,在Test Pr

34、oportion框中键入0.60代替系统默认值0.5;在Define Dichotomy(定义二分值)框中选Get from data(设定的变量只有两个取值,直接从原始数据中读取),OK。输出结果:样本治愈率为0.9,单侧精确概率为0.005。拒绝H0,可以认为中药复方治疗该病较单方为好。,二、u 检验 1二项分布资料 当n足够大,或(1)均不太靠近0或1,且n与n(1)均大于5时,二项分布接近正态分布,故二项分布资料的样本率与总体率比较可用u检验。检验统计量为:,式中x为阳性频数;0为已知总体率;n为样本含量,式中p=x/n,其余符号同上.n 较小时,宜用校正式(9.61),例9.8 根据

35、以往经验,一般胃溃疡病患者有20%发生胃出血症状。现某医院观察65岁以上胃溃疡病人304例,有96例发生胃出血症状。问老年胃溃疡患者是否比较容易出血?H0:=20%即老年患者的胃出血率与一般患者相同)H1:20%(即老年患者的胃出血率高于一般患者)。=0.05。如用计算器,老年患者的样本出血率=96/304=31.6%,,统计量u 单侧界值u0.01=2.33,P0.01。按=0.05水准拒绝H0,接受H1,可认为老年胃溃疡病患者较一般患者容易发生胃出血。,第八节 两样本比较的 u 检验,分类资料的两样本比较,样本含量大于50时,可用 u 检验;样本含量小于40或有理论频数小于1时,可用四格表

36、确切概率法;样本含量大于或等于40,且理论频数大于1时,可用四格表的Pearson卡方检验法。本节介绍分类资料的 u 检验法。,例9.30 用某中草药治疗慢性支气管炎患者,其中吸烟组治疗86人,显效35人,不吸烟组治疗107人,显效82人,试问吸烟与不吸烟组显效率是否相同?,H0:1=2;H1:12。=0.05 吸烟组:n1=86,x1=35,显效率为p1=x1/n10.4070,不吸烟组:n2=107,x2=85,显效率为p2=x/n0.7664,合并样本率p=(x1+x2)/(n1+n2)=(35+85)/(86+107)=0.6062,,u=(p1p2)/sp1p2-5.0119。,因u2.58,P0.01,按所取=0.05水准拒绝H0,接受H1。可认为用该中药治疗慢性气管炎不吸烟组的显效率高于吸烟组。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号