几种常见离散型变量的分布及其应用.ppt

上传人:牧羊曲112 文档编号:6554020 上传时间:2023-11-12 格式:PPT 页数:81 大小:1.19MB
返回 下载 相关 举报
几种常见离散型变量的分布及其应用.ppt_第1页
第1页 / 共81页
几种常见离散型变量的分布及其应用.ppt_第2页
第2页 / 共81页
几种常见离散型变量的分布及其应用.ppt_第3页
第3页 / 共81页
几种常见离散型变量的分布及其应用.ppt_第4页
第4页 / 共81页
几种常见离散型变量的分布及其应用.ppt_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《几种常见离散型变量的分布及其应用.ppt》由会员分享,可在线阅读,更多相关《几种常见离散型变量的分布及其应用.ppt(81页珍藏版)》请在三一办公上搜索。

1、第六章 几种常见离散型变量的分布和应用,宁夏医科大学公共卫生学院流行病与卫生统计学系主讲人 李吴萍 教授,Distribution and Application of Discrete Data,一、二项分布条件与性质(二分类变量)一)、Bernoulli试验 在医学科研中,很多情况可归纳为观察随机试验中某事件是否发生。如观察某药物是否有效;观察某指标的化验结果是否为阳性。这些试验的共同的特征是一次试验只有两种独立的结果:事件发生或事件不发生,这种试验称为Bernoulli试验(或成败试验)。,第一节 二项分布,Bernoulli试验序列满足以下三个条件的 n 次试验构成的序列称为Berno

2、ulli试验序列。1)各观察单位只能是具有相互对立的一种结果,如阳性或阴性,生存和死亡等。2)已知发生某一结果(如阳性)的概率为,其对立结果的概率为1-。实际工作中要求 是从大量观察中获取的比较稳定的数值。3)n个观察单位结果互相独立,即每个观察结果不会影响到其它观察单位结果。,例 6-1 设小白鼠接受某种毒物一定剂量时,其死亡率为80%,对于每只小白鼠来说,其死亡概率为0.8,生存概率为0.2。现对3只小白鼠进行实验观察。结果见下表满足Bernoulli试验序列三个条件:一、二分类资料;二、因每次实验条件不变,每只动物的死亡概率是相同的;三、每只动物的生与死不影响其它动物。,互不相容事件的加

3、法定理,其中X=0,1,2,n。n,是二项分布的两个参数。,对于任何二项分布,总有,构成Bernoulli试验序列的n次实验中,事件A出现的次数X的概率分布为:,二项式展开各项就是每种组合的概率其一般表达式为:由于各观察单位是独立的,则从该总体中随机抽取n例,其中恰有x例是阳性的概率为二项式展开,记作,称为二项分布的概率函数,即,两种累计方式:最多有k例阳性概率 最少有k例阳性的概率,二项分布的累计概率(cumulative probability),例6.2 已知某地玉米的黄曲霉污染率近年为20%。若抽取10个样品作检查,求(1)污染样品数不超过一个的概率。(2)污染样品数在8个以上的概率。

4、解:,二)二项分布的适用条件1.每次试验只会发生两种对立的可能结果 之一,即分别发生两种结果的概率之和 恒等于1;2.每次试验产生某种结果(如“阳性”)的 概率固定不变;3.重复试验是相互独立的,即任何一次试 验结果的出现不会影响其它试验结果出 现的概率。,在上面的例6-1中,对这10名非传染性疾病患者的治疗,可看作10次独立的重复试验,其疗效分为有效与无效,且每一名患者治疗有效的概率(=0.70)是恒定的。这样,10人中发生有效的人数XB(10,0.70)。,1、二项分布的均数与方差 若X服从二项分布,它的概率为,样本例数为n,可简记为XB(N,)则:X的均数 X的方差 X的标准差,三)二项

5、分布的性质,若以率表示,则样本率 p 的总体均数为则样本率 p 的总体方差为 则样本率 p 的总体标准差为,样本率的标准差也称为率的标准误,可用来描述样本率的抽样误差,率的标准误越小,则率的抽样误差就越小。在一般情形下,总体率往往并不知道。此时若用样本资料计算样本率p=X/n作为的估计值,则 的估计为:,例6-3 在观测一种药物对某种非传染性疾病的治疗效果时,用该药治疗了此种非传染性疾病患者100人,发现55人有效,计算率的抽样误差。,2、二项分布的图形特征,二项分布图形由参数n和决定,当=0.5时,分布是对称的,见图6-1,2、二项分布的图形特征,当0.5时,分布是偏态的,但随着n的增大,分

6、布趋于对称。当n 时,只要不太靠近0或1,二项分布则接近正态分布,见图6-2。,图6-2,二、二项分布的应用,(一)总体率的区间估计1.查表法 2.正态近似法,二、二项分布的应用,1.查表法 对于n 50的小样本资料,直接查附表6百分率的95%或99%可信区间表,即可得到其总体率的可信区间。例6-2 在对13名输卵管结扎的育龄妇女经壶腹部-壶腹部吻合术后,观察其受孕情况,发现有6人受孕,据此资料估计该吻合术妇女受孕率的95%可信区间。,二、二项分布的应用,附表6只列出 的部分。当 时,可先按“阴性”数n-X查得总体阴性率的1-可信区间QLQU,再用下面的公式转换成所需的阳性率的 1-可信区间。

7、PL=1-QU,PU=1-QL例6-2 在对13名输卵管结扎的育龄妇女经壶腹部-壶腹部吻合术后,观察其受孕情况,发现有7人受孕,据此资料估计该吻合术妇女受孕率的95%可信区间。,二、二项分布的应用,2.正态近似法 根据数理统计学的中心极限定理可得,当n较大、不接近0或1时,二项分布B(n,)近似正态分布,而相应的样本率p的分布也近似 正态分布。为此,当n较大、p和1-p均不太小,如np和n(1-p)均大于5时,可利用样本率p的分布近似正态分布来估计总体率的可信区间。,的 可信区间为:如:的95%可信区间为 的99%可信区间为,例 在某镇按人口的1/20随机抽取329人,作血清登革热血凝抑制扩抗

8、体反应检验,得阳性率为8.81%,求此阳性率的抽样误差 Sp及总体阳性率的95%可信区间。本例n=329,p=8.81%,则其抽样误差为:则其总体率的95%可信区间为:,(二)样本率与总体率的比较1.直接法 在诸如疗效评价中,利用二项分布直接计算有关概率,对样本率与总体率的差异进行有无统计学意义的比较。比较时,经常遇到单侧检验,即“优”或“劣”的问题。那么,在总体阳性率为的n次独立重复试验中,下面两种情形的概率计算是不可少的。,(1)出现“阳性”的次数至多为k次的概率为:(2)出现“阳性”的次数至少为k次的概率为,例6-4 据报道,对输卵管结扎了的育龄妇女实施壶腹部-壶腹部吻合术后,受孕率为0

9、.55。今对10名输卵管结扎了的育龄妇女实施峡部-峡部吻合术,结果有9人受孕。问实施峡部-峡部吻合术妇女的受孕率是否高于壶腹部-壶腹部吻合术?显然,这是单侧检验的问题,其假设检验为H0:=0.55H1:0.55=0.05,对这10名实施峡部-峡部吻合术的妇女,按0.55的受孕率,若出现至少9人受孕的概率大于0.05,则不拒绝H0;否则,拒绝H0,接受H1。本例n=10,=0.55,k=9。按公式(6-12),按=0.05水准,拒绝H0,接受H1,即认为实施峡部-峡部吻合术妇女的受孕率要高于壶腹部-壶腹部吻合术。,2.正态近似法 当n较大、p和1-p均不太小,如np和n(1-p)均大于5时,利用

10、样本率的分布近似正态分布的原理,可作样本率p与已知总体率0的比较。检验统计量u值的计算公式为:,例6-6 对某疾病采用常规治疗,其治愈率为45%。现改用新的治疗方法,并随机抽取180名该疾病患者进行了新疗法的治疗,治愈117人。问新治疗方法是否比常规疗法的效果好?本例是单侧检验,记新治疗方法的治愈率为,而0=0.45。其假设检验为H0:=0.45H1:0.45=0.05,本例n=180,p=117/180=0.65查u界值表(t界值表中 v为 的一行)得单侧 P0.005。按=0.05水准,拒绝H0,接受H1,即新的治疗方法比常规疗法的效果好。,(三)两样本率的比较两样本率的比较,目的在于对相

11、应的两总体率进行统计推断。设两样本率分别为p1和p2,当n1与n2均较大,且p1、1-p1及p2、1-p2均不太小,如n1p1、n1(1-p1)及n2p2、n2(1-p2)均大于5时,可利用样本率的分布近似正态分布,以及独立的两个正态变量之差也服从正态分布的性质,采用正态近似法对两总体率作统计推断。,检验统计量u的计算公式为:,例6-7 为研究某职业人群颈椎病发病的性别差异,今随机抽查了该职业人群男性120人和女性110人,发现男性中有36人患有颈椎病,女性中有22人患有颈椎病。试作统计推断。H0:1=2H1:12=0.05,本例n1=12,X1=36,p1=X1/n1=36/120=0.30

12、n2=110,X2=22,p2=X2/n2=22/110=0.20,查u界值表得0.05P0.10。按=0.05水准,不拒绝H0,即尚不能认为该职业人群颈椎病的发病有性别差异。,(四)研究非遗传性疾病的家族集聚性 非遗传性疾病的家族集聚性(clustering in families),系指该种疾病的发生在家族成员间是否有传染性?如果没有传染性,即该种疾病无家族集聚性,家族成员患病应是独立的。此时以家族为样本,在n个成员中,出现X个成员患病的概率分布呈二项分布;否则,便不服从二项分布。,例6-8 某研究者为研究某种非遗传性疾病的家族集聚性,对一社区82户3口人的家庭进行了该种疾病患病情况调查,

13、所得数据资料见表6-1中的第(1)、(2)栏。试分析其家族集聚性。,如果该社区的此种疾病存在家族集聚性,则以每户3口人的家庭为样本,在3个家庭成员中,出现X(=0,1,2,3)个成员患病的概率分布即不服从二项分布。为此,可作如下假设检验。H0:该疾病的发生无家族集聚性H1:该疾病的发生有家族集聚性=0.10,本例调查的总人数为:N=823=246(人)其中患病人数为:D=026+110+228+318=120(人)以这246人的患病率估计总体的患病率,即=D/N=120/246=0.49。,在n=3、=0.49时,利用二项分布,求得X=0,1,2,3的概率P(X),并以此得到相应的理论户数。对

14、理论户数与实际户数进行拟合优度(goodness of fit)的检验。此时,自由度=组数2=42=2。计算结果列于表6-1中的第(3)至(7)栏。,以=2 2=42.95 查附表8,P0.005。按=0.10水准,拒绝H0,接受H1,及此项疾病存在家族聚集性。,(五)群检验 在工作中有时会遇到需对收集的一大批标本进行实验室检验,以了解其阳性率的问题。但要在实验室对所有标本一一作阳性认定往往需要大量的人力和物力,也不切实际,使用所谓的群检验技术即可解决这一问题。,群检验的具体做法是,将N个标本分成n群,每群m个标本,即N=mn。每个群都送试验室检验是否为阳性群。对于某群,一旦检验出阳性标本就停

15、止此群中剩余标本的检验,该群即为阳性群。显然,只有对阴性群,才需检验群中所有的m个标本,这样可大大地减少检验标本的个数。,N个标本,n个群,试验阳性,m个标本,试验阴性,阳性群,停止,每例都检验,若记每个标本为阳性的概率为,则1-=QQ是每个标本为阴性的概率,Qm便是某群m个标本均为阴性的概率,即一个群为阴性群的概率,而1-Qm就是一个群为阳性群的概率。假定受检的n个群中有X个群是阳性群,用X/n作为一个群为阳性群概率的估计值,于是便有,这样,阳性概率的估计值为:,利用公式可估计某一地区某种病毒对生物的总体感染率,也可用于混合样品(mixed sample)的分析。,第二节 Poisson分布

16、,Poisson分布(Poisson distribution)作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。Poisson分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。,医学上:诸如人群中遗传缺陷、癌症等发病率很低的非传染性疾病的发病或患病人数的分布,单位时间内(或单位空间、容积内)某罕见事件发生次数的分布,如分析在单位面积或容积内细菌数的分布,在单位空间中某种昆虫或野生动物数的分布等。,所谓随机变量X服从Poisson分布,是指在足够多的n次独立Bernoulli试验中,取值X的概率为,一、Poisson分布的适用条件和性质,(

17、二)Poisson分布的性质1.总体均数 与总体方差 相等是Poisson分布的重要特征。2.当n很大,而很小,且n=为常数时,二项分布近似Poisson分布。3.当 增大时,Poisson分布渐近正态分布。一般而言,20时,Poisson分布资料可作为正态分布处理。,4.Poisson分布具备可加性。即对于服从Poisson分布的m个互相独立的随机变量X1,X2,Xm,它们之和也服从Poisson分布,且其均数为这m个随机变量的均数之和。,(三)Poisson分布的图形不同的参数 对应不同的Poisson分布,即 的大小决定了Poisson分布的图形特征,见图6-3。当 越小,分布就越偏态;

18、当 越大时,Poisson分布则越渐近正态分布。当 1时,随X取值的变大,P(X)值反而变小;当 1 时,随X取值的变大,P(X)值先增大而后变小。如若 是整数,则P(X)在X=和X=-1位置取得最大值。,二、Poisson分布的应用(一)总体均数的区间估计利用服从Poisson分布的样本资料可估计其总体均数 的可信区间。估计方法如下:1.查表法 对于获得的样本计数X,当X50时,直接查附表7的Poisson分布可信区间表,即可得到其总体均数的95%或99%可信区间。,例6-10 某工厂在环境监测中,对一实施了技术改造的生产车间作空气中粉尘浓度的检测,1立升空气中测得粉尘粒子数为21。假定车间

19、空气中的粉尘分布均匀,试估计该车间平均每立升空气中所含粉尘颗粒数的95%和99%可信区间。本例,X=21,查查附表7,该车间平均每立升空气所含粉尘颗粒数的95%可信区间为13.032.0;99%可信区间为11.035.9。,2.正态近似法 当X50时,可采用正态近似法估计总体均数的 可信区间,计算公式为:如:的95%可信区间为,例6-11 某研究者对某社区12000名居民进行了健康检查,发现其中有68名胃癌患者。估计该社区胃癌患病数的95%和99%可信区间。,(二)样本均数与总体均数的比较对于Poisson分布资料而言,进行样本均数与总体均数的比较有两种方法。1.直接法 当总体均数 20时,可

20、采用直接计算概率的方式对样本均数与已知总体均数间的差别进行有无统计学意义的比较,这实质上是对以样本计数X为代表的总体率与已知的总体率0是否有差别进行推断。,例6-12 一般人群先天性心脏病的发病率为8,某研究者为探讨母亲吸烟是否会增大其小孩的先天性心脏病的发病危险,对一群2025岁有吸烟嗜好的孕妇进行了生育观察,在她们生育的120名小孩中,经筛查有4人患了先天性心脏病。试作统计推断。,2、正态近似法 根据Poission分布的性质,当20时,可用正态分布来近似。样本计数X与已知均数的比较,采用下式计算标准正态检验统计量。,例6-13 有研究表明,一般人群精神发育不全的发生率为3,今调查了有亲缘

21、血统婚配关系的后代25000人,发现123人精神发育不全,问有亲缘血统婚配关系的后代其精神发育不全的发生率是否要高于一般人群?可以认为人群中精神发育不全的发生数服从Poisson分布。本例n=25000,X=123,0=0.003,=n0=250000.003=75。,(三)两个样本均数的比较对服从Poisson分布的样本,其样本计数可看作是样本均数。两个样本均数的比较,目的在于推断两样本所代表的两总体均数是否有差别。设两个样本计数分别为X1和X2,可利用正态近似法进行比较。,1.两个样本的观察单位数相等,即n1=n2。,2.两个样本的观察单位数不相等,即n1 n2。,例6-14 某卫生检疫机

22、构对两种纯净水各抽验了1ml水样,分别培养出大肠杆菌4个和7个,试比较这两种纯净水中平均每毫升所含大肠杆菌数有无差别?本例水样中的大肠杆菌数服从Poisson分布,两种水样的观察单位数相等,即均为1ml。两样本计数分别记为X1=4和X2=7,X1+X2=7+4=11。选择公式(6-21)来计算检验统计量。,例6-15 某研究者为了分析一种罕见的非传染性疾病发病的地域差异,对甲地区连续观察了四年,发现有32人发病;对乙地区连续观察了三年,发现有12人发病。假定甲、乙两地区在观察期内的人口构成相同,人口基数相近且基本不变,试作统计推断。,本例中疾病的发病人数服从Poisson分布,但对甲地区连续观察了四年(n1=4),而对乙地区只连续观察了三年(n2=3),即两个样本的观察时间单位数不相等。甲、乙两地区在观察期内的发病人数分别记为X1=32和X2=12,X1+X2=32+12=44。选择公式(6-22)来计算检验统计量。,总 结1.二项分布常用于描述变量的结果只有两种的出现规律,2.泊松分布可看成是二项分布的特例,用于小概率事件的发生规律,当然泊松分布专用于空间散点试验模型的出现规律。,二项分布、泊松分布与正态分布的渐进关系,正态分布,二项分布,泊松分布,N很大而 很小,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号