《医学统计学第八讲二项分布其应用.ppt》由会员分享,可在线阅读,更多相关《医学统计学第八讲二项分布其应用.ppt(44页珍藏版)》请在三一办公上搜索。
1、第五章 二项分布及其应用,随机变量有连续型和离散型之分,相应的其概率分布也有连续型和离散型。有关连续型分布如正态分布、t分布等在前面的章节中已作了介绍。本章主要介绍在医学中较为常用的离散型分布,即二项分布分布。,二项分布由瑞士数学家贝努利在18世纪提出,故又叫贝努利分布,是常见的离散型分布,在医学上常用于率的抽样研究,如总体率的估计,两样本率的比较。,第一节 二项分布及其应用,贝努利试验:指只有两个互斥结果的试验。如阳性与阴性,生存与死亡,发病与未发病。n次贝努利试验指重复进行n次独立的贝努利试验。又叫贝努利试验序列。,贝努利试验序列特点,每次试验的结果只能是2个互相对立结果中的一个。n个观察
2、单位的结果相互独立。在相同条件下,每次试验结果的概率不变。,二项分布(binomial distribution)是指在n次Bernoulli试验中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,n的概率分布。即:贝努利实验序列中阳性数的概率分布。一般用XB(n,)表示二项分布,n是试验总次数,是试验结果为阳性的概率。,组合(Combination):从n个元素中抽取x个元素组成一组(不考虑其顺序)的组合方式个数记为,复习中学数学概念,概率计算的两个法则乘法法则:n 个独立事件同时发生的概率等于各独立事件概率的积。P(A 1 A 2 A n)=P(A 1)P(A 2)P
3、(A n)加法法则:n个互不相容事件之和的概率等于各事件概率的和。P(A 1 或 A 2 或 或 A n)=P(A 1)+P(A 2)+P(A n),二项分布的定义,二项分布是n次贝努利试验中发生某种结果为x次的概率分布。这种结果(事件A)出现的次数X是一个随机变量,一般用XB(n,)表示二项分布,n是试验总次数,是试验结果为阳性的概率。,例:设小白鼠接受某种毒物一定剂量时。其死亡率为80%,对于每只小白鼠来说,死亡概率()为0.8,生存概率(1)为0.2。如果以甲乙丙三只小白鼠进行实验,分析其死亡情况,结果见下表。(假设小白鼠为同种属、同性别、体重接近、对该药物的敏感性相同),由于实验是逐只
4、进行的,因此实验结果是相互独立的,根据概率的乘法法则,可以算出每种排列方式的概率,从而用加法法则得到每种组合的概率。,现关心的是n次贝努利试验中发生某种结果(A)为x次的概率,即二项分布的概率函数:,组合系数,3只白鼠各种试验结果及其发生概率生存数 死亡数 排列 每种排 每种组合的概率 方式 列概率 3 0(1-)3 2 1 X(1-)2 X(1-)2 X(1-)2 1 2 X X 2(1-)X X 2(1-)X X 2(1-)0 3 X X X 3 p=1,二项分布下最多发生k例阳性的概率为发生0例阳性、1例阳性、.、直至k例阳性的概率之和。即:p(xk)=P(X=0)+P(X=1)+P(X
5、=k),X=0,1,2,k,n,二项分布的累计概率,二项分布下至少发生k例阳性的概率为发生k例阳性、k+1例阳性、.、直至n例阳性的概率之和。即 p(xk)=p(x=k)+p(x=k+1)+p(x=n),X=k,k+1,k+2,n,二项分布下发生k1例及以上到k2 例阳性的概率为发生k1例阳性、k1+1例阳性、.、直至k2例阳性的概率之和。即 p(k1 x k2)=p(x=k1)+x(x=k1+1)+x(x=k2),二项分布的均数和标准差,二项分布的总体均数 X=n 二项分布的总体标准差为n(1-)的算术平方根:例5.3中,平均死亡数为3*0.8=2.4(只)标准差为:,按二项分布的概率函数可
6、以绘出其分布图形。图形特征:取决于n 和。,二项分布的图形,(1)=0.5时分布对称,0.5分布偏态,(2)不接近0或1,n较大时,一般地要求n5且n(1-)5,二项分布趋近正态分布。,二项分布的特征为:1.=0.5时,图形对称;2.0.5,n 较小时,图形偏态;3.0.5,n 较大时,图形渐趋对称;4.n 较大(如 50),且 n 5,n(1)5 时,二项分布呈近似 正态分布。,二项分布的应用,二项分布主要用于符合二项分布的分类资料的率的区间估计和假设检验。,医学领域有许多二分类记数资料符合二项分布(传染病和遗传病除外),但应用时仍应注意考察是否满足应用条件:(1)每次实验只有两类对立的结果
7、;(2)n次事件相互独立;(3)每次实验某类结果的发生概率是一个常数。,二项分布的应用条件,进行统计推断时要知道样本率的分布:若 X B(n,),则样本阳性率 p 的概率分布为:其中,样本率p的总体均数p=x/n=n/n=样本率p的总体标准差(即率的标准误)率的标准误的估计值,(一)正态近似法:用于n 50 或np5,且 n(1p)5,则 的(1)可信区间:(二)查表法:用于 n50,p很接近0和1当阳性数X n/2 时,直接查附表3,见p263;当阳性数Xn/2时,由阴性数(n X)查阴性率可信区间,用(1 阴性率可信区间),可得阳性率可信区间。,一、总体率的可信区间估计,二、率的假设检验,
8、(一)样本率与总体率比较比较的目的是推断该样本所代表的未知总体率与已知的总体率0是否相等。(二)两样本率比较的u检验比较的目的是推断该两样本率所代表的总体率1与总体率2是否相等。,(一)样本率与总体率比较,1、直接计算概率法当阳性数x较小时,可直接计算二项分布的累计概率(单侧)进行单侧的假设检验。例1 据以往经验,新生儿染色体异常率一般为1%,某医院观察了当地400名新生儿,只有1例异常,问该地新生儿染色体异常率是否低于一般?,H0:=0.01 H1:0.05 不拒绝H0,例2 据报道,对输卵管结扎了的育龄妇女实施壶腹部-壶腹部吻合术后,受孕率为0.55。今对10名输卵管结扎了的育龄妇女实施峡
9、部-峡部吻合术,结果有9人受孕。问实施峡部-峡部吻合术妇女的受孕率是否高于壶腹部-壶腹部吻合术?显然,这是单侧检验的问题,检验假设为 H0:=0.55 H1:0.55=0.05,对这10名实施峡部-峡部吻合术的妇女,按0.55的受孕率,若出现至少9人受孕的概率大于0.05,则不拒绝H0;否则,接受H1。本例n=10,=0.55,k=9。按公式(6-12)有:,按=0.05水准,拒绝H0,接受H1,即认为实施峡部-峡部吻合术妇女的受孕率要高于壶腹部-壶腹部吻合术。,(一)样本率与总体率比较,2、正态近似法(n较大)当=0.5或n较大,n及n(1-)均大于5时,可用正态近似法进行样本率与总体率,两
10、个样本率比较的u检验。,例:根据以往经验,一般胃溃疡病患者有20%发生胃出血症状,现某医院观察65岁以上溃疡病人304例,有31.6%发生胃出血症状,问老年胃溃疡病患者是否较容易出血?H0:=0.2 H1:0.2=0.05 u=5.062.58,则p0.01,拒绝H0,认为,要求:ni 50且 nipi 5,ni(1 pi)5,(二)两样本率比较的u检验,例:某山区小学男生80人,其中肺吸虫感染23人,感染率为28.75%,女生85人感染13人,感染率为15.29%,问男女生的肺吸虫感染率有无差别?H0:1=2 H1:12=0.05 pc=(23+13)/(80+85)=0.2182查u界值表
11、得0.01p0.05,拒绝H0,接受H1,而认为,第二节 Poisson分布及其应用,由法国统计学家Poisson在1837年提出,也是常见的离散型分布,常用于研究单位时间(或面积、容积)内某罕见事件的发生次数的分布,又称为稀有事件定律。,由泊松定理,n重贝努里试验中稀有事件出现的次数近似地服从泊松分布.,Poisson分布(Poisson distribution)作为二项分布的一种极限情况,已发展成为描述小概率事件发生规律性的一种重要分布。Poisson分布是描述单位面积、体积、时间、人群等内稀有事件(或罕见事件)发生数的分布。,稀有事件,Bortkiewice在1898年研究了10个骑兵
12、队中被马踢死的人的频数分布,共观察了20年,得到200个数据。,医学研究中,单位容积中大肠杆菌数 粉尘在单位容积的数目 放射性物质在单位时间内放射质点数 一定人群中患病率很低的非传染性疾病患 病数(或死亡数)的分布。人群中出生缺陷、多胞胎、染色体异常等事件的分布。,概率函数在足够多的n次贝努利实验中,设随机变量X可能的取值为0,1,2,则取各值的概率分布为:e为自然对数的底,e=2.71828,为大于 0 的常数,称X服从参数为的Poisson分布,记为X P()。,习题解答,3.3:本题推断样本所代表的总体是否与某已知总体相等。因样本量较小,故用直接概率法。H0:=0.3;H1:0.3;a=0.05在H0成立的前提下,10名病人中死亡人数XB(10,0.3),则有,3.6:本题目的是推断样本所在的总体与某已知总体是否相同。由于样本含量较大,且np=63,大于5。故可用正态近似法:,