《4h第四章常用概率分布.ppt》由会员分享,可在线阅读,更多相关《4h第四章常用概率分布.ppt(49页珍藏版)》请在三一办公上搜索。
1、第四章 常用概率分布,二项分布,二项分布的概念与特征 一个袋子里有5个乒乓球,其中2个黄球,3个白球,我们进行摸球游戏,每一次摸到黄球的概率是0.4,摸到白球的概率是0.6,这个实验有三个特点:一是各次摸球是彼此独立的;二是每次摸球只有二种可能的结果,或黄球或白球;三是每次摸到黄球(或摸到白球)的概率是固定的。具备这三点,n次中有X次摸到黄球(或白球)的概率分布就是二项分布。,二项分布,例4-1 用针灸治疗头痛,假定结果不是有效就是无效,每一例有效的概率为,。某医生用此方法治疗头痛患者5例,3例有效的概率是多少?因为每例有效的概率相同,且各例的治疗结果彼此独立,5例患者中可以是其中的任意3例有
2、效,二项分布,医学研究中很多现象观察结果是以两分类变量来表示的,如阳性与阴性、治愈与未愈、生存与死亡等等。如果每个观察对象阳性结果的发生概率均为,阴性结果的发生概率均为(1);而且各个观察对象的结果是相互独立的,那么,重复观察n个人,发生阳性结果的次人数X的概率分布为二项分布,记作B(X;n,)。,二项分布,二项分布的概率函数P(X)可用公式(4-1)来计算。,二项分布,例4-2 临床上用针灸治疗某型头痛,有效的概率为60%,现以该法治疗3例,其中两例有效的概率是多大?,二项分布,表4-1 治疗3例可能的有效例数及其概率,二项分布,由表4-1可知,各种可能结果出现的概率合计为1,即P(X)=1
3、(X=0,1,n)。因此,如果欲求1例以上有效的概率可以是P(x1)=P(1)+P(2)+P(3)=0.288+0.432+0.216=1P(0)=10.064=0.936也可以是P(x1)=1P(0)=10.064=0.936,二项分布,二项分布的特征二项分布的图形特征 接近0.5时,图形是对称的;图4-1 离0.5愈远,对称性愈差,但随着n的增大,分布趋于对称。图4-2 当n时,只要不太靠近0或1,当nP和n(1P)都大于5时,二项分布近似于正态分布。二项分布图形取决于与n,高峰=n处,二项分布,图4-1=0.5时,不同n值对应的二项分布,二项分布,图4-2=0.3时,不同n值对应的二项分
4、布,二项分布,二项分布的均数和标准差 总体均数:方差:标准差:,二项分布,如果将出现阳性结果的频率记为总体均数:标准差:,二项分布,例4-4 研究者随机抽查某地150人,其中有10人感染了钩虫,钩虫感染率为6.7%,求此率的抽样误差。,二项分布,二项分布的应用(一)概率估计 例4-5 如果某地钩虫感染率为13%,随机观察当地150人,其中有10人感染钩虫的概率有多大?从n=150,=0.13的二项分布,由公式(4-1)和(4-2),二项分布,可以得出150人中有10人感染钩虫的概率为,二项分布,单侧累积概率计算二项分布出现阳性的次数至多为k次的概率为出现阳性的次数至少为k次的概率为,二项分布,
5、例4-6 例4-5中某地钩虫感染率为13%,随机抽查当地150人,其中至多有2名感染钩虫的概率有多大?至少有2名感染钩虫的概率有多大?至少有20名感染钩虫的概率有多大?,二项分布,根据公式(4-10)至多有2名感染钩虫的概率为至少有2名感染钩虫的概率为,二项分布,至少有20名感染钩虫的概率为,Poisson分布,Poisson分布的概念 Poisson分布也是一种离散型分布,用以描述罕见事件发生次数的概率分布。医学上人群中出生缺陷、多胞胎、染色体异常等事件等都是罕见的,可能发生这些事件的观察例数n常常很大,但实际上发生类似事件的数目却很小很小。,Poisson分布,Poisson分布可以看作是
6、发生的概率(或未发生的概率1)很小,而观察例数n很大时的二项分布。除二项分布的三个基本条以外,Poisson分布还要求或(1)接近于0或1(例如0.999)。,Poisson分布,Poisson分布的特征Poisson分布的概率函数为 式中,为Poisson分布的总体均数,X为观察单位内某稀有事件的发生次数;e为自然对数的底,为常数,约等于2.71828。,Poisson分布,由图4-3可以看到Poisson分布当总体均数值小于5时为偏峰,愈小分布愈偏,随着增大,分布趋向对称。Poisson分布有以下特性:(1)Poisson分布的总体均数与总体方差相等,均为(2)Poisson分布的观察结果
7、有可加性,Poisson分布,图4-3 取不同值时的Poisson分布图,Poisson分布,Poisson分布的应用(一)概率估计例4-7 如果某地新生儿先天性心脏病的发病概率为8,那么该地120名新生儿中有4人患先天性心脏病的概率有多大?=n=1200.008=0.96,Poisson分布,单侧累计概率计算如果稀有事件发生次数的总体均数为,那么该稀有事件发生次数至多为k次的概率 发生次数至少为k次的概率,Poisson分布,例4-8 例4-7中,至多有4人患先天性心脏病的概率有多大?至少有人患先天性心脏病的概率有多大?至多有4人患先天性心脏病的概率至少有人患先天性心脏病的概率为,Poiss
8、on分布,例4-9 实验显示某100cm2的培养皿平均菌落数为6个,试估计该培养皿菌落数小于3个的概率,大于1个的概率。该培养皿菌落数小于3个的概率菌落数大于1个的概率为,正态分布,正态分布的概念正态曲线(normal curve)是一条高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟型曲线该曲线表现为中间高,两边低,左右对称,略显钟形,类似于数学上的正态分布曲线。因为频率的总和等于1,故横轴上曲线下的面积等于1。,正态分布,图4-4 体模“骨密度”测量值的分布接近正态分布示意图(频率密度=频率/组距),正态分布,正态概率密度曲线的位置与形状具有如下特点(1)关于x=对称。(
9、2)在x=处取得该概率密度函数的最大值,在 处有拐点,表现为钟形曲线。(3)曲线下面积为1。(4)决定曲线在横轴上的位置,增大,曲线沿横轴向右移;反之,减小,曲线沿横轴向左移。(5)决定曲线的形状,当恒定时,越大,数据越分散,曲线越“矮胖;越小,数据越集中,曲线越瘦高。见图4-5。,正态分布,u1 u2 u3,不同均数,正态分布,不同标准差,正态分布,对任意一个服从正态分布 的随机变量,可作如下的标准化变换,也称Z变换,Z服从总体均数为0、总体标准差为1的正态分布。我们称此正态分布为标准正态分布(standard normal distribution),用N(0.1)表示。,正态分布,统计学
10、家编制了标准正态分布曲线下面积分布表(附表1),因为正态分布两边对称,所以只给出Z取负值的情况。表内所列数据表示Z取不同值时标准正态分布的分布函数值,此值大小相当于Z值左侧标准正态曲线下面积,记作。,正态分布,例4-9 已知X服从均数为、标准差为的正态分布,试估计:X取值在区间 上的概率:X取值在区间 上的概率。,正态分布,查附表1,。因为曲线下两侧面积对称,区间(1.96,)相应面积也是0.025,故Z取值于(1.96,1.96)的概率为1-20.025=0.95,即取值在区间上的概率为0.95。同理,我们可以求出X取值在 区间上的概率为0.99。,正态分布,正态曲线下面积的分布规律,正态分
11、布,正态分布,正态分布,正态分布,例4-11 某地1986年120名8岁男孩身高均数为=123.02cm,标准差为S=4.79cm,试估计(1)该地8岁男孩身高在130cm以上者占该地8岁男孩总数的百分比(2)身高在120cm128cm者占该地8岁男孩总数的百分比;(3)该地80%的男孩身高集中在哪个范围?,正态分布,求Z值:查表:理论上该地8岁男孩身高在130cm以上者占该地8岁男孩总数的7.21%。,正态分布,先计算120 和128所对应的Z值:正态曲线下区间(0.63,1.04)上的面积等于,正态分布,查附表1,标准正态分布曲线下左侧面积为0.10所对应的Z值为1.28,80%的8岁男孩
12、身高集中在 区间内,即116.9cm与129.2cm之间。,正态分布,正态分布的应用(一)确定医学参考值范围医学参考值范围(reference ranges):是指特定的“正常”人群数据中大多数个体的取值所在的范围。人们习惯用该人群95%的个体某项医学指标的取值范围作为该指标的医学参考值范围。,正态分布,确定医学参考值范围的方法有两种:(1)百分位数法:适用于任何分布型的资料。双侧95%参考值范围:(P2.5,P97.5)单侧范围:P95以下,(如血铅、发汞),或P5以上(如肺活量)。(2)正态分布法,正态分布,例4-11 调查某地120名健康女性血红蛋白,直方图显示,其分布近似于正态分布,(g/L),(g/L),试估计该地健康女性血红蛋白的95%参考值范围。因血红蛋白过高、过低均为异常,所以按双侧估计95%医学参考值范围,