《概率分布科学学位.ppt》由会员分享,可在线阅读,更多相关《概率分布科学学位.ppt(47页珍藏版)》请在三一办公上搜索。
1、宋曼殳首都医科大学公共卫生学院流行病与卫生统计学系,医学统计学,概率分布,概率分布(probability distribution),概率分布:描述随机变量值xi 及这些值对应概率P(X=xi)的表格、公式或图形连续型随机变量概率分布 正态分布离散型随机变量概率分布 二项分布 Poisson分布,随机变量及其概率分布概述,连续型随机变量(continous random variable)数据间无缝隙,其取值充满整个区间,无法一一列举每一可能值例如:身高、体重、血清胆固醇含量离散型随机变量(discrete random variable)数据间有缝隙,其取值可以列举 例如:抛硬币10次,正
2、面的可能取值x为0、1、2、3、4、5、6、7、8、9、10,一、正态分布,正态分布概念、特征正态曲线下的面积分布规律标准正态分布正态分布的应用 估计频数分布制定医学参考值范围质量控制统计方法的理论基础,概率分布,正态分布的概念和特性,正态分布及其应用,图3-1临产母亲体重频率密度图,图3-2 概率密度曲线示意图,频率密度直方图就近似地反映了一个变量的分布,当样本量n越来越大,而组距越来越小时,就得到该连续变量所在总体的概率分布。可以设想,如果观察例数逐渐增多,组段数也不断增多,就会形成一条光滑曲线图(3),称为正态分布曲线。,正态分布的概念和特性,这条呈中间高、两边低、左右基本对称的“钟形”
3、曲线数学上称为正态分布曲线由于纵坐标相当于概率密度,故叫做正态分布的概率密度曲线,正态分布及其应用,图3-2 概率密度曲线示意图,正态分布曲线略呈钟形,中间高,两头低,以均数为中心,左右对称,均数处最高正态分布的曲线在横轴上方,向两侧逐渐减低,两侧都以横轴为其渐近线正态分布有两个参数,即均数 和 标准差,正态分布的特性,正态分布及其应用,把服从正态分布的变量表示为:XN(,2),正态分布的特性,正态分布曲线的参数的意义均数(位置参数)表示正态分布曲线峰(集中趋势)的位置固定时,增大,曲线沿横轴向右移动 减小,曲线沿横轴向左移动,正态分布及其应用,正态分布的特性,正态分布曲线的参数标准差(变异度
4、参数)表示正态变量取值的离中程度固定时,越大,曲线越宽,表示数据越分散 越小,曲线越窄,表示数据越集中,正态分布及其应用,正态分布的概率密度函数,正态分布及其应用,式中,为总体均数;为总体标准差;=3.14159为圆周率;e为自然对数的底(e2.71828),X为变量,服从正态分布的变量X的概率密度函数f(x)为,图1 正态分布的概率密度函数与分布函数,X 取值落在区间(-,x)内的累积概率为概率密度曲线下位于(-,x)的图形面积,等于其概率密度函数f(x)在-到 x上的积分,记作,为正态分布 的分布函数。其值表示变量X落在区间(-,x)内的概率,对应于从-到x概率密度曲线下的阴影面积(常称为
5、左侧尾部面积),图1 正态分布的概率密度函数与分布函数,图1 正态分布的概率密度函数与分布函数 图2 正态分布的概率,利用分布函数 可以计算正态分布变量取值在任意区间 a,b)的概率为P(aXb)=F(b)-F(a)(其几何意义如图2中阴影部分所示)。由图可得P(Xb)=1-P(Xb)=1-F(b),正态分布曲线下面积的分布规律,正态分布及其应用,服从正态分布的随机变量在一区间上曲线下的面积与该随机变量在同一区间内取值的概率相等正态曲线与横轴所夹面积为1,正态分布曲线下面积的规律,正态分布及其应用,1)正态曲线与横轴所夹的面积为12)位于(-1.64,+1.64)内的面积为0.90,说明正态变
6、量在1.64范围内取值的概率为0.9,在该区间以外取值的概率(两侧的阴影面积之和)为0.1,左右两侧各0.053)位于(-1.96,+1.96)内的面积为0.95,说明正态变量在1.96范围内取值的概率为0.95,在该区间以外取值的概率(两侧的阴影面积之和)为0.05,左右两侧各0.0254)位于(-2.58,+2.58)内的面积为0.99,说明正态变量在2.58范围内取值的概率为0.99,在该区间以外取值的概率(两侧的阴影面积之和)为0.01,左右两侧各0.005,正态分布曲线下面积分布规律示意图,正态分布曲线下的面积分布规律,正态分布曲线下的面积分布规律,正态分布及其应用,正态分布下的概率
7、计算,方法一:利用统计软件计算,方法二:转化为标准正态分布查表计算,曲线下面积的求法:定积分法和标准正态分布法,标准正态分布,当参数 和 已知时,依据正态分布N(,2)的分布函数公式,正态变量取值落在各区间的概率 都归结为正态分布曲线下的面积,只需知道分布函数 F(x)在区间端点处的函数值 就可以算出,但要通过该公式计算F(x)是困难的实际应用中,要把服从一般正态分布N(,2)的随机变量X作如下标准化变换:变换后新的随机变量 z 服从,=0,=1的正态分布,即 ZN(0,1),正态分布及其应用,标准正态分布,指数据经标准化变换后,=0,=1时的正态分布标准正态分布(又称Z分布):ZN(0,1)
8、公式任何一个正态分布,都可以通过变换,成为标准正态分布,正态分布及其应用,X N(m,s2),X,-m,s,Z=,N(0,1),正态分布及其应用,标准正态分布,图中阴影部分的面积表示标准正态变量Z落在(-,z)内的概率即为分布函数 的值,标准正态分布的概率密度曲线与分布函数示意图,正态分布及其应用,标准正态分布,图中阴影部分的面积表示标准正态变量Z落在(-,z)内的概率即为分布函数 的值,标准正态分布的概率密度曲线与分布函数示意图,正态分布的应用,1、估计频数分布标准正态分布,正态分布及其应用,查 标准正态分布表(附表C1)得标准正态变量z落在(-,z)内的概率值,表C1 标准正态分布(z-分
9、布)密度曲线下的面积(z)值自-到-z的面积(-,-z),(z,+)=1-(-,-z),正态分布曲线下面积分布规律示意图,正态分布曲线下的面积分布规律,正态分布的应用,1、估计频数分布,例:140名成年男子红细胞均数和标准差分别为 4.781012/L和 0.371012/L,求红细胞数在4 1012/L5.3 1012/L范围内所占的比例?,正态分布及其应用,正态分布的应用,练习:假定一组男孩的体重呈正态分布,体重均数40kg、体重的标准差4kg,请回答以下问题:(1)体重低于46.6kg的男孩占百分之几?(2)体重大于什么值的男孩占10%?,正态分布及其应用,以z11.65查表,得(z1)
10、0.04950.05(z2)10.050.95 即体重低于46.6kg的男孩占95%,z1 0 z2 40 46.6,?%,z1 0 z2 40,10%,X?,(2)以(z)10%0.10先查表,得z11.28 z2 z1 z21.28,X401.28445.12(kg)即体重大于45.12kg的男孩占10%,2、制定医学参考值范围医学参考值,又称正常值范围,医学上包括绝大多数正常人的某指标值的波动范围确定范围:一般以95%参考值范围最常用按资料特点选取不同方法计算正常值范围的上下限,正态分布的应用,正态分布及其应用,单侧下限-过低异常,单侧上限-过高异常,双侧-过高、过低均异常,根据指标含义
11、决定单、双侧范围,正态分布的应用,2、制定医学参考值范围 依据资料的分布类型有以下两种的常用方法:1)正态近似法 适用于服从正态分布或近似正态分布的资料双侧 参考值范围单侧 参考值范围,或,正态分布的应用,2、制定医学参考值范围 依据资料的分布类型有以下两种的常用方法:1)正态近似法对于正态分布或近似正态分布的资料,只要样本含量足够大(n100)时,可用:作为95%的正常值范围(双侧),正态分布及其应用,例:估计例3-4中该地正常成年女子的血清总蛋白(g/L,g/L)的95%参考值范围。解:由于该地正常成年女子血清总蛋白近似服从正态分布,可用正态分布法计算。因血清总蛋白过多或过少均属异常,所以
12、应取双侧,即计算95%参考值范围的上下限。下限为:(g/L)上限为:(g/L)故该地正常成年女子血清总蛋白的95%参考值范围为65.3580.25(g/L)。,正态分布的应用,正态分布及其应用,正态分布的应用,2、制定医学参考值范围2)百分位数法 适用于偏态分布资料、分布型未知的资料以及分布末端有不确定值的资料双侧 95%参考值范围单侧95%参考值范围,正态分布及其应用,或,正态分布的应用,例:某地调查110名健康成年男子的第一秒肺通气量(近似服从正态分布)得:均数为4.2(L)标准差为0.7(L)请据此估计该地成年男子第一秒肺通气量的95%正常值范围?,正态分布及其应用,正态分布的应用,因第
13、一秒肺通气量仅过低属异常,故此正常值范围属仅有下限的单侧正常值范围又因此资料近似正态分布,故可用正态分布法即该地成年男子第一秒肺通气量的95%正常值范围不低于3.05(L),正态分布及其应用,例 测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的95%参考值范围。,表 282名正常人尿汞值()测量结果,单侧上限,常用参考值范围的制定,正态分布的应用,3、质量控制绘出质量控制图,正态分布及其应用,上、下警戒限,上、下控制限,各测定值均在警戒限以内,且随机地分布在中心线的两侧,说明质量在控制中,正态分布的应用,3、质量控制例如,某实验室对同一控制血清作尿酸定量测定,连续观察20天,得20个数
14、据如下(mg/dl):,正态分布及其应用,正态分布的应用,4、统计方法的理论基础许多统计方法(如t检验、方差分析等)都要求指标服从正态分布有些统计量的分布(如 t 分布等)都是在正态分布的基础上推演出来的正态分布在统计学中占有极其重要的地位,正态分布及其应用,1、正态分布是一种很重要的连续型分布,很多医学现象服从正态分布或近似正态分布,或经变量转换转换为正态分布,可按正态分布规律来处理,是许多统计学方法的理论基础2、正态分布的特征:曲线在横轴上方,均数处最高;以均数为中心,左右对称;确定正态分布的两个参数是均数与标准差3、正态曲线下面积的分布有一定规律。利用此规律可用于估计医学参考值范围和质量控制,小 结,