《概率分布-正态分布.ppt》由会员分享,可在线阅读,更多相关《概率分布-正态分布.ppt(59页珍藏版)》请在三一办公上搜索。
1、第五讲 概率分布正态分布,1.1 正态分布的概念和函数1.2 正态分布曲线的特征1.3 正态曲线的标化1.4 曲线下面积的分布规律1.5 正态分布在医学中的应用,【典型案例分析】,举例:随机调查某医院1402例待分娩孕妇,测得她们的体重,试述其体重频数分布的特征。,引子:,表5-1 某医院1402例分娩孕妇体重频数分布,作图:以体重测量值为横轴,以频率与组距的比值为纵轴作出直方图。,1.由于该直方图的纵轴表示在每个组段内单位长度所占有的频率,相当于频率密度,因此将此图称为频率密度图。,图5-1 体重频率密度图,2.面积=频率由于频率的总和为1,所以该曲线下横轴上的面积为1。.,若将各直条顶端的
2、中点顺次连接起来,得一条折线。当样本量n越来越大时,折线就越来越接近一条光滑的曲线。,图5-1 体重频率密度图,图5-2 概率密度曲线示意图,推 断:测得一个孕妇体重在54-68kg的概率有多大?孕妇体重在哪个范围内算是正常的呢?,故对连续性随机变量而言:变量某区间取值的概率=正态曲线该变量区间的面积,一、正态分布的概念和密度函数,正态分布(normal distribution):是描述连续型随机变量最重要的分布。其分布曲线叫正态分布曲线,呈中间高,两边低,左右基本对称的“钟型”曲线,近似于数学上的正态分布,又称高斯分布(Gauss distribution)。,正态分布(normal di
3、stribution),德莫佛最早发现了二项概率的一个近似公式,这一公式被认为是正态分布的首次露面。,正态分布在十九世纪前叶由高斯加以推广,所以通常称为高斯分布(Gauss distribution)。,德莫佛,高 斯,10马克的钱币,医学研究中许多正常人的生理,生化指标、测量误差等多呈正态分布或近似正态分布。许多非正态分布资料,当样本含量足够大时,也可以用正态分布作为它的极限分布形式。有时也可将非正态分布资料转化为正态分布来处理。,正态分布在医学研究中的重要作用:,医学研究中:,正态分布的密度函数,即正态曲线的函数表达式:,式中,为总体均数,为总体标准差,为圆周率,e为自然对数的底,仅x为变
4、量。当x确定后,f(x)为X相应的纵坐标高度,则X服从参数为和2的正态分布(normal distribution),记作XN(,2)。,二、正态分布曲线的特征,(一)正态分布的两个参数:,和 是正态分布的两个参数,和决定了x的概率分布;习惯上用 N(,2)表示均数为,标准差为的正态分布。,当给定不同的 x 值后,就可以根据此方程求得相应的纵坐标高度(频数),并可绘制出正态曲线的图形,记作XN(,2):,正态分布曲线:高峰位于中间,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的“钟型”曲线。,当固定不变时,越大,曲线沿横轴越向右移动;反之,越小,则曲线沿横轴越向左移动,所以叫正态曲线N(,
5、2)的位置参数,。,1.位置参数:,图5-4 正态分布位置随参数变换示意图,2.形状参数:,图5-6 正态分布形态随参数变换示意图,当固定不变时,越大,曲线越平阔;越小,曲线越尖峭,叫正态曲线N(,2)的形状参数。,(二)正态分布图形的特征:,1.对称性:关于x=对称,2.集中性:正态曲线在横轴上方,当x=时,f(x)取最大值,即均数位于曲线的最高处。,3.对频率密度正态分布图,横轴上曲线下的面积为1。,4.是正态曲线的位置参数,决定曲线在横轴上的位置;增大曲线沿横轴向右移,减小曲线沿横轴向左移。,5.是正态曲线的形状参数,越大数据越分散,曲线越“矮胖”,越小数据越集中,曲线越“瘦高”。,三、
6、正态曲线的标准化,为了应用方便,常将正态概率函数中的 x 作如下变量代换,令:Z称为标准正态变量。把u代入概率密度函数,得标准正态分布的概率密度函数:相对于正态变量 x,Z 没有度量单位。根据 u 的不同取值,可绘出标准正态分布的图形。,任意正态分布曲线 XN(,2),标准正态分布曲线XN(0,1),将一般正态分布曲线的 的位置平移到原点,再以标准差为横轴单位,这样就把原来个别的正态分布转换为一般的标准正态分布 N(0,1),亦称为Z分布(或 分布)。,四、正态曲线下面积的分布规律,正态曲线下的面积分布有一定的规律性:,因正态曲线下累计频数的总和等于 100%或 1,则:横轴上曲线下的面积(概
7、率)就等于 100%或 1;均数两侧的面积(概率)各占 50%。,实际工作中常需了解横轴上某一区间曲线下面积占总面积的百分比,以便估计该区间的频数占总频数的百分比(即频数分布情况)。这就需要采用定积分的办法,对函数式(1)或(2)定积分,算得从-到 x,或从-到 Z 的累计面积(概率)。.,图 6 正态分布(左)及标准正态曲线下(右)的累计面积,由于引入了标准正态变量 Z 值,只需对标准正态公式求定积分,求其曲线下从-到任意Z 值的累计面积,并制成专用的 Z 值表(见附表);这样对于其它任意的正态分布N(,2),都可以通过变量代换转化为标准正态分布,通过查表就完成其概率计算问题。,1.左半侧
8、Z 值对应面积的查法:,1.标准正态分布区间(-1,1)的面积占总面积的68.26%2.标准正态分布区间(-1.96,1.96)的面积占总面积的95%3.标准正态分布区间(-2.58,2.58)的面积占总面积的99%,标准正态分布曲线下面积规律,举例:当 Z=-1.96时,左侧的累计面积=0.025(该区间累计频数占总例数的 2.5%),记作 P(Z1.96)=0.025。当 Z=1.96时,左侧累计面积为 0.975,可记作 P(Z1.96)=0.975,此时P(Z1.96)=0.025。,2.左半侧Z 值对应面积的查法:标准正态分布是以 0 为中心左右对称,所以该表只计算曲线下一半的面积即
9、可。,举例:求 Z=-0.5-1.5之间的面积。查表找出 Z=-0.5 时的对应面积为 0.3085,再查出 Z=-1.5 时的对应面积 0.0668,相减即可。即:P(Z=-0.5-1.5)=P(Z=-0.5)-P(Z=-1.5)=0.3085-0.0668=0.2417,3.查任意两个 Z 值间的面积:,(1)曲线下横轴上的总面积为100%(2)表中曲线下面积为(-,Z)(3)标准正态曲线下的面积以0为对称,即,如区间(-,-1.96)与区间(1.96,+)的面积相等。,小结:,F(Z)=1-F(-Z),对标准正态分布曲线,4.求一般正态分布N(,2)曲线下的面积:,先求 u 值:,根据
10、Z 值在表中查出相应的面积值,当总体均数和总体标准差未知时,就用样本均数和样本标准差来代替计算。,所以对正态分布或近似正态分布资料,只要求出均数和标准差,便可就其频数分布作出概略估计了。,举例:已知 120 名 12 岁男孩身高均数为 143 cm,标准差为 5.8 cm,试估计该地 12 岁男孩身高在 135 cm 以下者有多少人?,答:1.首先计算 Z 值:,3.据概率计算人数:身高在 135 cm 以下者有:1208.38%=10人,2.查 Z 值表:当 u=-1.38 时,左侧尾部面积 0.0838,即身高在 135cm 以下者占总人数的 8.38%。,常用的正态分布、标准正态分布曲线
11、下面积规律,四、正态分布在医学中的应用,(一)制定医学参考值范围,参考值范围(reference range):指所谓“正常人”的解剖、生理、生化等指标的波动范围。,制定方法:制定参考值范围时,首先要确定一批样本含量足够大的“正常人”。所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群,必须是随机选择的大样本。而后根据指标的实际用途确定单侧或双侧界值,根据研究目的和使用要求选定适当的百分界值,常用95%。.,单侧临界值:标准正态分布单侧尾部面积等于时所对应的正侧变量值,记作Z。,双侧临界值:标准正态分布双侧尾部面积之和等于时所对应的正侧变量值,记作Z/2。,以
12、不同的方法计算参考值范围:,(1)正态分布法:适用于正态或近似正态分布资料,表5-2 常用参考值范围的制定,举例1:调查某地120名健康女性血红蛋白,直方图显示其分布近似正态,试估计该地健康女性血红蛋白的95%参考值范围。,解析:,1.分布近似正态,2.过高过低均为异常,3.求上、下界值,上界:,下界:,所以,该地健康女性血红蛋白的95%参考值范围是(97.41,137.39)g/l。,举例2:某地调查120名健康成年男性的第一秒肺通气量得均数 X=4.2(L),标准差S=0.7(L),试据此估计其第一秒肺通气量的95%参考值范围。,解析:,1.分布近似正态,2.仅过低为异常,3.求下界值,下
13、界:,所以,该地健康成年男子第一秒肺通气量的95%参考值范围为不低于3.05(L)。,(2)百分位法:特别适用于偏态分布资料以及资料 中一端或两端无确切数值的资料。,如95%参考值范围:,计算公式:,举例:定出生体重低于2500g的婴儿为低体重儿,若由某项研究得某地婴儿出生体重均数为3200g,标准差为350g,估计当年出生低体重儿所占的比例。,(二)估计频数分布,解析:,2.转化为标准正态分布,求u 值,查u值表,说明标准正态曲线下(-,-2)的面积为2.28%,故本题正态曲线(-,2500g)的比例为2.28%,即X2500g的为2.28%,故估计当年出生低体重儿的比例为2.28%。,估计
14、频数分布:,a b,即:估计变量在(a,b)区间出现的比例或者说频率,(三)进行质量控制,基本原理:许多临床检验指标,当影响某一指标的随机因素很多,而每个因素所起的作用均不太大时,这个指标的随机波动属于随机误差,则往往服从正态分布。,控制方法:常以 作为上下警戒值,以 作为上下控制值。这里的2s和3s可视为1.96s和2.58s的约数。,作为质量控制的上下警戒值:,(四)正态分布是许多统计方法的理论基础,t 分布、F 分布、分布都是在正态分布的基础上推导出来的,u 检验也是以正态分布为基础的。二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。,选择题1.正态
15、分布的两个参数与,对应的正态曲线平行右移。增大 B.减小 C.增大 D.减小 E.增大同时增大,2.正态分布曲线下右侧5对应的分位点为 A.+1.96 B.-1.96 C.+2.58 D.+1.64 E.-2.58,是非题 对称分布与正态分布等价。,计算题 1.某地抽查120份黄连中小蘖碱含量(mg/100g)得平均数为4.38,标准差为0.18,假设数据服从正态分布,问:(1)95%黄连样品中小蘖碱含量在什么范围?(2)有一份黄连样品,小蘖碱含量为4.80,怎样评价?,答案:,根据公式,另()/0.18=2.331.96,所以可认为小蘖碱含量不正常。,某地1998年抽样调查了100名18岁男
16、大学生身高,其均数=172.70cm,标准差=4.01 cm。(1)估计该地18岁男大学生身高在168 cm以下者占该地18岁男大学生总数的百分数;(2)估计该地18岁男大学生身高在177 cm以下者占该地18岁男大学生总数的百分数。,答案:,查附表得,(u)=0.1210,即该地18岁男大学生身高在168 cm以下者占该地18岁男大学生总数的12.10%。,查附表得,(-1.07)=0.1423,则(u)=1-(-1.07)=1-0.1423=0.8577 即该地18岁男大学生身高在177 cm以下者占该地18岁男大学生总数的85.77%。,计算题,2.已知某地正常成年女子的血清总蛋白数服从正态分布,调查了该地110名正常成年女子,得样本血清总蛋白均数为72.8g/L,标准差为3.8g/L,试估计该地正常成年女子血清总蛋白介于66.075.0 g/L之间的比例,以及110名正常成年女子中血清总蛋白介于66.075.0 g/L之间的人数。.,解析:由于本例是大样本,可用样本均数X和样本标准差 S 作为总体、的估计值,即将该地正常成年女子的血清总蛋白数近似看作服从N(72.8,3.82)的正态分布。1.将变量作如下标准化变换:,2.查 u 值表得:,THANK YOU!,