《【教学课件】第四章常用概率分布.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第四章常用概率分布.ppt(117页珍藏版)》请在三一办公上搜索。
1、第四章 常用概率分布,为了 便于读者理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分析方法,本章在介绍概率论中最基本的两个概念事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布正态分布、二项分布、波松分布以及样本平均数的抽样分布和t分布。,下一张,主 页,退 出,上一张,第一节 事件与概率,一、事 件(一)必然现象与随机现象 在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类:,下一张,主 页,退 出,上一张,一类是可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生)。这类现
2、象称为必然现象(inevitable phenomena)或确定性现象(definite phenomena)。另一类是事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。这类在个别试验中其结果呈现偶然性、不确定性现象,称为随机现象(random phenomena)或 不 确 定 性 现 象(indefinite phenomena)。,下一张,主 页,退 出,上一张,随机现象或不确定性现象,有如下特点:在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;但在相同条件下进行大量重复试验
3、时,其试验结果却呈现出某种固有的特定的规律性频率的稳定性,通常称之为随机现象的统计规律性。,下一张,主 页,退 出,上一张,(二)随机试验与随机事件 1、随机试验 通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。而一个试验如果满足下述三个特性,则 称 其 为 一个 随机试验(random trial),简称试验:,下一张,主 页,退 出,上一张,(1)试验可以在相同条件下多次重复进行;(2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;(3)每次 试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果
4、。例如在一定孵化条件下,孵化6枚种蛋,观察其出雏情况;又如观察两头临产妊娠母牛所产犊牛的性别情况,它们都具有随机试验的三个特征,因此都是随机试验。,下一张,主 页,退 出,上一张,2、随机事件 随机试验的每一种可能结果,在一定条件下可 能 发 生,也 可 能 不 发生,称为随机事件(random event),简称 事 件(event),通常用A、B、C等来表示。(1)基本事件 我 们 把 不 能 再 分的事件称为基本事件(elementary event),也 称 为 样本点(sample point)。,下一张,主 页,退 出,上一张,例如,在编号为1、2、3、10 的十头猪中随机抽取1头
5、,有10种不同的可能结果:“取 得 一 个 编 号 是 1”、“取得一个编号是2”、“取得一个编号是10”,这10个事件都是不可能再分的事件,它们都是基本事件。由若干个基本事件组合而成的事件称为 复合事件(compound event)。如“取得一个编号是 2的倍数”是一个复合事件,它由“取得一个编号是2”、“是4”、“是6、“是8”、“是10”5个基本事件组合而成。,下一张,主 页,退 出,上一张,(2)必然事件 我们把在一定条件下必然会发生的事件称为必然事件(certain event),用表示。例如,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经114天左右产仔,就是一个
6、必然事件。,下一张,主 页,退 出,上一张,(3)不可能事件 我们把在一定条件下不可能发生的事件称为不可能事件(impossible event),用表示。例如,在满足一定孵化条件下,从石头孵化出雏鸡,就是一个不可能事件。必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,但 是 为了方便起见,我们把它们看作为两个特殊的随机事件。,下一张,主 页,退 出,上一张,二、概 率(一)概率的统计定义 研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标
7、应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。事件A的概率记为P(A)。,下一张,主 页,退 出,上一张,概率的统计定义 在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值 p,那么 就 把 p称为随机事件A的概率。,下一张,主 页,退 出,上一张,这 样 定 义 的 概 率 称 为 统 计 概 率(statistics probability),或者称后验概率(posterior probability)。例如 为了确
8、定抛掷一枚硬币发生正面朝上这个事件的概率,历史上有人作过成千上万次抛掷硬币的试验。在表41中列出了他们的试验记录。,下一张,主 页,退 出,上一张,表41 抛掷一枚硬币发生正面朝上的 试验记录,下一张,主 页,退 出,上一张,从表4-1可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。即 P(A)=pm/n(n充分大)(4-1),下一张,主 页,退 出,上一张,(二)概率的古典定义 对于某些随机事件,用不着进行多次重
9、复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。有很多随机试验具有以下特征:1、试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个;2、各 个 试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;3、试验的所有可能结果两两互不相容。,下一张,主 页,退 出,上一张,具有上述特征的随机试验,称为古典概型(classical model)。对于古典概型,概率的定义如下:设样本空间由 n 个等可能的基本事件所构成,其中事件A包含有m个基本事件,则事件A的概率为m/n,即 P(A)=m/n(4-2),下一张,主 页,退 出,上一张,这样定义的概率称为古典概率(cl
10、assical probability)或先验概率(prior probability)。【例4.1】在编号为1、2、3、10的十头猪中随机抽取1头,求下列随机事件的概率。(1)A=“抽得一个编号4”;(2)B=“抽得一个编号是2的倍数”。因为该试验样本空间由10个等可能的基本事件构成,即n=10,而事件A所包含的基本事件有4个,即抽得编号为1,2,3,4中的任何一个,事件A便发生,于是mA=4,所以,下一张,主 页,退 出,上一张,P(A)=mA/n=4/10=0.4 同理,事件B所包含的基本事件数mB=5,即抽得编号为2,4,6,8,10中的任何一个,事件B便发生,故 P(B)=mB/n=
11、5/10=0.5。【例4.2】在N头奶牛中,有M头曾有流产史,从这群奶牛中任意抽出n头奶牛,试求:(1)其中恰有m头有流产史奶牛的概率是多少?(2)若N=30,M=8,n=10,m=2,其概率是多少?,下一张,主 页,退 出,上一张,我们把从有M头奶牛曾有流产史的N头奶牛中任意抽出n头奶牛,其中恰有m头有流产史这一事件 记为A,因为 从 N 头 奶 牛 中 任 意 抽 出 n 头 奶牛的基本事件总数为;事件A所包含的基本事件数为;因此所求事件A的概率为:,下一张,主 页,退 出,上一张,将N=30,M=8,n=10,m=2代入上式,得=0.0695 即在30头奶牛中有8头曾有流产史,从这群奶牛
12、随机抽出 10 头奶牛其中有2头曾有流产史的概率为6.95%。,下一张,主 页,退 出,上一张,(三)概率的性质 1、对于任何事件A,有0P(A)1;2、必然事件的概率为1,即P()=1;3、不可能事件的概率为0,即P()=0。,三、小概率事件实际不可能性原理 随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。,下一张,主 页,退 出,上一张,小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很 大,以 至于实际上可以看成是不可能发生的。在统计学上,把小概率事件在一次试验中看成是实
13、际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。,下一张,主 页,退 出,上一张,第二节 概率分布,事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布(probability distribution)。为了深入研究随机试验,我 们 先引入随机变量(random variable)的概念。,下一张,主 页,退 出,上一张,一、随机变量 作一次试验,其结果有多种可能。每一种可能结果都可用一个数来表示,把
14、这些数作为变量x的取值范围,则试验结果可用变量x来表示。【例4.3】对100头病畜用某种药物进行治疗,其可能结果是“0头治愈”、“1头治愈”、“2头治愈”、“”、“100头治愈”。若用x表示治愈头数,则x的取值为0、1、2、100。,下一张,主 页,退 出,上一张,【例4.4】孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。若用变量x表示试验的两种结果,则可令x=0表示“未孵出小鸡”,x=1表示“孵出小鸡”。【例4.5】测定某品种猪初生重,表示测定 结 果 的 变 量 x 所 取的值为一个特定范围(a,b),如0.51.5kg,x值可以是这个范围内的任何实数。,下一张,主 页,退
15、 出,上一张,如果表示试验结果的变量x,其可能取值至多为可列个,且 以各种确定的概率取这些不同的值,则 称 x 为 离 散 型 随 机 变 量(discrete random variable);如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概率是确定的,则称x为 连续 型 随 机 变 量(continuous random variable)。,下一张,主 页,退 出,上一张,二、离散型随机变量的概率分布 要了解离散型随机变量x的统计规律,就必须 知 道它的一切可能值xi及取每种可能值的概率pi。如果我们将离散型随机变量x的一切可能取值xi
16、(i=1,2,),及其对应的概率pi,记作 P(x=xi)=pi i=1,2,(43)则称(43)式为离散型随机变量x的概率分布或分布。常用 分 布 列(distribution series)来表示离散型随机变量:,下一张,主 页,退 出,上一张,x1 x2 xn.p1 p2 pn 显然离散型随机变量的概率分布具有pi0和pi=1这两个基本性质。三、连续型随机变量的概率分布 连续型随机变量(如体长、体重、蛋重)的概率分布不能用分布列来表示,因为其可能取的值是不可数的。我们改用随机变量x在某个区间内取值的概率P(axb)来表示。下面通过频率分布密度曲线予以说明。,下一张,主 页,退 出,上一张
17、,由表27作126头基础母羊体重资料的频率分布直方图,见图41,图中纵座标取频率与组距的比值。可以设想,如果样本取得越来越大(n+),组分得越来越细(i0),某一范围内的频率将趋近于一个稳定值 概率。这时,频率分布直方图各个直方上端中点的联线 频率分布折线将逐渐趋向于一条曲线,换句话说,当n+、i0时,频率分布折线,下一张,主 页,退 出,上一张,的极限是一条稳定的函数曲线。对于样本是取自连续型随机变量的情况,这条函数曲线将是光滑的。这条曲线排除了抽样和测量的误差,完 全 反映了基础母羊体重的变动规律。这条曲线叫概率分布密度曲线,相应的函数叫 概率分布密度函数。,下一张,主 页,退 出,上一张
18、,(44)式 为 连 续 型 随机变量 x 在 区间a,b)上取值概率的表达式。可见,连续型随机变量的概率由概率分布密度函数确定。图4-1 表2-7资料的分布曲线,若记体 重概率分布密度函数为f(x),则x取值于区间a,b)的概率为图中阴影部分的面积,即 P(axb)=(4-4),连续型随机变量概率分布的性质:1、分布密度函数总是大于或等于0,即f(x)0;2、当随机变量x取某一特定值时,其概率等于0;即(c为任意实数)因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。,下一张,主 页,退 出,上一张,3、在 一次试验中 随机变量x之取值 必在-x+范围内
19、,为一必然事件。所以(4-5)(45)式表示分布密度曲线下、横轴上的全 部面积为1。,下一张,主 页,退 出,上一张,第三节 正态分布,正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。,下一张,主 页,退 出,上一张,一、正态分布的定义及其特征(一)正态分布的定义 若连续型随机变量x的概率分布密度函数为(4-6)其中为平均数,2为方差,则称随机变量x服从正态分布(no
20、rmal distribution),记为xN(,2)。相应的概率分布函数为(4-7),下一张,主 页,退 出,上一张,分布密度曲线如图42所示。(二)正态分布的特征 1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=;2、f(x)在 x=处达 到 极 大,极大值;3、f(x)是非负函数,以x轴为渐近线,分布从-至+;,下一张,主 页,退 出,上一张,4、曲线在x=处各有一个拐点,即曲线在(-,-)和(+,+)区间上是下凸的,在-,+区间内是上凸的;5、正态分布有两个参数,即平均数和标准差。是位置参数,如图43所示。当恒定时,愈大,则曲线沿x轴愈向右移动;反之,愈小,曲线沿x轴愈向左移
21、动。是变异度参数,如图44所示。当恒定时,愈大,表示 x 的取值愈分散,曲线愈“胖”;愈小,x的取值愈集中在附近,曲线愈“瘦”。,下一张,主 页,退 出,上一张,6、分布密度曲线与横轴所夹的面积为1,即:,下一张,主 页,退 出,上一张,二、标准正态分布 由上述正态分布的特征可知,正态分布是依赖于参数和2(或)的一簇 分布,正态曲线之位置及形态随和2的不同而不同。这就给研究具体的正态总体带来困难,需将一般的N(,2)转 换为=0,2=1的正态分布。,我们称=0,2=1的正态分布为标准正态分布(standard normal distribution)。标准正态分布的概率密度函数及分布函数分别记
22、作(u)和(u),由(4-6)及(4-7)式得:(4-8)(4-9)随机变量u服从标准正态分布,记作uN(0,1),分布密度曲线如图45所示。,下一张,主 页,退 出,上一张,对于任何一个服从正态分布N(,2)的随机变量x,都可以通过标准化变换:u=(x-)(4-10)将 其变换为服从标准正态分布的随机变量u。u 称 为 标 准 正 态变量或标准正态离差(standard normal deviate)。,下一张,主 页,退 出,上一张,三、正态分布的概率计算(一)标准正态分布的概率计算 设u服从标准正态分布,则 u 在u1,u2)何内取值的概率为:(u2)(u1)(4-11)而(u1)与(u
23、2)可由附表1查得。,下一张,主 页,退 出,上一张,例如,u=1.75,1.7放在第一列0.05放在第一行。在附表1中,1.7所在行与 0.05 所在列相交处的数值为0.95994,即(1.75)=0.95994 有 时 会 遇 到 给 定(u)值,例 如(u)=0.284,反过来查u值。这只要在附表1中找到与 0.284 最接近的值0.2843,对应行的第一列数-0.5,对应列的第一行数 值 0.07,即相应的u值为 u=-0.57,即(-0.57)=0.284 如果要求更精确的u值,可用线性插值法计算。,下一张,主 页,退 出,上一张,由(4-11)式及正态分布的对称性可推出下列关系式,
24、再借助附表1,便能很方便地计算有关概率:P(0uu1)(u1)-0.5 P(uu1)=(-u1)P(uu1)=2(-u1)(4-12)P(uu11-2(-u1)P(u1uu2)(u2)-(u1),下一张,主 页,退 出,上一张,【例4.6】已知uN(0,1),试求:(1)P(u-1.64)?(2)P(u2.58)=?(3)P(u2.56)=?(4)P(0.34u1.53)=?,下一张,主 页,退 出,上一张,利用(4-12)式,查附表1得:(1)P(u-1.64)=0.05050(2)P(u2.58)=(-2.58)=0.024940(3)P(u2.56)=2(-2.56)=20.005234
25、=0.010468(4)P(0.34u1.53)=(1.53)-(0.34)=0.93669-0.6331=0.30389,下一张,主 页,退 出,上一张,关于标准正态分布,以下几种概率应当熟记:P(-1u1)=0.6826 P(-2u2)=0.9545 P(-3u3)=0.9973 P(-1.96u1.96)=0.95P(-2.58u2.58)=0.99 图46 标准正态分布的三个常用概率,下一张,主 页,退 出,上一张,u变量在上述区间以外取值的概率分别为:P(u1)=2(-1)=1-P(-1u1)=1-0.6826=0.3174 P(u2)=2(-2)=1-P(-2u2)=1-0.954
26、5=0.0455 P(u3)=1-0.9973=0.0027 P(u1.96)=1-0.95=0.05 P(u2.58)=1-0.99=0.01,下一张,主 页,退 出,上一张,(二)一般正态分布的概率计算 正 态 分 布 密度曲线和横轴围成的一个区域,其面积为1,这实际上表明了“随机变量x取值在-与+之间”是一个必然事件,其概率为1。若随机变量 x服从正态分布N(,2),则x的取值落在任意区间 x1,x2)的概率,记作P(x1 x x2),等于图47 中阴影部分曲边梯形面积。即:,下一张,主 页,退 出,上一张,(4-13)对(4-13)式作变换u=(x-),得dx=du,故有其中,,下一张
27、,主 页,退 出,上一张,这表明服从正态分布N(,2)的随机变量x 在 x1,x2)内取值的概率,等 于服 从 标 准 正 态 分 布 的 随 机 变 量 u 在(x1-)/,(x2-)/)内取值的概率。因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。,下一张,主 页,退 出,上一张,【例4.7】设x服从=30.26,2=5.102的正态分布,试求P(21.64x32.98)。令 则u服从标准正态分布,故=P(-1.69u0.53)=(0.53)-(-1.69)=0.6564,下一张,主 页,退 出,上一张,关于一般正态分布
28、,以下几个概率(即随机变量x落在加减不同倍数区间的概率)是经常用到的。,P(-x+)=0.6826 P(-2x+2)=0.9545 P(-3x+3)=0.9973 P(-1.96x+1.96)=0.95 P(-2.58x+2.58)=0.99,上述关于正态分布的结论,可用一实例来印证。从图2-7可以看出,126头 基础母羊体重资料的次数分布接近正态分布,现 根据 其 平均数=52.26(kg),标 准 差S=5.10(kg),算出平均数加减不同倍数标准差区间内 所包括的次数与频率,列于表42。,下一张,主 页,退 出,上一张,表42 126头基础母羊体重在 kS 区间内所包括的次数与频率,下一
29、张,主 页,退 出,上一张,由表42可见,实际频率与理论概率相当接近,说明126 头基础母羊体重资料的频率分布接近正态分布,从而可推断基础母羊体重这一随机变量很可能是服从正态分布的。生物统计中,不仅注意随机变量x落在平均数加减不同倍数标准差区间(-k,+k)之内的概率而且 也很 关心 x落在此区间之外的概率。我们把随机变量x落在平均数加减不同倍数标准差区间之外的概率称为双侧概率(两尾概率),记作。,下一张,主 页,退 出,上一张,对应于双侧概率可以求得随机变量x小于-k或大于+k的概率,称为单侧概率(一尾概率),记作2。例如,x落在(-1.96,+1.96)之外的双侧概率为0.05,而单侧概率
30、为0.025。即 P(x-1.96=P(x+1.96)=0.025 双侧概率或单侧概率如图48所示。x落在(-2.58,+2.58)之外的双侧概率为0.01,而单侧概率 P(x-2.58)=P(x+2.58)=0.005,下一张,主 页,退 出,上一张,附表2给出了满足P(u)=的双侧分位 的数值。因此,只要已知双侧概率的值,由附表2就可直接查出对应的双侧分位数,查法与附表1相同。例如,已知uN(0,1)试求:(1)P(u-)+P(u)=0.10的(2)P(-u=0.86的 因为附表2中的值是:,下一张,主 页,退 出,上一张,所以(1)P(u-)+P(u)=1-P(-u=0.10=由附表2查
31、得:=1.644854(2)P(-u)=0.86,=1-P(-u)=1-0.86=0.14 由附表2查得:=1.475791 对于xN(,2),只要将其转换为uN(0,1),即可求得相应的双侧分位数。,下一张,主 页,退 出,上一张,【例4.8】已知猪血红蛋白含量x服从正态分布 N(12.86,1.332),若 P(x)=0.03,P(x)=0.03,求,。由题意可知,2=0.03,=0.06 又因为 P(x)=故 P(x)+P(x)=P(u-)+P(u),下一张,主 页,退 出,上一张,=1-P(-u)=0.06=由附表2查得:=1.880794,所以(-12.86)/1.33=-1.880
32、794(-12.86)/1.33=1.880794 即 10.36,15.36。,下一张,主 页,退 出,上一张,第四节 二项分布,一、贝努利试验及其概率公式 将某随机试验重复进行n次,若各次试验结果互不影响,即每次试验结果出现的概率都不依赖于其它各次试验的结果,则称这n次试验是独立的。对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与 之一,在每次试验中出现A的概率是常数p(0p1),因而出现对立事件 的概率是1-p=q,则 称 这一串重复的独立试验为n重贝努利试验,简称贝努利试验(Bernoulli trials)。,下一张,主 页,退 出,上一张,在生物学研究中,我们经常碰到的
33、一类离散型随机变量,如入孵n枚种蛋的出雏数、n头病畜治疗后的治愈数、n 尾鱼苗的成活数等,可用贝努利试验来概括。在n重贝努利试验中,事件 A 可能发生0,1,2,n次,现在我们来求事件 A 恰好发生k(0kn)次的概率Pn(k)。先取n=4,k=2来讨论。在4次试验中,事件A发生2次的方式有以下 种:,下一张,主 页,退 出,上一张,其中Ak(k=1,2,3,4)表示事件A在第k次试验发生;(k=1,2,3,4)表示事件A在第k次试验不发生。由于试验是独立的,按概率的乘法法则,于是有 P()=P()=P()=P()P()P()P()=又由于以上各种方式中,任何二种方式都是互不相容的,按概率的加
34、法法则,在4 次试验中,事件A恰好发生2次的概率为,下一张,主 页,退 出,上一张,P4(2)=P()+P()+P()=一般,在n重贝努利试验中,事件A恰好发生k(0kn)次的概率为 k=0,1,2,n(4-14)若把(4-14)式与二项展开式相比较就可以发现,在n重贝努利试验中,事件A发生k次的概率恰好等于 展开式中的第k+1项,所以也把(4-14)式称作二项概率公式。,下一张,主 页,退 出,上一张,二、二项分布的意义及性质 二项分布定义如下:设随机变量x所有可能取的值为零和正整数:0,1,2,,n,且有=k=0,1,2,n 其中p0,q0,p+q=1,则称随机变量x服从参数为n和p的二项
35、分布(binomial distribution),记为 xB(n,p)。,下一张,主 页,退 出,上一张,二 项 分布是一种离散型随机变量的概率分布。参数n称为离散参数,只能取正整数;p 是连续参数,它能取0与1之间的任何数值(q由p确定,故不是另一个独立参数)。容易验证,二项分布具有概率分布的一切性质,即:1、P(x=k)=Pn(k)(k=0,1,,n)2、二项分布的概率之和等于1,即,下一张,主 页,退 出,上一张,3、(4-15)4、(4-16)5、(m1m2)(4-17)二项分布由n和p两个参数决定:1、当p值较小且n不大时,分 布 是偏倚的。但随着n的增大,分布逐渐趋于对称,如图4
36、9 所示;,下一张,主 页,退 出,上一张,2、当 p 值 趋 于 0.5 时,分 布 趋于对称,如图410所示;3、对于固定的n及p,当k增加时,Pn(k)先随之增加并达到其极大值,以后又下降。此外,在n较大,np、nq 较接近时,二项分布接近于正态分布;当n时,二项分布的极限分布是正态分布。,下一张,主 页,退 出,上一张,三、二项分布的概率计算及应用条件【例4.9】纯种白猪与纯种黑猪杂交,根据孟德尔遗传理论,子二代中白猪与黑猪的比率为31。求窝产仔10头,有7头白猪的概率。根据题意,n=10,p=34=0.75,q=14=0.25。设10头仔猪中白色的为x头,则x为服从二项分布B(10,
37、0.75)的随机变量。于是窝产10头仔猪中有7头是白色的概率为:,下一张,主 页,退 出,上一张,【例4.10】设在家畜中感染某种疾病的概率为20,现有两种疫苗,用疫苗A 注射了15头家畜后无一感染,用疫苗B 注射 15头家畜后有1头感染。设各头家畜没有相互传染疾病的可能,问:应该如何评价这两种疫苗?假设疫苗A完全无效,那么注射后的家畜感染的概率仍为20,则15 头家畜中染病头数x=0的概率为,下一张,主 页,退 出,上一张,同理,如果疫苗B完全无效,则15头家畜中最多有1头感染的概率为 由计算可知,注射 A 疫苗无效的概率为0.0352,比B疫苗无效的概率0.1671小得多。因此,可以认为A
38、疫苗是有效的,但不能认为B疫苗也是有效的。,下一张,主 页,退 出,上一张,【例4.11】仔猪黄痢病在常规治疗下死亡率为20,求5 头病猪治疗后死亡头数各可能值相应的概率。设5头病猪中死亡头数为x,则x服从二项分布B(5,0.2),其所有可能取值为0,1,5,按(4-6)式计算概率,用分布列表示如下:0 1 2 3 4 5 0.3277 0.4096 0.2048 0.0512 0.0064 0.0003,下一张,主 页,退 出,上一张,二项分布的应用条件有三:(1)各观察单位 只具有互相对立 的一种结果,如阳性或阴性,生存或死亡等,属于二项分类资料;(2)已知发生某一结果(如死亡)的概率为p
39、,其对立结果的概率则为1-P=q,实际中要求p 是从大量观察中获得的比较稳定的数值;(3)n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。,下一张,主 页,退 出,上一张,四、二项分布的平均数与标准差 统计学证明,服从二项分布B(n,p)的随机变量之平均数、标准差与参数n、p有如下关系:当试验结果以事件A发生次数k表示时=np(4-18)=(4-19),下一张,主 页,退 出,上一张,【例4.12】求【例4.11】平均死亡猪数及死亡数的标准差。以p=0.2,n=5代入(4-18)和(4-19)式得:平均死亡猪数=50.20=1.0(头)标准差=0.89
40、4(头),当试验结果以事件A发生的频率kn表示时(4-20)(4-21)也称为总体百分数标准误,当 p 未 知时,常以样本百分数 来估计。此时(4-21)式改写为:=(4-22)称为样本百分数标准误。,下一张,主 页,退 出,上一张,第五节 波松分布,波松分布是一种 可以用来描述和分析随机地发生在单位空间或 时间里的稀有事件的概率分布。要观察到这类事件,样本含量 n 必须很大。在生物、医学研究中,服从波松分布的随机变量是常见的。如,一定畜群中某种患病率很低的非传染性疾病患病数或死亡数,畜群中遗传的畸形怪胎数,每升饮水中大肠杆菌数,计数器小方格中血球数,单位空间中某些野生动物或昆虫数等,都是服从
41、波松分布的。,下一张,主 页,退 出,上一张,一、波松分布的意义 若随机变量x(x=k)只取零和正整数值0,1,2,且其概率分布为,k=0,1,(4-23)其中0;e=2.7182 是自然对数的底数,则 称 x 服 从 参 数 为 的 波 松分布(Poissons distribution),记 为 xP()。,下一张,主 页,退 出,上一张,波松分布重要的特征:平均数和方差相等,都等于常数,即=2=【例4.13】调查某种猪场闭锁育种群仔猪畸形数,共记录200窝,畸形仔猪数的分布情况如表4-3所示。试判断畸形仔猪数是否服从波松分布。,下一张,主 页,退 出,上一张,表4-3 畸形仔猪数统计分布
42、 样本均数和方差S2计算结果如下:=fk/n=(1200+621+152+23+14)/200=0.51,下一张,主 页,退 出,上一张,=0.51,S2=0.52,这两个数是相当接近的,因此可以认为畸形仔猪数服从波松分布。,下一张,主 页,退 出,上一张,是波松分布所依赖的唯一参数。值愈小分布愈偏倚,随着的增大,分 布趋于对称(如图4-11所示)。当=20时分布接近于正态分布;当=50时,可以认 为波松分布呈正态分布。所以在实际工作中,当 20时就可以用正态分布来近似地处理波松分布的问题。,二、波松分布的概率计算 由(4-23)式可知,波松分布的概率计算,依赖于参数 的确定,只要参数确定了,
43、把k=0,1,2,代入(4-23)式即可求得各项的概率。但是在大多数服从波松分布的实例中,分布参数往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为 的 估计值,将其代替(4-23)式中的,计算出 k=0,1,2,时的各项概率。,下一张,主 页,退 出,上一张,如【例4.13】中已判断畸形仔猪数服从波松分布,并已算出样本平均数=0.51。将0.51代替公式(4-23)中的得:(k=0,1,2,)因为e-0.51=1.6653,所以畸形仔猪数各项的概率为:P(x=0)=0.510(0!1.6653)=0.6005P(x=1)=0.511(1!1.6653)=0.3063P(x=2)
44、=0.512(2!1.6653)=0.0781,下一张,主 页,退 出,上一张,P(x=3)=0.513(3!1.6653)=0.0133P(x=4)=0.514(4!1.6653)=0.0017 把上面各项概率乘以总观察窝数(n=200)即得各项按波松分布的理论窝数。波松分布与相应的频率分布列于表47中。,下一张,主 页,退 出,上一张,表44 畸形仔猪数的波松分布 将实际计算得的频率与根据=0.51的泊松分布计算的概率相比较,发现畸形仔猪的频率分布与=0.51 的 波松分布是吻合得很好的。这进一步说明了畸形仔猪数是服从波松分布的。,下一张,主 页,退 出,上一张,【例4.14】为监测饮用水
45、的污染情况,现检验某社区每毫升饮用水中细菌数,共得400个记录如下:试分析饮用水中细菌数的分布是否服从波松分布。若服从,按波松分布计算每毫升水中细菌数的概率及理论次数并将頻率分布与波松分布作直观比较。,下一张,主 页,退 出,上一张,经计算得每毫升水中平均细菌数=0.500,方差S2=0.496。两者很接近,故可认为每毫升水中细菌数服从波松分布。以=0.500代替(4-23)式中的,得(k=0,1,2)计算结果如表45所示。,下一张,主 页,退 出,上一张,表45 细菌数的波松分布 可见细菌数的频率分布与=0.5的波松分布是相当吻合的,进一步说明用波松分布描述单位容积(或面积)中细菌数的分布是
46、适宜的。,下一张,主 页,退 出,上一张,注意,二项分布的应用条件也是波松分布的应用条件。比如二项分布要求n 次试验是相互独立的,这也是波松分布的要求。然而一些具有传染性的罕见疾病的发病数,因为首例发生之后可成为传染源,会影响到后续病例的发生,所以不符合波松分布的应用条件。对于在单位时间、单位面积或单位容积内,所观察的事物由于某些原因分布不随机时,如细菌在牛奶中成集落存在时,亦不呈波松分布。,下一张,主 页,退 出,上一张,前面讨论的三个重要的概率分布中,前一个属连续型随机变量的概率分布,后两个属离散型随机变量的概率分布。三 者间的关系如下:对于二项分布,在n,p0,且 n p=(较小常数)情
47、况下,二项分布 趋于 波 松布。在这种场合,波松分布中的参数 用二项分布的n p代之;在n,p0.5时,二项分布趋于正态分布。在这种场合,正态分布中的、2用二项分布的n p、n p q代之。在实际计算中,当p0.1且n 很大时,二项分布可由波松分布近似;当p0.1且n很大时,二项分布可由正态分布近似。,下一张,主 页,退 出,上一张,对于波松分布,当时,波松分布以正态分布为极限。在实际计算中,当 20(也有人认为6)时,用波松分布中的代替正态分布中的及2,即可由后者对前者进行近似计算。,下一张,主 页,退 出,上一张,第六节 样本平均数的抽样分布,研究总体与从中抽取的样本之间的关系是统计学的中
48、心内容。对这种关系的研究可从两方面着手,一是从总体到样本,这就是研究抽样分布(sampling distribution)的问题;二是从样本到总体,这就是统计推断(statistical inference)问题。,下一张,主 页,退 出,上一张,统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。我们知道,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量(如,S)也将随样本的不同而有所不同,因而样本统计量也是随机变量,也有其概率分布。我们把统计量的概率分布称为抽样分布。,下一张
49、,主 页,退 出,上一张,一、样本平均数抽样分布 由总体随机抽样(random sampling)的方法可分为有返置抽样和不返置抽样两种。前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。,下一张,主 页,退 出,上一张,设有一个总体,总体平均数为,方差为2,总体中各变数为 x,将 此总体称为原总体。现从这个总体中随机抽取含量为n的样本,样本平均数记为。可以设想,从原总体中可抽出很多甚至无穷多个含量为n的样本。由这些样本算得的平均数有大有小
50、,不尽相同,与原总体平均数相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为 抽样误差(sampling error)。显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。由样本平均数构成的总体称为样本平均数的抽样总体。,下一张,主 页,退 出,上一张,其平均数和标准差分别记为 和。是样本平均数抽样总体的标准差,简称标准误(standard error),它表示平均数抽样误差的大小。统计学上已证明总体的两个参数与x 总体的两个参数有如下关系:=,(424),下一张,主 页,退 出,上一张,设有一个 N=4 的 有 限总体,变数为2、3、3、4。根据=xN和2=(x