《生物统计2章概率和概率分布.ppt》由会员分享,可在线阅读,更多相关《生物统计2章概率和概率分布.ppt(49页珍藏版)》请在三一办公上搜索。
1、2023/10/2,第二章 概率和概率分布,2.1 概率的基本概念2.2 概率分布2.3 总体特征数2.4 几种常见的概率分布律,2023/10/2,第二章 概率和概率分布,2.1 概率的基本概念,自然现象:确定性现象和非确定性现象(随机现象)从随机现象中做大量的研究,能从其偶然性中揭示内在的规律统计学所研究的是非确定性现象,,2023/10/2,概率的统计定义是在大量的试验中,以频率的稳定性为基础上提出来的。设k次随机试验,成功事件A 出现l次,则称l/k是K次随机试验中成功的频率。频率是由样本数据计算得到的。由于样本分布的不恒定性,不同的随机试验,事件A的出现频率也不同,随着K改变,频率也
2、有一定的波动。随着K的增大,频率l/k将围绕着某一确定的常数P做平均幅度愈来愈小的变动,这就是所谓频率的稳定性,其中P即为事件A的概率。简单的说概率就是频率的稳定值。在试验次数较多时,可以用频率作为概率的近似值。(P23 表2-1),2.1.1 概率的统计定义,2023/10/2,概率是事件在试验结果中出现可能性大小的定量计算,是事件固有的属性,有以下明显的性质:任何事件A的概率均满足:0P(A)1必然事件W的概率为1,即P(W)=1不可能事件(V)的概率为0,即P(V)=0,2.1.1 概率的统计定义(续),2023/10/2,概率的统计定义是在大量的试验中,以频率的稳定性为基础上提出来的。
3、不需要做试验就可以确定事件出现的概率,称为古典概率,具有以下特点:随机试验的全部可能结果(基本事件数)是有限的;各基本事件间是互不相容且等可能的。缺点:要求各基本事件是等概率且有限的。,2.1.2 概率的古典定义,2023/10/2,随机变量随机变量就是在随机试验中被测定的量,所取得的值称为观察值。可分为离散型随机变量和连续型随机变量。离散型随机变量:可能取得的数值为有限个或可数无穷个孤立的数值。连续型随机变量:可取某一(有限或无限)区间内的任何数值。,2.2 概率分布,2023/10/2,将随机变量X所取得值x的概率P(X=x)写成x的函数p(x),称为随机变量X的概率函数公式为p(x)=P
4、(X=x)。概率函数应满足:p(x)0 p(x)=1,离散型随机变量的概率分布,2023/10/2,将X的一切可能值x1,x2,x3,xn,以及取得这些值的概率P(x1),P(x2),.,p(xn),.排列起来,构成了离散型随机变量的概率分布。常用概率分布表或概率分布图表示。,2.2.1 离散型随机变量的概率分布(续),离散型随机变量的概率分布表,2023/10/2,离散型随机变量的概率分布图,2023/10/2,离散型变量概率的分布函数:离散型变量概率的累积。其公式为,2.2.1 离散型随机变量的概率分布(续),指随机变量等于或小于某一可能值(x0)的概率。,2023/10/2,对于离散型随
5、机变量的任何值,都可以求出它的概率。而连续型随机变量则不同,因为试验中可以取某一区间内的任何值,这些数值构成不可数的无穷集合。任何值的概率都等于0,这并不是说这种事件不会出现,只是由于技术上的限制,在测量时不可能无限提高精确度。在研究连续型随机变量时,实际观察值只能是落在一定的区间内,其概率可以不为0,当然这种区间可以很小。,2.2.2 连续型随机变量的概率分布,2023/10/2,随机变量X的值落在区间(x,x+x)内的概率为P(xXx+x),其中x为区间长度。当x趋于零时,此时区间概率称为密度函数:概率密度的图形y=f(x)称为分布曲线。,连续型随机变量的概率分布(续),2023/10/2
6、,分布函数(或称为累积分布函数)是随机变量X取得小于X0的值的概率对于任意两点a和b(a b),下式成立:P(Xa)+P(aXb)=P(Xb)或P(aXb)=F(b)-F(a),连续型随机变量的概率分布(续),2023/10/2,通过样本数据得到的频率分布称为统计分布或经验分布,描述总体的概率分布称为理论分布或总体分布。频率分布可出现各种类型:两侧对称,不对称,但对于不同的频率分布均有相应理论分布,即随机变量变化规律的理想化数学模型。虽然很难与实际情况完全一致,但近似得非常好,因此可以用建立在概率分布基础上的统计规律来解决实际问题。如果我们从总体中取出了一个很大的样本,可把这个样本的分布近似作
7、为总体的分布。,概率分布与频率分布的关系,2023/10/2,样本特征数是描述频率分布特征的:统计量总体特征数是描述概率分布特征的:参数总体特征数包括随机变量的数学期望(理论平均数),方差和各阶矩,可以用类似求样本特征数方法求得。,2.3 总体特征数,2023/10/2,总体特征数:描述概率分布特征的数字,包括数学期望、方差和各阶矩。所谓X或X的函数的数学期望,即它们的理论平均数。样本平均数:,2.3.1 随机变量的数学期望和方差,随着n的充分增加,平均数稳定于总体平均数,2023/10/2,频数资料的样本方差和标准差,2.3.1 随机变量的数学期望和方差(续),总体方差和标准差,2023/1
8、0/2,X或X的函数的数学期望可用通式表示,2.3.1 随机变量的数学期望和方差(续),随机变量的数学期望就是这个随机变量的所有可能值,以其相应概率为权的加权平均数。,2023/10/2,连续型随机变量的数学期望定义为,2.3.1 随机变量的数学期望和方差(续),连续型随机变量方差定义为,2023/10/2,2.3.2 数学期望和方差的运算,2023/10/2,2.4 几种常见的概率分布律,2.4.1 二项分布二项分布在生物学中应用很广,其特征如下:每次试验只有两个对立结果(A和);N次试验是重复,独立的。回放式抽样适合于二项分布;非回放式抽样适合于超几何分布。,二项分布概率函数,2023/1
9、0/2,2.4.1 二项分布(续),服从二项分布的随机变量的特征数,(用比率表示时),平均数,方差,偏斜度,峭度,(用比率表示时),2023/10/2,二项分布决定于两个参考数:试验次数和概率,因此其图形变化趋势与这两个参数有关随试验次数的增大图形分布趋于对称;而且当概率趋于0.5时分布趋于对称偏斜度和峭度是与试验次数和概率有关。当相同时,随样本含量的增加,1和2逐渐接近于0(正态分布);或样本含量相同时,愈接近于0.5,1和2愈接近于0。表3-1 P37二项式分布应用实例,2.4.1 二项分布(续),2023/10/2,在生物统计学中,正态分布占有极其重要的地位。许多生物学现象所产生的数据,
10、都服从正态分布。正态分布密度函数的图像称为正态曲线正态分布密度函数的图像,称为正态曲线。,2.4.2 正态分布,2023/10/2,平均数为,标准差为 的正态分布,其密度函数:累积分布函数:,正态曲线,2023/10/2,正态分布规律是数据分布两头少,中间多,两侧对称。密度曲线以X=直线为对称;X=-和 X=+所确定的点为曲线的两个“拐点”;曲线向左、向右无限延伸,以x轴为渐近线;x越趋向于,f(x)的取值越大;X=时,f(x)具有最大值,其值为:,正态曲线特点,2023/10/2,的大小,决定曲线的“胖”、“瘦”程度,越小,曲线越“瘦”,数据越集中,越大,曲线越“胖”,数据越分散。固定时,值
11、决定曲线的位置,当增大时曲线向右平移,当减少时曲线向左平移,但曲线形状不变。,正态曲线特点(续),2023/10/2,标准正态分布,=0,=1时的正态分布称为标准正态分布N(0,1)。其密度函数和累积分布函数分别为:,2023/10/2,在u=0时,(u)达到最大值,概率密度值最大;当u 远离0时,e 的指数变得愈大,因此(u)的值愈小;曲线两侧对称,即(u)=(-u);曲线在u=1 和 u=-1 处有两个拐点;曲线下面积为等于1;累积分布函数(u)的值可查表;累积分布函数(u)曲线从-到0平稳上升,围绕点(0,0.5)对称;,标准正态分布有以下特性,2023/10/2,u=-1 到 u=1
12、面积为0.6827u=-2 到 u=2 面积为0.9543u=-3 到 u=3 面积为0.9973u=-1.960 到 u=1.960 面积为0.9500u=-2.576 到 u=2.576 面积为0.9900正态分布的偏斜度和峭度都为0。,重要特征值:,2023/10/2,正态分布表常用的几个关系式,P(0uu1)(u1)-0.5 P(uu1)=(-u1)P(uu1)=2(-u1)P(uu1)1-2(-u1)P(u1uu2)(u2)-(u1),正态分布表,正态分布表(附表2)的查法,2023/10/2,对于标准正态分布,其累积分布函数值可直接查表(附表2)得到;例 查u=-0.82及u=1.
13、15时的(u)的值。u=-0.82时,(u)0.20611u=1.15时,(u)0.87493在分布曲线上画出(u)所代表的面积。,正态分布表(附表2)的查法,2023/10/2,对于一般正态分布,要先将进行标准化:再查标准正态分布表也很容易得到。,令,代入概率密度函数,因为,所以,正态分布表(附表2)的查法(续),2023/10/2,例3.10:已知高粱品种“三尺三”株高服从正态分布N(156.2,4.822),求(1)X164cm 的概率;(3)X在152-162cm 的概率。(1)P(X164)=?(3)P(152X162)=?,正态分布表的查法(续),2023/10/2,正态分布的单侧
14、分位数和双侧分位数(附表3),上侧分位数:P(U u)=时的u值;下侧分位数:P(U u/2)=时的 u/2值(从附表3中以/2查出的u/2 即可。,附表3与附表2的查法正好相反。,2023/10/2,正态分布的单侧分位数和双侧分位数(附表3),2023/10/2,在生物界中,把一个随机变量看作许多影响微小而又相互独立的随机变量之和。当这些独立的随机变量的数量很大时,每一随机变量对总和的影响则相对变小。为了研究数量很大时随机变量和所具有的规律性,应使用极限的原理和方法。已证明在上述情况下,随机变量和的分布趋于正态分布。研究随机变量和的极限分布是正态分布的一类定理,称为中心极限定理。,中心极限定
15、理,2023/10/2,假设被研究的随机变量X,可以表示为许多相互独立的随机变量Xi的和。那么,如果Xi的数量很大,而且每一个别的Xi对于X 所起的作用很小,则可以被认为X 服从或近似地服从正态分布。,中心极限定理含义,2023/10/2,若已知总体平均数为,标准差为,那么不论该总体是否为正态分布,对于从该总体所抽取的含量为N的样本,当样本含量充分大时,其平均数渐近服从正态分布N(,2/n)(见公式)。中心极限定理在生物统计学占有极其重要的地位。有了这个定理,才能从单个样本的n个数据所得到的统计量对总体进行估计。,中心极限定理推论,2023/10/2,从一个包含两种不同类型个体的有限总体做非放
16、回式抽样,抽中某种类型的个体数服从超几何分布。概率函数,2.4.3超几何分布,N:总体中的个数K:两种类型中某一种类型的个体数n:非放回式抽样的次数x:在n次抽样中某一种类型的个体数,2023/10/2,2.4.3超几何分布(续),服从超几何分布的随机变量的总体特征数:,例:野生动物考察时,常需要了解野生动物群体的大小.一种方法是先捕捉一定数目的动物,做上标记,把他们放回到群体中.然后再捕捉第二个样本,计算其中有标记的动物数.根据以上资料估计群体大小.捕捉第二个样本时,捉到有标记的动物数,是一个随从超几何分布的随机变量.,方差,平均数,2023/10/2,结束,2.14 X为垂钓者在1h内钓上
17、的鱼数,其概率 分布如下表:,作业:P32,问(1)期望1h内钓到的鱼数?(2)它们的方差?,2023/10/2,结束,3.4 根据以往的经验,用一般疗法治疗某种疾病,其死亡率为40,治愈率为60。今用一种新药治疗染上该病的5名患者,这5人均治愈了,问该新药是否显著优于一般疗法?,作业:P51,2023/10/2,结束,3.14.已知习题1.2中,250株小麦的高度分布服从正态分布N(63.33,2.882),问:(1)株高在60cm以下的概率?(2)株高在69cm以上的概率?(3)株高在62-64cm之间的概率?(4)株高在多少cm以上的占全体95?(1)株高落在 之间的概率是多少?,作业:
18、P51,2023/10/2,一、名词解释 随机事件 概率的统计定义 小概率原理正态分布 标准正态分布 双侧概率(两尾概率)单侧概率(一尾概率)二项分布 标准误 t分布 二、简答题1、正态分布的密度曲线有何特点?2、标准误与标准差有何联系与区别?3、样本平均数抽样总体与原始总体的两个参数间有何联系?4、事件的概率具有那些基本性质?,习题,2023/10/2,三、计算题1、已知随机变量x服从二项分布B(100,0.1),求及。2、已知随机变量x服从二项分布B(10,0.6),求P(2x6),P(x7),P(x3)。,习题,2023/10/2,设随机变量X由相互独立的随机变量X1,X2,X3组成,即,中心极限定理推论,则,如果Xi(i=1,2,n)是相互独立的,而且全部具有有限方差i2,则,2023/10/2,依据中心极限定理,标准化变量,中心极限定理推论,或,渐进服从 N(0,1)分布,于是,2023/10/2,上式中Xi可能具有相同的分布,也可能具有不同的分布。当Xi具有相同的分布时,会出现一种特别重要的情况。这时,i=,i2=2,i=1,2,n.,中心极限定理推论,或,返回,