《第三章 概率与概率分布要点课件.ppt》由会员分享,可在线阅读,更多相关《第三章 概率与概率分布要点课件.ppt(108页珍藏版)》请在三一办公上搜索。
1、概 率,概率分布,与,第 三 章,一、概率的概念,二、概率的计算,三、概率的分布,四、大数定律,(一)事件,定义:在一定条件下,某种事物出现与否就称为是事件。,确定性事件,必然事件(U)(certain event),不可能事件(V)(impossible event),一、概率基本概念,随机事件:在一定条件下,可能出现也可能不出现的现象,叫随机事件。为了研究随机现象,需要进行大量重复的调查、实验、测试等,这些统称为试验。,(二)频率(frequency),若在相同的条件下,进行了n次试验,在这n次试验中,事件A出现的次数m称为事件A出现的频数,比值m/n称为事件A出现的频率(frequenc
2、y),记为W(A)=m/n。,0W(A) 1,P(A) = p=lim ,在一般情况下,随机事件的概率P是不可能准确得到的。通常以试验次数n充分大时,随机事件A的频率作为该随机事件概率的近似值。,mn,mn,(三)概率(probability,P),统计定义:设在相同的条件下,进行大量重复试验,若事件A的频率稳定地在某一确定值p的附近摆动,则称p为事件A出现的概率。,0P(A)1,任何事件,P(U)=1,必然事件,P(V)0,不可能事件,随机事件,0P(A)1,二、概率的计算,(一)事件的相互关系,和事件,积事件,互斥事件,对立事件,独立事件,完全事件系,1,和事件,事件A和事件B中至少有一个
3、发生而构成的新事件称为事件A和事件B的和事件,记作A+B。,n个事件的和,可表示为A1+A2+An,例如测定棉花的纤维长度,以28毫米为事件A,28至30毫米为事件B,则抽取一根30毫米的这一新事件为AB。,2,积事件,事件A和事件B中同时发生而构成的新事件称为事件A和事件B的积事件,记作AB。,n个事件的积,可表示为A1 A2 An,例如某小麦品种,以发生锈病为事件A,发生白粉病为事件B,则锈病和白粉病同时发生这一新事件为AB。,3,互斥事件(互不相容事件),事件A和事件B不能同时发生,则称这两个事件A和B互不相容或互斥。,n个事件两两互不相容,则称这n个事件互斥。,例如棉花纤维长度“28毫
4、米”和“等于28毫米”不可能同时发生,为互斥事件。,4,对立事件,事件A和事件B必有一个发生,但二者不能同时发生,且A和B的和事件组成整个样本空间。即A+B=U,AB=V。我们称事件B为事件A的对立事件。,种子的发芽与不发芽;新生婴儿的性别;,5,独立事件,事件A和事件B的发生无关,事件B的发生与事件A的发生无关,则事件A和事件B为独立事件。,如果多个事件A1、A2、A3、An 彼此独立,则称之为独立事件群。,例如,事件A为“花的颜色为黄色”,事件B为“产量高”,显然如果花的颜色与产量无关,则事件A和B相互独立。,6,完全事件系,如果多个事件A1、A2、A3、An两两互斥,且每次试验结果必然发
5、生其一,则称事件A1、A2、A3、An为完全事件系。,完全事件系的和事件概率为,任何一个事件发生的概率为1/n。即:P(A1A2An),例如对于棉花纤维长度,28毫米、28毫米和30毫米、30毫米均构成了完全事件系。,(二)概率的计算法则,定理: 若事件A与B互斥,则 P(A+B)=P(A)+P(B),试验的全部结果包含n个基本事件,事件A包含其中m1个基本事件,事件B包含其中m2个基本事件。由于A和B互斥,因而它们各包含的基本事件应该完全不同。所以事件AB所包含的基本事件数为m1+m2。,P(A+B)=m1/n+m2/n=P(A)+P(B),推理1 P(A1+A2+An)=P(A1)+P(A
6、2)+P(An),推理3 完全事件系的和事件的概率为1。,例:玉米田中,一穗株(A)占67.2%,双穗株(B)占30.7%,空 穗株(C)占2.1%,试计算一穗株和双穗株的概率。,P(A+B)=P(A)+P(B)=0.672+0.307=0.979,因为P(A)+P(B)+P (C) =1 P(A+B)=1-P(C)=1-0.021=0.979,或,定理: 事件A和事件B为独立事件,则事件A与事件B同时发生的概率为各自概率的乘积。 P(AB)=P(A)P(B),推理:A1、A2、An彼此独立,则 P(A1A2A3An)=P(A1)P(A2)P(A3)P(An),三、概 率 分 布,(一)离散型
7、变量的概率分布,要了解离散型随机变量x的统计规律,必须知道它的一切可能值xi及取每种可能值的概率pi。,对离散型变量x的一切可能值xi(i=1,2,3),及其对应的概率pi,P (x=xi) = pi, i=1,2,3,离散型变量的概率分布的特点,Pi 0 (i=1,2,),= 1,(二)连续型变量的概率分布,当试验资料为连续型变量,一般通过分组整理成频率分布表。如果从总体中抽取样本的容量n相当大,则频率分布就趋于稳定,我们将它近似地看成总体概率分布。,对于一个连续型随机变量x,取值于区间a,b内的概率为函数f(x)从a到b的积分,即:,连续型随机变量的概率由概率分布密度函数所确定。,概率密度
8、函数f(x)曲线与x轴所围成的面积为1。,随机变量可能取得的每一个实数值或某一范围的实数值是有一个相应概率于其对应的,这就是所要研究和掌握的规律,这个规律称为随机变量的概率分布。,四、大 数 定 律,大数定律:是概率论中用来阐述大量随机现象平均结果稳定性的一系列定律的总称。,主要内容:样本容量越大,样本统计数与总体参数之差越小。,辛钦大数定律,伯努利大数定律,(1)伯努利大数定律,设m是n次独立试验中事件A出现的次数,而p是事件A在每次试验中出现的概率,则对于任意小的正数,有如下关系:,若试验条件不变,重复次数n接近无限大时,频率与理论概率的差值必定要小于一个任意小的正数,即这两者可以基本相等
9、,这几乎是一个必然要发生的事情。,(2)辛钦大数定律,设x1,x2,x3,xn是来自同一总体的变量,对于任意小的正数,有如下关系:,若试验条件不变,重复次数n接近无限大时,随机变量的 X与总体平均数之间的差一定小于一个任意小的正数,即这两者可以基本相等,这几乎是一个必然要发生的事情。,几种常见的理论分布,第二节,随机变量的概率分布 (probability distribution),离散型变量(discrete random variable),连续型变量(continuous random variable),二项分布泊松分布,正态分布,变量,一、二 项 分 布,离散型随机变量的分布,哺乳
10、动物,种子,穗子,生物个体,雄性,雌性,发芽,不发芽,有芒,无芒,成活,死亡,对立事件,(一)二项分布的概率函数,为便于研究,通常给“此”事件以变量“1”,具概率p;给“彼”事件以变量“0”,具概率q其概率关系为: pq=1,如果我们每次抽取0、1总体的n个个体,则所得变量x将可能有0,1,n,共n+1种。这n+1变量有它各自的概率而组成一个分布。这个分布叫做二项概率分布,简称二项分布(binomial distribution),也称为贝努里分布,记作B(n,p)。这种“非此即彼”的事件所构成的总体称为二项总体。,例如,观察施用某种农药后蚜虫的死亡数,记“死”为0,“活”为1。如果每次观察5
11、只,则观察的结果将有0(5只全死)、1(4死1活)、2(3死2活)、3(2死3活)、4(1死4活)、5(5只全活),共6种变量。由这6种变量的相应概率组成的分布,就是n=5时活虫数的二项分布。,红花豌豆和白花豌豆杂交,F2代出现红花的概率为p=3/4,出现白花的概率为q=1/4。如果将F1代种子成行种植,每行种4粒。问一行全是红花、三株红花、二株红花、一株红花、0红花的概率各是多少。,二项分布的概率函数,(1,1,1,1),4,P(x=4)=1p4=0.754=0.3164,(1,1,1,0),(1,1,0,1),(1,0,1,1),(0,1,1,1),3,P(x=3)=4p3q1=40.75
12、30.25=0.4219,(1,1,0,0),(1,0,1,0),(1,0,0,1),(0,1,1,0),(0,1,0,1),(0,0,1,1),2,P(x=2)=6p2q2=60.7520.252=0.2109,(1,0,0,0),(0,1,0,0),(0,0,1,0),(0,0,0,1),1,P(x=1)=4p1q3=40.750.253=0.0409,(0,0,0,0),0,P(x=0)=1q4=0.254=0.0039,为方便,以“1”代表出现红花的事件,“0”代表出现白花的事件。,上例各项的概率相当于(p+q)4的展开: (p+q)4=p4+4p3q+6p2q2+4pq3+q4 同理
13、,以样本容量为n进行的抽样,得到的概率分布为(p+q)n的展开。,每一项的系数为:,二项分布概率函数:,p(x) Cnxpxqn-x,由于二项式中p+q=1,,( p+q ) n = 1,p(0) +p(1) +p(2) + + p(x) + + p(n) =1,或者n个事件构成一个完全事件系,所以有:,现已求出某事件发生的概率,若试验N次,则该事件发生的理论次数为: 理论次数NP(x),二项分布的概率累积函数为:,(三)二项分布的形状和参数,(1)当p值较小且n不大时,分布是偏倚的。随n的增大,分布趋于对称;,二项分布的形状由n和p两个参数决定。B(n,p),(2)当p值趋于0.5时,分布趋
14、于对称。,统计学证明,服从二项分布B(n,p)的随机变量x所构成的总体的平均数x 、标准差x与n、p这两个参数有关。,一、二项分布,xn p,在二项分布中,事件A发生的频率 x/n称为二项成数,即百分数或频率。则二项成数的平均数和标准差分别为:,pp,多项式分布,若总体内包含几种特性或分类标志,可以将总体中的个体分为几类,例如在给某一人群使用一种医用物理治疗仪,可能有好的疗效,有的没有疗效,有的产生副作用,这种将变量分为三类或多类的总体称为多项总体,研究其随机变量的概率分布可使用多项式分布(multinomial distribution)。,设总体中共包含k项事件,它们的概率分别为:p1、p
15、2、p3、pk,显然 p1+p2+p3+pk=1。若从这个总体随机抽取n个个体,那么可能得到这k项的个数分别为 y1、y2、y3、yk,而y1 + y2 + y3 + yk =n。其事件的概率为:,这一概率分布称为多项式分布。,例:某医用物理治疗仪对病人有效的概率为1/2,对病人无效的概率为1/3,有副作用的概率为1/6,若随机抽取2个使用该仪器的病人,那么我们的结果可能包括这样几种事件:两个均有效;两个均无效;两个均有副作用;一个有效、一个无效;一个有效、一个有副作用;一个无效、一个有副作用。试计算出现这些事件的概率。,解: 分别用y1、y2、y3分别代表用药有效的个体数、用药无效的个体数和
16、用药有副作用的个体数。这些事件的概率的计算见下表:,(0,0,2),(0,1,1),(0,2,0),(1,0,1),(1,1,0),(2,0,0),二、泊 松 分 布,泊松分布(Poisson distribution) 是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布,也是一种离散型随机变量的分布。,泊松分布是二项分布的一种特殊类型。,泊松分布的概率函数 可由二项分布概率函数推导出来,为参数, = np x = 0,1,2,p(x) Cnxpx(1-p)n-x,=2 =,p(x) Cnxpx(1-p)n-x, n p,2=np(1-p),= ,np =,P( )的形状
17、由确定, 较小时,泊松分布偏倚。 增大时,泊松分布趋于对称。 无限增大时,泊松分布接近正态分布。,对于小概率事件,可用泊松分布描述其概率分布。,二项分布当p0.1和np5时,可用泊松分布来近似。,2,1,三、正 态 分 布,围绕在平均值左右,由平均值到分布的两侧,变量数减少,即两头少,中间多,两侧对称。,特点,正态分布也称为高斯分布(Gauss distribution)。,n大,与1-p接近,大,二项分布,泊松分布,正态分布,正态分布是生物统计学的重要基础。,(一)正态分布的概率函数,f(x) 为正态分布的概率密度函数,表示某一定x值出现的概率密度函数值。,总体平均数,总体标准差,圆周率,3
18、.14159,e为自然对数底,2.71828,连续型随机变量的概率分布是用概率密度函数来描述的。,N (,2),(一)正态分布的概率函数,x=时,f(x)值最大,正态分布曲线以平均数为中心的分布。,(二)正态分布的特征,1,x-的绝对值相等时,f(x)也相等,正态分布密度曲线以为中心向左右两侧对称。,(二)正态分布的特征,2,f(x)是非负函数,以x轴为渐近线,x的取值区间为(-,+) 。,(二)正态分布的特征,3,正态分布曲线由参数,决定, 确定正态分布曲线在x轴上的中心位置,确定正态分布的变异度。,(二)正态分布的特征,4,正态分布曲线在x=处各有一个拐点,曲线通过拐点时改变弯曲度。,(二
19、)正态分布的特征,5,分布曲线与x轴围成的全部面积为1,(二)正态分布的特征,6,若一个连续型随机变量x取值于区间a,b,其概率为,(三)标准正态分布,N (,2),正态分布是依赖于参数(,2)的一个曲线系,正态曲线的位置及形态随(,2)的不同而不同,这就给研究具体的正态分布总体带来了困难,我们现将其标准化。,N(,2),N(0,1),u表示标准正态离差(standard normal deviate),它表示离开平均数有几个标准差。,f(u)称为标准正态分布(standard normal distribution)或u分布方程。,正态分布的曲线图,-3 -2 -1 0 1 2 3,正态分布
20、曲线图(平均数为 ,标准差为 ),标准正态分布曲线图(平均数 为0,标准差 为1),标准正态分布的概率累积函数记作F(u),它是变量u小于某一定值的概率。,为了计算方便,对于不同的u值,计算出不同的F(x),编成函数表,称为正态分布表,从中可以查到u任意一个区间内取值的概率。,标准正态分布u落在区间a,b的概率,若随机变量服从正态分布N(,2),则x的取值落在区间x1,x2 的概率,记作P(x1xx2)。,(四)正态分布的概率计算,服从正态分布N(,2)的随机变量,x的取值落在区间x1,x2 的概率,记作P(x1xx2),等于服从标准正态分布的随机变量u在(x1-)/ , (x2-)/ 内取值
21、的概率。,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。,(四)正态分布的概率计算,P(-1.96u1.96)=0.95,= P(-2.58u2.58)=0.99,统计数的分布,第三节,一、抽样试验与无偏估计,前面我们谈到总体的参数是无法得到的,需要用样本的统计数进行估计。用统计数估计总体的相应参数,首先必须知道统计数与参数的关系,即要弄清楚总体和样本的关系。 通过本节抽样分布的讨论,目的就是要搞清楚从总体中抽出所有可能的样本统计量的分布与原总体之间的关系。,总体,总体和样本的关系示意图,样本平均数的抽样及其分布 如果从容量为N
22、的有限总体抽样,若每次抽取容量为n的样本,那么一共可以得到Nn个样本。 每个样本可以计算一个平均数,这样就得到许多平均数,如果将这些平均数集合起来便构成一个新总体。由于每次随机抽样所得的平均数可能会存在差异,所以由平均数构成的新总体也应该有其分布,这种分布称为平均数的抽样分布。,下面用一个抽样实验进一步说明样本平均数的抽样分布及其分布的参数。假定用一个很小的总体N=3,其观察值为3、4、5以样本容量n=2从中进行抽样。首先计算出总体参数: =(3+4+5)/3=42=(3-4)2+(4-4)2+(5-4)2/3=0.6667所有可能的样本数=Nn=32=9,=4 20.6667 0.8165,
23、如果所有可能样本的某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值。,样本平均数是总体平均数的无偏估计值。,样本方差是总体方差的无偏估计值。,样本标准差s不是总体标准差的无偏估计值。,二、样本平均数的分布,由于从总体中抽出的样本为每一个可能样本,且每个样本中的变量均为随机变量,所以其样本平均数也为随机变量,也形成一定的理论分布,这种理论分布称为样本平均数的概率分布,或称样本平均数的分布。,样本平均数的平均数:,样本平均数的方差:,(1)样本平均数分布的平均数总体平均数。,(2)样本平均数分布的方差总体方差除以样本容量。,标准误大,各样本平均数间差异程度大,样本平均数
24、的精确性低。,标准误小,各样本平均数间差异程度小,样本平均数的精确性高。,标准误的大小与原总体的标准差 成正比,与样本含量n的平方根成反比。,从某特定总体抽样,因为是一定值,所以只有增大样本容量,才能降低样本平均数的抽样误差。,样本平均数的标准误差(标准误)(standard error of mean),(3)如果从正态分布总体N(,2)进行抽样,其样本平均数 是一具有平均数 ,方差2/n的正态分布,记作N(,2/n)。,中心极限定理(central limit theorem),(4)如果被抽总体不是正态分布总体,但具有平均数和方差2 ,当随样本容量n的不断增大,样本平均数 x 的分布也越
25、来越接近正态分布,且具有平均数,方差2 /n 。,不论总体为何种分布,只要是大样本(n30),就可运用中心极限定理,认为样本平均数的分布是正态分布,在计算样本平均数出现的概率时,样本平均数可按下式进行标准化。,三、样本平均数差数的分布,(1)样本平均数差数的平均数 = 总体平均数的差数.,(2)样本平均数差数的方差 = 两样本平均数方差之和.,样本平均数差数的标准误,12=22=,n1=n2=n,12=22= n1=n2=n,(3)从两个独立正态分布总体中抽出的样本平均数差数的分布,也是正态分布。,四、t 分布,t分布是英国统计学家Gosset 1908年以笔名“student”所发表的论文提
26、出的,因此又称为学生氏t分布。,t分布概率密度函数,t分布的平均数t和方差t2,()t分布曲线是左右对称的,围绕平均数t =0 向两侧递降。,对于不同的自由度,t分布有不同的曲线。,(2)t分布受自由度df=n-1的制约,每个自由度都有一条t分布曲线。,(3)和正态分布相比,t分布顶端偏低,尾部偏高,自由度df30时,其曲线接近正态分布曲线,df时则和正态分布曲线重合。,t分布曲线与横轴所围成的面积为1。,同标准正态分布曲线一样,统计应用中最为关心的是t分布曲线下的面积(即概率)与横轴t值间关系。,为使用方便,统计学家编制不同自由度df下的t值表。,在相同的自由度df时,t值越大,概率P越小。
27、,在相同t值时,双尾概率P为单尾概率P的两倍。,1,2,df增大,t分布接近正态分布,即t值接近u值。,3,五、F 分布,设从一正态总体N(,2) 中随机抽取样本容量为n1、n2的两个独立样本,其样本方差为s12、 s22,则定义其比值:,此值具有s12的自由度df1=n1-1和s22的自由度df2=n2-1。,如果对一正态总体在特定的df1和df2进行一系列随机独立抽样,则所有可能的值就构成一个分布。,分布是随自由度df1和df2进行变化的一组曲线。,分布的概率累积函数,的取值区间为0,+),分布曲线的形状仅决定于df1和df2。在df11或2时,分布曲线呈严重倾斜的反向型,当df1 3时,转为左偏曲线。,1,2,