《第四章概率分布《试验设计与统计分析》课件.ppt》由会员分享,可在线阅读,更多相关《第四章概率分布《试验设计与统计分析》课件.ppt(102页珍藏版)》请在三一办公上搜索。
1、第四章 概率分布,在自然界或人类社会中发生的各种现象通常可划分为两类:确定性现象(definite phenomena)一定条件下必然发生的现象;随机现象(random phenomena)一定条件下可能发生、但结果不止一个、哪个结果发生预先并不知道的。比如,抛掷一枚硬币.随机现象的统计规律随机现象虽然表现为不确定性,但在大量重复试验观测下,其结果会呈现出某种特定的规律,称作随机现象的统计规律。如:掷一枚硬币,正面朝上的频率接近0.5。概率分布就是描述随机现象的统计规律。,本章主要介绍:事件和概率 二项分布和泊松分布 正态分布 抽样分布 第一节 事件和概率一、事件1、随机试验满足下述三个条件的
2、试验称为随机试验(random experiment):试验可在相同条件下重复进行;试验的所有可能结果是明确可知的,并且不止一个;每次试验总是恰好出现这些可能结果中的一个,但在试验之前却不能肯定会出现哪一个结果。在统计学里随机试验可简称为试验。,2、事件(event)试验中所观察到的结果。3、基本事件随机试验的每一个可能结果,称为基本事件(elementary event)或简单事件(simple event),不可再分。4、复合事件由若干个基本事件组合而成的事件,称复合事件(compound event),也称作复杂事件5、必然事件每次试验中一定发生的结果称作必然事件(certain eve
3、nt),用表示。6、不可能性事件在任何一次试验中都不可能发生的结果称作不可能事件(impossible event)。用表示。7、随机事件每次试验中可能发生也可能不发生的结果称作随机事件(random event)。用A、B、C等表示。,二、事件之间的关系和运算,1、包含若事件A的发生必导致事件B发生,则称事件B包含事件A,。2、相等 则称事件A等于事件B,记作A=B。3、和若事件A与事件B至少一个发生某事件就发生,则某事件称作A与B的和事件,简称为和,记作(读作A并B),或A+B(读作A加B)。,推广到n个事件的和:4、积若事件A与事件B同时发生某事件才发生,则称某事件为A与B的积事件,简称
4、为积,记作,读作A交B)或AB(读作A乘B)。推广到个n个事件的积:,5、差称事件A发生但事件B不发生的事件为A减B的差事件,简称为差,记为A-B。6、互斥若事件A与事件B不能同时发生,则称A与B互斥或互不相容。互斥包括非此即彼的情形,但互斥不一定是非此即彼,事件关系满足。7、对立称事件A不发生就发生的事件为A的对立事件,记为。事件的发生非此即彼,显然,8、独立若事件A发生的概率不影响事件B发生的概率,则称事件A与事件B相互独立,反之亦然,A与B是一对彼此独立的事件。注意独立与互斥、对立的区别,互斥指两事件不能同时发生,满足;独立指一事件发生的概率与另一事件发生的概率无关,对立事件互斥但不独立
5、,因为它们满足 9、完备事件系若n个A1、A2、An事件两两互斥,且满足下式:,则称该个事件为一个完备事件系。注意,概率之和等于1并且两两互斥的事件系才是完备事件系,两个条件缺一不可。例4.1用“集合图”描述事件之间的关系和运算,并理解和掌握它们的实际意义。图4.1 事件之间的关系和运算,三、概率,用于度量事件发生可能性大小的数值称作事件的概率(probability)。通常用P(A)、P(B)等表示。事件的概率具有下述性质:设A为任一事件,则0 P(A)1;必然事件的概率为1,P()=1;不可能事件的概率为0,P()=0。,2、概率的统计定义若在相同条件下将试验重复n 次,且事件A出现了nA
6、次,则事件的频率(frequency)定义为如果随着试验重复次数n的增大,事件A的频率越来越稳定地在某一常数附近摆动,则称常数为事件A的概率(probability),即这就是统计意义上的概率定义(statistical probability)。历史上曾有几个著名的抛一枚均质硬币试验(见教材)许多情况下p很难准确获得。通常以n充分大时事件A出现的频率作为它的概率的估计值,即:,四、概率计算法则1、对立事件和互斥事件的加法公式若A和 为对立事件:若A和B为互斥事件:P(A+B)=P(A)+P(B)2、独立事件的乘法若A、B为相互独立事件:P(AB)=P(B)P(A)若A1、A2、An为独立事件
7、系:P(A1、A2、An)=P(A1)(A2)P(An),第二节 随机变量及其分布,一、随机变量 在随机试验中,被测定的量是可取不同值的变量,且其取值具有随机性,这样的变量称为随机变量,用X表示。X的某次取值记作小写的x,此时就称X作随机变量(random variable),就称x作随机变量的一个观察值(observed value)或简称观测(observation)。,间断性(internal variable)或称为离散(discrete variable)随机变量如果随机变数只有有限个可能的取值,并在试验中以确定的概率来取这些数值,就称它为间断性(或离散)随机变量。质量性状和计数的数
8、量性状的试验结果常常是间断性随机变量。连续性随机变量(continuous variable)如果随机变数可能的取值充满一个区间,并且试验结果落在任意区间内的概率是确定的,就称它为连续性随机变量。计量性状的试验结果通常是连续性随机变量。,二、随机变量的概率分布随机变数可能的取值或取值区间的概率反映了随机变数的统计规律性,称为概率分布。1、离散(间断性)随机变量的概率分布所谓离散随机变量的概率分布,就是指概率函数f(x)和分布函数F(x)两个基本函数,它们提供了概率分布规律的完整信息。概率函数(probability function)f(x)设随机变数X可能的取值为x1,x2,xk,每个取值对
9、应的概率P(Xxi)为p1,p2,pk,为离散(间断性)随机变量的概率函数,表4.1 间断性随机变量的概率分布列,分布函数(cumulative distribution function)F(x)为分布函数亦称作概率累积函数间断性随机变量一般用概率分布列来表示这种规律性。其概率分布列见表4.1。,例4.2转基因桑树植株抗病性检验(邱健德,2006),参试植株分两组,即转基因组和一般桑树组,将病级分为,级,观测发病的植株数。由于观测数量足够多,故发病的概率近似等于频率,试以此概率为基础求解随机变量的概率函数和分布函数。,表4.2 桑树植株发病级的概率函数和分布函数,2、连续随机变量的分布,连续
10、性随机变量一般用分布函数F(x)和概率密度函数f(x)来表示其概率分布规律 分布函数(概率累积函数)F(X)若X为一连续随机变量,x(-,+)为任意实数,则X的分布函数或概率累积函数为:F(X)=P(Xx)分布函数F(x)的直观意义就是随机点X落在区间(-,x上的概率。概率密度函数f(x)如果存在非负函数f(x),使则称f(x)为连续随机变量的概率密度函数,简称概率密度(probability density),亦称密度函数(density function)或分布密度(distribution density)。,图4.2 连续随机变量的 概率密度曲线,图4.3 连续随机变量的 分布函数曲线
11、,连续随机变量在给定区间取值的概率对于连续随机变量x,若已知它的分布函数F(X),则x的观察值属于任一区间(x1,x2的概率可由下式求得:,1、大数定律相同条件下大量重复的试验,事件发生的频率随试验次数的无限增大而趋于事件的概率,这是最早的一个大数定律(law of large number)。一般的大数定律,研究随机变量n次观测的平均数随n无限增大是否趋向某定值的问题,称作平均数的稳定性。如果“n无限增大平均数就趋于一个定值”,此时称平均数具有稳定性。,三、大数定律及小概率事件原理,大数定律是许多统计方法赖以成立的理论依据。称其为统计估计。“大数”就是所谓的“足够多”。,足够多的独立重复试验
12、,大数定律,2、小概率事件原理,依据大数定律,概率很小的事件其频率也很小,若只做一次试验,该事件实际上应当不会发生。因此,人们常常认为那些概率很小的事件实际上是不可能发生的,此原理称之为“小概率事件的实际不可能原理”,简称作“小概率事件原理”.一般认为概率小于0.05或小于0.01的事件为小概率事件,0.05和0.01称为小概率事件的临界概率。对于其它特殊场合,规定的临界概率值可根据事件的性质合理确定。,第三节 二项分布和泊松分布,一、0-1分布(二项总体分布)有些总体的各个个体的某种性状,只能发生非此即彼两种结果,“此”和“彼”是对立事件,如,种子的发芽和不发芽等,这种由非此即彼事件构成的总
13、体,叫做二项总体。为便 于研究,将这类的试验结果数量化,“此”事件设为1,具概率p,“彼”事件设为0,具概率q,因而,二项总体又称为0-1总体,其概率关系显然为:p+q=1 q=1 p,表4.3 二项总体的概率分布列(0-1分布),m=p,s2=pq,图4.4 0-1分布的概率函数,例4.3以某试验地的5株蔬菜为总体调查蚜虫为害情况。令x1代表受害,x0代表未受害,5株的观察结果为0,1,0,1,0。试求危害率的数学期望m和方差s2。说明该试验地蚜虫的平均危害率为0.4,危害率变异的方差为0.24。此例也说明了二项总体的平均数为m=p,方差为 s2=pq,二、二项分布从二项总体中,每次以样本容
14、量n抽样,将会有n+1种可能的结果,这n+1种可能的结果有它各自的概率而组成一种分布,就叫二项概率分布,简称二项分布(binomial distribution)。又称贝努利分布。,0 1 0 11 1 0 0 1 0 1 0 1 0 1 0 0 0 1 0 1 0 1 00 1 0 1 1 0 01 1 01 0 0 0 0 1 0 1 1 0 1 0 1 1 1 0 1,00000,11111,以n=5抽样,有6种可能的结果(即:变量X有6种可能的取值),二项总体(0-1)总体,这6种可能的结果有它各自的概率而组成一种分布就叫二项概率分布,简称二项分布(binomial distribut
15、ion)。又称贝努利分布。,0,1,2,3,4,5,二项展开式,三、计算二项分布概率的方法,例4.4在一批发芽率为0.9的种子里取5粒进行发芽试验。以x为发芽粒数,试做出试验结果X的概率分布列。,四、二项分布的形状和参数图4.5表示表4.4的概率分布列。这是一个偏态的概率分布,因为其pq且n较小。如果pq则二项分布是对称的,见图4.6。理论分析和实践结果都表明当n很大时,即使pq的二项分布其图形也接近对称,见图4.7。,图4.5 表4.4的概率分布图,图4.6 p=q=0.5,n=5的二项分布图示,图4.7 p=0.4,q=0.6,n=20的二项分布图示,例4.5 某玉米种子发芽率为0.6,今
16、按设计株距穴播,若每穴播4粒,预计田间保苗率是多少?首先考虑,这里的田间保苗率实际上是每穴有种子发芽的概率,这是一个和事件,可计算为可知此时,田间预计保苗率为97.44%,例4.6在已往大规模田间播种作业中,已观测到种子的出苗概率为0.6。若每穴播10粒,试确定播种作业的穴粒数分布,求出在此出苗概率(0.6)下,田间保苗率95%的最少穴粒数。解:设出苗种子数X为随机变量,服从二项分布。其概率函数为,表4.5 田间播种作业穴粒数的概率函数和分布函数(103),图4.8 每穴出苗种子数的概率函数(二项分布),概率函数,观察值(x),设:田间保苗率大于95%时,最少穴粒数为每穴n粒。与上题相同,田间
17、保苗率实际上是每穴有种子发芽的概率,因此:至少一粒种子出苗的概率如下:由此可见,穴粒数达4粒以上就可基本保证每穴必出苗,最佳穴粒数定为4。,五、泊松分布,当n较大,p或q较小,np或nq5时,二项分布将为泊松分布(Poisson distribution)所接近。令np,则泊松分布的概率分布为记作Xp()。泊松分布的概率函数仅含一个参数,意味着只要获知,概率函数就被完全确定。泊松分布的期望和方差相等且均为,这是泊松分布所特有的性质。如果试验次数很大,某事件出现的次数很小,那么此事件的出现次数将服从泊松分布。,泊松分布的概率函数图形见图4.11。图4.9 泊松分布的概率函数,例4.11为考察果树
18、品种A和B的幼苗在某栽植地区的抗寒力及分布,设置200个面积相等且足够大的抽样小区,观测小区寒害株数(小区内遭受寒害的株数),观测结果为0,1,2,3,4和5。统计寒害株数相同的小区数(小区寒害次数),计算小区寒害率(小区寒害次数与观测小区总数之比),结果见表4.6。试用泊松分布预测小区寒害率并与观测结果比较,同时考察两品种抗寒力的差异。,表4.6 两果树品种的小区寒害株数、次数和寒害率的观测结果,品种A:品种B:品种A的泊松分布概率函数品种B的泊松分布概率函数,图4.10 品种A小区寒害率的观察值与泊松预测值,图4.11 品种B小区寒害率的观察值与泊松预测值,一批种子中不合格种子占0.005
19、,从中抽取800粒,试求其中不合格种子恰有10粒和不多于5粒的概率。因为n800,p0.005,np45,所以可按泊松分布来计算。后者也可以在泊松分布累积函数表中查出。,第四节 正态分布,正态分布是田间试验与统计分析中最重要的一种分布:生物科学的许多随机变量均服从正态分布,比如产量、株高、生物量等;n趋于无穷大,任意分布平均数的分布均趋于正态分布,这意味着n足够大时可用正态分布近似平均数的分布;n趋于无穷大,二项分布、泊松分布等许多分布都趋于正态分布,这意味着n足够大时可用正态分布近似这些分布;三大抽样分布t、c2和F均源于正态分布总体的抽样,而它们又是形成统计方法的基础。,一、正态总体分布,
20、随机变数X服从正态分布记为XN(m,s2)s2)正态分布的概率密度函数为 正态分布的概率累积函数为,二、正态分布曲线的性质,1、正态分布曲线以总体平均数为中心,向左右两侧对称分布。2、正态分布曲线是一单峰曲线,总体平均对应的概率密度最大,左右两侧离越远对应的概率密度越小。3、总体平均数决定曲线的中心位置,标准差决定曲线的变化率。和不同的总体其正态分布曲线的位置和形状各异,因此正态分布曲线是以参数和的不同而变化的曲线系统。4、正态分布曲线在 1处有拐点,两尾向左右无限延伸,以横轴为渐近线,全距为-至。5、无论和为多少,正态分布曲线与横轴间的总面积都等于1,意为随机变数X的取值位于-至之间的概率为
21、1,即,图,6、无论和为多少,随机变数的取值落在任意区间(a,b)的概率为直线xa和xb与正态分布曲线和横轴间的面积,即:表4.7 几个常见区间所对应的概率,图4.12 正态概率密度曲线及随的变化(固定),图4.13 正态概率密度曲线及随的变化(固定),返回性质,图4.14 正态分布曲线,正态分布的概率计算,随机变数X在(a,b)范围内的概率等于X在(a,b)范围内的定积分:计算曲线下从-到x的面积其式如下:FN(x)称为正态分布的累积函数或分布函数,具平均数 和标准差,f(x)为概率密度函数。,P(Xa)=FN(a)P(aXb)=FN(b)-FN(a),服从正态分布的随机变数X都可通过标准化
22、变换为正态离差u来计算其落于任意区间的概率。总体平均数0,方差1的正态分布称标准正态分布。“标准化”是以一个新变数U代替X。将X离其平均数的差数以为单位进行标准化。即 U称为正态离差,是一个服从标准正态分布的随机变数。,其概率密度函数为:具平均数0,方差1。记为UN(0,1)附表1给出的正是标准正态分布的累积函数值从N(,2)到N(0,1),从几何意义上说,仅是作了坐标轴平移和尺度单位的变换。它带来的相应改变是:分布中心从处移到0处;尺度单位从x的单位变为标准差的单位。,图4.15a 正态分布曲线图,图4.15b 标准正态分布曲线图,由对立事件概率之和 P(Xx)+P(Xx)=1得,得变量在任
23、意区间(x1,x2)内取值的概率如下例4.13设 UN(0,1),试计算 P(U1.38)、P(|U|1)、P(|U|2)、P(|U|3),由正态分布函数表(附表1)查得:(2.1)=0.0179、(1.38)=0.9162、(1)=0.8413、(-1)=0.1587、(2)=0.9772、(-2)=0.0228、(3)=0.9987、(-3)=0.0013P(U1.38)=1 P(U1.38)=1 0.9162=0.0838 P(|U|1)=P(-1U 1)=(1)(-1)=0.8413 0.1587=0.6826 P(|U|2)=0.9545 P(|U|3)=0.9973,图4.16 正
24、态累积函数的图示,f(u)0.4,-3-2-1 0 1 2 3 U,图4.17 区间(-1,1)、(-2,2)和(-3,3)的概率图示,图4.18 标准正态分布的概率计算,例4.14设XN(3,9),试计算P(X 7.53)、P(|X|3.9)由附表1查得:(1.4)=0.0808、(1.51)=0.9345、(0.3)=0.6179、(-2.3)=0.0107、,图4.19 任意正态分布的概率计算,假定X是一个随机变量,服从30,5的正态分布,即:X N(30,25)。试求其取值小于26,大于40和介于26和40之间的概率。本例不是标准正态分布,须经标准化后才能可求出落于各区间的概率。查附表
25、2:(-0.8)0.211 9,例4.9试求正态分布曲线对应中间概率为0.95和两尾概率为0.01时随机变数X的取值区间。设对应中间概率为0.95的取值区间为(x1,x2),即P(x1Xx2)0.95。经标准化变换后,查附表2,(-1.96)0.025,(1.96)0.975,于是有u1-1.96,u21.96,即 P(-1.96U1.96)0.95,或 P(|U|1.96)0.95。也即 P(1.96X+1.96)0.95,或 P(|X|1.96)=0.95。,附表1 正态分布函数表,同理可得(-2.58)0.005,(2.58)0.995,于是有u1-2.58,u22.58,即 P(U 2
26、.58)0.01,或 P(|U|2.58)0.01。也即P(Xm+2.58s)0.01,或 P(|Xm|2.58s)0.01。,图4.20 中间概率和两尾概率的图示,中间概率P(-1.962.58)=0.01,否定区 接受区 否定区 否定区 接受区 否定区,0.025,0.025,0.95,0.005,0.005,0.99,u,u,中间概率对应的随机变数的取值区间一般称为接受区,两尾或一尾概率对应的取值区间一般称为否定区,接受区与否定区的界限称为临界值。上述问题的实质在于计算中间概率P(|U|u)为a时的临界值,也可利用正态离差表(附表2)很方便地查到。例如,查附表2中当a为0.05时,u0.
27、051.959964,即表示P(|U|1.959964)=0.05;当为0.01时,u0.012.575 829,表示P(|U|2.575 829)0.01。,附表2 正态分布两尾临界值表,一尾的 u值等于附表3中两尾u2的值。一尾的u=两尾的u2例如,一尾概率为0.05时,u0.05等于附表2中两尾的u0.101.644 854;一尾概率为0.01时,u0.01等于附表2中两尾的u0.022.326 348。,第五节 抽样分布,一、总体与样本的关系:第一个方向是从总体到样本 从一般到特殊 其目的是研究从总体中抽出的所有可能样本统计量的分布及其与原总体的关系。第二个方向是从样本到总体 从特殊到
28、一般 用样本对总体参数作出推断。,1、样本平均数分布的平均数等于总体平均数,二、,2、样本平均数分布的方差等于总体方差除以样本容量。,进而有:,3、从具有总体平均数,总体方差2的正态分布总体抽样,无论样本容量大或小,其样本平均数的抽样分布必做正态分布,具有4、从具有总体平均数,总体方差2的任一总体抽样,不管其是否服从正态分布,样本容量增大时,样本统计数的分布将趋近于正态分布中心极限定理,2,4,6,s02是直接用n计算的方差,s2是用自由度计算的方差,2,2,6,6,2,4,2,6,4,2,4,4,4,2,6,4,6,6,例如:XN(4,4),若以n=2进行抽样,则,=4 X,例从N(3,0.
29、7072)总体中,以n=4抽样,试求:,三,1、样本总和数分布的平均数等于总体平均数的n倍2、样本总和数分布的方差等于总体方差的n倍,例如:XN(3,4),若以n=2进行抽样,则,四、样本平均数差数分布的基本性质,性质1、如果两个总体各作正态分布,则其样本平均数差数 准确地遵循正态分布律,无论样本容量大或小,都有性质2、两个样本平均数差数分布的平均数必等于两个总体平均数的差数。性质3、两个样本平均数差数分布的方差,必等于两个总体的样本平均数方差的总和。其差数标准误为:,从两个总体抽出的样本平均数的次数分布表,样本平均数差数的次数分布表,样本平均数差数分布的平均数和方差计算表,由上表可算得:,4
30、,3,例如:X1N(4,9),X2N(3,4);,4,3,1,以n1=3从N(4,9)中抽样,以n2=2从N(3,4)中抽样,则,五、二项总体的抽样分布,(一)二项总体的分布参数(二)二项成数(百分数)的分布参数,(三)二项次数(总和数)分布的参数,0 1 0 11 1 0 0 1 0 1 0 1 0 1 0 0 0 1 0 1 0 1 00 1 0 1 1 0 01 1 01 0 0 0 0 1 0 1 1 0 1 0 1 1 1 0 1,00000,11111,0/5=0%,(即平均数),百分数P,次数X,0,(即总和数Sx),1,2,3,4,5,2/5=40%,3/5=60%,4/5=80%,5/5=100%,1/5=20%,二项总体的抽样分布,本章学习要点,1、理解二项总体、二项分布的概念,掌握二项分布的概率计算。2、理解正态分布的性质,掌握正态分布的概率计算。3、理解并掌握抽样分布的性质。,