理论分布与抽样分布.ppt

上传人:牧羊曲112 文档编号:6000872 上传时间:2023-09-13 格式:PPT 页数:77 大小:571KB
返回 下载 相关 举报
理论分布与抽样分布.ppt_第1页
第1页 / 共77页
理论分布与抽样分布.ppt_第2页
第2页 / 共77页
理论分布与抽样分布.ppt_第3页
第3页 / 共77页
理论分布与抽样分布.ppt_第4页
第4页 / 共77页
理论分布与抽样分布.ppt_第5页
第5页 / 共77页
点击查看更多>>
资源描述

《理论分布与抽样分布.ppt》由会员分享,可在线阅读,更多相关《理论分布与抽样分布.ppt(77页珍藏版)》请在三一办公上搜索。

1、西南科技大学生命科学与工程学院周海廷制作,1,第四章理论分布与抽样分布,西南科技大学生命科学与工程学院周海廷制作,2,第一节 事件、概率和随机变量,事件和事件发生的概率,事件间的关系,西南科技大学生命科学与工程学院周海廷制作,3,一、事件和事件发生的概率,事件:一种事物,常有几种可能出现的情况,每一种可能出现的情况。概率:每一事件出现的可能性。随机事件:某事件只是可能发生的事件中的一种,这种事件称为随机事件。,西南科技大学生命科学与工程学院周海廷制作,4,要认识随机事件的规律性,必须在大量的实验中才能观察到。下面用棉田盲椿象为害情况来说明这一问题。,西南科技大学生命科学与工程学院周海廷制作,5

2、,通过大量实验而估计的概率称为统计概率,用公式表示:,P代表概率,P(A)代表事件A的概率。P(A)的取集范围为:0 P(A)1。概率大表示事件发生的可能性大,概率小表示事件发生的可能性小。,西南科技大学生命科学与工程学院周海廷制作,6,小概率原理:若事件A发生的概率较小,如小于0.05或0.01(小概率标准),则认为事件A在一次试验中不太可能发生,这称为小概率实际不可能性原理。必然事件:某事件在同一条件下必然要发生的事件。P(A)=1。不可能事件:某事件在同一条件下必然不发生的事件。P(A)=0。,西南科技大学生命科学与工程学院周海廷制作,7,二、事件间的关系,(一)和事件 事件A和事件B至

3、少有一个发生构成的新事件称为事件A和事件B的和事件,记为AB,读作“或A发生或B发生”。例如测定棉花的纤维长度,以28毫米为事件A,28至30毫米为事件B,则抽取一根30毫米的这一新事件为AB。,西南科技大学生命科学与工程学院周海廷制作,8,(二)积事件 事件A和B同时发生而构成的新事件称为事件A和B的积事件,记为AB,读作“A和B同时发生生”。例如某小麦品种,以发生锈病为事件A,发生白粉病为事件B,则锈病和白粉病同时发生这一新事件为AB。,西南科技大学生命科学与工程学院周海廷制作,9,(三)互斥事件 如果事件A和B不能同时发生,则称事件A和B互斥。例如棉花纤维长度“28毫米”和“等于28毫米

4、”不可能同时发生,为互斥事件。,西南科技大学生命科学与工程学院周海廷制作,10,(四)对立事件 事件A和B不可能同时发生,但必发生其一,即AB为必然事件(记为AB1),AB为不可能事件(记为AB=0),则称事件B为事件A的对立事件,并记B为 例如,有一袋种子,按种皮分黄色和白色,事件A为“取到黄色”,事件B为“取到白色”,A与B不能同时发生,但是,任意取一粒种子,其皮色不是黄色就是白色,即A和B必发生其一,因此A和B互为对立事件。,西南科技大学生命科学与工程学院周海廷制作,11,(五)完全事件系 若事件A1、A2、An两两互斥,且每次试验结果必发生其一,则称A1、A2、An为完全事件系。例如对

5、于棉花纤维长度,28毫米、2830毫米、30毫米构成了完全事件系。,西南科技大学生命科学与工程学院周海廷制作,12,(六)事件的相互独立 若事件A发生与否不影响事件B发生的可能性,则称事件A和事件B相互独立。例如,事件A为“花的颜色为黄色”,事件B为“产量高”,显然花的颜色与产量无关,则事件A和B相互独立。,西南科技大学生命科学与工程学院周海廷制作,13,三、计算事件概率的法则,(一)互斥事件的加法 假定两互斥事件A和B的概率分别为P(A)和P(B),则:P(A+B)=P(A)+P(B)例如:荣昌猪的每胎产仔数9头的概率P(A)=0.65,为10头的概率P(B)=0.18,则每胎产仔10头的概

6、率为:P(A+B)=P(A)+P(B)=0.65+0.18=0.83,西南科技大学生命科学与工程学院周海廷制作,14,(二)独立事件的乘法 假定两个独立事件A与B的概率分别为P(A)和P(B),则:P(AB)=P(A)P(B)例:现有4粒种子,其中3粒是黄色、1粒是白色,采用复置抽样。试求下列事件的概率第一次抽到黄色,第二次抽到白色,西南科技大学生命科学与工程学院周海廷制作,15,抽到黄色种子的概率为3/4=0.75,抽到白色种子的概率为1/4=0.25 P(AB)=P(第一次抽到黄色种子)P(第二次抽到白色种子)=0.750.25=0.1875(三)对立事件的概率 若事件A的概率为P(A),

7、那么其对立事件的概 率为:P()=1P(A),西南科技大学生命科学与工程学院周海廷制作,16,(四)完全事件系的概率 例如上例,黄色种子和白色种子构成完全事件系,其概率为1。,西南科技大学生命科学与工程学院周海廷制作,17,间断性变量 变量y取某一数值时,其概率是确定的,这种类型的变量称为间断性变量。将变量的所有可能取值及其对应的概率列出所形成的分布,称为间断性变量的概率分布:变量yi y1 y2 y3 yn 概率P(y=yi)P1 P2 P3 Pn,四、变量,西南科技大学生命科学与工程学院周海廷制作,18,连续性变量 变量y为某一个取值范围,且y在该范围内取值时,其概率是确定的,这种类型的变

8、量称为连续型变量。变量取一个实数值或某一范围的实数值都有一个相应概率对应的,其分布称为连续性变量的概率分布。,西南科技大学生命科学与工程学院周海廷制作,19,第二节 二项式分布,二项总体与二项式分布,二项式分布的概率计算方法,西南科技大学生命科学与工程学院周海廷制作,20,一、二项总体与二项式分布,总体各个体的某些性状,只能发生非此即彼的两种结果,“此”和“彼”是对立事件,这种由非此即彼事件构成的总体称为二项总体。例如种子的发芽与不发芽,施药后害虫的死或活,产品的合格与不合格。,西南科技大学生命科学与工程学院周海廷制作,21,为便于研究,通常给“此”事件具概率p;给“彼”事件具概率q,其概率关

9、系为:pq=1,如果每次从二项总体中抽取n个个体,则变量y将有0,1,n。这些变量都有各自的概率而组成一个分布。这个分布叫做二项分布。,西南科技大学生命科学与工程学院周海廷制作,22,例如,观察施用某种农药后蚜虫的死亡数,如果观察5只,则观察的结果将有(0活5死)、(1活4死)、(2活3死)、(3活2死)、(4活1死)、(5活0死),这些情况,这些情况的概率都可求。由这些概率组成的分布,就是二项分布。,西南科技大学生命科学与工程学院周海廷制作,23,二、二项式分布的概率计算方法,下面用一个例子来讲解这一问题。红花豌豆和白花豌豆杂交,如果将F1代种子成行种植,每行种4粒。问一行0红4白、1红3白

10、、2红2白、3红1白、4红0白的概率各是多少。(F2代出现红花的概率为p=0.75,出现白花的概率为q=0.25),西南科技大学生命科学与工程学院周海廷制作,24,P(4)=1p4q0=0.754=0.3164,P(3)=4p3q1=40.7530.25=0.4219,P(2)=6p2q2=60.7520.252=0.2109,P(1)=4p1q3=40.750.253=0.0409,P(0)=1p0q4=0.254=0.0039,本例n=4 p=0.75 q=0.25,西南科技大学生命科学与工程学院周海廷制作,25,2头死,8头好的概率为:,3头死,7头好的概率为:,例4.2 某种昆虫在某地

11、区的死亡率为40%,每次抽10头作为一组。试问在10头中死3头、2头、1头、0头的概率为多少?,西南科技大学生命科学与工程学院周海廷制作,26,1头死,9头好的概率为:,0头死,10头好的概率为:,若计算10头中不超过2头死去的概率为多少?则应该应用累积概率:,西南科技大学生命科学与工程学院周海廷制作,27,三、二项式分布的形状和参数,(一)形状,p=0.35,n=5的概率分布图,西南科技大学生命科学与工程学院周海廷制作,28,(p=0.5,n=5)的概率分布图,西南科技大学生命科学与工程学院周海廷制作,29,当p=q时,二项分布呈对称形状。pq,则表现偏斜形状。但当n很大时,即使pq,它也接

12、近对称形状。所以这一理论分布是由n和p两个参数决定的。(二)参数 一个总体分布都是用平均数和方差描述。二项总体的样本总和数的抽样分布其平均数和标准差为:=np,2=npq=,西南科技大学生命科学与工程学院周海廷制作,30,四、多项式分布,若总体内包含几种分类,可以将总体中的个体分为几类,例如在给某一人群使用一种新药,可能有疗效好,没有疗效,副作用,象这种将变数资料分为二类以上的总体称为多项总体,研究其随机变量的概率分布称为多项式分布。,西南科技大学生命科学与工程学院周海廷制作,31,设总体中共包含k项事件,它们的概率分别为:p1、p2、p3、pk,那么p1+p2+p3+pk=1。若从这个总体随

13、机抽取n个个体,那么可能得到这k项的个数分别为y1、y2、y3、yk,而y1+y2+y3+yk=n。其事件的概率为:,这一概率分布称为多项式分布。,西南科技大学生命科学与工程学院周海廷制作,32,例4.3某药对病人有效的概率为1/2,对病人无效的概率为1/3,有副作用的概率为1/6,若随机抽取2个使用该药的病人,那么结果可能包括这样几种事件:2个病人有副作用;一个无效、一个有副作用;两个无效;一个有效、一个有副作用;一个有效、一个无效;两个均有效。试计算出现这些事件的概率。,西南科技大学生命科学与工程学院周海廷制作,33,解:分别用y1、y2、y3分别代表用药有效的个体数、用药无效的个体数、用

14、药有副作用的个体数。,(0,1,1),(0,2,0),(1,0,1),(1,1,0),(2,0,0),(0,0,2),西南科技大学生命科学与工程学院周海廷制作,34,五、泊松分布,泊松分布是二项分布的一种极限分布,二项分布有时会遇到概率p或q很小,而n又相当大,这样的二项分布称为泊松分布。分布如下式:,y=0,1,2,,西南科技大学生命科学与工程学院周海廷制作,35,凡在观察次数n相当大中,某一事件出现的平均次数很小,那么,这一事件出现的次数将符合泊松分布。,西南科技大学生命科学与工程学院周海廷制作,36,第三节 正态分布,西南科技大学生命科学与工程学院周海廷制作,37,一、正态分布,P=0.

15、5,n=5的二项分布,西南科技大学生命科学与工程学院周海廷制作,38,p=0.5,n=20的二项分布,西南科技大学生命科学与工程学院周海廷制作,39,从图中看出,若n,每个组的长方形都一一变为纵轴线,连接的直线也一一变成点了。这时多边形折线应表现为一个光滑的曲线,在数学意义上它是一个二项分布的极限曲线即为正态分布曲线。,西南科技大学生命科学与工程学院周海廷制作,40,1、用样本分布发现总体分布。2、用正态分布代替其它分布,以计算概率。3、从不是正态分布的总体中抽出样本的平均数及其它一些统计数的分布,在样本容量适当大时,趋近正态分布。,正态分布具有非常重要意义:,西南科技大学生命科学与工程学院周

16、海廷制作,41,二、正态分布曲线的特性,1、正态分布曲线以总体平均数为对称轴,向左右两侧作对称分布。2、正态分布曲线由总体平均数和总体标准差决定,所以它不是单一的曲线。,西南科技大学生命科学与工程学院周海廷制作,42,P(y),y,西南科技大学生命科学与工程学院周海廷制作,43,3、正态分布的资料,观察值的概率集中于附近,离越远概率越少,且在y+3和y-3以上其概率极少,y通常在3范围之内,这就是6法则。,0.0,0.1,0.2,0.3,0.4,0.5,0,1,2,3,4,5,-1,-2,-3,-4,P(y),y,西南科技大学生命科学与工程学院周海廷制作,44,4、正态曲线在-1 y+1 处有

17、拐点,并以横轴为渐进线。5、正态曲线与横轴之间的面积等于1,曲线下与横轴间任何两个定值间面积等于这个面积占总面积的百分比。下面是几组常用值:1 面积=0.6827 2 面积=0.9545 3 面积=0.9973 1.960 面积=0.9500 2.576 面积=0.9900,西南科技大学生命科学与工程学院周海廷制作,45,三、正态分布曲线区间概率的计算方法,在正态分布曲线下,y从a到b间的概率可用区间的面积表示:,西南科技大学生命科学与工程学院周海廷制作,46,为了便于使用,通常是将正态分布概率制成概率分布表,使用者只需查表,而无需进行复杂的运算。那么首先需要解决的问题是,正态分布非单一的曲线

18、,用一组曲线进行制表几乎是无法完成的事情。因此要设法将一组曲线转化为一条曲线。,西南科技大学生命科学与工程学院周海廷制作,47,由于正态曲线受和的制约,曲线随这两个参数的变化而改变。制造一个新变数,这个变数要消去和的影响。假定新变数用u来表示,则:,西南科技大学生命科学与工程学院周海廷制作,48,U值的分布为标准化正态分布。它是参数=0,=1时的正态分布,记作N(0,1)。,有了标准化正态曲线之后,就可以将y值从-3到3范围内的累积正态分布FN(y)值列于附表2(P357)。计算一定区间的概率值,只要查表就可以了。,西南科技大学生命科学与工程学院周海廷制作,49,例4.4 假定一个总体,具有正

19、态分布,平均数=30,标准差=5,试计算小于或等于26,小于或等于40的概率,介于26和40区间的概率以及大于40的概率。,西南科技大学生命科学与工程学院周海廷制作,50,计算:P(y26)将y转换成值:u=(y-)/=(26-30)/5=0.8查附表2,当u=0.8时 FN(26)=0.2119同样计算:P(y40 u=(y-)/=(40-30)/5=2.0查附表2,当u=2.0时 FN(40)=0.9773计算:P(2640)=1-P(y40)=1-0.973=0.0227,西南科技大学生命科学与工程学院周海廷制作,51,P(y26)=0.2119,P(y40)=0.9773,西南科技大学

20、生命科学与工程学院周海廷制作,52,P(y40)=0.0227,西南科技大学生命科学与工程学院周海廷制作,53,例4.6:P64 计算正态分布曲线的中间概率为0.99时,其y值应为多少?,因为正态分布是对称的,故在曲线左边从-到-u的概率和曲线右边从u到的概率应等于1/2(1-0.99)=0.005。查附表3,u=-2.58时,FN(y)=0.005。故当y=2.58时,在其范围内概率为99%。,西南科技大学生命科学与工程学院周海廷制作,54,西南科技大学生命科学与工程学院周海廷制作,55,第四节 抽样分布,西南科技大学生命科学与工程学院周海廷制作,56,一、统计数的抽样分布及其分布参数,前面

21、谈到总体的参数是无法得到的,需要用样本进行估计。用样本估计总体,首先必须知道样本与总体的关系。通过本节的学习,目的就是要搞清楚从总体中抽出样本的分布与总体分布的关系。抽样分布:从总体中抽取样本,计算统计数,统计数的分布叫抽样分布。,西南科技大学生命科学与工程学院周海廷制作,57,总体,总体和样本的关系示意图,西南科技大学生命科学与工程学院周海廷制作,58,(一)样本平均数的抽样及其分布 如果从容量为N的有限总体抽样,若每次抽取容量为n的样本,那么一共可以得到Nn个样本。每个样本可以计算一个平均数,这样就得到许多 平均数,如果将这些平均数集合起来便构成一个新总体。由于每次随机抽样所得的平均数可能

22、会存在差异,所以由平均数构成的新总体的分布称为平均数的抽样分布。,西南科技大学生命科学与工程学院周海廷制作,59,新总体与原总体在特征参数上存在函数关系。平均数抽样分布关系可表示为:,其中n为样本容量。抽样分布的标准差又称为标准误,复置抽样:指将抽得的个体放回总体后再继续抽样。,西南科技大学生命科学与工程学院周海廷制作,60,例:假定用一个很小的总体N=3,其观察值为2、4、6,以样本容量n=2,n=4,n=8,从总体中进行抽样。求样本平均数的总体平均数和样本平均数的总体方差,=(2+4+6)/3=4=(2-4)2+(4-4)2+(6-4)2/3=8/3,n=2:,n=4:,n=8:,西南科技

23、大学生命科学与工程学院周海廷制作,61,西南科技大学生命科学与工程学院周海廷制作,62,(二)样本总和数的抽样及其分布 样本总和数(y)的抽样分布与原总体间关系:y=n,西南科技大学生命科学与工程学院周海廷制作,63,(三)两个样本平均数差数的抽样分布及其参数,样本平均数差数的抽样分布参数与原总体间关系:,西南科技大学生命科学与工程学院周海廷制作,64,用一个例子来阐述这一问题:假定第一个总体包括3个观察值(2、4、6),总体的平均数和方差1=4,21=8/3。抽出的样本容量为n1=2。,西南科技大学生命科学与工程学院周海廷制作,65,第二个总体包括2个观察值(3、6),总体平均数和方差2=4

24、.5,22=2.25,抽出的样本容量为n2=3。,西南科技大学生命科学与工程学院周海廷制作,66,西南科技大学生命科学与工程学院周海廷制作,67,二、正态总体抽样的分布,(一)样本平均数的分布 1、从正态总体抽取的样本,其样本平均数的抽样分布也是正态分布,具有平均数 和方差,西南科技大学生命科学与工程学院周海廷制作,68,2、若总体不是正态分布,从中抽出的样本平均数的分布,当样本容量n较大时,从这总体抽出样本平均数的分布趋于正态分布。,西南科技大学生命科学与工程学院周海廷制作,69,下面是不同样本容量的抽样分布,0.0,0.2,0.4,0.8,1.0,1.2,1,2,3,0,-1,-2,-3,

25、FN(),n=9,n=4,n=1,西南科技大学生命科学与工程学院周海廷制作,70,例4.9:在江苏沛县调查336个平方米的小地老虎危害情况的结果,=4.73头,=2.63,试问样本容量n=30时,求样本平均数小于4.37的概率为多少?,查附表2,P(u0.75)=0.2266,即概率为0.2266。一尾概率大于0.025就说明抽取样本是原总体的。说明样本是从原总体中抽出,从而证明这样本平均数4.37是有代表性的。,=4.73,=,西南科技大学生命科学与工程学院周海廷制作,71,(二)两个样本平均数差数的分布 1、如果两个总体都是正态分布,则其样本平均数差数的分布也为正态分布。,西南科技大学生命

26、科学与工程学院周海廷制作,72,2、两个样本平均数差数的平均数等于两个总体平均数的差数。3、两个样本平均数差数的方差等于两个总体的样本平均数的方差的和。,西南科技大学生命科学与工程学院周海廷制作,73,三、二项总体的抽样分布,(一)二项总体的参数设有一个含有5个个体的二项总体,p=0.6,q=0.4,则总体平均数和标准差为:=p=0.6=0.49,西南科技大学生命科学与工程学院周海廷制作,74,标准差,(三)二项总体样本总和数的抽样分布,平均数,(二)二项总体样本平均数的抽样分布,从二项总体进行抽样得到样本,样本总和数的抽样分布参数为二项分布:,从二项总体进行抽样得到样本,样本平均数的分布为二

27、项分布:,西南科技大学生命科学与工程学院周海廷制作,75,例4.10:棉田盲蝽象为害棉株分为受害株与未受害株。假定调查2000株作为一个总体,受害株为704株。求害率p、受害率p=0.352,=p=0.352=0.4776 现从这一总体抽样,调查200株棉株,获得74株受害,那么,样本受害率=0.370试问样本平均数与总体平均数的差数的概率为多少?,西南科技大学生命科学与工程学院周海廷制作,76,=p=0.352=0.034,二项分布在np大于5时,趋近于正态分布,采用u查出概率。,=0.53,西南科技大学生命科学与工程学院周海廷制作,77,查附表,当u=0.53,概率值为0.70194 获得这种 大于0.018和小于-0.018的概率为0.59612,这就说明样本估计的受害率为0.37有代表性。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号