第四常用概率分布.ppt

上传人:sccc 文档编号:5146897 上传时间:2023-06-08 格式:PPT 页数:75 大小:1.66MB
返回 下载 相关 举报
第四常用概率分布.ppt_第1页
第1页 / 共75页
第四常用概率分布.ppt_第2页
第2页 / 共75页
第四常用概率分布.ppt_第3页
第3页 / 共75页
第四常用概率分布.ppt_第4页
第4页 / 共75页
第四常用概率分布.ppt_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《第四常用概率分布.ppt》由会员分享,可在线阅读,更多相关《第四常用概率分布.ppt(75页珍藏版)》请在三一办公上搜索。

1、第四章 常用概率分布,事件与概率概率分布正态分布二项分布波松分布样本平均数的抽象分布t分布,重点,一、随机事件(事件)、必然事件、不可能事件的概念;二、概率的概念及其性质;三、正态分布的定义、特点及其标准化;四、标准正态分布;五、正态分布条件下概率计算以及几个重要的特殊概率;六、二项分布的定义、特点和概率计算;七、波松(泊松,Poisson)分布的定义、特点;八、样本平均数的抽象分布定义;九、标准误的定义、标准误与标准差的区别十、t分布的定义、特点。,4.1 事件与概率,试验:通常是指对现象的观察随机现象:即每次试验有多种可能结果,但试验结速之前不能预知出现哪一种确切结果随机试验:如果试验可以

2、在相同(或基本相同)的条件下重复;且每次试验有多种可能结果;在每次试验结束之前明确试验的所有可能结果,但不能预知出现那一个确切结果,则称这样的试验为随机试验(试验),4.1.1 事件与概率,事件:试验的结果 随机事件 必然事件 不可能事件随机事件(事件):在试验中可能发生也可能不发生的事件必然事件:在每次试验中都发生的事件不可能事件:在任何一次试验中都不发生的事件,4.1.2 概 率,概率的统计定义 在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率;当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。(

3、事件A的频率稳定值)概率的古典定义 设样本空间由n个等可能的基本事件所构成,其中事件A包含有m个基本事件,则事件A的概率为m/n,即 P(A)=m/n,4.1.2 概 率,概率的性质1、对于任何事件A,有0P(A)1;2、必然事件的概率为1,即P()=1;3、不可能事件的概率为0,即P()=0;4、设E中事件A1,A2,Am两两互不相容,则(PA1A2 Am=P(A1)+P(A2)+P(Am),4.1.3 小概率事件实际不可能性原理,随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。在统计学上,把小概率事件

4、在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。,4.2概率分布,4.2.1 随机变量设试验E的样本空间为,如果对于每一个样本点,都有一个实数与之对应,则称X()为随机变量,离散型随机变量(discrete random variable):数据间有缝隙,其取值可以列举。鸡蛋的蛋数、红细胞计数 连续型随机变量(continous random variable)数据间无缝隙,其取值充满整个区间,无法一一列举每一可能值 例如身高、体重、血清胆固醇含量,4.2概率分布,随机变量的分布函

5、数设X为随机变量,x是任意识数,则称函数F(x)=PXx(x)为随机变量X的分布函数。,4.2 概率分布,概率函数(probability function)随机变量取某一特定值的概率函数(离散型随机变量)概率密度函数(probability density function)随机变量取某一特定值的密度函数(连续型随机变量)概率分布函数(probability distribution function)随机变量取值小于或等于某特定值的概率,4.2.2离散型随机变量的概率分布,例1:掷一次骰子所得点数的概率函数,概率分布列,概率函数 随机变量取某一特定值的概率函数,Pi0 Pi=1,4.2.3

6、连续型随机变量的概率分布,概率密度函数(德国数学家Gauss),积分方程,4.2.3连续型随机变量的概率分布,概率密度函数(随机变量取某一特定值的密度函数)满足以下条件的函数f(x)称为连续性随机变量X的概率密度函数:,(x是X的任一可能取值),连续型随机变量概率分布性质:1、分布密度函数总是大于或等于0,即 f(x)0;2、当随机变量x取某一特定值时,其概率等于0;3、在一次试验中随机变量x之取值必在-x+范围内,为一必然事件。,4.2.3连续型随机变量的概率分布,离散型随机变量的概率分布,随机变量的期望(expectation)-总体平均数,在生物统计中,数学期望也称平均数。数学期望是随机

7、变量取值的加权平均值,离散型随机变量的概率分布,期望的性质,(a是常量),1.2.3.4.,(当X和Y彼此独立),离散型随机变量的概率分布,随机变量的方差(variance)-总体方差,离散型随机变量的概率分布,方差的性质1.Var(a)=0(a是常量)2.Var(aX)=a2Var(X)3.Var(X+Y)=Var(X)+Var(Y)(X和Y彼此独立)4.Var(XY)=Var(X)Var(Y),/,最重要的连续性随机变量概率分布,4.3 正 态 分 布,连续型随机变量的概率分布,概率密度函数(德国数学家Gauss),积分方程,连续型随机变量的概率分布,正态分布(normal distrib

8、ution)具有如下概率密度函数的随机变量称为正态分布随机变量:,=期望 2=方差,4.3.1 正态分布,正态分布概率密度函数的几何表示,正态曲线,f(x),x,曲线下某区间的面积即为随机变量在该区间取值的概率,4.3.1 正态分布,正态分布的特点只有一个峰,峰值在x=处曲线关于x=对称,因而算术平均数=众数=中位数x轴为曲线向左、右延伸的渐进线曲线在x=处各有一个拐点由两个参数决定:平均数 和 标准差 决定曲线在x 轴上的位置 决定曲线的形状分布密度曲线与横轴所夹的面积为1,4.3.1 正态分布,平均数的影响,标准差的影响,4.3.2 正态分布的标准化,标 准 正 态 分 布,4.3.2标准

9、正态分布,标准正态分布(standard normal distribution),令,对于,标准化,=0,2=1的正态分布,u称为标准正态变量或标准正态离差(standard normal deviate)。,4.3.2标准正态分布,标准正态分布的概率密度函数,0,4.3.3正态分布的概率计算,标准正态分布的概率计算 附表1(p.334),(1)P(u u1)或 P(Z-u1)(u1 0),直接查表,4.3.3正态分布的概率计算,(2)P(u-u1)或 P(u u1),查表,4.3.3正态分布的概率计算,(3)P(a u b),或,4.3.3正态分布的概率计算,例:设 u N(0,1),求(

10、1)P(u 0.64)(2)P(u 1.53)(3)P(-2.12 u-0.53)(4)P(-0.54 u 0.84),4.3.3正态分布的概率计算,P(-1 u 1)=68.26%P(-2 u 2)=95.45%P(-3 u 3)=99.73%P(-1.96 u 1.96)=95%P(-2.58 u 2.58)=99%,几个特殊的标准正态分布概率,4.3.3正态分布的概率计算,68.3%,95.5%,99.7%,4.3.3正态分布的概率计算,对于给定的两尾概率求标准正态分布在x轴上的分位点附表2(p.337),/2,/2,4.3.3正态分布的概率计算,用2 查附表2,可得一尾概率为 时的分位

11、点u,对于给定的一尾概率求标准正态分布在x轴上的分位点,4.3.3正态分布的概率计算,一般正态分布的概率计算转换为标准正态分布计算,例:设 X N(30,102),求P(X 40),X N(,2),4.3.3正态分布的概率计算,P(-X+)=68.26%,几个特殊的一般正态分布概率,P(-1 u 1)=68.26%,0,0+,P(-2 X+2)=95.45%P(-3 X+3)=99.73%P(-1.96 X+1.96)=95%P(-2.58 X+2.58)=99%,4.3.3正态分布的概率计算,-3-2-+2+3,x,68.3%,95.5%,99.7%,4.3.3正态分布的概率计算,作业,一个

12、原发性胆石症患者的血清白蛋白水平高于42g/l的概率是多少?(假设原发性胆石症患者的血清白蛋白服从均数34.46g/l,标准差5.84g/l的正态分布),从正态分布表可知大于1.29的概率为0.0985,所以一个原发性胆石症患者的血清白蛋白水平高于42g/l的概率大约为10%,4.4 二项分布,4.4.1贝努利试验及其概率公式 对于n次独立的试验,如果每次试验结果出现且只出现对立事件A与之一,在每次试验中出现A的概率是常数p(0p1),因而出现对立事件的概率是1-p=q,则称这一串重复的独立试验为n重贝努利试验,简称贝努利试验(Bernoulli trials)。一般,在n重贝努利试验中,事件

13、A恰好发生k(0kn)次的概率为=k=0,1,2,n,4.4 二项分布,二项分布(binomial distribution)4.4.1贝努利试验:1.在相同条件下进行了n次试验 2.每次试验只有两种可能结果(1或0)3.结果为1的概率为p,为0的概率为1-p 4.各次试验彼此间是独立的 在n次试验中,结果为1的次数(X=0,1,2,n)服从二项分布,表示为,4.4 二项分布,二项分布具有概率分布的一切性质:1、P(x=k)=Pn(k)(k=0,1,,n)2、二项分布的概率之和等于1,即 3、,4.4 二项分布,4、5、(m1m2),4.4 二项分布,二项分布由n和p两个参数决定:当p值较小且

14、n不大时,分布是偏倚的。但随着n的增大,分布逐渐趋于对称,如图49 所示;当p值趋于0.5时,分布趋于对称,如图410所示;,4.4 二项分布,对于固定的n及p,当k增加时,Pn(k)先随之增加并达到其极大值,以后又下降此外,在n较大,np、nq较接近时,二项分布接近于正态分布;当n时,二项分布的极限分布是正态分布。,4.4.3二项分布的概率计算及应用条件,例:纯种白猪与纯种黑猪杂交,根据孟德尔遗传理论,子二代中白猪与黑猪的比率为31。求窝产仔10头,有7头白猪的概率。解:根据题意,n=10,p=34=0.75,q=14=0.25。设10头仔猪中白色的为x头,则x为服从二项分布B(10,0.7

15、5)的随机变量。于是窝产10头仔猪中有7头是白色的概率为:,二项分布的应用条件有三:(1)各观察单位只具有互相对立的一种结果,如阳性或阴性,生存或死亡等,属于二项分类资料;(2)已知发生某一结果(如死亡)的概率为p,其对立结果的概率则为1-P=q,实际中要求p 是从大量观察中获得的比较稳定的数值;(3)n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。,4.4.3二项分布的概率计算及应用条件,4.4.4二项分布的平均数与标准差,二项分布的概率函数,二项分布的期望,二项分布的方差,4.5 泊松分布,当二项分布中n很大,P很小时,二项分布就变成为Poisso

16、n分布,所以Poisson分布实际上是二项分布的极限分布。若随机变量x(x=k)只取零和正整数值0,1,2,且其概率分布为其中0;e=2.7182是自然对数的底数,则称x服从参数为的波松分布,记为xP()。,k=0,1,,4.5 泊松分布,是波松分布所依赖的唯一参数。值愈小分布愈偏倚,随着的增大,分布趋于对称。当=20时分布接近于正态分布;当=50时,可以认为波松分布呈正态分布。所以在实际工作中,当20时就可以用正态分布来近似地处理波松分布的问题。,图411 不同的波松分布,Poisson分布主要用于描述在单位时间(空间)中稀有事件的发生数,例如:1.放射性物质在单位时间内的放射次数;2.在单

17、位容积充分摇匀的水中的细菌数;3.野外单位空间中的某种昆虫数等。,4.5.2 Poisson分布概率的计算,4.5.2 Poisson分布概率的计算,表44 畸形仔猪数的波松分布,把上面各项概率乘以总观察窝数(N=200)即得各项按波松分布的理论窝数。波松分布与相应的频率分布列于表44中。,4.6 抽样分布的概念,样本统计量的概率分布称为抽样分布(sampling distribution)样本是通过对总体的随机抽样获得的 样本统计量是随机变量,有一定的概率分布,简单随机样本(性质)抽样是完全随机的-总体中的每个个体都有相同的机会被抽中(代表性)抽样是彼此独立的-每次抽样的结果都不会影响到其他

18、抽样的结果(独立性),4.6抽样分布的概念,研究总体与从中抽取的样本之间的关系是统计学的中心内容。一是从总体到样本,这就是研究抽样分布的问题;二是从样本到总体,这就是统计推断问题。统计推断是以总体分布和样本抽样分布的理论关系为基础的。,设有一个总体,总体平均数为,方差为2,总体中各变数为x,将此总体称为原总体。,统计推断,统计推断是根据带随机性的观测数据(样本)以及问题的条件和假设模型,而对未知事物作出的,以概率形式表达的推断。,参数的估计(parameter estimation)假设检验(hypothesis test),4.6.1样本平均数抽样分布,从原总体中可抽出很多甚至无穷多个含量为

19、n的样本。由这些样本算得的平均数有大有小,不尽相同,与原总体平均数相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为抽样误差(sampling error)。样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。由样本平均数构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为 和。是样本平均数抽样总体的标准差,简称标准误,如果总体不是正态总体,但其均数和标准差分别为和,则当样本含量n不断增大时,样本均数的分布也趋近于正态分布,且其均数为,标准差为 不论总体的分布形式如何,只要样本含量n足够大时,样本均数的分布就近似正态分布,此称为中心极限定理。,中心极限定理,4.

20、6.2 标 准 误,标准误(平均数抽样总体的标准差)的大小反映样本平均数的抽样误差的大小,即精确性的高低。的大小与原总体的标准差成正比,与样本含量n的平方根成反比。从某特定总体抽样,因为是一常数,所以只有增大样本含量才能降低样本平均数的抽样误差。,在实际工作中,总体标准差往往是未知的,因而无法求得。此时,可用样本标准差S估计。于是,以 估计。记 为,称作样本标准误或均数标准误。样本标准误是平均数抽样误差的估计值。若样本中各观测值为,x1,x2,xn,则,4.6.2 标 准 误,样本标准差与样本标准误的区别在于:样本标准差S是反映样本中各观测值x1,x2,xn 变异程度大小的一个指标,它的大小说

21、明了对该样本代表性的强弱。样本标准误是样本平均数的标准差,它 是抽样误差的估计值,其大小说明了样本间变异程度的大小及精确性的高低。对于大样本资料,常将样本标准差S与样本平均数 配合使用,记为 S,用以说明所考察性状或指标的优良性与稳定性。对于小样本资料,常将样本标准误 与样本平均数 配合使用,记为,用以表示所考察性状或指标的优良性与抽样误差的大小。,4.6.2 标 准 误,4.7 t 分布,定义设Z N(0,1),Y 2(n),且相互独立,则,服从自由度为n的 t 分布,记为,4.7 t 分布,t,f(t),4.7 t 分布,性质与标准正态分布相似关于 t=0对称只有一个峰,峰值在t=0分布曲线受自由度影响,自由度越小,离散程度越大当 n,t(n)N(0,1),4.7 t 分布,t 分布与正态分布的比较,4.7 t 分布,t分布双侧分位数表:附表3(p.337),t 分布又称学生氏(Student)分布.,4.7 t 分布,当n充分大时,其图形类似于标准正态变量概率密度的图形.,149页,上分位点图形,由分布的对称性知,166页,附表4,上分位点图形,例3,166页,用MATH命令求解,统计分析的一般过程,Thank You!,附表1,标准正态分布表,0.7389,0.9370,0.9830,附表2-2,标准正态分布表,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 农业报告


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号