概率和理论分布.ppt

上传人:小飞机 文档编号:6227796 上传时间:2023-10-07 格式:PPT 页数:64 大小:350KB
返回 下载 相关 举报
概率和理论分布.ppt_第1页
第1页 / 共64页
概率和理论分布.ppt_第2页
第2页 / 共64页
概率和理论分布.ppt_第3页
第3页 / 共64页
概率和理论分布.ppt_第4页
第4页 / 共64页
概率和理论分布.ppt_第5页
第5页 / 共64页
点击查看更多>>
资源描述

《概率和理论分布.ppt》由会员分享,可在线阅读,更多相关《概率和理论分布.ppt(64页珍藏版)》请在三一办公上搜索。

1、第四章 概率和理论分布,本章主要复习现象、事件、概率、频率等概念 介绍小概率原理 二项分布、泊松分布、正态分布等各类理论 分布的概念和性质 标准正态分布的概念和性质 抽样和抽样分布 标准误的概念和作用 与下面统计假设检验有密切关系的t-分布、x2-分布和F分布,数理统计与经典数学最大的不同之处在于:经典数学只要计算结果,计算结果就是其目的数理统计也要计算,但得到计算结果不是目的,数理统计的目的是用计算结果来进行估计、推断在数理统计中这种估计有两样东西是必备的:样本 概率即我们必须计算样本的统计量,在一定的概率保证下,用所得统计量来估计相应总体的参数,即用样本来推断总体:用一个试验的结果来得出更

2、广义的、一般意义上的结论,例如:收获季节到了,我们从一个果园中随机采摘100 个苹果,我们很容易就可以知道这 100 个苹果每个苹果的平均重量,这是小学算术但作为一个果农来说,他不仅仅希望知道这 100 个苹果的平均重量,他更希望通过这 100 个苹果的平均重量和大小差异(变异)知道整个果园的产量,知道这些苹果的均匀程度对他的销售的影响,甚至通过这些差异追溯以往的果园管理情况,这里,100 个苹果就是样本,整个果园就是总体;100 个苹果的平均重量就是样本平均数,大小差异就是标准差,计算这 100 个苹果的平均值和标准差就是统计;从 100 个苹果知道整个果园的情况(估产),就是推断;整个过程

3、就是统计推断推断过程中,必须有概率保证,即有多大的把握,同样,在畜牧上、兽医上、水产上,都有类似的问题:我们作了一个试验,总希望通过这一试验得到一个一般性的结论期间,有以下工作要作:抽样 试验 记录 数据整理 统计 推断 结论其中,推断是需要有概率保证的因为我们希望知道,这种推断是否可靠、可信度有多大、会不会犯错误、犯错的可能性又有多大,因此,可以说,统计学的基础就是概率,没有概率和概率保证,统计和统计推断就成了无根之木,无源之水事实上,概率在一般生活中也无处不在,第一节 概率论初步,一、随机现象和随机事件(一)现象 必然现象(inevitable phenomenon)不可能现象(impos

4、sible phenomenon)随机现象(random phenomenon),(二)随机试验(random experiment)对随机现象进行观测,就是试验,满足以下三个条件的试验即为随机试验(随机试验简称试验):1、允许在相同条件下重复2、每次试验其结果不一定相同3、试验前并不知道试验会产生什么样的结果,(三)随机事件(random event)试验所产生的中间或终了结果就称为事件随机试验的结果就是随机事件(简称事件)用大写的拉丁字母 A、B、C 等来表示事件必然事件用 U 表示;不可能事件用 V 表示,二、事件间的关系和事件、积事件互斥事件、对立事件完全事件系、事件的独立性,三、随机

5、事件的概率(probability)随机事件的出现,带有很大的偶然性;但这种偶然性也有一定的规律:有些随机事件出现的可能性大一些,有些则小一些因此需要用一个数值来表示这种可能性,这一数值就是概率即随机事件的概率就是对随机事件可能性大小的度量对某一试验进行 n 次重复,试验中事件 A 出现 a 次,事件 A 出现的频率(frequency)为:,当 n无限增大,f 将趋向于一个定值 p,p 即为随机事件的概率:事实上,由于 n总是无限大的,因此 p 一般不可能得到,因此在实际工作中,总是将 n 充分大时的 f 值近似地作为 p 值,即 n 足够大时的频率就是近似的概率,或用频率值来估计概率概率也

6、可以是一个理论值,抛一个均质硬币,其落地时,正面朝上和反面朝上具有同等的机会,即同样的例子还有:,显然,即,必然事件的概率为 1,不可能事件的概率为 0 概率与频率的区别和联系:1、频率的稳定就是概率2、随机事件发生的频率是一个变量,而概率是一个常量,一个定值,或一个理论值3、频率是概率的随机表现4、每一次试验可以得到一个频率,但希望通过一次试验就得到概率是不可能的,5、如果已经知道随机事件A发生的概率,就可以预测事件A在将要进行的试验中出现的可能性6、可以通过一个大样本的频率,或多个样本的频率来估计或预测概率,小概率原理:表示随机事件 A是不可能事件;若 很小,如 或 等等,表示随机事件 A

7、 在某一次试验中出现的概率很小,即不可能出现的概率很大,以至于可以这样认为,在一次试验中事件 A实际上是不可能事件,即,这就是概率论中的小概率事件实际不可能性原理,简称为小概率原理小概率原理是统计学中进行假设检验的基本原理,在以后的学习中经常会碰到,也经常应用,四、随机变量作一次试验,试验的可能结果可以是多样的:*有些试验结果是几个确定的结果,这些确定的结果可以一一列出#有些试验结果是一个范围如用 x表示变量,那么 x的取值的表示:或者可用一实数来表示(*者:x=0 x=1 etc.)或者可用一个范围来表示(#者:1.5x2.1 etc.),1、当随机变量 x 的取值是一个确定的实数,且每一实

8、数发生的概率也是确定的,这种类型的变量就称为 离散型随机变量(discrete random variable)如:设生男孩为,生女孩为,则其含义是:生男孩的概率为 0.52,生女孩的概率为0.48又如:为猪丹毒治愈,为未治愈,则,设一个布袋里装有1个白球、2个红球、3个黑球、4个黄球,充分混匀,为取得白球,为取得红球,为取得黑球,为取得黄球,则将随机变量 x 所有可能取值及其对应的概率一一列出,可形成离散型随机变量的概率分布列:变量 x:x1 x2 x3 xn概率 p1 p2 p3 pn,上例中:从布袋中取得各色球x:0 1 2 3概 率 0.1 0.2 0.3 0.4,2、当变量 x的取值

9、是一个范围,且x在这一范围内的概率是确定的,这种类型的变量就称为连续型随机变量(continuous random variable)对于连续型随机变量,研究其取某一定值的概率是没有意义的对于随机变量 x,若存在非负可积函数f(x),(-x+)对于任意a、b(ab),都有则称 x为连续型随机变量,f(x)为 x的概率密度函数,或称分布密度,因此,它的分布由密度函数所确定,若已知密度函数,则通过定积分可求得连续型随机变量在某一区间内的概率人体身高、动物的体重、人类及动物体内许多酶的活力、生理生化指标等都可以认为是连续型随机变量设 x为人体身高,若在一个人群中:x145cm的概率为0.05 145

10、x155cm的概率为0.10 155x165cm的概率为0.30 165x175cm的概率为0.35 175x185cm的概率为0.15 x185cm的概率为0.05,则:,一个随机变量完整地描述了一个随机试验,它不仅告诉了我们随机试验的所有可能结果,而且告诉了我们每一种结果出现的可能性及其大小;这样,对随机试验概率分布的研究,就转化成了对随机变量的概率分布的研究了,第二节 理论分布(概率分布),一、二项分布(binomial distribution)二项分布是离散型随机变量最常见的、典型的一种分布有些试验只有非此即彼(alternative)的两种结果,即某一性状,其个体只可能有两种结果;

11、这种非此即彼的现象又称为二者必居其一性状在这里,此和彼构成了一个完全事件系,如禽蛋和鱼卵的孵化与否;雄性和雌性;化验结果的阳性(+)和阴性(-);疾病的治愈与否;动物体的存活与死亡;等等,由这种具有非此即彼性状的事件所构成的总体就称为二项总体如果给此 事件以变量1,其概率设为 p,彼 事件以变量0,其概率设为 q,显然我们有:,且 p+q1每次在一个二项总体中独立抽取 n 个个体,观察一次抽取的结果,就称为一次贝努里试验若 i 为此事件出现的次数,则变量 x 有 0、1、2、n,共有 n+1 种可能的结果,显然,对于变量 x 每一种可能的结果都有一个概率值,由这种在二项总体中事件A出现的次数及

12、其概率所形成的分布,就称为二项概率分布,简称为二项分布二项分布是离散型资料一种最重要的理论分布,设在一个很大的口袋中放入二种颜色的球:红球和白球;红球和白球的比例为1:2,并充分混匀即任何一个球被随机摸到的机会是相等的,因此,摸到一个红球的概率是1/3,而摸到白球的概率就是2/3记A为摸到一个红球,显然,其概率为记 为摸到一个白球,显然,其概率为现随机地从这个口袋中摸出3个球,如果不考虑先后次序则一共有4种情况:三红、二红一白、一红二白、三白(如考虑先后次序则有8种情况),因此三红无白的概率是 二红一白的概率是 一红二白的概率是 无红三白的概率是这四种情况相加之和为1,抽取三个球共有四种组合,

13、这四个组合各个组合出现的概率值恰好是二项式 的展开:各式前面的系数为1:3:3:1,即用随机变量 x 的不同取值来表示上述试验,记x=0为三红、x=1为二红一白、x=2为一红二白、x=3为三白,则,由于这一随机变量每一取值及其相应概率可一一列出,因此这是一个离散型随机变量,写出其分布列:变量:0 1 2 3 概率值:P3(0)P3(1)P3(2)P3(3)本例的分布列为:变量:0 1 2 3 概率值:其中,任何一项的概率值其公式为:,红球、白球试验的概率值图:三红 二红一白 一红二白 三白,这样的一个分布列称为离散型随机变量的概率分布列由于这一分布列的各概率值正是二项式展开后的各项,因此变量

14、x 的分布又称为二项分布,下面将二项分布作一完整的描述:独立地进行 n 次试验,每次试验只可能有 A 与 两种结果,发生 A 的概率为 p,发生 的概率为 q1-p n 次试验可有 n+1 种可能的结果,这样的试验称为Bernoulli 试验,在这 n次 试验中,事件 A 共发生 m 次的概率分布列为:0 1 2 m n Pn(0)Pn(1)Pn(2)Pn(m)Pn(n),其中:m=0,1,2,n 是杨辉三角形中第 m 行相应列中的系数,二项分布有两个参数:n 和 p n 为正整数,表示属于贝努里概型的试验次数 p 为正实数如果一个随机变量 x 服从试验次数为 n,的二项分布,即记为,读作具有

15、试验次数 n、概率为 p 的二项分布二项分布的平均数为 方差为 标准差为,而服从二项分布的随机变量 x 的平均数为 方差为,标准差为只有 2 种可能结果的属性资料,如存活、治愈、性别、阴阳性等(以百分率表示)均服从二项分布二项分布当 n 较大、且 np5 及 nq5 时接近正态分布,当 n 时,服从正态分布即正态分布是二项分布的极限,例1:用某一常规药物治疗猪瘟病,其正常治愈率为 0.7,对 20头罹患猪瘟的种猪用该种药物进行常规性治疗,问其中 16 头病猪被治愈的概率是多少?此例中,p=0.7,n=20,m=16该例中,200.7 14,2 200.70.3 4.2 2.05例2:某药物对体

16、外寄生虫的正常杀灭率为 0.9,人工培养该种寄生虫 50 头,用该药物进行常规性杀灭试验,问希望一次杀灭 48 头的概率?此例中,p=0.9,n=50,m=48该例中,500.9 45,2 500.90.1 4.5 2.12,二、泊松分布(poisson distribution)当二项分布中的 n、而 p 0时,二项分布将成为另一种新的分布:泊松分布(普哇松分布)即试验(或称观察)次数很大、而某事件出现的概率很小,则离散型随机变量 x 服从于泊松分布若随机变量 x 的分布列为:0 1 2 m p0 p1 p2 pm,其中:(0,且np,m=0,1,2,)而泊松分布只有一个参数:,np既是泊松

17、分布的平均值,又是其方差标准差为 即,当随机变量 x服从于参数为 的泊松分布时记为泊松分布的图形决定于,1时,P(x=0)为最大,12时,P(x=1)为最大,23时,P(x=2)为最大,以此类推泊松分布主要描述小概率事件发生的概率分布如:致死率不高的某些疾病引起的死亡情况,遗传性疾病,散发性疾病,镜检时视野内病原菌或微生物的分布,稀有疾病的分布,生物体非传染性疾病的分布,泊松分布的实例描述步骤:一般首先对观察结果进行分类,并统计每一类的频数;其次是利用加权法计算整个样本的加权平均数,并将加权平均数 暂时看作值;再次将值代入 中;最后求出各 x 的理论概率值,当无限增大时,泊松分布将逼近正态分布

18、;事实上,当 时,泊松分布已与正态分布很接近当 时,泊松分布与正态分布已无多大区别因此正态分布也是泊松分布的极限,实例:在某地作破伤风杆菌调查,取样并进行培养后记录了 90 个显微镜视野内的细菌数,见下表 90 个显微镜视野下破伤风杆菌的频数分布 细菌数x 观测频数n nx P(x)理论频数 0 6 0 0.0657 5.913 1 15 15 0.1789 16.101 2 23 46 0.2435 21.915 3 19 57 0.2210 19.890 4 14 56 0.1504 13.536 5 8 40 0.0819 7.371 6 4 24 0.0371 3.339 7 1 7

19、0.0144 1.296 7 0 0 0.0071 0.639 90 245 1.00 90.00,首先计算每一视野内的破伤风杆菌平均值,并将其暂作为值:将值代入中各式,得各个 P(x),见上表的第四列,将各个 P(x)与总频数相乘,即得理论频数,即上表的最后一列如依此类推每个视野中破伤风杆菌数大于7个的也应计算理论频数,即上表中的最后一行镜检视野内破伤风杆菌的分布图见下一页,频 数 破伤风杆菌数 0 1 2 3 4 5 6 7,三、正态分布(normal distribution)连续型随机变量是日常工作中最多见的一种变量,这一类变量为可加、或呈线性时,一般服从正态分布将这一类资料整理成直方

20、图或折线图时,其图形总呈中间多、两边少的钟型(bell-shape)分布特征假设将样本容量n无限扩大,分组更细,即n 组距 0,则每一组的频数将趋向于一个定值,即一概率值,此时,呈现在我们面前的将是一条中间高、向两边均匀对称下降的光滑曲线;这一类资料的概率分布就称为正态分布,和正态分布相对应的曲线称为正态分布密度曲线用来描述这条曲线的函数称为正态分布密度函数正态分布是数理统计中最重要的一种理论分布呈正态分布的随机变量 x其密度函数 f(x)为:上式中,为随机变量 x 的平均值,2 为方差,为标准差,任何一个正态分布均由参数 和 2 所决定,一个随机变量 x 服从平均值为、方差2为的正态分布时,

21、记为正态分布的特点是:1、正态分布曲线以直线 x为对称,且在该处达到顶峰,x时 为最大值2、曲线有两个拐点:在这两个拐点处,曲线改变方向3、正态分布曲线在 x 轴上的的位置由决定,而曲线高矮、胖瘦的形状由决定4、正态分布密度曲线向-、+无限延伸,正态分布密度曲线与 x 轴所包围的面积恒为1,即服从正态分布的随机变量 x 在(-,+)间内取值的概率为1而随机变量 x 在区间(a,b)内取值的概率也可以看成是一块面积,这块面积由x=a、x=b、y=0及曲线所围成的曲边梯形所组成即求随机变量 x 在某一区段内的概率就转化成了求由该区段与相应曲线所围成的曲边梯形面积的定积分:,而在讨论标准差的性质时,

22、曾提到随机变量 x的分布状况与标准差的关系,这里我们可以用面积来表示之:,而其两边的概率(即面积)则相应分别为(括弧内的为一边面积):0.3173(0.1584)0.0455(0.02258)0.0027(0.0014)0.05(0.025)0.01(0.005),标准正态分布不同的值和值,决定了不同的正态分布密度曲线,这在实际使用中很不方便因此可将不同正态分布中的随机变量 x 作一变换:令这一变换过程称为随机变量的标准化过程(这也是称为标准差的由来)x 是随机变量,因此 u 也是随机变量,变换后的正态分布密度函数为 称为标准正态分布密度函数,经过变换,0,21随机变量 u 服从标准正态分布,记为,且,任何一本统计学的书上都有标准正态分布表,表内的数字都是 u 左边的面积,也就是-到某一 u 值的概率,因此我们可以利用这一张表来计算任何区段的面积,即任何区段的概率值,标准正态分布的几个特殊取值:标准化随机变量的取值:,在大多数情况下,和往往是未知的,因此可以用大样本的平均值 和标准差s 来近似地代替和(大数定律),即标准化过程就成了数据标准化是一个非常重要的概念,在前面,我们几次碰到了 0.95 和 0.99 这两个概率其两尾概率为 0.05 1-0.95,0.01 1-0.99:在标准正态分布中:这两个概率值称为两尾概率值,以后一直会用到(*),待续,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号