《四章节统计推断.PPT》由会员分享,可在线阅读,更多相关《四章节统计推断.PPT(50页珍藏版)》请在三一办公上搜索。
1、第四章 统 计 推 断,4.1假设检验的原理和方法,4.2正态总体参数的假设检验,4.4参数估计,4.1假设检验的原理和方法,二、假设检验的方法、步骤,一、假设检验的基本原理,一、假设检验的基本原理,在生物学试验和研究中,要检验某种试验方法的效果、某个品种的优劣、某种药品的疗效等,所得试验数据往往存在着一定的差异.这种差异是由随机误差引起的,还是由试验处理的效应造成的呢?,例如在相同饲养条件下喂养两个品系的肉鸡各20只,在二月龄时测得甲品系的平均体重1.5kg,乙品系的平均体重1.4kg,两者相差0.1kg,该差值是因为甲、乙两品系不同造成的,还是由于抽样时的 随机误差造成的呢?这个问题必须进
2、行一番分析才能给出答案。,如何利用样本值对一个具体的假设进行检验呢?,下面结合实例来说明假设检验的基本思想.,因为在试验结果中往往是处理效应和随机误差混在一起,从表面上看不易区分开。因此必须通过概率计算,采用假设检验的方法,才能作出正确的推断。,例4.1 用某种动物作试验材料,要求动物的平均体重=10g,若 10g则应淘汰。又知动物体重服从正态分布,且由以往经验知,=0.15g,现从一批待试验的动物中,随机抽取10只,第一步:对所研究的总体提出一个假设,称得体重(g)为:9.93 9.89 10.15 10.10 9.96 9.87 10.22 10.08 9.98 10.09,问这批动物能否
3、供试验用?,本例重点考查的内容是:该批动物能否供实验用.因此原假设是实验动物可供实验用,或者说该批动物的总体平均数 等于实验所要求的总体平均数,Why?,本例选统计量:,第二步:在上述假设下,选择一个样本统计量又称检验 统计量,用以作为检验的工具,并考查该统计量的分布。,由样本观测值可以算出该检验统计量的值,第三步:确定原假设 的拒绝域,“小概率原则”是指小概率事件在一次观测或试验中一般是不会发生的。如果在一次观测中,小概率事件居然发生了,我们就有理由认为这个现象是不合适的。,所谓的“合理”与“不合理”的依据,是人们在实践中广泛采用的“小概率原则”。,第四步:对原假设进行推断,“小概率”事件不
4、等于绝不发生。一旦发生就会导致“以真为假”或“弃真”的第一类错误;与此相应的,当 不相容,即 为真时,统计推断的结果却不能否定,这时接受 就犯了“以假为真”或“纳伪”的第二类错误。,值得指出的两类错误:,=0.05时否定原假设,称差异性是显著的,通常我们总是控制犯第一类错误的概率为小概率。即令,为小概率(一般取,=0.05或0.01),然后借助于适当,的统计量的分布来确定 的拒绝域。,通常称 为显著性水平,简称为水平。,显著性检验,=0.01时否定原假设,称差异性是极显著的,1提出假设:根据问题的实际意义或重点考查的内容,提出 原假设 和备择假设,写明其具体内容。,二、假设检验的方法、步骤,2
5、选择检验 的统计量,并确定其分布。,3确定拒绝域:在给定的水平(0 1)下,查所选统计量 服从的分布表,求出临界值;并根据小概率原 则确定 的拒绝域。,4作出判断:由样本观测值计算出检验统计量的观测值,若 其值落入拒绝域,就拒绝;否则,就认为 是相容的。,4.2正态总体参数的假设检验,一.单个正态总体均值的假设检验,二.单个正态总体方差 的假设检验 检验,三.两个正态总体参数 和 的差异显著性检验,1方差 已知,总体均值 的检验 U 检验,一.单个正态总体均值的假设检验,1).提出原假设:=备择假设可区分为以下三种类型:(1):(已知 不可能小于)(2):和),2).确定检验统计量,N(0,1
6、),3).对于给定的显著性水平(0 1),求出 的 拒绝域(与第二步中 的三种不同类型相对).,(1),(2),(3),4).把检验统计量的观测值计算出来,视其是否落 入拒绝域,作出拒绝或接纳 的结论,并给出生 物学的解释。,例 4.2 已知豌豆籽粒重量X服从正态分N(37.72,)(单位:g);在改善栽培条件后,随机抽取9粒,测得平均 重量=37.92.若标准差仍为0.33,问改善栽培条件是 否显著提高了豌豆籽粒重量?,2方差 未知时总体均值 的 t 检验,进而导致拒绝域的变化。,例4.3 正常人的脉搏平均每分钟72次,某医生测得10例四乙基铅中毒患者的脉搏数(次/分)如下:54 67 68
7、 78 70 66 67706569 已知人的脉搏次数服从正态分布。试问四乙基铅中毒患者和正常人的脉搏有无显著差异?(=0.05),正态总体均值的假设检验表:,二.单个正态总体方差 的假设检验 检验,检验的方法步骤与U检验相同,我们只讨论 均值 未知,方差 的假设检验问题。,例 4.4一个混杂的小麦品种,株高标准差=14(cm),经提纯后随机抽取10株,株高为:90,105,101,95,100,100,101,105,93,97(单位:cm),考查提纯后的群体是否比原来群体整齐?,未知时,正态总体方差 的假设检验表,三.两个正态总体参数 和 的差异显著性检验,前面讨论了单个正态总体参数的显著
8、性检验,它是把样本统计量的观测值与原假设所提供的总体参量做比较。这种检验要求我们事先能提出合理的参数假设值,并对参数有某种意义的备择值。但在实际工作中很难做到这步。因而限制了这种方法在实际工作中的应用。为了避开这个问题,在实际应用时,常常选择两个样本,一个作为处理,一个作为对照,在两个样本间进行比较。如比较两种分析方法、两种处理之间的差异,比较两种试验方法或两种药物的疗效等等。判断它们之间是否存在足够显著的差异。或者说,判断它们之间的差异能否用偶然性解释。当其间的差异不能用偶然性解释时,则认为它们之间存在足够显著的差异,从而推断两个样本来自不同总体。,1.两个总体方差相等(齐性)的假设检验 检
9、验,因为对两个正态总体均值的差异性做检验时,与 和 是否相等有关;但在对方差的差异性检验时与,无关。因此先讲关于方差相等(或称齐性)的检验。,检验步骤如下:,1)假定从两个正态总体,中,独立地抽取容量分别为 和 的两个样本和,计算出 和。总体平均数 和 可以相等,也可以不等。,2)检验假设:=,备择假设可以有三种不同情况:,(1):,(2):,(3):,3)选择检验统计量,4)对于给定的显著性水平 查F分布表,确定拒绝域,对:,应做双侧检验,当 或 时拒绝,5)根据检验统计量的观测值是否落入拒绝域作出拒绝或接纳 的判断,并给出生物学解释。,例4.5测定20位青年男子和20位老年男子的血压值(收
10、缩压mm,Hg).经计算得=193.4,而=937.7,取=0.05,问老年人血压个体间波动是否显著高于青年人?,两个正态总体方差相等的假设检验表,2方差 已知时,两个正态总体均值间差异显著 性的检验 检验,现在,已知,要来检验假设:=,而备择假设可按以下三种情况进行讨论:,因为两个样本是从两个正态总体中独立抽取的,故,所以,这就化成了一个 检验问题。,相应于上述(1),(2),(3)的备择假设的拒绝域分别为:(1)(2)(3),最后,根据 统计量的观测值作出推断,并给予生物学的解释,所以,当:=成立的条件下,例 4.6根据历史资料知道某品种小麦的每平方米的产量服从正态分布,且=0.4(kg)
11、,今从该品种的两块地上抽样调查,甲地取容量为12的样本,得产量平均数=1.2kgm2;乙地取容量为8的样本,得产量平均数=1.4kgm2。试比较甲乙两块地的产量是否有显著差异。,3方差 未知,但=时,两均值间差异显著性的检验成组数据t检验。,t检验所使用的统计量,其中,在:=下变成,备择假设及其相应的拒绝域分别为:(1):;时,拒绝,(2):;时,拒绝,(3):;时,拒绝,例 4.7用两种不同的配方生产同一种材料,对第一种配方生产的材料进行7次试验,测得材料的平均强度 kgcm2,标准差 kgcm2;对第二种配方生产的材料进行8次试验,测得材料的平均强度 kgcm2,标准差 kgcm2。已知两
12、种工艺生产的材料强度均服从正态分布。在 的水平下,能否认为第一种配方生产的材料强度低于第二种配方生产的材料强度?,4.4参数估计,一 点估计,二 正态总体均值 的区间估计,三 两个正态总体均值差 的区间估计,现在我们来介绍一类重要的统计推断问题,参数估计问题是利用从总体抽样得到的信息来估计总体的某些参数或者参数的某些函数.,参数估计,估计新生儿的平均重量,估计某地年平均降雨量,一是点估计:就是以某个适当的统计量的观测值作为未知参数的估计值;,参数估计通常分为两类:,二是区间估计:就是用两个统计量的观测值所确定的区间来估计未知参数的大致范围。,估计灯泡平均寿命,一.点估计,点估计 即用某个统计量
13、的观测值,对总体的未知参数所做的估计.,用来估计总体参数的统计量又叫估计量。,,来估计总体均值,可用样本方差 也可用来估计总体方差。,如:,那么如何求点估计量呢?,1.点估计量的求法,求点估计量的常用方法:矩估计法和最大似然估计法。,1)矩估计法,其具体做法是:以样本矩去估计总体相应的矩,以样本矩的函数去估计总体矩的函数。,若用 作为 的估计量,这种估计量称为矩估计量,这种求估计量的方法叫矩估计法,例 4.13设总体 服从参数为 的指数分布,其分布密度为其中。样本为,试求 的矩估计量。,例 4.14设总体 服从正态分布,为抽自总体 的样本,试求未知参数 和 的矩估计量。,2)最大似然估计法,前
14、面矩估计法的优点在于并不需要知道总体的分布形式,适用范围广。然而,当总体的分布类型已知时,如果我们仍用矩估计法,那将浪费很多已知的信息,显然,是不可取的。因此,有必要寻找能更充分地利用已知信息的估计方法。最大似然估计法便应运而生了,它充分利用了分布类型已知的条件,所得估计量一般都具有较优良的性质。,似然函数,总体为连续型随机变量该式为分布密度,总体为离散型随机变量该式为分布率,若 时,似然函数达到最大值,即则称 为参数 的最大似然估计值,称 为 的最大似然估计量。,或 为似然方程。,(1)求似然函数,(2)求出似然方程,(3)解似然方程得到最大似然估计值,(4)最后得到最大似然估计量,量的一般
15、步骤为求最大似然估计,例 4.15设某车间生产一批产品,其次品率为,今从中抽取件,发现其中有 件次品。试用最大似然估计法估计其次品率。,例 4.16设总体 服从参数为 的指数分布,其分布密度 为样本观测值。求 的最大似然估计量。,例 4.17设 是来自正态总体 的样本,求未知参数 和 的最大似然估计量。,例 4.18设 是在区间0,上服从均匀分布的总体 的样本,试求未知参数 的最大似然估计量。,估计量优劣的评判标准,从前一节可以看到,对于同一个参数,用不同的估计方法求出的估计量可能不相同,那么那一个估计量好?好坏的标准是什么?,(1)无偏性,下面介绍几个常用标准.,若一个统计量的理论平均值,即其数学期望等 于总体的参数,则称这个统计量为无偏估计量。,(2)有效性,(3)一致性,设 是参数 的估计量,对任意给定的,均有 则称 是参数 的一致估计量。,二 正态总体均值 的区间估计,对参数进行估计的另一种方式是区间估计,一般做法是,确定一个区间,并给出该区间包含总体参数的概率。,上式理解为:区间,包含,的概率为0.95,三 两个正态总体均值差 的区间估计,1在两个正态总体方差已知或两总体方差未知 但大样本时,则第三章定理知道,