统计学06总体参数的假设检验ppt课件.ppt

资源描述

《统计学06总体参数的假设检验ppt课件.ppt》由会员分享，可在线阅读，更多相关《统计学06总体参数的假设检验ppt课件.ppt（68页珍藏版）》请在三一办公上搜索。

1、统计学,从数据到结论,第六章总体参数的假设检验,如果一个人说他从来没有骂过人。他能够证明吗？要证明他没有骂过人，他必须出示他从小到大每一时刻的录音录像，所有书写的东西等等，还要证明这些物证是完全的、真实的、没有间断的。这简直是不可能的。即使他找到一些证人，比如他的同学、家人和同事，那也只能够证明在那些证人在场的某些片刻，他没有被听到骂人。,反过来，如果要证明这个人骂过人很容易，只要有一次被抓住就足够了。看来，企图肯定什么事物很难，而否定却要相对容易得多。这就是假设检验背后的哲学。科学总往往是在否定中发展,在假设检验中，一般要设立一个原假设（上面的“从来没骂过人”就是一个例子）；而设立该假设的

2、动机主要是企图利用人们掌握的反映现实世界的数据来找出假设与现实之间的矛盾，从而否定这个假设。,在多数统计教科书中(除理论探讨外)假设检验都是以否定原假设为目标。如否定不了，说明证据不足，无法否定原假设。但不能说明原假设正确。就像一两次没有听过他骂人还远不能证明他从来没有骂过人。,6.1 假设检验的过程和逻辑,先要提出个原假设，比如某正态总体的均值等于5(m=5)。这种原假设也称为零假设(null hypothesis)，记为H0。与此同时必须提出备选假设(或称为备择假设，alternative hypothesis)，比如总体均值大于5（m5）。备选假设记为H1或Ha。形式上，这个关于总体均值

3、的H0相对于H1的检验记为,6.1 假设检验的过程和逻辑,备选假设应该按照实际世界所代表的方向来确定，即它通常是被认为可能比零假设更符合数据所代表的现实。比如上面的H1为m5；这意味着，至少样本均值应该大于5；至于是否显著，依检验结果而定。检验结果显著(significant)意味着有理由拒绝零假设。因此，假设检验也被称为显著性检验(significant test)。,6.1 假设检验的过程和逻辑,有了两个假设，就要根据数据来对它们进行判断。数据的代表是作为其函数的统计量；它在检验中被称为检验统计量（test statistic）。根据零假设（不是备选假设！），可得到该检验统计量的分布；再看

4、这个统计量的数据实现值（realization）属不属于小概率事件。,6.1 假设检验的过程和逻辑,也就是说把数据代入检验统计量,看其值是否落入零假设下的小概率范畴；如果的确是小概率事件，那么就有可能拒绝零假设，或者说“该检验显著，”否则说“没有足够证据拒绝零假设”，或者“该检验不显著。”,6.1 假设检验的过程和逻辑,注意：在我们所涉及的问题中，零假设和备选假设在假设检验中并不对称。因检验统计量的分布是从零假设导出的，因此，如果发生矛盾，就对零假设不利了。不发生矛盾也不能说明零假设没有问题。,6.1 假设检验的过程和逻辑,在零假设下，检验统计量取其实现值及（沿着备选假设的方向）更加极端值的概

5、率称为p-值（p-value）。如果得到很小的p-值，就意味着在零假设下小概率事件发生了。如果小概率事件发生，是相信零假设，还是相信数据呢？当然多半是相信数据，拒绝零假设。,6.1 假设检验的过程和逻辑,但小概率并不能说明不会发生，仅仅发生的概率很小罢了。拒绝正确零假设的错误常被称为第一类错误（type I error）。在备选假设正确时反而说零假设正确的错误，称为第二类错误（type II error）。在本书的假设检验问题中，由于备选假设不是一个点，所以无法算出犯第二类错误的概率。,6.1 假设检验的过程和逻辑,零假设和备选假设哪一个正确，是确定性的，没有概率可言。而可能犯错误的是人。涉及

6、假设检验的犯错误的概率就是犯第一类错误的概率和犯第二类错误的概率。负责任的态度是无论做出什么决策，都应该给出该决策可能犯错误的概率。,6.1 假设检验的过程和逻辑,到底p-值是多小时才能够拒绝零假设呢？也就是说，需要有什么是小概率的标准。这要看具体应用的需要。但在一般的统计书和软件中，使用最多的标准是在零假设下（或零假设正确时）根据样本所得的数据来拒绝零假设的概率应小于0.05，当然也可能是0.01，0.005，0.001等等。这种事先规定的概率称为显著性水平(significant level)，用字母a来表示。,6.1 假设检验的过程和逻辑,a并不一定越小越好，因为这很可能导致不容易拒绝零

7、假设，使得犯第二类错误的概率增大。当p-值小于或等于a时，就拒绝零假设。所以，a是所允许的犯第一类错误概率的最大值。当p-值小于或等于a时，就说这个检验是显著的。无论统计学家用多大的a作为显著性水平都不能脱离实际问题的背景。统计显著不一定等价于实际显著。反过来也一样。,6.1 假设检验的过程和逻辑,归纳起来，假设检验的逻辑步骤为：1.写出零假设和备选假设；2.确定检验统计量；3.确定显著性水平a；4.根据数据计算检验统计量的实现值；5.根据这个实现值计算p-值；6.进行判断：如果p-值小于或等于a，就拒绝零假设，这时犯（第一类）错误的概率最多为a；如果p-值大于a，就不拒绝零假设，因为证据不足

8、。,6.1 假设检验的过程和逻辑,实际上，多数计算机软件仅仅给出p-值，而不给出a。这有很多方便之处。比如a=0.05，而假定所得到的p-值等于0.001。这时如果采用p-值作为新的显著性水平，即新的a=0.001，于是就可以说，在显著性水平为0.001时，拒绝零假设。这样，拒绝零假设时犯错误的概率实际只是千分之一而不是旧的a所表明的百分之五。在这个意义上，p-值又称为观测的显著性水平（observed significant level）。,6.1 假设检验的过程和逻辑,在统计软件输出p-值的位置，有的用“p-value”，有的用significant的缩写“Sig”就是这个道理。根据数据产

9、生的p-值来减少a的值以展示结果的精确性总是没有害处的。这好比一个身高180厘米的男生，可能愿意被认为高于或等于180厘米，而不愿意说他高于或等于155厘米，虽然这第二种说法数学上没有丝毫错误。,6.1 假设检验的过程和逻辑,关于“临界值”的注：作为概率的显著性水平a实际上相应于一个检验统计量取值范围的一个临界值（critical value），它定义为，统计量取该值或更极端的值的概率等于a。也就是说，“统计量的实现值比临界值更极端”等价于“p-值小于a”。使用临界值的概念进行的检验不计算p-值。只比较统计量的取值和临界值的大小。,6.1 假设检验的过程和逻辑,使用临界值而不是p-值来判断拒绝

10、与否是前计算机时代的产物。当时计算p-值不易，只采用临界值的概念。但从给定的a求临界值同样也不容易，好在习惯上仅仅在教科书中列出相应于特定分布的几个有限的a临界值（比如a=0.05，a=0.025，a=0.01，a=0.005，a=0.001等等），或者根据分布表反过来查临界值（很不方便也很粗糙）。现在计算机软件大都不给出a和临界值，但都给出p-值和统计量的实现值，让用户自己决定显著性水平是多少。,6.1 假设检验的过程和逻辑,在一些统计教科书中会有不能拒绝零假设就“接受零假设”的说法。这种说法是不严格的。首先，如果你说“接受零假设”，那么就应该负责任地提供接受零假设时可能犯第二类错误的概率。

11、这就要算出在备选假设正确的情况下错误接受零假设的概率。但是，这只有在备选假设仅仅是一个与零假设不同的确定值（而不是范围）时才有可能。多数基本统计教科书的备选假设是一个范围而根本无法确定犯第二类错误的概率。,6.1 假设检验的过程和逻辑,在许多统计教科书中，往往把一系列不能拒绝零假设的检验当成接受这些假设的通行证。比如不能拒绝某样本的正态性就变成了证明了该样本是正态的等等。不能拒绝这些零假设，仅仅说明根据所使用的检验方法（或检验统计量）和当前的数据没有足够证据拒绝这些假设而已。,6.1 假设检验的过程和逻辑,对于同一个假设检验问题，往往都有多个检验统计量；而且人们还在构造更优良的检验统计量。人们

12、不可能把所有的目前存在的和将来可能存在的检验都实施。因此，只能够说，按照目前的证据，不足以拒绝零假设而已。后面将会用例子说明“接受零假设”的说法是不妥当的。,6.2 对于正态总体均值的检验6.2.1 根据一个样本对其总体均值大小进行检验,例6.1一个顾客买了一包标有500g重的一包红糖，觉得份量不足，于是找到监督部门；当然他们会觉得一包份量不够可能是随机的。于是监督部门就去商店称了50包红糖（数据在sugar.txt）；其中均值（平均重量）是498.35g；这的确比500g少，但这是否能够说明厂家生产的这批红糖平均起来不够份量呢？于是需要统计检验。可以画出这些重量的直方图,50包红糖重量的直方

13、图,6.2.1 根据一个样本对其总体均值大小进行检验,这个直方图看上去象是正态分布的样本。不妨假定这一批袋装红糖有正态分布。由于厂家声称每袋500g（标明重量），因此零假设为总体均值等于500g（被怀疑对象总是放在零假设）；而且由于样本均值少于500g(这是怀疑的根据)，把备选假设定为总体均值少于500g（备选假设为单向不等式的检验称为单尾检验,为不等号“”的称为双尾检验),6.2.1 根据一个样本对其总体均值大小进行检验,检验统计量就是第四章引进的作为对均值的某种标准化的,符号中的m0通常表示为零假设中的均值（这里是500）。在零假设之下，它有自由度为n-1=49的t分布。当然实际上不必代入

14、这个公式去手工计算了，让计算机去代劳好了。,6.2.1 根据一个样本对其总体均值大小进行检验,计算结果是t=-2.696（也称为t值）,同时得到p-值为0.005（由于计算机输出的为双尾检验的p-值，比单尾的大一倍，应该除以2）。看来可以选择显著性水平为0.005，并宣称拒绝零假设，而错误拒绝的概率为0.005。,统计量t=-2.696相应于左边尾概率（p-值）0.005,6.2.1 根据一个样本对其总体均值大小进行检验,上面例子的备选假设为小于（“”）某个值的情况。取备选假设为均值大于或小于某个值的检验称为单尾检验(one-tailed test，也称为单侧检验或单边检验)。下面举一个选假设

15、为均值大于（“”）某个值的例子。,6.2.1 根据一个样本对其总体均值大小进行检验,例6.2（exh.txt）汽车厂商声称其发动机排放标准的一个指标平均低于20个单位。在抽查了10台发动机之后，得到下面的排放数据：17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。该样本均值为21.13。究竟能否由此认为该指标均值超过20？这次的假设检验问题就是,6.2.1 根据一个样本对其总体均值大小进行检验,和前面的例子的方法类似，可以发现p-值为0.1243（计算机输出的双尾检验的p-值除以2），因此，没有证据否定零假设。这时的检验统计量t=1.2336。

16、也可以画出类似于图6.2的图（图6.3）这时的t分布的自由度为9。下面是结果的计算机输出：,统计量t=1.2336相应于右边尾概率（p-值）0.1243,6.2.1 根据一个样本对其总体均值大小进行检验,注意：在假设检验中往往也用带等号的不等式来表示零假设，比如上述的检验记为,但这里用于计算p-值的零假设还是m=20；但如果能够拒绝零假设m=20，那么对于任何m小于20的零假设就更有理由拒绝了。这和以拒绝零假设为初衷的假设检验思维方式是一致的。,6.2.1 根据一个样本对其总体均值大小进行检验,还有所谓的双尾检验(two tailed test，也称为双侧检验或双边检验)问题，即,在这种情况下

17、，尾概率不仅是左边或右边的一个尾概率，而是两边尾概率之和。因此如果是一个单尾检验问题，用了双尾检验的模式，p-值就比用单尾检验时大了一倍。,6.2.1 根据一个样本对其总体均值大小进行检验,如果上面发动机排放指标例子的检验问题改为是否该发动机的排放指标均值等于20。即,这时t统计量还是取原来的值1.2336，但p-值为0.12432=0.2486。图6.3就变成图6.4的样子,统计量t=1.2336，而p-值等于左右尾概率之和，即0.2486,6.2.2 根据来自两个总体的独立样本对其总体均值的检验,例6.3(数据：drug.txt)为检测某种药物对攻击性情绪的影响，对处理组的100名服药者和

18、对照组的150名非服药者进行心理测试，得到相应的某指标。要检验处理组指标的总体均值m1是否等于对照组指标的总体均值m2。相应的假设检验问题为：,或,6.2.2 根据来自两个总体的独立样本对其总体均值的检验,通过计算，t统计量等于0.942，p-值为0.1735（输出中的双尾检验p-值的一半）。因此无法拒绝零假设，即不能得出处理组的平均指标大于对照组的结论。计算机输出的相应表格（部分，删除了置信区间部分）为：,6.2.2 根据来自两个总体的独立样本对其总体均值的检验,注意：这个输出的前面三列用Levene的F-检验来看这两个样本所代表的总体之方差是否相等（零假设为相等）。第一行是该检验的零假设：

19、两个总体方差相等，而第二行为备选假设：两个总体方差不等。如果该检验显著，即在Sig列中的该Levene检验p-值很小（这里是0.008），就应该看第二行备选假设的t检验输出，这里是0.347；由于是单边检验，p-值0.347/2=0.1735；如果Levene检验的p-值较大（本例并不大），则看第一行原假设下的结果。之所以要检验总体方差，是因为总体方差相同时使用的检验统计量与方差不同时使用的不同。,6.2.3 成对样本的问题,例6.4减肥数据（diet.txt）。这里有50对数据。为50人是减肥前后的重量要比较50个人在减肥前后的重量。不能用前面的独立样本均值差的检验；这是因为两个样本并不独立

20、。每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立的。令所有个体减肥前后重量差（减肥前重量减去减肥后重量）的均值为mD；这样所要进行的检验为,6.2.3 成对样本的问题,我们可以把两个样本中配对的观测值逐个相减，形成一个由独立观测值组成的样本；然后用单样本检验方法，看其均值是否为零。在相减之后公式和单样本均值检验无异。当然，如果直接选用软件中成对样本均值的检验，就不用事先逐个相减了。这里也有单尾和双尾检验。这里介绍的是假定总体分布为正态分布时的t检验。总体分布未知时，应该利用第十六章的非参数检验方法。,6.2.3 成对样本的问题,再接着看例6.4。计算机输出了双尾p-值0.0

21、02，这里的单尾p-值于是为0.001。因此在显著性水平为0.001时，可以拒绝零假设。也就是说，减肥后和减肥前相比，平均重量显著要轻。下面是这个检验的SPSS的部分计算机输出为（删去了置信区间）：,6.3 对于比例的检验6.3.1 对于离散变量总体比例的检验,例6.5（two.txt）为评价电视的收视率，电话调查，在某一节目播出的时候，被访的正在观看电视的人中有23的正在观看这个节目。现在想知道，这是否和该节目的制作人所期望的p0=25有显著不足。这显然是一个参数为p的二项分布问题。形式上的假设检验问题是,6.3.1 对于离散变量总体比例的检验,如果n为访问的正在看电视的人数，x为其中观看该

22、节目的人数，那么样本中的观看比例为,检验统计量则是在零假设下当大样本时近似有标准正态分布的统计量,6.3.1 对于离散变量总体比例的检验,这个数值用手算也不费力气。请注意，前面第五章提起过，即使被访者的百分比一样，但样本少的信息就少。对于假设检验也是一样。样本量对于假设检验的结果就十分重要。对于本例，现在还未给出样本量n呢！下面看看不同的样本量会得到什么结果（假定x/n=0.23不变）,6.3.1 对于离散变量总体比例的检验,如样本量为n=1500（和数据给的一样），那么，上面的检验得到的p-值为0.0368。因此，可以认为（如果选显著性水平为0.05的话）说收视率有25是过分了。即拒绝零假设

23、。如样本量为n=100，那么，上面的检验得到的p-值为0.3221。因此，没有足够的理由拒绝收视率有25的零假设（如果选显著性水平为0.05的话）注意，利用软件时，上面的p-值计算往往在公式中加上用连续变量近似离散变量分布时常用的连续性纠正，因此结果和用上面公式直接手算的稍有不同。,6.3.1 对于离散变量总体比例的检验,下面是对于n=1500时，例6.5的SPSS输出。这里正在观看该节目的人数为n1=345，而1500人中观看其他节目的人数为n2=1155。样本中收视比例为n1/n345/15000.23。,6.3.1 对于离散变量总体比例的检验,前面对总体比例的检验所用的公式利用了二项分布

24、的大样本正态近似；怎样才是大样本呢？这和第五章求比例的置信区间时大样本的近似标准类似，即当区间,完全包含在（0，1）区间内部时，可以认为样本足够大，能够用正态近似。,6.3.1 对于离散变量总体比例的检验,对于两个样本，也有关于两个总体比例之差p1p2的检验。还拿收视率为例。节目甲的样本收视率为20，节目乙为21，是不是节目甲的总体收视率就真的低于节目乙？即检验,这里的零假设意味着节目甲和节目乙收视率相等。,6.3.1 对于离散变量总体比例的检验,假定n1=1200,n2=1300,检验统计量则是在零假设下当大样本时有近似标准正态分布的统计量,得到p-值等于0.2679。因此，在显著性水平即使

25、是0.1时，也没有足够证据可以拒绝“节目甲和节目乙收视率相等”的零假设。,6.3.2 对于连续变量比例的检验,有时需要检验收入低于某个水平的人占有的比例p是否和预期的p0一样。和6.3.1节一样，只要把大于某水平的观测值看作Bernoulli试验的“成功”，而把小于某水平的观测值看成“失败”，就回到二项分布的问题了。当然，用不着把这些连续变量的观测值都变成“成功”和“失败”之后，再数各有多少。统计软件会替我们做所有的事情。下面通过一个例子来说明。,6.3.2 对于连续变量比例的检验,例6.6 某微生物的寿命问题(数据life.txt)。这里有某微生物在一种污染环境下生存的寿命数据(单位：小时)

26、,6.3.2 对于连续变量比例的检验,问题是存活时间低于2小时的是否少于70%（存活时间多于2小时的是否多于30%）？零假设为存活时间低于2小时的少于或等于70%，备选假设为存活时间低于2小时的多于70%。该检验用符号表示，对于p00.7，,6.3.2 对于连续变量比例的检验,由计算机很容易得到检验结果,这说明，活不过2小时的有52个观测值，所占的比例为90%。检验的精确p-值和大样本近似的p-值均为0.002。因此，可以拒绝“存活时间低于2小时的少于70%”的零假设。,6.3.2 对于连续变量比例的检验,这个检验的假设还可以有另一种等价形式。前面第三、四章介绍过样本和总体的a-分位数的概念。

27、例6.6的检验问题等价于检验0.7分位数q是等于2（q0=2）还是小于2；即：,该例的结论是实际存活时间的0.7分位数q小于2小时。,6.3.2 对于连续变量比例的检验,上面的检验又称为（推广的）符号检验（sign test）。它用不着对总体分布进行任何假定。而狭义的符号检验是指上面的p00.5或者（等价地）q0等于中位数的情况。通常把符号检验归于非参数检验范畴（参见后面介绍非参数检验的一章）。,6.4 从一个例子说明“接受零假设”的说法不妥,虽然前面已经有了一些例子说明“接受零假设”说法的不妥，但还可能会有些人对于在检验结果不显著时只能说“不能拒绝零假设”而不能说“接受零假设”感到不解。下面

28、用一个个描述性例子来说明。,6.4 从一个例子说明“接受零假设”的说法不妥,例6.7（数据 rice.txt）一个大米加工厂卖给一个超市一批标明10kg重的大米。而该超市怀疑该厂家缺斤短两，对10包大米进行了称重，得到下面结果（单位：千克）这里假定打包的大米重量服从正态分布。,6.4 从一个例子说明“接受零假设”的说法不妥,由于发生分歧，于是各方同意用这个数据进行关于大米重量均值m的t检验；以厂家所说的平均重量为10kg作为零假设，而以超市怀疑的份量不足10kg作为备选假设：,于是，超市、加工厂老板和该老板的律师都进行了检验。结果是：,6.4 从一个例子说明“接受零假设”的说法不妥,1超市用全

29、部数据进行t检验，得到拒绝零假设的结论。他们根据计算得到：样本均值为9.92kg，而p-值为0.0106。因此超市认为，对于显著性水平a=0.05，应该拒绝零假设。,6.4 从一个例子说明“接受零假设”的说法不妥,2大米加工厂老板只用2个数据，得到“接受零假设”的结论。大米加工厂老板也懂些统计，他只取了上面样本的头两个个数目9.93和9.83进行同样的t检验。通过对这两个数进行计算得到：样本均值为9.88kg，而p-值为0.1257。虽然样本均值不如超市检验的大，但p-值大大增加。加工厂老板于是下了结论：对于水平a0.05，“接受零假设”，即加工厂的大米平均重量的确为10kg。,6.4 从一个

30、例子说明“接受零假设”的说法不妥,3大米加工厂老板的律师用了全部数据，但不同的检验方法，得到“接受零假设”的结论。大米加工厂老板的律师说可以用全部数据。他利6.3.2节对于连续变量比例的检验，也就是关于中位数的符号检验（注意对于正态分布，对中位数的检验等价于对均值的检验）。根据计算，得到该检验的p-值为0.0547。所以这个律师说在显著性水平a=0.05时，应该“接受零假设”。还说，“既然三个检验中有两个都接受零假设，就应该接受。”,6.4 从一个例子说明“接受零假设”的说法不妥,加工厂老板实际上减少了作为证据的数据，因此只能得到“证据不足，无法拒绝零假设”的结论。但加工厂老板利用一些错误的统

31、计教科书的说法，把“证据不足以拒绝零假设”改成“接受零假设”了。而且，从样本中仅选择某些数目（等于销毁证据）违背统计道德。,6.4 从一个例子说明“接受零假设”的说法不妥,律师虽然用了全部数据，但用了不同的方法。他也只能够说“在这个检验方法下，证据不足以拒绝零假设”而不能说“接受零假设”。另外，律师对超市用更有效的检验方法得到的“拒绝零假设”的结论视而不见，这也违背了统计原理。其实，对于同一个检验问题，可能有多种检验方法。但只要有一个拒绝，就可以拒绝。那些不能拒绝的检验方法是能力不足。用统计术语来说，该拒绝而不能拒绝的检验方法是势（power）不足，或者效率（efficiency）低。,6.4

32、从一个例子说明“接受零假设”的说法不妥,该例说明了几个问题：在已经得到样本的情况下，随意舍取一些数目是违背统计原理和统计道德的。这相当于篡改或销毁证据。由于证据不足而不能拒绝零假设绝对不能说成“接受零假设”。如果一定要说，请给出你接受零假设所可能犯第二类错误的概率（这是无法算出的）。这是加工厂老板和律师所犯的错误。,6.4 从一个例子说明“接受零假设”的说法不妥,例中律师的检验和超市所做的检验都针对同样的检验问题，但由于超市的检验方法比律师的检验更强大（或更强势，more powerful，更有效率，more efficient），所以超市拒绝了零假设，而律师的检验则不能拒绝。如果有针对同一检验问题的许多检验方法，那么，只要有一个拒绝，就必须拒绝。绝对不能“少数服从多数”，也不能“视而不见”。,

展开阅读全文