《第8章 假设检验.doc》由会员分享,可在线阅读,更多相关《第8章 假设检验.doc(27页珍藏版)》请在三一办公上搜索。
1、第八章 假设检验【内容提要】本章主要讲述假设检验思想概述;正态总体参数检验(检验,检验,检验和检验);非正态总体参数检验(非正态总体均值检验的大样本方法,指数总体的参数检验);检验的实际意义及两类错误(检验结果的实际意义,检验中的两类错误,样本容量确定问题)等内容【重点分析】 1、 理解假设检验的基本思想,掌握假设检验的基本步骤,了解假设检验可能产生的两类错误。2、 了解单个和两个正态总体的均值与方差的假设检验。了解总体分布假设的检验法。【难点分析】假设检验的基本思想、基本步骤及假设检验可能产生的两类错误。8.1假设检验概述一、引言前一章我们讲了对总体参数的估计问题,即是对样本进行适当的加工,
2、以推断出参数的值(或置信区间)。本章介绍的假设检验,是另一大类统计推断问题。它是先假设总体具有某种特征(例如总体的参数为多少),然后再通过对样本的加工,即构造统计量,推断出假设的结论是否合理。从纯粹逻辑上考虑,似乎对参数的估计与对参数的检验不应有实质性的差别,犹如说:“求某方程的根”与“验证某数是否是某方程的根”这两个问题不会得出矛盾的结论一样。但从统计的角度看估计和检验,这两种统计推断是不同的,它们不是简单的“计算”和“验算”的关系。假设检验有它独特的统计思想,也就是说引入假设检验是完全必要的。我们来考虑下面的例子。例8.1 某厂家向一百货商店长期供应某种货物,双方根据厂家的传统生产水平,定
3、出质量标准,即若次品率超过3%,则百货商店拒收该批货物。今有一批货物,随机抽43件检验,发现有次品2件,问应如何处理这批货物?如果双方商定用点估计方法作为验收方法,显然2/43,这批货物是要被拒收的。但是厂家有理由反对用这种方法验收。他们认为,由于抽样是随机的,在这次抽样中,次品的频率超过%,不等于说这批产品的次品率(概率)超过了%.就如同说掷一枚钱币,正反两面出现的概率各为1/2,但若掷两次钱币,不见得正、反面正好各出现一次一样。就是说,即使该批货的次品率为%,仍有很大的概率使得在抽检件货物时出现个以上的次品,因此需要用别的方法。如果百货商店也希望在维护自己利益的前提下,不轻易地失去一个有信
4、誉的货源,也会同意采用别的更合理的方法。事实上,对于这类问题,通常就是采用假设检验的方法。具体来说就是先假设次品率,然后从抽样的结果来说明这一假设是否合理。注意,这里用的是“合理”一词,而不是“正确”,粗略地说就是“认为”能否说得过去。具体如何做,下面再说。还有一类问题实际上很难用参数估计的方法去解决。例8.2 某研究所推出一种感冒特效新药,为证明其疗效,选择200名患者为志愿者。将他们均分为两组,分别不服药或服药,观察三日后痊愈的情况,得出下列数据: 是否痊愈服何种药痊愈者未痊愈者合计未服药者4852100服药者5644100合 计10496200问新药是否确有明显疗效?这个问题就不存在估计
5、什么的问题。从数据来看,新药似乎有一定疗效,但效果不明显,服药者在这次试验中的情况比未服药者好,完全可能是随机因素造成的。对于新药上市这样关系到千万人健康的事,一定要采取慎重的态度。这就需要用一种统计方法来检验药效,假设检验就是在这种场合下的常用手段。具体来说,我们先不轻易地相信新药的作用,因此可以提出假设“新药无效”,除非抽样结果显著地说明这假设不合理,否则,将不能认为新药有明显的疗效。这种提出假设然后做出否定或不否定的判断通常称为显著性检验(Significance test)。假设检验也可分为参数检验(Parametric test)和非参数检验(Nonparametric test)。
6、当总体分布形式已知,只对某些参数做出假设,进而做出的检验为参数检验;对其它假设做出的检验为非参数检验。如例7.1中,总体是两点分布,只需对参数做出假设检验,这是参数检验问题,而例7.2则是非参数检验的问题。二、假设检验的基本思想与概念1“实际统计推断原理”(小概率原理)小概率事件在一次试验中几乎(一般)是不会发生的。2具有概率性质的反证法(1) 用了反证法的思想(2) 不同于确定性数学中的反证法在假设检验中要用到两个假设,把需要检验的假设称为原假设或零假设记为(),与对立的假设,称为对立假设或备择假设, 记作()。我们约定是对立面的全体。假设是否正确有待用样本作检验。通常给定一个临界概率,在有
7、原假设成立的条件下,如果出现事件的概率大于或等于临界概率,就作拒绝原假设,接受备择假设的决定。通常称此临界概率为显著性水平。根据不同的问题可取不同的值,通常取0.05或0.01等。三、假设检验的步骤无论是参数检验还是非参数检验,其原理和步骤都有共同的地方,我们将通过下面的例子来阐述假设检验的一般原理和步骤。例8.3 据报载,某商店为搞促销,对购买一定数额商品的顾客给予一次摸球中奖的机会,规定从装有红、绿两色球各10个的暗箱中连续摸10次(摸后放回),若10次都是摸得绿球,则中大奖。某人按规则去摸10次,皆为绿球,商店认定此人作弊,拒付大奖,此人不服,最后引出官司。我们在此并不关心此人是否真正作
8、弊,也不关心官司的最后结果,但从统计的观点看,商店的怀疑是有道理的。因为,如果此人摸球完全是随机的,则要正好在10次摸球中均摸到绿球的概率为,这是一个很小的数,一个统计的基本原理是在一次试验中所发生的事件不应该是小概率事件。现在既然这样小概率的事件发生了,就应当推测出此人摸球不是随机的,换句话说有作弊之嫌。上述的这一推断,实际上就是假设检验的全部过程。它一般包含了这么几步:提出假设,抽样,并对样本进行加工(构造统计量),定出一个合理性界限,得出假设是否合理的结论。为了便于操作,我们将结合例7.3,把这一过程步骤表述得更加形式化一点。这里要说明一点的是所谓“小概率事件”。究竟多大概率为小概率事件
9、?在一个问题中,通常是指定一个正数,认为概率不超过的事件是在一次试验中不会发生的事件,这个称为显著性水平(Level of significance)。对于实际问题应根据不同的需要和侧重,指定不同的显著性水平。但为了制表方便,通常可选取=0.01,0.05,0.10等。下面我们用假设检验的语言来模拟商店的推断:10 提出假设:此人未作弊;:此人作弊。这里称为原假设,称为备选假设或对立假设,备选假设也可以不写。20 构造统计量,并由样本算出其具体值:统计量取为10次模球中摸中绿球的个数由抽样结果算出.30 求出在下,统计量的分布,构造对不利的小概率事件:易知,在下,即如果此人是完全随机地摸球的话
10、,统计量服从二项分布B(10,1/2)其分布列为,那么此人摸到的绿球数应该在平均数5个附近,所以对不利的小概率事件是:“绿球数大于某个较大的数,或小于某个较小的数。”在此问题中,若此不成立,即此人作弊的话,不可能故意少摸绿球,因此只需考虑事件“大于某个较大的数”,这个数常称为临界值,即某个分位数。40 给定显著性水平,确定临界值:即取一数使得=如取=0.01,由分布列算出: .对于这种离散型概率分布,不一定能取到.取最接近的,使当成立时,因此.即该小概率事件是.50 得出结论:已算得,即发生了,而被视为对不利的小概率事件,它在一次试验中是不应该发生的,现在居然发生了,只能认为是不成立的,即:“
11、此人作弊”成立。这一推断过程,也是假设检验的一般步骤,在这些步骤中,关键的技术问题是确定一个适当的用以检验假设的统计量,这个统计量至少应该满足在成立的情况下,其抽样分布易于计算(查到)。当然还应该尽量满足一些优良性条件,特别是在参数检验中。限于篇幅,我们不准备在本书中仔细讨论这些优良性条件。在统计量选定以后,便可构造出由该统计量描述某个显著性水平下的一小概率事件,我们称使得这一小概率事件发生的样本空间的点的全体为的否定域或拒绝域,通常也简记为=最后的检验即是判断所给的样本是否落在内,或者是是否成立。因此,从这个意义上可以说设计一个检验,本质上就是找到一个恰当的否定域,使得在下,它的概率今后我们
12、总是把统计检验中提到的“小概率事件”视为与否定域是等价的概念。另外,称的余集为的接受域。假设检验的步骤可归纳如下:第一步 根据实际问题提出原假设,备择假设(有时不写出);第二步 确定检验用的统计量,并写出它的分布;第三步 根据给出的显著性水平,在原假设成立的条件下,有统计量的分布查表的或的值;写出的拒绝域第四步 根据抽样资料计算的样本观测值,如果,则拒绝原假设;否则不拒绝原假设。8.2 正态总体参数的假设检验一、单个正态总体的均值,方差的假设检验设总体,是来自总体的样本。1.单个正态总体均值的假设检验1)已知,检验, 如果属真,则统计量对于给定的显著性水平,查表得使 的拒绝域为: :。由抽样数
13、据计算的观测值,如果,则拒绝,否则不能拒绝(注意不是接受)。例 根据以往的资料认为某厂生产的铜丝的折断力。现换了一批原材料,从性能上来看,估计折断力的方差不变,但不知折断力大小和原先有无显著差异。为此抽取10个样品,测得折断力(公斤)如下:289,286,285,284,286,285,285,286,298,292问:这批铜丝的平均折断力可否认为是285公斤()。解 ,拒绝。2)未知,检验, 0如果属真,则统计量服从自由度为的分布。例 在正常情况下,某炼钢厂的铁水含碳量(%)。一日测得5炉铁水含碳量如下:4.48,4.40,4.42,4.45,4.47在显著水平下,试问该日铁水含碳量得均值是
14、否有明显变化。解 (1), (2)选取检验统计量(3) 给定,查知。 的拒绝域为: :。(4) 计算。|=7.054,又|=7.0542.7764,所以显著水平下,拒绝.3)单侧检验例 根据某地环境保护法规定,倾入河流的废物中某种有毒化学物质含量不得超过3ppm。该地区环保组织对某厂连日倾入河流的废物中该物质的含量的记录为:。经计算得知 。试判断该厂是否符合环保法的规定。(该有毒化学物质含量服从正态分布)解 (1): :(2)的拒绝域为:(3)查表 (4)计算,=1.77667 1.77667.所以在显著水平下,拒绝 .例 某厂生产需用玻璃纸作包装,按规定供应商供应的玻璃纸的横向延伸率不应低于
15、65。已知该指标服从正态分布,一直稳定于值5.5。从近期来货中抽查了100个样品,得样本均值,试问在水平上能否接受这批玻璃纸?解:(1):(2)的拒绝域为:,(3)计算 ,查表,知 。(4)因为 -18.07-2.33,所以在显著水平下,拒绝,不能接受这批玻璃纸。 2.单个正态总体方差的假设检验1). 未知,检验,如果属真,则统计量,对于给定显著性水平,选取,和使和例 某自动机床加工套筒的直径服从正态分布。现从加工的这批套筒中任取5个,测得直径分别为,经计算得到。试问这批套筒直径的方差与规定的有无显著差别?()解 (1):, : (2)选取检验统计量(3)的拒绝域0 :,或。(4)计算,查表,
16、(5)判断。因为0.207。 所以在显著水平下,相容。2)单侧检验例 某种导线的电阻服从,未知。该种导线其中一个质量指标是电阻标准差不得大于0.005。现从中抽取了九根导线测其电阻,测得样本标准差=0.0066。试问在水平上能否认为这批导线的电阻波动合格?解 (1):,: :, :(2) 的拒绝域 :,(3)计算,查表,(4)因为13.94,所以在水平下认为这批导线的电阻波动合格。例 一工厂生产的某种电缆的抗断强度的标准差为240 kg,这种电缆的制造方法改变以后取8根电缆,测得样本抗断强度的标准差为205kg,假设电缆抗断强度服从正态分布,给定显著水平。试问改变制造方法后,电缆抗断强度是否显
17、著变小。解 (1):,:(2)的拒绝域:,(3)计算,查表。(4)5.107,所以在显著水平水平下相容,认为标准差没有显著变小。二、两个正态总体均值差、方差比的检验设总体 、 且相互独立,、分别为总体和的样本,、分别为总体和的样本均值,、分别为总体和的样本方差。1.两个总体方差比的假设检验1)假设检验 :, : 。如果属真,则统计量对于给定显著性水平,存在,和使和例 甲、乙两台机床同时独立地加工某种轴,轴的直径分别服从正态分布、。今从甲机床加工的轴中随机地任取6根,测量它们的直径为,从乙机床加工的轴中随机地任取9根,测量它们的直径为,经计算得知: ,问在显著水平下,两台机床加工的轴的直径方差是
18、否有显著差异?(未知)解:(1) :, : (2)选取检验统计量:(3) 的拒绝域:,或(4)计算(注意公式),查表,(5) 因为,所以在水平下,认为。2)单边检验。在上例如问甲机床加工轴的精度是否比乙机床加工轴的精度高?()就是单边检验。简解(1) :, : (2) 的拒绝域:(3)计算,查表。(4)因为,所以在下认为 比小。2.两个总体均值差的假设检验1) 已知方差,检验 选取检验统计量如果属真,则统计量 对于给定的显著性水平,查表使。的拒绝域 计算,查表,判断。例 测量发动机的推力试验中,两推力计的记录结果如下:推力X33.8,35.0,33.5,33.3,34.5,33.1,35.4,
19、33.9,33.9,34.3,34.7,34.0,33.6,34.2,34.5,33.8,33.5,33.9。推力Y34.8,34.5,35.0,34.4,34.2,34.6,34.9,34.5,34.1,34.7,34.4,33.9,34.1,34.8,35.2,34.5,34.6,34.9。根据以往经验,测量该种发动机的推力试验其测量方差至多为25。问从这两组记录结果能否看出有什么异常现象发生(取显著性水平0.05,并设两推力计的记录结果服从正态分布)?解 :,:,没有异常现象发生。2)方差未知,但假设:,:。如属真,则统计量其中 例 对用两种不同的热处理方法加工的金属材料做抗拉强度试验,
20、得到的试验数据如下:(单位:千克/厘米2)甲种方法31,34,29,26,32,35,38,34,30,29,32,31乙种方法26,24,28,29,30,29,32,26,31,29,32,28设用两种热处理方法加工的金属材料抗拉强度各构成正态总体,且两个总体方差相等。给定显著性水平0.05,问两种方法所得金属材料的(平均)抗拉强度有无显著差异。解 (1):,:,(2)选取检验统计量:(3)给定,查知。 的拒绝域为: :。(4)计算,(5)因为,因此,两种方法所得金属材料的(平均)抗拉强度有显著差异。8.3 检验的实际意义及两类错误面对参数的假设检验的方法进行了较详尽的讨论,但读者可能有不
21、少疑问,如这些检验方法对于相应的问题是不是唯一的方法?若不是唯一的,是不是最优的方法?最优的标准又是什么?检验的优劣与显著性水平的关系如何?下面我们将研究一下这方面的问题。为了不涉及过多的概念和理论推证,我们的讨论只是较为简略的。一、检验结果的实际意义)检验的原理是“小概率事件在一次试验中不发生”,以此作为推断的依据,决定是接受或拒绝.但是这一原理只是在概率意义下成立,并不是严格成立的,即不能说小概率事件在一次试验中绝对不可能发生。仍以例8.3来说,尽管按统计推断结论,认为摸球人作弊,但事实上也完全可能没有作弊。试想如果在不作弊的情况下,10次全部摸中绿球绝对不可能的话,那么开设摸奖就没有意义
22、了。因此,当摸奖人事实上的确是未作弊的话,商店的统计推断就犯了错误,关于犯检验的错误我们放到后面再讲。)在假设检验中,原假设与备选假设的地位是不对等的。一般来说是较小的,因而检验推断是“偏向”原假设,而“歧视”备选假设的。因为,通常若要否定原假设,需要有显著性的事实,即小概率事件发生,否则就认为原假设成立。因此在检验中接受,并不等于从逻辑上证明了的成立,只是找不到不成立的有力证据。在应用中,对同一问题若提出不同的原假设,甚至可以有完全不同的结论,为了理解这一点,举例如下:例 设总体,样本均值,样本容量=1,取=0.05,欲检验=0,还是=1这里有两种提出假设的方法,分别如下:():=0; :=
23、1():=1; :=0如果按一般逻辑论证的想法,当然认为无论怎样提假设,的最终结果应该是一样的。但事实不然,计算如下:对于()显然应取否定域为,其中,当成立时,实际算得接受,即认为=0对于()应取否定域为此时接受,即认为=1.这种矛盾现象可以解释为,试验结果既不否定=0,也不否定=1,究竟应认为=0,还是=1,就要看你要“保护”谁,即怎样取原假设。这一结果的几何解释如图8-4在图8-4中,既不在密度函数的阴影部分所对应的区间里,也不在密度函数的阴影部分所对应的区间内。所以无论怎样提出都否定不了。图8-4这一事实提醒了我们,在应用中一定要慎重提出原假设,它应该是有一定背景依据的。因为它一经提出,
24、通常在检验中是受到保护的,受保护的程度取决于显著性水平的大小,越小,以为概率的小概率事件就越难发生,就越难被否定。在实际问题中,这种保护是必要的,如对一个有传统生产工艺和良好信誉的厂家的商品检验,我们就应该取原假设为产品合格来加以保护,并通过检验来印证,以免因抽样的随机性而轻易否定该厂商品的质量。c)从另一个角度看,既然是受保护的,则对于的肯定相对来说是较缺乏说服力的,充其量不过是原假设与试验结果没有明显矛盾;反之,对于的否定则是有力的,且越小,小概率事件越难于发生,一旦发生了,这种否定就越有力,也就越能说明问题。在应用中,如果要用假设检验说明某个结论成立,那么最好设为该结论不成立。若通过检验
25、拒绝了,则说明该结论的成立是很具有说服力的,如例8.3那样。而且取得较小,如果仍拒绝的话,结论成立的说服力越强。二、检验中的两类错误前面已说到检验可能犯错误,所谓犯错误就是检验的结论与实际情况不符,这里有两种情况:一是实际情况是成立,而检验的结果表明不成立,即拒绝了,这时称该检验犯了第一类错误(type I error)或“弃真”的错误;二是实际情况是不成立,成立,而检验的结果表明成立,即接受了,这时称该检验犯了第二类错误(type II error),或称“取伪”的错误。我们来研究一下,对于一个检验,这两类错误有多大。我们知道,一个检验本质上就是一个否定域,所谓拒绝,就是通过构造的统计量计算
26、,得出样本点落在内的结论。所以,第一类错误的概率就是在成立的条件下的概率.从前几节的具体例子可知,一般地当形如时,.当形如或时,由此可知,显著性水平也就是检验犯第一类错误的概率。同样,接受,即是指样本点落在接受域中,因此犯第二类错误的概率是 (8.9)当中包含的参数不止一个时,一般的具体计算是较困难的。我们来看一个具体例子,加深对两类错误概念的理解。例 设总体,已知,样本容量为,求对问题:=; :=的检验的两类错误的概率。解 在此检验中,否定域应为其中,为某一显著性水平,易知在成立时服从,在成立时服从.于是,犯第一类错误的概率为=犯第二类错误的概率为 (8.10)其中为标准正态分布函数。上述两
27、类错误概率的大小可用图8-5中的阴影面积表示。图中,由图8-5或式(8.10)可以看出,若要第一类错误概率变小,则变大,从而第二类错误的概率也随之变大。图8-5设计一个检验,当然最理想的是犯两类错误的概率都尽可能地小,但由上面的例可以看出,在样本容量一定的情况下,要使两者都达到最小是不可能的。考虑到的提出既然是慎重的,否定它也要比较慎重。因此,在设计检验时,一般采取控制第一类错误的概率在某一显著性水平内,对于固定的,使第二类错误尽可能地小,并以此来建立评价检验是否最优的标准。关于这一点我们不准备深入讨论,只强调一点,在8.2节末表中所列出的检验都是某种意义下的最优检验。三、样本容量确定问题对于
28、固定的样本容量,若要控制第一类错误的概率,就不可能使第二类错误的概率尽可能地小。但另一方面,从(8.10)式可以看出,在上面的例子中,如果保持不变,使增大,则减小(注意),当时,.也就是说,通过增大样本容量,犯第二类错误的概率可以小于任给的正数。在实际问题中,样本容量是不可能无限制扩大的,因为做试验需要成本,抽样数量太大,既做不起,又没有必要。另一方面,若样本容量太小,又不能使犯两类错误的概率同时都令人满意地小。由此引出这样的问题,即能否确定一个最小的样本容量,使得检验的两类错误概率都在预先控制的范围内?这就是样本容量确定问题。我们讨论两种具体的检验。(1)对于正态总体,已知,考虑:=; :=
29、的检验,(的检验(时,是的减函数,且由式(8.12)可得 (8.13)当然,从式(7.13)无法得到的解析表示,但对于给定的,可以通过查表,采取“试算”的方式确定例 一门炮需通过发射试验来进行精度验收,假设命中误差是纯随机的,又横向(或纵向)误差允许的标准差为,制造方要求采用的检验方法要求保证:如果产品合格而被拒绝的概率应不大于5%;使用方要求保证:若产品不合格且标准差超过而被接受的概率小于10%.试问,至少应发射多少发炮弹进行试验,才能满足双方的要求?解 可以设炮弹落点的横向(或纵向)偏差是服从,由题意,可将问题简化为:=; :=2用检验,已知=0.05,又要求=0.1,利用式(8.13)试
30、着取:若取=36,(35)=49.802,;取=37,.由此可知至少需要发射37发炮弹。8.4 拟合优度检验在实际中为了利用统计资料做出推断,常常必须选择某种已知的概率分布来近似所研究的频率分布,但是我们需要分析这种近似存在多大程度的误差。检验能够检验观察到的频率分布是否服从于某种理论上的分布,或者说检验某一实际的随机变量与某一理论分布之间的差异是否显著。这样就可以用来确定某种具体的概率分布究竟是否符合某种理论分布,如二项分布,泊松分布或正态分布,以便我们掌握这种分布的特性。同时,这种检验反过来也就确定了用某种理论分布来研究某一实际问题时的适应性。用于这方面的检验时称作拟合优度的检验。若被检验
31、总体的真实的分布函数为,但它是未知的,要求根据从这一总体中所随机抽取的一组样本来检验总体是否与某种已知的理论分布相一致。于是拟合优度检验也就转化为下列假设检验问题:=,: 假定一个总体可分为类,现从该总体获得了一个样本这是一批分类数据,现在需要我们从这些分类数据中出发,去判断总体各类出现的概率是否与已知的概率相符。譬如要检验一颗骰子是否是均匀的,那么可以将该骰子抛掷若干次,记录每一面出现的次数,从这些数据出发去检验各面出现的概率是否都是1/6, 拟合优度检验就是用来检验一批分类数据所来自的总体的分布是否与某种理论分布相一致。在实际问题中常会遇到这种分类数据,下面就讨论这类数据的有关检验问题。一
32、、总体可分为有限类,且总体分布不含未知参数设总体可以分成类,记为,如今要检验的假设为:其中各已知,现对总体作了次观察,各类出现的频数分别为 ,且,若为真,则各概率与频率应相差不大,或各观察频数 与理论频数应相差不大。据此想法,英国统计学家K.Pearson提出了一个检验统计量 (8.14)并指出,当样本容量充分大且为真时,近似服从自由度为的-分布。从统计量(8.14)的结构看,当为真时,和式中每一项的分子都不应太大,从而总和也不会太大,若过大,人们就会认为原假设不真。基于此想法,检验的拒绝域应有如下形式:对于给定的显著性水平,由分布可定出。例 某大公司的人事部门希望了解公司职工的病假是否均匀分
33、布在周一到周五,以便合理安排工作。如今抽取了100名病假职工,其病假日分别如下:工作日周一 周二 周三 周四 周五频数17 27 10 28 18试问该公司职工病假是否均匀分布在一周五个工作日中(=0.05)?解 若病假是均匀分布在五个工作日内,则应有,以表示“病假就在周”,则要检验假设采用统计量(4.30),由于=5,在=0.05时,因而拒绝域为这表明样本落在拒绝域中,因而在=0.05水平上拒绝原假设,认为该公司职工病假在屋个工作日中不是均匀分布的。二、总体可分为有限类,但总体分布含有未知参数先看一个例子:例 在某交叉路口记录每15秒中内通过的汽车数量,共观察了25分钟,得100个记录,经整
34、理得:通过的汽车数量0 1 2 3 4 5 6 7 8 9 10 11频数1 5 15 17 26 11 9 8 3 2 2 1在=0.05水平上检验如下假设:通过该交叉路口的汽车数量从泊松分布。在本例中,要检验总体是否服从泊松分布。大家知道服从泊松分布的随机变量可取所有的非负整数,然而尽管它可取可数个值,但取大量值的概率是非常之小,因而可以忽略不计,另一方面,在对该随机变量进行实际观察时也只能观察到有限个不同值,譬如在本例中,只观察到0,1,11等12个值。这相当于把总体分成12类,每一类出现的概率分别:从而把所要检验的原假设记为:其中表示15秒钟内通过交叉路口的汽车为辆,表示15秒钟内通过
35、交叉路口的汽车超过10辆。设总体可以分成类,记为,如今要检验的假设为:其中各已知,。1924年英国统计学家R.A.Fisher证明了在总体分布中含有个独立的未知参数时,若这个参数用极大似然估计代替,则(1)中的用代替,当样本容量充分大时 (8.15)近似服从自由度为的分布。首先此总体分布中含有未知参数,用其极大似然估计=4.28去估计,从而有其次,由于要采用检验统计量(8.15)的近似分布来确定拒绝域,因而要求各不能过少,通常要求5,当某些频数小于5时,通常的做法是将临近若干组合并。在本例中,=15,因而可将与的两组合并,同样,由于8时各组频数亦小于5,因而也将它们合并,从而这里组数,未知参数
36、个数,采用统计量(8.15),在=0.05时, ,拒绝域为 。计算统计量的值得 =5.78975,)。(3)当0时,对个未知参数给出其极大似然估计,记,()从而用未知参数的极大似然估计代替后可算得各(4)在计算得到和以后,计算统计量统计上也已证明这一统计量服从于自由度为的分布。对于给定的显著性水平,我们查相应的自由度为的表,就可得到,使得若时就拒绝原假设,我们认为被检验总体的真实的分布函数不为。例 为研究混凝土抗压强度的分布,抽取了200件混凝土制件测定其抗压强度,经整理得频数分布表如下表。抗压强度区间 频数(190,200(200,210(210,220(220,230(230,240(24
37、0,250102656643014合计200试在=0.05水平上检验抗压强度的分布是否为正态分布。解 若用表示的分布函数,则要检验假设:抗压强度的分布又由于中含有两个未知参数,因而需用它们的极大似然估计去替代。这里仅给出了样本的分组数据,因此只能用组中值(即区间中点)去代替原始数据,然后求的。现在6个组中值分别为于是,在分布下,求出落在区间内的概率的估计值:(通常将定义为,将定义为)。本例中=6。采用作为检验统计量,在=0.05时,因而拒绝域为由样本计算值的过程列于表中。由此可知=1.3327.815,这表明样本落入接受域,可接受抗压服从正态分布的假定。区间1026566430140.0450
38、.1420.2810.2990.1710.0629.028.456.259.834.212.40.1110.2030.0010.2950.5160.206合计2001.332由本例可见,当为连续分布时需将取值区间进行分组,从而检验结论依赖于分组,分组不同有可能得出不同的结论,这便是在连续分布场合拟合优度检验的不足之处。然而在除正态分布外的场合尚缺少专门的检验方法,故不得不用此拟合优度检验。8.5 列联表的独立性检验一、问题的提出例 某公司有A、B、C三位业务员在甲、乙、丙三个地区开展营销业务活动。他们的年销售额如下表所示。表 三位业务员业绩表甲乙丙行总数A150140260550B160170
39、290620C110130180420列总数4204407301590现在公司的营销经理需要评价这三个业务员在三个不同地区营销业绩的差异是否显著。如果差异是显著的,说明对于这三位业务员来说,某个业务员特别适合在某个地区开展业务。如果差异不显著,则把每一位分配在哪一个地区对销售额都不会有影响。这一问题的关键就是要决定这两个因素对营销业绩的影响是否独立,还是相互关联的。统计上经常会遇到这类要求判断两个变量之间是否有联系的问题。如果两个变量之间没有联系则称作是独立的。用分布可以检验两个变量之间的独立性问题。二、独立性检验的原理与步骤在有些实际问题中,当抽取了一个容量为的样本后,对样本中每一样品可按不
40、同特性进行分类。例如在进行失业人员情况调查时,对抽取的每一位失业人员可按其性别分类,也可按其年龄分类,当然还可按其它特征分类。又如在工厂中调查某产品的质量时,可按该产品的生产小组分类,也可按其是否合格分类等等。当用两特性对样品分类时,记这两个特性分别为与,不妨设有个类别,有个类别,则可把被调查的个样品按其所属类别进行分类,列成如下一张的二维表,这张表也称为(二维)列联表。 合计 合计 其中表示特性属类、特性属类的样品数,即频数。通常在二维表中还按行、按列分别求出其合计数:在这种列联表中,人们关心的问题是两个特性是否独立,称这类问题为列联表的独立性经验。首先我们提出假设:两个变量是独立的,即相互
41、之间没有影响;:两个变量是不独立的,即相互之间有影响。 检验的结果如果接受原假设就说明不能推翻两个变量是独立的假设;反之,拒绝,接受就说明它们之间是不独立的。为明确写出检验问题,记总体为,它是二维变量(),这里被分成类 ,被分成类 ,并设其中 又记显然。那么当 与两个特性独立时,应对一切有,因此检验问题为; (8.16)在成立条件下应有Pearson统计量,=第一个等式是在(8.16)中原假设为真时导出的,式中有个未知参数 需要估计,又由于,因而只有个独立参数需要估计。因为各 的极大似然估计分别为:,因而对检验问题(8.17),可采用检验统计量= = (8.17)在为真,较大时,近似服从自由度是的分布。对给定的显著性水平,拒绝域为 (8.18)例 某地调查了3000名失业人员,按性别文化程度分类如下:文化程度 性别大专以上 中专技校 高中 初中及以下合计男女40 138 620 104320 72 442 62518411159合计60 210 1062 16683000试在=0.05水平上检验失业人员的性别与文化程度是否有关。解 这是列联表的独立性检验问题。在本例中=2,=4,在=0.05下, ,因而拒绝域为:为了计算统计量(4),可列成如下表格计算:大专以上 中专技校 高中 初中及以下男女36.8 128.9 651.7 1023.623.2 81.1