《概率论与数理统计第八章.ppt》由会员分享,可在线阅读,更多相关《概率论与数理统计第八章.ppt(94页珍藏版)》请在三一办公上搜索。
1、第八章 假设检验,假设检验,参数假设检验,非参数假设检验,这类问题称作假设检验问题.,总体分布已知,检验关于未知参数的某个假设,总体分布未知时的假设检验问题,在本讲中,我们将讨论不同于参数估计的另一类重要的统计推断问题.这就是根据样本的信息检验关于总体的某个假设是否正确.,第一节 基本概念,让我们先看一个例子.,这一讲我们讨论对参数的假设检验.,某工厂生产10欧姆的电阻.根据以往生产的电阻实际情况,可以认为其电阻值 XN(,2),标准差=0.1.现在随机抽取10个电阻,测得它们的电阻值为:9.9,10.1,10.2,9.7,9.9,9.9,10,10.5,10.1,10.2.试问:从这些样本,
2、我们能否认为该厂生产的电阻的平均值为10欧姆?,例1,(一)一个例子,确定总体:记X为该厂生产的电阻的测量值.根据假设,X N(,2),这里=0.1.明确任务:通过样本推断X的均值是否等于10欧姆.Hypothesis:上面的任务就是要通过样本去检验“X的均值=10”这样一个假设是否成立.(在数理统计中把“X的均值=10”这样一个待检验的假设记作“H0:=10”称为“原假设”或“零假设”,问题怎么建立:,原假设的对立面是“X的均值10”记作“H1:10”称为“对立假设”或“备择假设”.把它们合写在一起就是:,H0:=10 H1:10,解决问题的思路分析:,样本均值是的一个良好估计.如果=10,
3、即原假设成立时,那么:,应该比较小.反之,如果它过于大,那么想必是原假设不成立.,的大小可以用来检验原假设是 否成立.,这里的问题是,我们如何确定常数c呢,合理的思路是找出一个界限c,细致的分析:,根据定理6.4.1,n=10=0.1,于是,当原假设 H0:=10 成立时,有:,为确定常数c,现在我们考虑一个相当小的正数(理由下面讲).例如=0.05.于是,当原假设 H0:=10 成立时,有:,我们就拒绝原假设 H0:=10.,我们就接受原假设 H0:=10.,现在我们就得到检验准则如下:,用以上检验准则处理我们的问题.,接受原假设 H0:=10.,我们的原假设是 H0:=10 由上面分析,当
4、H0成立时,有:,相当小.这就是说:如果H0这个假设是正确的话,检验统计量落入拒绝域就是一个发生的概率很小的事件.过去我们提到过,通常认为:小概率事件在一次试验中基本上是不会发生的.(我们把它称做实际推断原理.),(II)道理,那么如果小概率事件发生了,即:,我们就拒绝,这时我们说:“H0不成立.”下面我们指出这很符合人们的逻辑,实际上这种思维也叫:带概率性质的反证法 通常的反证法设定一个假设以后,如果出现的事实与之矛盾,(即如果这个假设是正确的话,出现一个概率等于0的事件)则绝对地否定假设.,带概率性质的反证法的逻辑是:即如果假设H0是正确的话,出现一个概率很小的事件,则以很大的把握否定假设
5、H0.,检验一个H0时是根据检验统计量来判决是否接受H0的,而检验统计量是随机的,这就有可能判决错误.这种错误有以下两类:H0事实上是正确的,但被我们拒绝了,称犯了“弃真”的(或称第一类)错误.H0事实上是不正确的,但被我们接受了,称犯了“采伪”的(或称第二类)错误.,(III)两类错误与显著性水平,假设检验的两类错误,P拒绝H0|H0为真=,P接受H0|H0不真=.,犯两类错误的概率:,显著性水平 为犯第一类错误的概率.,由于检验统计量的随机性,所以无论犯以上哪类错误都是随机事件,从而都有一定的概率.当样本容量n固定,犯两类错误的概率就不能同时被控制.在统计学中,通常控制犯第一类错误的概率.
6、一般事先选定一个数,(01),要求犯第一类错误的概率.称为假设检验的显著性水平,简称水平.,由于犯第二类错误的概率的研究与计算超出了本书的范围,因此不作讨论.,说明,例1(续)分析该例的显著性水平,我们就拒绝原假设 H0:=10.,现在让我们分析一下:取上述c后,如果假设H0是正确的,却被我们拒绝了,即犯第一类错误的概率是多少.,可见此例我们用的检验方法犯第一类错误的概率等于.显著性水平等于.,当原假设 H0:=10 成立时,有:,分析:,一般我们把显著性水平限定在一个比较小的值,通常=0.05或0.01.这样,如果H0是正确的,这就是说:如果H0是正确的话,检验统计量落入拒绝域就是一个小概率
7、事件.,说明,如果根据旧经验我们很相信H0是对的.要使人乐意放弃这个信念就要有十分过硬的依据,此时应取得很小.,注,如果根据旧经验我们很相信H0是对的.要使人乐意放弃这个信念就要有十分过硬的依据,此时应取得很小.,第八章 第二节 正态总体均值的假设检验,一、单个正态总体N(,2)均值的检验,(I)H0:=0 H1:0,设X1,X2,Xn为来自总体N(,2)的样本.求:对以上假设的显著性水平=的假设检验.,方差2已知的情况 根据第一节例1,当原假设 H0:=0 成立时,有:,于是当原假设 H0:=0 成立时,有:,方差2未知的况 根据定理6.4.1,以上检验法叫检验法.,n=10,=0.05,0
8、=10 t10-1(/2)=t9(0.025)=2.2622,以上检验法叫t检验法.,例 1(用例8.1.1数据,但未知),上一段 H0:=0 H1:0 中H1:0叫双边对立假设,上一段我们学习的叫双边检验.,接受原假设 H0:=10.,(II)单边检验 H0:=0 H1:0,问题的来源:,而 H0:=0 H1:0 中我们要处理的假设检验叫右边检验.类似,H0:=0 H1:0 中我们要处理的假设检验叫左边检验.这种形式的假设检验问题叫单边检验.它们也很有实用意义.例如:工厂生产的一种产品的某项指标平均值为0,采用了新技术或新配方后,被认为产品质量提高了,该指标的平均值应该随之上升.我们想看看是
9、否有显著上升.,于是问题就是检验:H0:=0 即新技术或新配方对于提高产品质量无效果.还是H1:0 即新技术或新配方确实有效,提高了产品质量.,解决问题的思路:,如果=0,即原假设成立时,那么:,就不应该太大.反之,如果它过于大,那么想必是原假设不成立.,方差2 已知的情况,求解:,根据定理6.4.1,当原假设 H0:=0 成立时,有:,于是当原假设 H0:=0 成立时,有:,方差2未知的情况 根据定理6.4.1,某厂生产一种工业用绳,其质量指标是绳子所承受的最大拉力.假定该指标服从正态分布.原来该厂生产的这种绳子平均最大拉力0=15公斤.现在采用了一种新的原材料,厂方称这种原材料提高了绳子的
10、质量,也就是说绳子所承受的最大拉力比15公斤大了.为了检验该厂的结论是否真实,从其新产品中随机抽取50件,测得它们承受的最大拉力的平均值为15.8公斤,样本标准差S=0.5公斤.取显著性水平=0.01.,例 2,问从这些样本看,我们能否接受厂方的结论,即新原材料是否确实提高了绳子的质量?,问题归结为检验如下假设 H0:=15 H1:15(方差2未知)此处n=50,=0.01,标准差S=0.5.,解:,我们拒绝原假设,认为新的原材料确实提高了绳子所能承受的最大拉力.,查不到t49(0.01),利用性质:给定,tn()关于自由度n是单调下降的.我们查t45(0.01)=2.41,则 t49(0.0
11、1)t45(0.01)=2.41,二、两个正态总体N(1,12)和 N(2,22)均值的比较,在应用上,我们经常会遇到两个正态总体N(1,12)和N(2,22)均值的比较问题.譬如:,欲比较甲、乙两厂生产的某种产品的质量.我们把两厂生产的产品的质量指标分别看成两个正态总体N(1,12)和N(2,22).比较它们的产品质量指标的问题,就变为比较这两个正态总体的均值1和2的问题.欲考察一项新技术对提高产品质量是否有效.我们把新技术实施前后生产的产品质量指标分别看成一个正态总体N(1,12)和N(2,22).这时,我们所考察的问题,就归结为检验这两个正态总体的均值1和2是否相等的问题.,设X1,X2
12、,Xm.Y1,Y2,Yn分别为来自正态总体N(1,12)和N(2,22)的样本.考虑检验假设:,根据定理7.5.1,(I)H0:1=2 H1:12,(1)方差12和22已知的情况,当H0:1=2为真时,当H0:1=2为真时,拒绝域为,(2)方差12=22=2 但2未知的情况,根据定理5.1,当H0:1=2 为真时,拒绝域为,其中:,上面,我们假定12=22.当然,这是个不得已加上去的条件.但如果不加此条件,就无法使用简单易行的t检验了.在实用中,只要我们有理由认为12和22相差不是太大就可以使用上面方法.通常是如果方差比检验未被拒绝(见下节),就认为12和22相差不是太大.,上面,我们假定12
13、=22.当然,这是个不得已加上去的条件.但如果不加此条件,就无法使用简单易行的t检验了.在实用中,只要我们有理由认为12和22相差不是太大就可以使用上面方法.通常是如果方差比检验未被拒绝(见下节),就认为12和22相差不是太大.,说明,假设有A,B两种药,欲比较它们在 服用2小时后血液中的含量是否一样.对药品A,随机抽取8个病人,他们服药2小时后,测得血液中药的浓度(用适当的单位)为:1.23,1.42,1.41,1.62,1.55,1.51,1.60,1.76.对药品B,随机抽取6个病人,他们服药2小时后,测得血液中药的浓度为:1.76,1.41,1.87,1.49,1.67,1.81.假定
14、这两组观测值抽自于具有共同方差的两个正态总体.在显著性水=0.10下,试检验病人血液中这两种药的浓度是否有显著不同?,例3,接受原假设.即认为病人血液中这两种药浓度无显著差异.,解:,问题就是从总体 XN(1,2)和YN(2,2).分别抽取样本X1,X2,X8 和 Y1,Y2,Y6.其样本均值,样本方差分别算得为:,与(I)分析完全类似,得到:,(II)单边检验 H0:1=2 H1:12,方差12和22已知的情况,拒绝域为:,方差12=22=2 但2未知的情况,拒绝域为:,类似(一)(II)的分析,拒绝域和 H0:1=2 H1:12 是一样的.,两个正态总体与成对数据的区别 两个正态总体假定来
15、自这两个正态总体的两组样本是相互独立的.成对数据两组样本是来自对同一个总体上的重复测量,它们是成对出现的且是相关的.,(II)单边检验 H0:12 H1:12,三、成对数据的t检验,例如:为了考察一种降血压药的效果,测试了n个高血压病人服药前后的血压分别为 X1,X2,Xn 和Y1,Y2,Yn.这里(Xi,Yi)是第i个病人服药前和服药后的血压.它们是有关系的,不会相互独立.另一方面,X1,X2,Xn 是n个不同病人的血压,由于各人体质诸方面的条件不同,这n个观测值不能看成来自同一个正态总体的样本.同样,Y1,Y2,Yn也不能看成来自同一个正态总体的样本.这样的数据称为成对数据.,(Xi,Yi
16、)是在同一个人身上观测到的血压,Xi-Yi就消除了人的体质诸方面的条件差异,仅剩下降血压药的效果.我们可以把di=Xi-Yi,i=1,2,n.看成来自正态总体N(,2)的样本.其中就是降血压药的平均效果.一般的成对数据同样也是这样转变的.用(一)中所学,就是作检验:H0:=0 H1:0 H0:=0 H1:0 H0:0 H1:0,处理成对数据的思路,为了检验A,B两种测定铁矿石含铁量的方法是否有明显差异,现用这两种方法测定了取自12个不同铁矿的矿石标本的含铁量(%),结果列于表8.2.1.问这两种测定方法是否有显著差异?取=0.05.,通常是方差2未知的情况,这个检验通常称为成对t检验.,例4,
17、将方法A和方法B的测定值分别记为X1,X2,X12 和Y1,Y2,Y12.,解:,这12个标本来自不同铁矿,X1,X2,X12 不能看成来自同一个总体的样本,同理,Y1,Y2,Y12也不能看成来自同一个总体的样本.故需用成对t检验.记 di=Xi-Yi,i=1,2,12.,所以我们接受原假设,即认为两种测定方法无显著性差异.,假设检验和区间估计的关系,请看演示,假设检验和区间估计,提出假设,根据统计调查的目的,提出原假设H0 和备选假设H1,作出决策,抽取样本,检验假设,对差异进行定量的分析,确定其性质(是随机误差还是系统误差.为给出两者界限,找一检验统计量T,在H0成立下其分布已知.),拒绝
18、还是不能拒绝H0,显著性水平,P(T W)=-犯第一类错误的概率,W为拒绝域,总 结,在大样本的条件下,若能求得检验统计量的极限分布,依据它去决定临界值C.,F 检验 用 F分布,一般说来,按照检验所用的统计量的分布,分为,U 检验 用正态分布,t 检验 用 t 分布,第八章第三节 正态总体方差的检验,利用样本方差,一、单个正态总体方差的2检验,设X1,X2,Xn为来自总体N(,2)的样本,2未知.求:对以下假设的显著性水平=的假设检验.,思路分析:,是2的一个无偏估计.,(I)H0:2=02 H1:2 02,当原假设H0:2=02成立时,S2和02应该比较接近,即比值S2/02应比较接近于1
19、.这个比值过大或过小应拒绝原假设.把S2/02乘以常数n-1 合理的思路是找出两个界限c1和c2,当c1(n-1)S2/02c2时,就接受H0.当(n-1)S2/02c1 或(n-1)S2/02c2时,就拒绝H0.下面确定常数c1与c2.根据定理6.4.1,于是,当原假设 H0:2=02成立时,有:,以上检验法叫2检验法.,H0:2=02成立时,有:,指并集,(II)H0:2=02 H1:2 02,同理,H0:2=02成立时,有:,此检验法也叫2检验法.,相对于正态总体均值的检验,方差检验的重要性要逊色得多,但也有一些应用.例如,机器加工出的产品的尺寸服从正态分布.这个正态分布的方差2刻画了生
20、产过程的稳定性.2越大,表示整个生产过程综合误差越大.因此,我们需要知道2是否超过了一个预定界限.,(II)H0:2 02 H1:2 02,同(II),应用,某公司生产的发动机部件的直径X N(,2).该公司称它的标准差0=0.048cm.现随机抽取5个部件,测得它们的直径为1.32,1.55,1.36,1.40,1.44.取=0.05.问:(1)我们能否认为该公司生产的发动机部件的直径的标准差确实为=0?(2)我们能否认为2 02?,(1)问题就是 H0:2=02 H1:2 02 n=5=0.05 02=0.0482,解:,例1,我们应该拒绝H0,即认为发动机部件的直径标准差不是0.048c
21、m.,我们应该拒绝H0,即认为发动机原部件的直径标准差超过了0.048.,(2)问题就是 H0:2 02 H1:2 02,这个检验主要用于上节实施两样本t检验前,关于12=22假设是否合理.,两总体N(1,12)和N(2,22)的样本方差S12和S22是方差12和22的无偏估计.直观上,S12/S22是12/22的一个估计.,二、两个正态总体方差比的F检验,设X1,X2,Xm.Y1,Y2,Yn分别为来自正态总体N(1,12)和N(2,22)的样本.考虑检验假设:,(I)H0:12=22 H1:12 22,思路分析:,当H0:12=22成立时,12/22=1,作为它们的估计,S12/S22也应与
22、1相差不远.这个比值过大或过小应拒绝原假设.合理的思路是找出两个界限c1和c2,当c1S12/S22 c2时,就接受H0.当S12/S22 c1 或S12/S22 c2时,就拒绝H0 下面确定常数c1与c2.根据定理6.4.1,当H0:12=22成立时,S12/S22 Fm-1,n-1.,(II)H0:12=22 H1:12 22,同理H0:12=22成立时有 S12/S22 Fm-1,n-1,甲,乙两厂生产同一种电阻,现从甲乙两厂的产品中分别随机抽取12个和10个样品,并测得它们的电阻值.,(II)H0:12 22 H1:12 22,同(II),例2,以上检验都用到F分布,因此叫F检验法.,
23、解:,然后计算出样本方差分别为S12=1.40,S22=4.38.假设甲,乙两厂生产的电阻的电阻值分别服从正态分布N(1,12)和N(2,22),在显著性水平=0.10下,我们是否可以认为两厂生产的电阻阻值的方差:(l)12=22(2)12 22.,(1).问题就是 H0:12=22 H1:12 22 m=12,n=10 S12=1.40,S22=4.38.S12/S22=0.32,再查P237 附表5=0.10 Fm-1,n-1(1-/2)=F11,9(0.95)=1/F9,11(0.05)=1/2.90=0.34 S12/S22=0.320.34 无须再查Fm-1,n-1(/2),就得到结
24、论:拒绝 H0:12=22,利用第六章学过的性质,有:,转下页,查P237 附表5 查不到 F11,9(0.10)改用F10,9(0.10)和F12,9(0.10)的平均值近似之:F11,9(0.10)=F10,9(0.10)+F12,9(0.10)/2 2.42+2.38/2=2.40 S12/S22=0.322.40接受H0:12 22,即认为甲厂生产的电阻的阻值的方差较小.,(2).问题就是 H0:12 22 H1:12 22,第八章第四节 拟合优度检验,在前面的课程中,我们已经了解了假设检验的基本思想,并讨论了当总体分布为正态时,关于其中未知参数的假设检验问题.,然而可能遇到这样的情形
25、,总体服从何种理论分布并不知道,要求我们直接对总体分布提出一个假设.,例如,从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了299次战争,具体数据如下:,在概率论中,大家对泊松分布产生的一般条件已有所了解,容易想到,每年爆发战争的次数,可以用一个泊松随机变量来近似描述.也就是说,我们可以假设每年爆发战争次数分布X近似泊松分布.,上面的数据能否证实X 具有泊松分布的假设是正确的?,现在的问题是:,又如,某钟表厂对生产的钟进行精确性检查,抽取100个钟作试验,拨准后隔24小时以后进行检查,将每个钟的误差(快或慢)按秒记录下来.,问该厂生产的钟
26、的误差是否服从正态分布?,再如,某工厂制造一批骰子,声称它是均匀的.,为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与1/6的差距.,也就是说,在投掷中,出现1点,2点,6点的概率都应是1/6.,得到的数据能否说明“骰子均匀”的假设是可信的?,问题是:,K.皮尔逊,这是一项很重要的工作,不少人把它视为近代统计学的开端.,解决这类问题的工具是英国统计学家K.皮尔逊在1900年发表的一篇文章中引进的所谓 检验法.,检验法是在总体X 的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法.,H0:总体X的分布函数为F(x),然后根据样本的经验分布和所假设的理论分布之间
27、的吻合程度来决定是否接受原假设.,这种检验通常称作拟合优度检验,它是一种非参数检验.,3.根据所假设的理论分布,可以算出总体X的值落入每个Ai的概率pi,于是npi就是落入Ai的样本值的理论频数.,1.将总体X的取值范围分成k个互不重迭的小区间,记作A1,A2,Ak.,2.把落入第i个小区间Ai的样本值的个数记作fi,称为实测频数.所有实测频数之和f1+f2+fk等于样本容量n.,标志着经验分布与理论分布之间的差异的大小.,皮尔逊引进如下统计量表示经验分布与理论分布之间的差异:,统计量 的分布是什么?,在理论分布已知的条件下,npi是常量,实测频数,理论频数,皮尔逊证明了如下定理:,若原假设中
28、的理论分布F(x)已经完全给定,那么当 时,统计量,的分布渐近(k-1)个自由度的 分布.,如果理论分布F(x)中有r个未知参数需用相应的估计量来代替,那么当 时,统计量 的分布渐近(k-r-1)个自由度的 分布.,为了便于理解,我们对定理作一点直观的说明.,是k个近似正态的变量的平方和.,这些变量之间存在着一个制约关系:,故统计量 渐近(k-1)个自由度的 分布.,在理论分布F(x)完全给定的情况下,每个pi 都是确定的常数.由棣莫佛拉普拉斯中心极限定理,当n充分大时,实测频数 fi 渐近正态,,因此,在F(x)尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个制约条件,
29、因此,自由度也随之减少一个.,若有r个未知参数需用相应的估计量来代替,自由度就减少r个.,此时统计量 渐近(k-r-1)个自由度的 分布.,如果根据所给的样本值 X1,X2,Xn算得统计量 的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设.,得拒绝域:,(不需估计参数),(估计r 个参数),皮尔逊定理是在n无限增大时推导出来的,因而在使用时要注意n要足够大,以及npi 不太小这两个条件.,根据计算实践,要求n不小于50,以及npi 都不小于 5.否则应适当合并区间,使npi满足这个要求.,让我们回到开始的一个例子,检验每年爆发战争次数分布是否服从泊松分布.,提出假设H0:X服
30、从参数为 的泊松分布,按参数为0.69的泊松分布,计算事件X=i 的概率pi,,=0.69,将有关计算结果列表如下:,根据观察结果,得参数 的极大似然估计为,因H0所假设的理论分布中有一个未知参数,故自由度为4-1-1=2.,将n 5的组予以合并,即将发生3次及4次战争的组归并为一组.,故认为每年发生战争的次数X服从参数为0.69的泊松分布.,按=0.05,自由度为4-1-1=2查 分布表得,=5.991,=2.435.991,,未落入否定域.,奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验,并根据试验结果,运用他的数理知识,发现了遗传的基本规律.,在此,我们以遗传学上的一项伟大发现为例
31、,说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用.,孟德尔,他的一组观察结果为:,黄70,绿27,近似为2.59:1,与理论值相近.,根据他的理论,子二代中,黄、绿之比 近似为3:1,,由于随机性,观察结果与3:1总有些差距,因此有必要去考察某一大小的差异是否已构成否定3:1理论的充分根据,这就是如下的检验问题.,这里,n=70+27=97,k=2,检验孟德尔的3:1理论:,提出假设H0:p1=3/4,p2=1/4,理论频数为:np1=72.75,np2=24.25,实测频数为70,27.,自由度为k-1=1,=0.41583.841,,按=0.05,自由度为1,查 分布表得,=3.841,未落入否定域.,故认为试验结果符合孟德尔的3:1理论.,这些试验及其它一些试验,都显 示孟德尔的3:1理论与实际是符合的.这本身就是统计方法在科学中的一项 重要应用.,用于客观地评价理论上的某个结论是否与观察结果相符,以作为该理论是否站得住脚的印证.,教材上的另一例留给同学们自己看.由于这种检验的计算量相对较大,一般要用统计软件包来实现.,这一讲我们介绍了拟合优度的 检验法.在对总体的分布进行检验时经常使用.,