误差理论及数理统计.ppt

上传人:小飞机 文档编号:5841580 上传时间:2023-08-26 格式:PPT 页数:145 大小:1.80MB
返回 下载 相关 举报
误差理论及数理统计.ppt_第1页
第1页 / 共145页
误差理论及数理统计.ppt_第2页
第2页 / 共145页
误差理论及数理统计.ppt_第3页
第3页 / 共145页
误差理论及数理统计.ppt_第4页
第4页 / 共145页
误差理论及数理统计.ppt_第5页
第5页 / 共145页
点击查看更多>>
资源描述

《误差理论及数理统计.ppt》由会员分享,可在线阅读,更多相关《误差理论及数理统计.ppt(145页珍藏版)》请在三一办公上搜索。

1、2.1 理论误差,2.1.1 随机误差及其正态分布 在重复测量条件下,对同一被测物理量进行多次测量,若每一次的测量中无粗大误差和系统误差,则在测量结果中只有随机误差,这些随机误差是由很多暂时未能掌握或无法掌握的微小因素所引起的,其主要有下列几个方面:(1)测量设备方面的因素,如零部件配合的不稳定性、零部件的变形、零部件表面油膜不均匀、有摩擦等。(2)环境方面的因素,如温度的微小波动、温度与气压的微量变化、光照强度的变化、灰尘以及电磁场的变化等。(3)人员方面的因素,如瞄准、读数的不稳定、情绪的波动等。这些误差表面上看来是毫无规律的,但从整体上观察是服从统计规律的,这种统计规律往往可以通过试验的

2、方法得到。,第2章误差理论及数理统计,2.6 方差,在第1章中给出了一个实际测量结果的例子,以误差作为横坐标,以频率数 f 作为纵坐标,将所得数据画成频率分布的直方图,如图2.1所示。,由图2.1可以看出,误差集中在零值附近,若进一步增加试验的次数,区间宽度进一步缩小,则图2.1可以变成一条光滑曲线,如图2.2所示。,(1)高斯误差定律正态分布的分布密度函数为:,(2-1),(2-2),F(x)的图形关于中心轴对称,由此可以得出:,(2-3),图2.3表示 中不同的正态密度曲线,图形是关于的x=轴对称,的大小影响图形的形状,大图形胖而矮,小图形瘦而高。,一般的正态分布可以通过适当变换化为标准正

3、态分布。,(2-4),其值见附表1。分布图见图2.3-1 19世纪德国的科学家高斯研究大量的测量数据时发现,随机误差分布符合正态分布。因此,在误差理论中将正态分布又称为高斯分布,图2.3中的曲线称为高斯曲线,其分布密度函数及概率分布函数分别表示为:,(2-5),(2-6),图2.3-1 标准正态分布曲线,(2)高斯分布的概率计算I.查表法,图例说明,利用Excel计算,标准正态分布示意图,图例说明,利用Excle进行计算,利用Excel进行计算,II.电子表格计算法,计算步骤如下:,图例说明,a或,或,或,或,2.1.2 随机误差的数理统计,(1)母体和子样,数理统计中将研究对象的全体称为母体

4、,组成母体的每一个单元称为子样。工程试验的重要任务就是从子样的试验中得到关于母体的结论。,(2)统计量与无偏估计,通过有限的子样观测值来计算母体最可信赖的平均值及方差,这种由子样计算出来的特征量又称作统计量,而统计量是随机变量,当子样容量足够大时(一般n30),完全可以用子样的参数估计出母体参数(称为点估计),子样平均值可以代表母体平均值A,子样方差s可以代表母体方差,这统称为母体参数的无偏估值。,在数据处理中,只提出母体参数的无偏估值还是不够的,因为任何一种估计,如果不附以某种偏差范围及在此区间内包含参数X真值的可靠程度(或置信概率),是没有多大意义的。,可改写为:,图示说明,置信度的意义,

5、置信度的意义,测量结果子样平均值 置信区间半长,解:用Excel电子表格进行求解,在实际监测数据及分析测定数据中,尽管不是所有的测量值都严格遵守正态分布,但是,根据概率论的中心极限定理,n个相互独立且又服从同一分布的随机变量X,当n足够大时(如n30时,可称为大子样样本),测定值的平均值渐近地服从正态分布。然而,实际测量中的子样容量一般都较小(小子样样本),特别是热工方面的试验往往如此,这时的n一般只有35。在这种情况下,不能用子样均方差s来代表标准误差。因为s是一个随机变量,不同的子样有不同的值,子样愈小,值愈不可靠,其统计量不再服从正态分布,而服从类似于正态分布的 t 分布。,结论,2.1

6、.3 测量中的坏值及剔除,在实际测量中,由于偶然误差的客观存在,所得的数据总存在着一定的离散性。但也可能由于过失误差出现个别离散较远的数据,这通常称为坏值或可疑值。如果保留了这些数据,必然影响测量结果的精确性。反过来,如果把属于偶然误差的个别数据当作坏值处理,也许暂时可以报告出一个精确度较高的结果,但这是虚伪的,不科学的。正确区分坏值并去除它,是试验中经常遇到的实际问题,必须以科学的态度按统计学的原理来处理。,通常判别坏值常用的方法有两种:一是物理判别法,即在观测过程中及时发现并纠正由于仪表、人员及试验条件等情况变化而造成的错误;二是统计判别法,即规定一个误差范围(k)及相应的置信概率1,凡超

7、出该误差范围的测量值都是小概率事件,都可以认为是坏值而予以剔除。关于k值的求得,有下面几种方法。,(1)拉伊特方法,该方法按正态分布理论,以最大误差范围3为依据进行判别。设有一组测值xi(i1,2n),其子样平均值为,偏差,按贝塞尔公式,如果某测量值xl(1ln)的偏差 xl3s时,则认为xl是含有粗差的坏值。,该方法的最大优点是简单、方便、不需查表。但对小子样不准,往往会把一些坏值隐藏下来而犯“存伪”的错误。例如,当n10时:,(2-8),(2-9),此时,任意一个测量值引起的偏差 xi都能满足xi3s,不可能出现大于3s的情况,这当然就有可能把坏值隐藏下来。在一些要求较严的场合,也用2s判

8、别,但n5的测量同样无法剔除坏值。,例2.5 对某物理量进行15次等精度测量,测量值为:28.39,28.39,28.40,28.41,28.42,28.43,28.40,28.30,28.39,28.42,28.43,28.40,28.43,28.42,28.43试用拉伊特方法判断该测量数据的坏值,并剔除。,解:,3s30.0330.099,由拉伊特方法可知:x80.104不在区间(0.099,0.099)范围内,x828.30是坏值,应剔除。,利用Excel进行计算,(2)肖维勒方法,该方法的基本原理是:认为在n次测量中,坏值出现的次数为1/2次,即坏值出现的概率为1/2n。按概率积分:,

9、(3)格拉布斯方法,本方法的原理是用显著性水平来计算k值。这里把误差超过k的概率称为显著性水平1F(xik),这样式(2-11)变为:,1F(x)(2-12)或 F(x)1(2-13),在绝大多数场合采用的显著性水平为0.01或0.05(即有1%或5%的概率是超出范围k的),对精度高的测量一般都用0.01。k由观测次数n和所决定,列于表2-3中。,一组观测值中的离差值xik(n,)者为坏值,应予剔除。肖氏法是经典的方法,但概率上的意义不很科学,特别当n时,理论上k(n,),此时所有的粗差坏值都不能剔除。而格氏方法被实践证明是效果最好的方法。,注意:不论上述哪一种方法,在计算离差xixi 时,平

10、均值。中包括所有的数据(即包括要剔除但未判断清楚的可疑值),标准误差s按贝塞尔公式计算。经检查确认为坏值者应予剔除,然后用剩下的值计算平均值及误差。,例2.6 例2.5中的数据,用格拉布斯方法判断是否存在坏值(=0.05)。,解:,利用Excel进行计算,(4)狄克逊方法,该法应用极差(两测值之差)比的方法得以简化复杂的计算公式。为提高判别坏值的效率,对不同的测量次数应用不同的极差比公式计算。本方法对数据较多的情况更显得简单方便。,在n次测量中,各数据依大小顺序排列:,x1x2xn,当怀疑值为xn时,狄克逊方法为:,(2-14),研究这些统计量的分布,当选定显著水平,得各统计量的临界值r0(n

11、,),如果测量的统计量rij满足,rijr0(n,)(2-15),则认为为坏值,应剔除。,当怀疑值为x1时,狄克逊方法为:,(2-16),如果测量的统计量rij满足,rijr0(n,)(2-17),则认为为坏值,应剔除。狄克逊系数r0(n,)及统计量rij的计算公式如表2-4所示。,例 2.7 仍以例2.5中的数据,用狄克逊方法判断是否存在坏值(=0.05)。,解:,利用Excel进行计算,(5)t检验方法,该方法以t分布为出发点,把可疑的坏值xl先暂时去掉,然后在所剩余的测量值中计算子样平均值 和均方差(标准误差)s。当xlxl k(,n)s时,可疑值xl即为坏值。,注意:,(2-18),(

12、2-19),k(n,)列于表2-5中。,2.1.4 系统误差,上述讨论的是随机误差的处理方法,是以测量数据中不含有系统误差为前提的。实际上,测量过程中不仅存在随机误差,而且还存在着系统误差,在某种情况下,系统误差还比较大。因此,试验结果的正确性,不仅取决于随机误差,还取决于系统误差的影响。由于随机误差和系统误差同时存在于测量数据之中,而且系统误差不易被发现,多次重复测量又不能减小它对测量的影响,这种潜伏性使得系统误差比随机误差具有更大的危险性。因此,研究系统误差的规律,用一定的方法发现和减小或消除系统误差是很重要的。否则,对随机误差严格的数学处理将失去意义。在测量过程中,发现有系统误差存在,必

13、须进一步分析比较,找出可能产生系统误差的因素,减少或消除系统误差。,(1)系统误差的分类,根据系统误差产生的特点可将其分为固定系统误差和变化系统误差两大类。凡是整个测量中始终存在着一个固定不变的偏差,便称之为固定系统误差;如果这个偏差经常变化(如累进变化、周期性变化等),则称之为变化系统误差。消除系统误差一般可从下面三个方面着手:,()改进或选用适宜的测量方法来消除系统误差;,()用修正值来消除测量值中的系统误差;,()在测量过程中随时消除产生系统误差的因素。,(2)固定系统误差消除或减弱的方法,(A)交换抵消法,以天平测重为例说明如下:见图2.6所示。,即以两次交换测量的结果的平均值作为被测

14、物的质量,这时实际不等臂产生的固定系统误差就已经被消除了。,(B)替代消除法,首先用一已知中间量T与被测量X平衡(如图2.6(a)所示),然后再用砝码替代X再称一次。对比这两次的测量,便可消除由天平不等臂引起的固定系统误差。,图2.6 交换抵消法示意图,X P,X P,上面两式相乘,得X,当l1l2时,(3)变化系统误差的消除方法,a.对称测量法,对呈线性变化的累进系统误差,用对称测量来消除。,如图2.6.1所示:,b.半周期偶数测量法,对于周期性变化的系统误差,可用半周期偶数测量法消除。方法为对于周期性变化的系统误差,可以每隔半个周期进行一次测量,取两次读数的平均值,即可消除周期性的系统误差

15、。,如图2.6.2所示:,图2.6.1 对称测量法测量电阻的原理图,Rx为被测电阻,R0是已知电阻(标准值),用电位计分别测Rx和R0两端的电压降以求Rx。t1时,测Ux.1=I1Rx t2时,测U0.2=I2R0 t3时,测Ux.3=I3Rxt1、t3时所测结果算术平均,得:,因为电流呈线性变化,时间间隔相等,故,把此结果与t2时的测量结果相除便得:,图2.6.2 周期性系统误差的消除,如图所示的秒表。由于制造或装配上的偏差,秒表中心有一偏心,从而引起了周期性的系统误差。按半周期偶数测量法的原理,可在表盘的外圈按相差半个周期再刻一圈指示数,同时在指针的反方向再装一指针,这时把内外圈指示数取平

16、均值即消除了周期系统误差。如图所示,短指针所读的内圈指示值为61,长指针所读外圈指示值为59,两者平均值为60,这就消除了偏心引起的误差,(4)修正值,在试验中不能用测量方法的改变来消除已定系统误差,只能通过仪器的标定引入修正值来实现准确的测量。,在试验过程中,常常会出现随机误差、固定系统误差和未定系统误差,且它们的绝对值和符号又常是未知的。,(1)、已定系统误差的合成方法代数合成,设有m个已定系统误差,其绝对值和符号均已知,则:,(224),(2)、随机不确定度的合成方法方差合成,设有n个随机误差,随机不确定度为i,用3来估计,误差范围为i,则:,(225),(3)、系统不确定度e的合成方法

17、,设有 p 个系统误差,系统误差限为(不确定度)为 ei(i=1,2,.p),所对应的误差范围为 ei,则可有如下两种合成方法。,(a)绝对值求和法,2.1.5 试验误差的合成方法,(226),(b)方差合成法:,(227),(4)、总不确定度E(随机不确定度与系统不确定度e)的合成,(a)绝对值求和法:,(228),(b)方差求和法:,(229),(c)广义方差求和法:,(230),式中:K为n个随机误差与p个未定系统误差之和分布的置信系数,ki 为对,应于p个未定系统误差概率分布的置信系数,对正态分布 k=2.58 3.0。,在只需估计标准误差时,式(229)可变为:,(231),代表(n

18、+p)个误差引起的总标准误差。,(5)、准确度 A,(232),当用已定系统误差 的反号值(即)来修正测量值后,该项误差即可消除,此时的总不确定度就是测量的准确度。,2.2 直接测量中误差评价,2.2.1 等精度测量中的误差评价,(1)最可信赖值(算术平均值),在一组测量中,如果测量的全部条件都相同,那末各个观测值都是同样可信、可取的,各个值相互之间是等价的,也就是说,它们的权是相同的,称这样的测量为等精度测量。或者说,凡标准误差s相同的测量都称为等精度测量。,设a为某测量的最佳值,而各个量值为x1,x2,xn,为各测量值的算术平均值,则测量中各值与最佳值间和算术平均值的误差为:,取n个误差的

19、和:,根据误差的抵偿性,当n的次数很大时,,(2-33),(2)有限观测次数中,标准误差s的计算,所以,就是最可信赖的最佳值,而 正是算术平均值。由此可得出结论:在等精度测量中,算术平均值为最能近似代表真值的最佳值。,设真值为a,算术平均值为,各观测值为xi,则有,(2-34),将(2-34)式求和得:,(2-35),将(2-34)式平方后求和得:,将(2-35)平方后得:,当n的次数很大时,可认为,则,所以,(2-36),即,(2-37),这说明在有限次观测中,各观测值与算术平均值之差的平方和除以测量次数减1(即n1)的方根为均方差(标准差s)。这首先由贝塞尔导出,故又称贝塞尔方程。表示了测

20、量中约有68.3%的点落在(,)范围内,反映了测量的精密性。当n很大时,可以认为算术平均值等于真值,这个结论与前面的结论完全一致。,用上述方法可以证明,在一组等精度观测中,测量值的算术平均值 的标准误差为:,(2-38),由此可得到启示:对测量对象进行多次重复观测,所得结果的平均值(子样平均值)比单次测量结果要精确得多。,例2.8对某零件的长度进行9次重复测量,数据如下表,计算出测量结果。,2.2.2 不等精度测量中的误差的评价,(1)不等精度测量中的权,试验中常常对同一物理量 a 作很多组的平行测量,以提高准确度。而每一组均有足够的测量次数,,ni越大,测量的准确度越大,对结果占更重要的地位

21、。,用来表示测量值可信赖程度的数值称为权。因此求真值的最可信赖值,必须加上权的影响。,既然权是用来表示测量值可信赖程度的一个量,而测量值可信赖程度又与标准误差有关,标准误差愈小,测量值可信赖程度愈大,因而其权也应该大。,对于一组不等精度的测量值x1,x2xn,对应的标准误差为s1,s2sn,对应的权数为m1,m2,mn,每单位权的标准差为s,则有,(2-39),得出:,(2-40),式(2-40)是根据标准误差计算权的公式。为了计算方便这里s通常取1。,(2)最佳估计值,按上节同样的原理,可得出在不等精度直接测量中,xi的最佳估计值为各测量值的加权算术平均值:,(2-41),(3)不等精度测量

22、中的标准误差s及算术平均值的标准误差,(2-42),(2-43),例2.9 利用四台测角仪测量同一工件的角度,所得数据及其标准差如下:x1384706,s10.2 x 2384711,s20.5 x 3384709,s30.4 x 4384708,s40.4 求测量结果。,解:计算测量值xi的权mi:,利用Excel进行计算:,2.3 间接测量中误差的数学处理,设间接测量量 y 与直接测量量 u、v、w 存在如下的函数关系式:,(2-44),直接测量量的最可信赖值(平均值)及其误差,而,利用直接测量值求间接测量的最可信赖值 及误差,2.3.1 的求法,根据上述函数关系及式(2-44)有:,如果

23、误差 较小,那么 上式可按泰勒级数展开为:,(2-46),(2-45),略去高阶无穷小量,则:,所以,或,(2-47),(2-48),(2-49),(2-50),式中 称为误差的传递系数。式(2-47)就是已定系统误差的传递公式,即总系统误差为各部分系统误差的代数和。用绝对值表示时,式(2-47)和式(248)可写成由 引起的:,最大绝对误差界,最大相对误差界,如果重复测量了n次,则每次测量值可分别表示为:,间接测量量 y 的算术平均值为:,将式(2-47)所表示的各个 yi 代入上式,则:,(2-50a),式中:,代表各独立物理量u,v,w的算术平均误差。,结论:,2.3.2 间接测量中标准

24、误差传递的普遍公式,设有间接测量函数关系式,进行 n 次观测,由式(2-47)有:,上式两端平方,n 次测量中所引起的误差 y 的平方总和为:,根据随机误差的四大分配率(对称性和抵偿性),当 n 时,上式中的非平方项零。把上式两瑞除以 n 后再开方,即得到:,(2-51),式中:Du、Dv、Dw称为间接测量中各个物理量的部分绝对误差。,结论:间接测量中,函数的绝对标准误差是各独立物理量部分绝对误差平方和的平方根。误差传递的基本规律。,注意!u、v、w 有量纲与 u、v、w 相同。而 Du、Dv、Dw 与 y 单位相同。,相对误差:把式(2-51)两端分别除以函数 y 的平均值,此时的相对标准误

25、差0y 为:,(2-52),无量纲,在等精度测量中,同理可得出:,(2-51a),(2-52a),式中:分别为 n 次测量中,u、v、w 子样平均值的绝对及相对误差。,例2.10 已知某空心圆柱体的外径(3.6000.004)mm,内径d(2.8800.004)mm,高h(2.5750.004)mm,求体积V及其误差,并写出结果的表达式。,解:其体积为:,采用电子表格计算,2.4 组合测量中的误差的评价,组合测量方法是一种比较复杂的常用测量方法,该方法的数据处理和误差的评价是根据最小二乘法进行的。最小二乘法在数据处理中有着非常重要的地位。,2.4.1 最小二乘法原理,最小二乘法的分类有以下几种

26、:(1)按计算方法分为:一般计算法、高斯约化法、矩阵解法,这是本节讲解的重点。(2)按数据的相关性可分为:相关性最小二乘法和非相关性最小二乘法,这是第5章讲解的重点。,最小二乘法的原理:设l1,l2,ln为被测物的测量值,v1,v2,vn是测量值l1,l2,ln的残差(其中),m1,m2,mn是测量值l1,l2,ln的权。,若l1,l2,ln符合正态分布,则,(2-53),V TPVmin,式中:V残差距阵,P全距阵。即,当为等精度测量时,m1m2mn=1,P为单位矩阵。,(2-54),2.4.2 组合测量中的数据处理及评价,在测量中,采用组合测量方法的目的是为了避免产生过多的测量次数和测量方

27、程,利用误差的抵偿性以提高测量结果的准确性。,(1)组合测量量的最佳值,设y1,y2,yn是测量值l1,l2,ln的最佳估计值,x1,x2,xt是未知量的最佳估计值,即是待求量。根据第1章中的组合测量定义知,xi与yi有下列关系:,(2-55),若v1,v2,vn是测量值l1,l2,ln的残差,m1,m2,mn是测量值l1,l2,ln的权,则残差的方程为:,(2-56),上式对x1,x2,xt求偏导数并且偏导数等于零,即,得出正规方程组:,(2-57),式中:maiaj正规方程未知数前的系数,majl正规方程的常数项。残差方程中各残差xi前的系数、和其对应的权mk三项乘积之和,其公式为:,(2

28、-58),式中相对应的残差方程中各残差xi前的系数。,并且又,的值为残差方程中各残差xi前的系数、其对应的测量值lk和权mk三项乘积之和,其公式为:,(2-59),解出正规方程组,求出未知量的最佳估计值。解线性方程组的方法很多,如代入消元法、加减消元法等。下面介绍矩阵解法,分别计算出D,D1,D2,Dt的值。,未知量的最佳估计值的计算公式为:,(2-60),(2)组合测量的标准误差,设y1,,y2,yn是测量值l1,l2,ln的最佳估计值,x1,x2,xt是未知量的最佳估计值,s1,s2,st是测量值x1,x2,xt的标准误差,是测量值x1,x2,xt单位权的标准误差,它的计算为测量值l1,l

29、2,ln总的残差平方和 除以自由度nt。即:,t,n,v,m,n,i,i,i,-,鍈,=,1,2,s,(2-61),下面采用矩阵法来推导各测量值x1,x2,xt的标准误差 s1,s2,st。方程(2-56)写为矩阵的形式:VLAX,式中:,写为矩阵的形式:V TPV,其中,,由最小二乘法原理得:,得:,(LAX)TPA0(2-62),由矩阵的法则化简为:,(2-63),令,并代入上式得:,(2-64),(2-64)式就是正规方程的矩阵形式。该式的解为:,-(2-65),(2-66),=,Q叫做xi的权逆阵,根据xi的权逆阵中的Q1,Q2,Qt可以计算出xi的标准误差,公式为:,(2-68),由

30、矩阵的知识可以证明:Q=N-1,利用这个式子可以求出Q1,Q2,Qt。计算公式如下:,对 QN 1 式子的两边同乘以矩阵 N,则 NQN-1NE(2-69)即,将上式写成方程组的形式:,用行列式法解上述方程组:,方程组行列式解为:,(2-70),所以,各测量值x1,x2,xt的标准误差s1,s2,st为:,(2-71),解:列出误差方程:,组建正规方程:测量个数为3,未知数为2,正规方程的形式为,计算正规方程的系数及常数项:,a1a1a11a11a21a21a31a3122+33+4429,同理可计算出:,a1a212,a2a26,a2a112,相当于,li是等精度测量计算出:,a1l39.7

31、,a2l17.8,正规方程为:,解方程组得:,计算xi的标准误差,先计算出单位权的标准误差,将 和代入误差方程求得:,v10.03,v20.02,v30.01,,则,x1的权倒数Q1的计算:,由方程,计算出:,Q10.2,x2的权倒数Q2的计算:,由方程,计算出:,Q20.97,x1的标准误差:,x2的标准误差:,所以,测量结果表示为:,用Excel计算,2.5 统计假设检验,2.5.1 预备知识(1)t分布 在小子样测量中,由于试验数据有限,因而母体标准误差是不能求得的。在未知情况下,欲根据子样平均值估计母体的参数a,必须引入一个统计量t,而它只决定于子样容量n,与其标准误差无关。此时的统计

32、量t有其独特的分布规律t分布或学生分布(这是由英国化学家用student的笔名发表的,学生分布的名称由此而来)Gosset提出的新统计量t定义为:,(2-72),t分布的概率分布密度为:,(t+),式中是伽玛函数:,叫做自由度,当子样容量为n时,在n个重复观测的数据之间,它们要受到子样均值 的约束,所以n个数据中有一个是不独立的,其余n-1个可以独立变化,因此自由度。,t分布的概率积分为:,(2-73),t分布的概率分布图形如图2.11所示。,当给定一个自由度 f 和显著性水平 时,查附表2求 t分布的置信区间半长,如,。,用Excel进行计算,图2.12 t分布曲线与正态分布曲线,从图2.1

33、2可知,当自由度 f 很小时,t分布的中心值较小,分散度大,如果用正态分布对小子样进行估计,则结果可能有存伪的错误,故t分布主要用于小子样测量中的估计和推断。当子样容量大于30后,t分布趋近于正态分布。,图2.11 t分布示意图,对正态分布,用3作为根限误差范围的半长,其置信概率10.9973。但是对小子样测量,其实际置信概率1将随自由度 f=n-1的减小而减小,列表对照如下:,表2-6 正态分布与t分布对照表,用Excel说明,(2)F分布,若 与 分别遵从正态分布 与 且两样本相互独立,它们的方差分别为S12与S22,则统计量:,(2-74),遵从第一自由度为f1n11与第二自由度f2n2

34、1的F分布。F分布的概率密度函数为,式中为(f)伽玛函数。F 分布只取决于计算方差S12与S22的自由度 f1 与 f2。,F分布的一个重要的性质为:,(2-75),公式(2-75)的F分布的概率密度函数示意如图2.13,查表法求值:F0.05(6,10)3.22,F0.01(24,14)3.43,F0.10(14,24)1.80.,用Excel计算,图2.13 F分布的概率密度函数示意图,2.5.2 统计检验的原理,用子样观测值推论母体的参数特征属于统计推断的范畴,它包括两方面的内容:参数的估计,统计检验。由于试验研究工作的需要,往往先要对母体的某一统计特征进行假定,之后利用反复观测的子样数

35、据,根据概率统计原理,用参数估计的方法进行计算,以判断假设是否成立,这就是统计检验或假设检验。,(1)统计检验的原理和基本思想,生产和试验中,反复观测同一个物理量时会发现,量值总是存在着差异和波动,而其性质不外乎两种:随机(偶然)误差引起的差异和波动;生产或试验条件发生变化而引起的差异条件误差。这两种误差常常交叉、混杂在一起,一般用直观的方法很难分辨出来,而统计检验正是科学地处理和分辨这两种不同性质差异的方法。为说明统计检验的原理和基本思想,举例说明如下。,例2.12 某建筑陶瓷厂生产一种新产品,其抗压力X服从正态分布,根据历史资料记录可知:XN(20,12),即抗压力X020MPa,标准误差

36、01 MPa,今为增加新产量,改变了工艺,抽子样n100个进行估计后,得子样平均值19.78 MPa。试判断与X0之间的差异是什么性质?,解:用统计检验的方法进行分析和判断。先假设工艺的改变对产品的抗压力没有影响,就是说,与X0之间不存在条件差异,即与X0之间差异纯粹是随机误差,或者说子样仍可看作是从原来的母体中取出来的。既然如此,也应遵守正态分布。若 19.78 MPa落在区间 的置信概率为1,即,如果取0.05,则k1.96(查正态分布表),同样取0.01,则k2.58。列表如下:,(a)当显著性水平0.05时,子样平均值与标准值X0之间存在着很大的差异。否定原假设。即认为工艺的改变对产品

37、的抗压力显著地减小了。这就是统计检验的基本思想。,(b)上面的结论是在0.05下得出的。反之,当0.01时却得出另一个完全相反的结论。说明在显著性水平0.01下,与X0之间无显著性差异,接受原假设。,这两个结论虽然不同,但并不矛盾。这是因为它们是在不同的显著性水平下做出的。第一种情况是以显著性水平0.05来判定原假设不成立;而在0.01下,不能拒绝(否定)原假设。,由此可知,的大小是很重要的。在某一确定的子样容量下,选择的太大,则置信区间太小。此时,完全有可能把本来无显著性差异的事件错判为有显著性差异,从而犯了拒绝原假设的“弃真”错误,这称为第一类错误。反过来,如果选得太小,则置信区间很大,此

38、时犯“弃真”错误的可能性减少,但可能把本来有显著性差异的事件错判为正常的、无显著性差异,从而犯接受原假设的“存伪”错误,这称为第二类错误。显然,犯两类错误的概率不可能同时减少,如果减少其中的一个,则必然增大犯另一个错误的可能性。要使它们同时减少,只有增大重复观测的次数n。,在显著性水平 下,检验假设H0:=0,如果,则接受假设H0(即认为未产生条件差异);如果,则拒绝(否定)原假设H0(即认为已产生了条件差异)。,归纳:,在实际工作中,的大小应视具体情况而定。如工艺改变比较容易,而采用新工艺的优越性较大时,应取得大一些;相反,如果检验药品等关系重大的事件时,可取得小一些。,2.5.3 正态性检

39、验,正态概率纸检验,频率直方图检验 计算出各组数据出现的频率 f,作出 f(x xi)图频率直方图。见图2.14a所示。与正态曲线偏离很大,否定正态性。,用正态概率纸来检验 对正态分布,平均值,标准误差,则其概率积分为:,正态频率分布图,图 2.14a 频率分布直方图,三、u检验法,当给定一个 值后,就有相应的F(x)=1Q(u)与之对应。根据正态概率积分可列表如下:,2.5.4 u检验法,1)、母体均值一致性检验,设母体遵守正态分布N(0,02),取子样数据 xi,方差02已知,检验:,(1)给出假设H0:=0,对立假设H1:0,(2)在H0:=0 成立的条件下,选统计 量:,例2.13,(

40、a)双边检验,(3)对给定的显著性水平,根据对立假设H1和统计量 u 的分布,如图2.15-1所示:,(4)从正态概率积分表中查得u/2,当u u/2时否定假设。,(5)判断u u/2是否出现,若u u/2,就拒绝H0;若u u/2,就接受H0。,在实际检验中,人们往往更感兴趣的是在采用了某种新的工艺或新的参数配比之后总体均值是否有显著的增大。例如产品质量、产量、材料的强度、产品的使用寿命、热工设备的热效率等质量指标无疑是越高越好,而成本、原材料消耗等指标应尽可能地小一些,对这一类问题的处理涉及到单边检验。,小概率事件为u 它的概率表达式为,图2.15-1 u 检验法图示,图26-1,(b)右

41、边检验,在这种情况下,将检验新的总体均值是否比原总体均值0大,即在显著性水平下,,(c)左边检验,同样,在显著性水平下,将检验新的总体均值是否比原总体均值0小,检验原假设H:0,当uu时接受原假设,反之否定原假设。,例2.14 已知水泥厂生产的普通硅酸盐水泥,此水泥水化后,28天的抗压强度(MPa)在正常情况下遵守正态分布N(45.5,1.082)。取5个样品测试,其值为44.81,47.00,47.21,46.46,48.72。结果标准差不变,试问总体均值有无显著性变化?,解:采用u检验法,进行双边检验:,计算统计量:,子样均值,(44.81+47.00+47.21+46.46+48.72)

42、46.84,统计量,假设总体均值无变化,即0,则应遵守正态分布N(45.5,0.1082),这样u应遵守N(0,1)。取显著性水平0.05,查附录中的正态分布概率积分表,有 1.96,比较得。所以否定假设。水泥的抗压强度(MPa)发生了显著性变化。,下面再进行单边检验:,用右边检验:假设抗压强度(MPa)比原来显著地增大0,同样在显著性水平0.05下,单边临界点u1.64,因为u2.7741.64,故接受假设,抗压强度(MPa)比原来显著地增加了。,(2)两个母体均值一致性检验,设两个母体N1(1,2)和N2(2,2),1)给出假设 H:1=2(1容量 n1,2容量n2),2)在 H:1=2

43、成立的条件下,选统计量:,N(0,1)分布,3)在显著性水平下,从正态概率积分表查得u/2;,4)判断u u/2是否出现,若u u/2,就拒绝H;若u u/2,就接受H。,注!当子样容量n30时,可以认为 服从正态分布,可以用u检验法。,例2.15 现有两批产品,从第一批中抽取9次进行检测,测的其平均值为 1532,从第二批中抽取18次进行检测,测的其平均值为 1412,已知1423,2 380,抽取的两批样品均符合正态分布,试问这两批产品是否相同(0.05)?,解:采用u检验法,进行双边检验:假设这两批产品是相同的,即12,计算统计量:,取显著性水平0.05,查附录中的正态分布概率积分表,有

44、 1.96,比较得u0.718 1.96。所以接受原假设,认为这两批产品是相同的。,2.5.5 t 检验法,未知,用 t 分布进行总体均值的检验。用 s 代替。,(1)给出假设H:=0;,(2)在 H:=0 成立的条件下,选统计量:,t(f)分布,f 为自由度。,(3)在显著性水平下,按自由度f=n1及查t分布附表得t/2,如 t 检验示意图所示。,(4)由样本值计算出、s 和统计量 t。,(5)判断:若t t/2,拒绝H;若t t/2,接受H。,单边检验,同u检验法。,1)与母体均值一致性检验,例2.16,t检验法图示,2)两个母体均值一致性检验,设两个母体 X 和 Y,容量为 n1、n2。

45、,(1)给出假设 H:1=2(1容量 n1,2容量n2),(2)计算,和加权平均标准偏差 s 和统计量 t:,其标准偏差为:,用加权平均值求出一个共同的平均标准偏差 s:,(3)在显著性水平下,按 f=n1+n22查 t 分布表,查得t/2(n1+n22)。,(4)判断:若t t/2,拒绝H;若t t/2,接受H。,2.5.6 F 检验法,设两个正态总体X、Y相互独立,X N1(1,s12),Y N2(2,s22),在某 下检验s1 和s2的一致性。,(1)给出假设 H:s1=s2,,(2)分别计算s12 和s22,设s12 s22;,(3)计算统计量 F(f1,f2)分布;,(4)对给定的显

46、著性水平和f1,f2查附表得F(f1,f2)值;,例2.17,例2.18,F分布图,(5)判断:当F F(f1,f2)时,否定假设。反之接受假设。,例2.19,2.6 方差分析方法,2.6.1 概述,对试验进行多次测量所得到的一组数据x1,x2,xn,由于受到各种因素的影响,各个测量值通常都是参差不齐的,它们之间的差异称为误差。,由于试验条件的改变,试验误差,反映了测试结果的精密度,随机因素引起,系统误差,反映测试条件对测试结果的影响,误差大小的表示方法,误差平方和:,数值越大,表示测量值之间的差异越大。,误差平方和随着测量数目的增多而增大。为了克服这一缺点,用方差来表征误差的大小,公式为:,

47、方差表征了误差大小的统计平均值,其优点是既能充分利用测试数据所提供的信息,又能避免对测量数目的依赖性。,2.6.2 方差分析的原理,(1)数据的数学模型,水平 同一参数,数值的变化(水平变化)误差 每一水平重复测量时产生的变化,表27 是温度对产品转化率影响的试验数据。温度为5水平,每一水平重复试验3次。,每一温度水平条件下的三次试验数据都可以认为是某个总体的一个样本。假设Ai水平条件下的总体真值为i,则Ai水平条件下的全部数据可以表示为:,j 为重复次数,ij 为随机误差。,假设各个样本之间没有明显差异,则在这种条件下,p个样本的平均值也可以认为是一个随机样本,其平均值的真值:,称 为一般平

48、均。把 Ai 水平条件下的总体真值 i 与 p 个总体真值的平均值 之差,定义为效应 i:,i 为因素水平第 i 水平时的效应,它表示因素取第 i 水平时试验结果与“中等”水平比,好多少或差多少的一个量。,单因素试验试验数据的数学模型,利用数学模型计算、i 和 ij 的估计值。,ij 是相互独立的随机变量,它服从正态颁分布 N(0,2),则:,(为重复次数),可以证明,是一般平均值 的无偏估计。,(a)的估计值。,由此得 的估计值为:,表27中数据的计算值为:,(b)效应 i 的估计值。Ai 水平的平均值:,由,可得各水平效应的估计值为:,(c)残差ij 的估计,数据见表27,总偏差可以用下式

49、表示:,总偏差分离出,条件误差+试验误差。,全部数据分解,得表28。,通过数据分解,则可知:,(2)平方和及自由度的计算方法,通常用 F 检验样本间差异的显著性。即用:,来判断差异的显著性。,I.平方和加法定理,(a)误差平方和 第 i 个水平的试验误差平方和:,总误差平方和:,(b)样本间的变差平方和,(c)总偏差平方和,II.自由度加法定理,(a)总平方和的自由度 fT。计算总平均值 时,存在一个约束条件:,自由度为:,(b)变差平方和的自由度 fA。同上,存在的约束条件为:,自由度为:,(c)试验误差平方和的自由度 f e。同上,存在 p 个约束条件为:,自由度为:,由上述公式可得:,自

50、由度加法定理,(3)显著性检验,计算统计量 F:,当 F F(fA,fe)(查表值)时,因素变化影响大于误差影响,即该因素影响显著。以下规定:,(1)F F0.01 时因素影响特别显著,记为“”;,(2)F0.01 F F0.05 时因素影响显著,记为“”;,(3)F0.05 F F0.10 有一定的影响,记为“”;,(4)F0.10 F 影响不大或没有影响。,2.6.3 单因素方差分析,在设计单因素多水平试验时,最好设计为等重复测试次数,这样,处理数据要简单,而且,在总测试次数相同的条件下,各水平等重复测试次数试验的精度要优于不重复测试次数试验。,各误差平方和及自由度的计算公式如下:,总偏差

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号