《误差与数据处》PPT课件.ppt

资源描述

《《误差与数据处》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《误差与数据处》PPT课件.ppt（63页珍藏版）》请在三一办公上搜索。

1、第 1 节误差及其产生的原因第 2 节误差的表示方法第 3 节有效数字及其应用第 4 节随机误差的正态分布第 5 节有限数据的统计处理第 6 节误差的传递,第2章误差及数据处理,分析结果与真实值之间的差值称为误差(error)。E=XX1其中X为测定结果，X1为真值,第 1 节误差及其产生的原因,理论真值，如某些化合物的理论组成。计量学约定真值，如长度，质量，物质的量的单位。相对真值：认定精度高，一个数量级的测定值作为低作为低一级测定值的真值。如标准样品,所谓真值是指某一物理量本身具有的客观存在的真实数值。从定义可以看出，真值一般是未知的，但下列情况下真值是可知的。,

2、特点：单向性重复性可测性系统误差产生的主要原因：（一）方法误差由于分析方法本身造成的，例如在重量分析中，测定的溶解损失或吸附某些杂质而产生的误差。（二）试剂误差由于试剂不纯和蒸包馏水中含有微量杂质引起。（三）仪器误差仪器本身不够准确或是未经校准所引起的。（四）操作误差由于分析工作者掌握操作规程或条件有出入引起的。系统误差可以用对照实验，空白试验，校准仪器等加以校正。,2.1.1系统误差 systematic error,determinate error,2.1.2 随机误差(accidental error,indeterminate error）,注意系统误差和随机误差的区别,

3、）大小相等的正负误差出现的机率相等。）小误差出现的机会大，大误差出现的机会小。,特点,偶然误差的性质可知，随着测定次数的增加，偶然误差的算术平均值逐渐接近于零。因此，多次测定结果的平均结果更接近于真值。偶然误差随着测定次数的增加而迅速减小。,偶然误差是不可避免的、不可消除的,只能通过增加测定次数来减小偶然误差。,除上述两类误差外，有时还有可能由于分析工作者的粗心大意，或是不按照操作规程办事所产生的错误。由过失错误所引起的误差，则应将该次测定结果弃取不用,2.1.3 过失误差,2.2.1.准确度与误差,第2节误差的表示方法,绝对误差(absolute error)=个别测定值-真实值相对误差(

4、relative error)=绝对误差/真实值,准确度(accuracy)表示分析结果与真实值接近的程度。误差的大小是衡量准确度高低的尺度。误差越小，表示分析结果的准确度越高，反之，误差越大，准确度越低。,相对误差表示误差在测定结果中所占的百分率,分析结果的准确度常用相对误差表示。,例1.用分析天平称取两物体的重量各为2.1750g和0.2175g，分析天平的误差为 0.1mg,计算两次结果的相对误差各为多少？,相对误差=(0.0002/0.2175)100=0.092%,相对误差=(0.0002/2.1750)100%=0.0092%=0.092%。,由此可知，绝对误差相等，而相对误差可能

5、差异很大，称取的物质量越大，相对误差越小。,用相对误差能更好、更确切地反映测定结果的准确度。,2.2.2 精确度与偏差,精确度(precision)是指在相同条件下多次测量结果相互吻合的程度，它表示了测定结果的再现性。精确度的大小用偏差(deviation)来表示，偏差越小，说明分析结果的精确度越高。,偏差 deviation,平均偏差(average deviation),相对平均偏差(relative average deviation),标准偏差又称为均方根偏差，当测定次数不多时（n20)，单次测定值的标准偏差可按下式计算。,样本标准偏差(standard deviation,S),相对

6、标准偏差(relative standard deviation)标准偏差与平均偏差,总体标准偏差,平均值的标准偏差,对于无限次的测定值其平均值的标准偏差为：对于有限次测量值，则为：由此可见，平均值的标准偏差与测量次数的平方根成反比。同样,1.有效数字,第3节有效数字及其应用,在科学实验中,为了得到准确的测量结果,不仅要准确的进行测量,而且还要正确的进行记录和计算.分析结果的数值不仅表示试样中被测成分的多少,而且还反映了测量的精确程度.所以记录实验数据和结果表示应按照有效数字来表示所谓有效数字,就是实际能测到的数字.,有效数字保留的位数,应当根据分析方法和仪器准确度来确定,数据中最后一位是

7、可疑的.,例如用分析太平称取试样时写作0.5000g,表示最后一位是可疑数字,其相对误差为：,(0.0002/0.5000)100%=0.04%,称取试样0.5g,则表示是用台秤称量的,其相对误差为,(0.2/0.5)100%=40%,如量取溶液的体积24ml,表示是用量筒量取的。,滴定管中放出的体积则写作24.00ml。,两种方法所得体积的误差各为多少？,若作为普通数字使用,它就是有效数字;若作为定位用,则不是有效数字改变单位并不改变有效数字的位数.当需要在数的末尾加“0”作定位用时,最好采用指数形式表示.否则有效数字的位数含混不清倍数,分数关系,测量所得,可视为无限多位有效数字对pH,p

8、M,lgK等对数数值,其有数字的位数仅取决于尾数部分,数字“0”具有双重意义,若改用升表示则是0.02030l,这时前面的两个“0”仅起定位作用,不是有效数字.此数仍是四位有效数字,.例如,滴定管读数20.30ml,两个“0”都是测量数字,都是有效数字此有效数字为四位,改变单位并不改变有效数字的位数.当需要在数的末尾加“0”作定位用时,最好采用指数形式表示.否则有效数字的位数含混不清,在分析化学中常遇到倍数,分数关系,可视为无限多位有效数字.,对pH,pM,lg K等对数数值,其有数字的位数仅取决于尾数部分,2.3.2.有效数字的修约规则,注意：只允许对原测量值一次修约至所需位数，不能分次修

9、约。修约标准偏差时，修约的结果应使准确度变的更差。标准偏差0.213,取两位有效数字应为0.22表示准确度和精密度时，在大多数情况下，取一位有效数字即可，最多取两位有效数字。,“四舍六入五成双”,2.3.3.数据运算规则,.加减法数值绝对误差的传递,结果的绝对误差应与各个数中绝对误差最大的那个数值相适应.可以按照小数点后位数最少的那个数来保留其他各数的位数,以便于计算,.例如 50.1+1.45+0.5812=?原数绝对误差修约数 50.1 0.1 50.1 1.45 0.01 1.4 0.5812 0.0001 0.6+)52.1312 0.1 52.1,乘除法是各个数字相对误差

10、的传递,结果的相对误差应与所以数字中相对误差最大的那个数相适应.通常可以按照有效数字位数最少的来保留其它个数的位数,以便于运算.,例如 0.0121 25.64 1.05782=?原数相对误差 0.0121 1/121 100%=0.8%25,64 1/2564 100%=0.04%1.05782 1/105782 100%=0/00009%其中以第一个相对误差最大,应以它为标准,其他个数都修约为三位有效数字,然后相乘,结果为0.328.,第4节随机误差的分布,以我校某界学生测定BaCl22H2O的试剂纯度的实验数据为例.若将测得的173个数据逐个列出,可见数据有高有低,杂乱无章.但将其按

11、大小顺序排列起来,将其按组距为0.1%分,可将137个数据分为14组,为使每个数据都能归入组内,避免骑墙现象,可使组间边界值多取一位,每个组中数据出现的个数称为频数,频数除以数据总数称为频率.频率除以组距就是频数密度.以频率密度和相应组值范围作图,就得到频率密度直方图,2.4.1 频数分布,由图可见:众多数据有明显的集中趋势,频率密度最大值处于平均值左右,87%的数据处于离平均值0.3%之间,离平均值远的数据出现很少.,分析测定中测量值大多服从或近似服从正态分布.正态分布的概率密度函数式是,2.4.2正态分布,式中,f(x)称为概率密度,x表示测量值.和是正态分布的两个参数,这样的正态分布记做

12、N(,).是总体平均值,既无限次测定所得数据的平均值,相应于曲线最高点的横坐标值,它表示无限个数据的集中趋势,它不等于真值,只有在没有系统误差是才是真值.是总体标准偏差,是曲线两转折点之间距离的一半,它表示数据的分散彻底。越小,数据越集中,曲线高,大,数据分散,曲线低(见图）,y 1 2 图2-3 两组精密度不同的测量值的正态分布曲线,X-表示随机误差.若以X-为横坐标,则曲线最高点的横坐标为0.这是表示的是随机误差的正态分布曲线.,正态分布曲线清楚的反映出随机误差的规律性:小误差出现的概率大,大误差出现的概率小,正负误差出现的概率相等.,由于正态分布曲线的形状随而异,若将横坐标改为u表示,则

13、正态分布曲线都归结为一条.u定义为这时函数表达式是这样的分布称为标准正态分布,记作（，），它与的大小无关,2.4.3 随机误差的区间概率,随机误差在某一区间的概率，可取不同u 值对函数式积分得到,正态分布曲线下面的面积表示全部数据出现概率的总和.,表正态分布概率积分表u 面积u 面积0.674 0.2500 2.000 0.4773 1.000 0.3413 2.576 0.4950 1.645 0.4500 3.00 0.49871.960 0.4750,例对含铁的试样进行150次分析。已知结果符合正态分布N（55.20，202),求分析结果大于55.60的最可能出现的次数.,解:.本题

14、中先将数据变为标准正态分布.即计算:查正态分布表得到u=2时的正态分布概率为0.4773,故150次中分析结果大于55.60%的概率为0.5-0.4773=2.27%,则可能出现的次数为 150 2.27%=3.405=3次,第5节有限数据的统计处理,随机误差分布的规律给数据处理提供了理论基础，但它是对无限多次测量而言。而实际测定只能是有限次的，它们是从无限总体中随机抽出的一部分，我们称之为样本。样本所含的个体数叫样本容量，用n表示。数据处理的任务是通过对有限次测量数据的合理分析，对总体做出科学的论断，其中包括对总体参数的估计和对它的统计检验。,2.5.1数据的集中趋势和分散程度,对无限次测

15、量而言，总体均值是数据集中趋势的表征，总体标准差是分散程度的表征，但它们是未知的。在有限次测定中只能通过测定结果对和作出合理的估计。对有限数据的集中趋势用样本平均值x和中位数来表示。中位数表示法的优点是不受个别偏大值和偏小值的影响，但用以表示集中趋势不如平均值好。对有限数据的分散程度用平均偏差、样本标准偏差、平均值的标准偏差来表示,2.5.2 t分布曲线,当测定数据不多时，总体标准偏差是不知道的，只能用样本标准偏差s来估计测量数据的分散程度。这时必然引起正态分布的偏离，这时用t分布来处理。,t分布曲线与正态分布曲线相似，但t分布曲线随自由度 f而改变。当 f 趋于无穷大时，t分布趋于正态分

16、布。与正态分布曲线一样，曲线下面一定区间内的面积，就是该区间内随机误差出现的概率。t 分布中概率不仅随 t 值而变，也随f 值变化。不同f值及概率所响应的t值列在表中。置性度用P表示，它表示在一定t值时，测定值落在范围内的概率。那么落在此范围之外的概率为（1-P)，称为显著性水准，用表示。,总体平均值的置信区间对的区间估计,如前所述，只有当n 无穷大时，才能得到最可靠的分析结果。显然这是作不到的。平均值x总带有一定的不确定性，只能在一定置信度下，根据x值对可能存在的区间作出估计。,当用单次测量结果（x）来表示总体平均值时，其表达式为：,对于少量测量数据，必须根据 t分布进行统计处理：

17、,若以样本平均值来估计总体平均值可能存在的区间：,对于置信区间的概念必须正确理解，如（置信度95%），应了解为在的区间内包括总体平均值的概率为95%。而不能说是总体平均值落在某区间的概率为多少。,它表示在一定置信度下，以平均值为中心，包括总体平均值的范围。这就叫平均值的置信区间,例题2.3 分析铁矿石中铁的含量得如下结果：n=4=35.21%,s=0.06%.求（1）置信度为95%；（2）置信度为99%的置信区间。,解=0.05.查表t 0.05(3)=3.18,代如公式的得95%置信区间：=（35.11%，35.31%)=0.01.t 0.01(3)=5.84，代如公式的得99%置信区间：

18、=（35.03,35.39),由上例可见，置性度高，置性区间就大。区间的大小反映估计的精度，置性度高低说明估计的把握程度。,2.5.4 显著性检验,在实际工作中，为了检查分析方法或操作过程是否存在较大的系统误差，可对标准试样进行若干次分析，再利用t检验法比较分析结果的平均值与标准试样的标准值之间是否存在显著性差异，就可作出判断。,t检验法,平均值与标准值的比较,如果此区间包括标准值，即使完全一致，我们也认为它们之间没有显著性差异，是由偶然误差造成的。由上式可得：,根据平均值的置信区间为,如果t 值大于ta,f,则存在显著性差异，否则不存在。,例如：用某种新方法测定分析纯NaCl中氯的百分比含

19、量。10次测试结果为60.64,60.63,60.67,60.66,60.70,60.71,60.75,60.70,60.61,60.70。已知试样中氮的真实值为60.66%。问这种方法是否准确可靠？,解：,置信度为95%时，f=n-1=9,t 0.05,9=2.26 tt a,f 故可以认为此方法没有系统误差。也即这种新方法准确可靠。,两组平均值的比较,不同分析人员或是同一分析人员采用不同方法分析同一试样，所得到的平均值，一般是不相等的，若要叛断这两组数据之间是否存在系统误差，即两平均值之间是否有显著差异，对于这样的问题，也可以采用t 检验法。,设两组分析数据为：S 称为合并标准偏差，总自由

20、度f=n1+n2 当 tt表时，可以认为有显著性差异，tt表无显著差异。,2.F 检验法,用于在t检验中两组平均值的S1和S2合并前，确定他们的精密度有无显著性差异。再进行t检验。,F检验法主要是比较两组数据的方差S2，以确定它们的精密度是否有显著的差异。,步骤：首先计算出两个样本的标准差S大和S小，然后计算F值。F=如果两组数据的精密度相差不大，则与也相差不大，即F值趋于是 1。相反，如果他们两者之间存在显著性差异，则与之间差别就会很大。F值一定很大，在一定的置信度及自由度的情况下，F值大于F表的值，则认为它们之间存在显著性差异。即F Fa,f,存在显著性差异。,2.5.5 异常值

21、的取舍,在实验中得到一组数据，往往发现个别数据离群较远，这一数据称为异常值又称可疑值，如果这是由于过失造成的，必须舍去。若不是这种情况，不应随意取舍。应按一定的统计方法处理。下面我们介绍几种简单的方法。,4 法根据正态分布规律，偏差超过的个别值的概率小于0.3%，故这一测量值可以舍去。偏差超过4 的个别值可以舍去。,4 法的步骤求出除异常值外的其余数据的平均值和平均偏差。将异常值与平均值进行比较绝对差值大于4，则可疑值舍去，否则保留。,2 Grubbs法,将结果从小到大排列为：x1 x2,x3,xn-1,xn,其中x1或xn可能为异常值计算出该组数据的平均值和标准偏差。计算统计量T，设

22、x1是可疑值，则若xn是可疑值，则,步骤,将计算得T值与表7-5中相应数据比较，若 T Ta,n,则异常值应舍去，否则应保留。优点：方法的准确度高缺点：手续烦琐。,Q检验法步骤：从大到小排列结果为：x1 x2,x3,xn-1,xn,设xn为异常值，则统计量为X1为可疑值，则QQ表，该异常值应舍去，否则应保留。,第 6 节误差的传递,分析结果通常是经过一系列测量步骤之后获得的，其中每一步骤的测量误差都会反映到分析结果中去。下面我们介绍几种情况下误差传递公式。,系统误差的传递,若分析结果R是A B C三个测量值相加减的结果既R=A+B+C则R的绝对误差为ER=EA+EB+EC即分析结果的绝对误差是各测量步骤绝对误差的代数和若R=A+mB-C 则ER=EA+mEB-EC,1.加减法,2.乘除法,若即分析结果的相对误差是各测量步骤相对误差的代数和,随机误差的传递,若R=A+B-C则分析结果的标准偏差的平方是各测量步骤标准偏差的平方和。,1.加减法,若则即分析结果的相对标准偏差的平方是各测量步骤相对标准偏差的平方的总和。,2.乘除法,例设天平称量的标准偏差s=0.1mg,求称量试样时的标准偏差sm,解称取试样时，无论是用差减法，或固定称量法，都需要称量两次，读取两次平衡点，试样质量是两次称量所得质量之差，即m=m1-m2故,

展开阅读全文