《实验数据的处理与分析.docx》由会员分享,可在线阅读,更多相关《实验数据的处理与分析.docx(13页珍藏版)》请在三一办公上搜索。
1、实验数据的处理与分析实验数据的处理与分析 物理是个实验科学,免不了要从事测量。很多同学常常疑惑的是不知道如何正确的分析与处理实验的数据。 希望本单元能对你有所帮助! 误差 = 测量值 - 真值 谈实验数据往往会先谈到 误差的定义。于是出现了上面的式子。 误差就是所测得的数值与被测量物理量真正数值之间的差别。 好像很有道理,又好像在讲废话! 先想一想,为什么我们要从事测量?如果我已经知道想测量的物理量的真值,我为什么还要去测它? 难道就为了要知道测量的误差吗?就是因为不知道 物理量的真值才要测量。那!误差的定义又有什么用呢? 实验数据的处理与分析 便是想运用统计的方法, 让我们从多次的测量数据中
2、,估算出最接近真值的数据。也就是我们所想要的测量结果。并藉由误差的分析,让我们了解我们所做的估算,可信度有多高!并探讨实验误差的可能来源。误差的种类: 一般而言,可以分为 系统误差(systematic error)与 随机误差(random error)。 1. 系统误差: 所谓测量,乃是大家事先公定有一测量 单位,例如 公尺。 然后依据制造出含刻度的测量工具,将测量工具和待测物相互比较,而判得测量值。如果测量工具本身所显示的刻度,因为校正时疏忽,造成不正确。或因为环境的因素,使得数值产生变化。或因人为不正确操作或观测方法错误。都是可能产生系统误差的来源。 对于某些非直接测量的物理量,依据某
3、原理或方法设计出来的实验。也有可能因为实验时无法充分满足原理所假设的状况,或根本设计原理有失误,而造成系统误差。 通常 系统误差会使得所有测量值 都过高或过低的偏差,偏差量大致相同,不含机率分布的因素。 2. 随机误差: 实验的基本方法,往往是希望能控制变因,以找出物理量受个别变因的影响。 因此总是希望控制所有影响的变因,一次只让一种变因变化。实验的设计便是尽量能达到上述的目的。而且为了实验简便,往往也忽略对实验影响较微小的因素。但实际操作时,不见得尽如人意。这些不易控制的小变因,便会使测量值产生随机分布的误差。也就是说 有些测量值会过高,有些则会稍低。 降低 系统误差的方法,当然只有靠正确分
4、析误差来源: 仪器造成的 设法改良仪器。 环境造成的 设法控制实验环境。 操作不良的 只好加强训练自己了喔! 理论上或许可能将仪器误差完全消除,但是前两项的改善,并不需要做到最完美的情形! ? 奇怪!不是仪器越精良,环境越稳定实验结果越好吗? 因为这些改善的要求,牵涉到对测量值所要求的精密度与实际环境与经费等的考虑 。而且改善时应该以所有误差来源所造成测量误差的比例,能以约略相同的比例减少才有效。 例如:把所有经费大部份都买最精密的仪器,环境因素却因为能力不够改善,但仍然造成较大比例误差,则精密的仪器不过是花冤枉钱吧了! 如:碳的电阻系数也就是说 碳的电阻值当温度升高1 Co时,电阻值会减少万
5、分之五。若是使用 6位有效位数的电表来测量实验过程中的电阻值,但实验过程中并未注意温度变化,而使得碳电阻器的温度有好几度的变化,则效果和只用 3-4位有效位数的电表一样。 降低随机误差的方法,则是我们以下所要探讨的:藉由统计的方法,提供我们如何、 最有效率的改善随机误差。 准确度与精密度: 精密度:当多次重复测量时,不同测量值彼此间偏差量的大小。如果多次测量时, 彼此间结果皆很接近,则称为精密度较高。 准确度:准确度的定义是测量值与真值的偏差程度。公认值通常指 使用已知较准确且精密度高的实验仪器, 在优良训练的实验人员重复操作下,所得出精密度相当高的实验结果。但实验时不见得有所谓公认值存在。
6、问题: 你认为精密度与准确度之间有直接的关系吗? 精密度高的结果,准确度一定高吗? 准确度高的结果,精密度一定高吗? 统计分析方法 母分布: 每一个待测物理量,我们可以假想存在一个真值。 假设只有随机误差而完全没有系统误差的情况下, 如果我们对同一物理量,测量次数一直增加。则随机误差的影响使得测量值大于真值与小于真值的机率分布一样,则所有测量值的平均值,将随着测量次数得增加而越接近真值。当测量次数等于无穷多次 时,测量值的分布称为母分布。 无穷多次:什么意思嘛!怎样才算? 由于我们不可能 无穷多次的测量,所测得有限次的测量属于母分布的部份样本 - 就称为样本分布好吗? 于是有限次数的算数平均值
7、是我们对于真值所能给的最好的估计值。 算数平均值(mean) : 偏差时,取方差的平方根。定义母分布的标准偏差*注:下图中d23应该修正为d22 为偏差平方的平均值的根号,称为方均根。方均根英文为 rootmeansquare. 如果直接利用上面的定义来处理有限次数的测量数据时,会发生矛盾的情形?例如:如果对于某一物理待测量,只有测量一个数据,则平均值等于唯一测量值,因此偏差为零。当然偏差的方均根值必为零。也就是有最良好的精密度。那岂不是所有测量皆测一次就够了!? 问题出在哪儿呢? 因为计算 n 个数据的个别偏差时,需先计算平均值。当有平均值时,只要有 n-1 个数据便可以算出所有的偏差量。也
8、就是 计算方差时,数据中的独立变量仅有 n-1 个,因此计算平均值时,分母若改为 n-1 较为合理。因此 样本分布数据的 标准偏差定义为 如此一来只测量一次时,上式中分子分母皆为零,也就是无法确定标准偏差。当时则分母为 n 或 n-1 已经没有差别了。 以上定义的标准偏差代表所有测量数据与平均值之间平均的偏差量。 可是通常我们也关心所计算出平均值的可信度是多少?也就是实验结果的 精密度有多高?平均值的精密度应该要高于个别测量数据的精密度。 我们先写下 依据统计理论所得出的结果。 平均值 的标准偏差量加上所对应的标准偏差。注:实验结果不见得一定都是平均值,例如测量电阻的温度系数,温度一直再改变,
9、测量不同温度时电阻值的变化量。可以用 最小方差计算法计算出斜率。并利用误差传递方法计算其标准偏差。 标准偏差所代表的意义与运用: 通常当测量次数多时,测量数据的随机分布满足常态分布 (normal or gaussian distribution): P 是测量值为x的机率。(次数少时为二项式分布)。 如下图为平均值为50, 标准偏差为10的常态分布, 测量值出现在 范围内的机率为 68.3%。(2:1) 范围内的机率为 95.4%。(20:1) 范围内的机率为 99.7%。(350:1) 范围内的机率为 99.994%。(15000:1) 当从事多次测量时,有时候某些数据与平均值相差的较多,
10、怀疑是因为测量时不小心观测错误或 . ,怎样判断该不该舍去那些数据呢? 例如:测量某物体长度100次,计算出平均值与标准偏差后,发现有3组数据落在3倍标准偏差外,4组落在2倍3倍之间,其余皆在 平均值与 标准偏差之间。若采用常态分布, 由于数据落在2倍标准内的机率有4.6%。 因此那四组数据是合理的。但是数据落在3倍标准偏差外的机率应小于千分之三。因此 应该重新检讨那三组数据,通常可以舍去,那三组数据舍去后,重新计算平均值与标准偏差。再检视都没有问题后,并计算平均值的标准偏差后,写出测量结果。 平均值的标准偏差的意义 每次(组)多次实验所得平均值都不会相同。这些平均值也会形成一种分布。 平均值
11、的标准偏差便是代表这些不同的平均值的可能差异性。综合说来:实验数据的标准偏差(standard deviation)显示单一个测量值与平均值间可能偏差的程度。重复并不会减少其数值。平均值的标准偏差(standard error of the mean): 则显示所得平均值的可重复性程度,。如果多组重复测量所计算出平均值的标准偏差。其数值可以藉由 增加测量次数而减少,与 成反比。因此 10000 次测量平均值的标准偏差为100 次测量的 1/10.为了增加一位有效位数,次数由100增加到10000. 可真是不容易。 误差传递: 经常一个物理量是经由测量数个物理量,再藉由关系式计算而得出。例如:动
12、量是由测量值 质量与速度相乘而得。当测量时,质量、位移与时间的个别误差将影响最后结果的误差。假设X代表某一个物理量,由 即 的平均值。则平均值 表示为 ,则等测量值所决定。 ,而以 分别代表等分量样本分布,对于某一组测量样本数据,可以测量值的方差 其中 ,而 称为协方差。 如果 u 和 v 彼此不相关,则协方差为零。 于是 方差可以简化为 当测量物体密度时,质量与体积的测量通常不相干,因此可用上式计算质量与体积的误差所造成密度测量的误差。但是体积测量误差的计算,若体积是由长、宽、高等测量值相乘而得。当 长、宽、高 都是用同一量具同样方式测量时,往往彼此间的误差是相关的。尤其当量具的系统误差大于
13、随机误差时,由于校正所造成误差将造成长、宽、高的系统误差。则体积的百分误差将直接等于长、宽、高 百分误差之和。当使用误差传递时要辨别测量值间是否彼此相关。让我们运用上式计算平均值的标准偏差。 平均值是由各测量值取平均而得到。 若各测量值的标准偏差皆相同时,上式可以简化为 于是平均值的标准偏差 让我们再做几个例题: 1. 例如: (3.1257 0.0138) - ( 1.892 0.0095) = (3.1257 - 1.892) (0.01382 + 0.00952)1/2 = 1.234 0.017 注意: 误差并非 0.0138 + 0.0095 ? 为什么呢? 3.1257 0.013
14、8 表示 测量值在 3.1257-0.0138 与 3.1257+0.0138之间,多次测量时应该越接近 3.1257 的数值越多,离开越远的机率越少。因为随机分布的关系,大于平均与小于平均的机率皆相等。当两测量值相加时,两者偏差皆为最大正偏差或皆为最大负偏差的机率,应该很小,经统计分析以 平方相加开根号为较适当。 2. 若协方差为零时,则结果的百分误差的平方等于个别参数的百分误差的平方和。参数间为相除的情形时,也有相同结果,请你自以试一试。 3. 换人做做看!该你练习了喔! 分别练习计算 以上三种函数的标准偏差。 以上皆讨论 独立变量间的误差皆互不相干,彼此不受影响。若是讨论包含系统误差的情
15、形,或是 变量间相互影像时,就必须考虑协方差。 例如: 体积是由三个测量值 长,宽,高 相乘而得,假使测量的尺因为温度的变化而收缩。用同一把尺测量,则 长宽高 误差皆会有相同趋势。则百分误差不再是 平方后相加再开根号,而是直接相加。有效位数的说明: 当使用测量工具从事测量时,工具的最小刻度限制了测量值的有效位数。通常我们以仪器最小能读到的刻度值 外加一位估计值 作为记录的结果。但是 由于科技的进步,现代很多仪表显示时都已经 数字化,在正常的情形下,最后一位显示的数值,已经包含了仪器帮你估计的成分。但是:并非数字化的仪器所显示的数值,完全都是必须记录的。仪器显示的最小刻度值,应该要配合仪器的精密
16、度。但是仪器商生产不同精密度的仪器时,为了成本问题很可能使用相同的显示组件。因此某些仪器显示的数值,可能多于实际的精密度。另外一种情形是,仪器也的确够精密,但是你所测量的环境本身造成的影响,超过仪器精密度的范围。例如:使用 6位半的精密电表去量 温度没有适当控制环境下的电阻。结果数值后几位连续不断的跳动。多记了后面一直变动的数值,有用吗? 基本原则:实验记录所显示的最小刻度值,也应该要配合测量的精密度。否则只是增加自己计算的负担而已!可能只是增加记录的负担而已, 数据处理时.反正用计算器在计算,可能计算完毕,还多了好多位有效位数呢!用 10 位显示的计算器,实验结果变成10位有效位数。如果用1
17、2位显示的计算器,实验结果变成12位有效位数。好像实验的精密度取决于计算器的能!?这不是笑话!这是现代很多学生的毛病,甚至在科学展览的会场都会见到。这已经变成一种习惯,不是说一说就改的过来!要一直的提醒自己! 。 在过去要用手算的时代,就不容易出现这样的问题! 举一个实例:如下表 测量序号 1 2 3 4 5 平均值 标准偏差 长度 L (cm) 宽度 W (cm) 10.78 10.80 10.75 10.73 10.78 10.77 0.02 8.21 8.20 8.22 8.21 8.22 8.212 0.008 0.004 8.2120.004 平均值的标准偏差 0.01 结果 10.
18、770.01 从以上的例子,是否看出该怎样选取记录的有效位数。和试验数据的标准偏差,有怎样的关系呢?决定好有效位数后多出来的位数,便利用四舍六入五成双的原则。四舍六入大概你得很清楚,可是什么是五成双呢?严格一点说:应该是 舍去的第一位如果大于 5则进位。但如果恰好等于5则依照数据最后一位来决定,奇数则进位,偶数则舍去。主要是我想是为了数据常要除以独立变量等运算,如果每次遇 5 皆进位,有可能经过数次运算后连续进位好几次。而用上法来试图抵销。 例如: 处理前 处理后 3.154 3.151 3.155 3.145 3.15 3.16 3.16 3.14 可是如果最后的结果是利用好几层的关系式计算
19、而得到的,是否每计算一次 就要将数据取至适当的有效位数,再继续算下去。还是反正用计算器一直算,最后在取有效位数。 我提供的原则是:当数据计算时,运算的数目来源是由于数学推导的常数或物理常数,则最后再取有效位数便可。但是若遇到测量值,则必须运算完后,马上取至适当的有效位数。例如:面积等于常乘宽,算出后马上要决定适当的有效位数,再继续运算下去。你认为这样的原则合理吗? 好像还有问题耶! 9.81.28 该取几位有效位数?12.54 还是 12.5 还是 13.虽然通常加,减,乘,除等运算时有效位数以最不准确的因子的有效位数为基准。但是上面的运算取 13. 就似乎不太合理。事实上,当处理数据时,你可
20、以用数据的标准偏差作为最适当的判断依据。 附记:当使用游标尺时,有没有所谓的估计值呢? 补充说明: 1. 有限次数的平均值是我们对于真值所能给的最好的估计值由于方差代表着 数据的偏差量,对于一组数据而言,若是此偏差量越小越好。问题改换成: 采用怎样的平均值计算方式会有较小的方差? 取方差对平均值微分等于零的结果如下: 所以采用算数平均值的计算方式时,方差有最小值。 2. 最小平方作图法: 实验时,我们常会需要测量 某物理量随 物理参数变化时,彼此间的关系。例如:电阻随温度的变化。最小平方曲线作图法 便是在 所绘出 数据图中,描绘出一条曲线,使的所有数据点到曲线距离平方总和为最小。用 f(xi,
21、yi) 表示数据点,我们希望找出,使得 有最小值。以上假设自变量没有误差: 以下我们以常见的线性关系为例,希望找出 a, b使得 有极小值。也就是找出最能代表 测量数据线性关系的直线。欲使方差有最小值 = 联立解 上两个方程式,可得到 上式中 a 为直线斜率,b 为其截距。 经常所测量物理量之间的关系式并非如 如此简单的关系, 可以仿造上面计算最小方差的方式,找出各系数的值。但是大多数情况,皆可以利用 变量变换的方式,将关系式转换成简单线性关系。 例如:电容放电时,电容电压随时间变化的关系 Vc(t) = Vo e-t/RC 实验时测得电压V 随时间 t 变化的数值,欲求得 Vo 以及 放电时
22、间 RC值。可将所测得 电压取对数lnVc(t) = lnVo - t/RC 令 y =Vc(t),x = t 则 有 y = a x + b 的关系。利用上面最小平方法 求得斜率 a = -1./RC,截距 b = lnVo 接下来的问题是: 1. 这样计算出来的直线,用来代表原有数据的关系 好不好呢?提示: 当然 方差 越小越好喔! 可是如何判断呢? 2. 所计算出来的 直线斜率a 和 截距 b 的误差又是多少呢?提示: 利用误差传递的计算法去计算。将 a,b 视为 xi 以及 yi 的函数,但是上面的计算中皆假设 xi有误差。因此 只需要 计算由于 yi的误差所传递给 a,b 系数的误差
23、。 令 ( 0. 对吗?) 则 于是得到 且 若是所有测量数据 标准偏差相同 ,我们又可将原点平移使得于是上面结果可以简化为 对于任何数据我们皆可以 代入上面最小平方法找出一条线 可是数据 x,y 之间,是否真的适合用线性关系描述呢?我们用这样的想法来评断:若两者之间真的满足 y = a x + b,则若是我们改用 x = a y + b 去描述,应该也可以得到适当的曲线。理想情况应当满足 ,于是我们可以检验用 以上两种直线方式所得出之斜率相乘积越接近于 1表示 x,y 间越相关,于是定义 (linear-correlation coefficient) 若是 值越接近于 1.0 则表示 x-y 数据间 越适合用上述 线性关系描述。