《数据处理》PPT课件.ppt_三一办公31ppt.com

资源描述

《《数据处理》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《数据处理》PPT课件.ppt（56页珍藏版）》请在三一办公上搜索。

1、1,第十章试验数据处理,2,本章主要内容,10-1 测量误差 10-2 单随机变量的数据处理 10-3 多变量数据的处理 10-4 其它方法,3,试验和监测的目的或是测定某个物理量的数值及其分布规律，或是探求两个物理量之间的相互关系。因此，需对大量实验数据运用适当的力学理论和数学工具进行分析处理，以得到能真实的描述被测对象性质的物理参数或物理量与物理量之间变化规律的函数关系。单随机变量数据（如测定岩石试件抗压强度的重复试验）常采用统计分析法，得到它的平均值及其表征其离散程度的均方差。,4,多变量数据（如应力应变关系等）则需建立它们的函数关系式。函数有三种表达方法：列表法、图示法和解析法。列表法

2、数据容易查找，固示法则直观，容易把握其变化趋势，解析函数则便于数据计算与应用，便于从物理机理上进一步探讨其规律性。回归方法是利用试验数据建立解析函数形式的经验公式的最基本的方法。任何试验手段都有其局限性，反映在测试数据上就是必定存在着误差。应注明它的误差范围或精确程度。,5,10-1 测量误差,一、误差分类测量值与真值之间的差叫做测量误差，它是由使用仪器、测量方法、周围环境、人的技术熟练程度和人的感官条件等的技术水平和客观条件的限制所引的。1随机误差随机误差的发生是随机的，其数值变化规律符合一定统计规律，通常为正态分布规律。因此，随机误差的度量是用标准偏差。随机误差通常是由于环境条件的波动

3、以及观察者的精神状态等测量条件引起的。,6,10-1 测量误差,2.系统误差系统误差是在一组测量中，常保持同一数值和同一符号的误差，因而系统误差有一定的大小和方向，它是由于测量原理的方法本身的缺陷、测试系统的性能、外界环境(如温度、湿度、压力等)的改变、个人习惯偏向等因素所引起的误差。3.粗大误差又称过失误差，它是由于设计错误或接线错误、或操作者粗心大意看错、读错、记错等原因造成的误差。,7,10-1 测量误差,征测量结果与被测量真值的接近程度，它反映系统误差的大小。而精度则反映测量的总误差。,二、精密度、准确度和精度精密度表征在相同条件下多次重复测量中测量结果的互相接近，互相密集的程度

4、，它反映随机误差的大小。准确度表,8,10-2 单随机变量的数据处理,一、误差估计,测量误差,测量值,真值,绝对误差,相对误差,9,10-2 单随机变量的数据处理,在实际测量中，测量误差是随机变量，因而测量值也是随机变量。因真值无法测到，故用大量观测次数的平均值近似地表示，并对误差的特性和范围作出估计。1.算术平均值当未知量x0被测量n次，并被记录为x1,x2,，xn个数，那么，xr=x0+er,其中er是观测中的不确定度，或正或负。n次测量的算术平均值为,10,10-2 单随机变量的数据处理,一般来说，将接近值，并认为是该物理量的最佳值。通常n越大，越接近。应该指出，因为是未知的，因此

5、通常考查的是围绕平均值；而不是的散布程度。,11,10-2 单随机变量的数据处理,2标准误差标准误差反映了测量值在算术平均值附近的分散和偏离程度。3变异系数Cv,标准误差(样本均方差、标准离差、标准差),12,10-2 单随机变量的数据处理,二、误差的分布规律随机误差一般具有以下特征(正态分布)：（1）单峰值。绝对值小的误差比绝对值大的误差出现的次数多。（2）对称性。绝对值相等的正误差与负误差出现的次数相等。（3）抵偿性。随着测量次数的增加，随机误差的平均值趋于0。（4）有界性。在怀定的测量条件下，随机误差的绝对值不会超过一定界限。,13,10-2 单随机变量的数据处理,随机误差正态分布

6、特征：式中 y为测量误差的概率密度。,14,10-2 单随机变量的数据处理,在某一区间内将y积分可得计算误差落在此区间内的测量值出现的概率：误差区间概率(%)-+68；-2+2 95；-3+3 99.7。在一般情况下，99.7已可认为代表多次测量的全体，所以把3叫作极限误差。,15,10-2 单随机变量的数据处理,三、可疑数据的舍弃在多次测量中，有时会遇到个别测值和其它多数测值相差较大的情况，这些个别数据就是所谓的可疑数据。对于可疑数据，可以利用正态分布来决定取舍。因为在多次测量中，误差在-3+3之间时，其出现概率为99.7，也就是说，在此范围之外的误差出现的概率只有0.3，即测量300

7、多次才可能遇上1次。若只进行1020次的有限测量，可以认为超出3的误差已不属于随机误差，应将其舍弃。,16,10-2 单随机变量的数据处理,如果测量了300次以上，就有可能遇到超出3的误差，因此，有的大的误差仍属于随机误差，不应该舍去。由此可见，对数据保留的合理误差范围是同测量次数n有关的。下表为一种试验值舍弃标准，超过的可以舍去，其中n为测量次数，di是合理的误差限，是根据测量数据算得的标准误差。,17,10-2 单随机变量的数据处理,使用方法（1）计算测量数据的均值和标准误差。（2）找出可疑值，计算（3）将计算出的di/值与表中值相比，若大于表中值则应当舍弃，舍弃后再对下一个可疑值进行检

8、验，若小于表中值，则可疑值是合理的。注意：这种方法只适合误差只是由测试技术原因样本代表性不足的数据的处理，对现场测试和探索性试验中出现的可疑数据的舍弃，必须要有严格的科学依据，而不能简单地用数学方法来舍弃。,18,10-2 单随机变量的数据处理,四、处理结果的表示 1.实例例1 同一岩体的10个岩石试件的抗压强度分别为:15.2,14.6,16.1,15.4,15.5,14.9,16.8,18.3,14.6,15.0。(1)计算平均值和标准误差：(2)剔除可疑值：第8个数据18.3疑为可疑数据，故18.3应当剔除。,19,10-2 单随机变量的数据处理,(3)再计算其余9个值的算术平均值和标

9、准误差：在余下的9个数据中再检查可疑数据，取与平均值偏差最大的第7个数据16.8,这个数据是合理的。,20,10-2 单随机变量的数据处理,(4)处理结果用算术平均值和极限误差表示为根据误差的分布特征，该种岩石的抗压强度在12.94 17.66MPa的概率是99.7%，正常情况下的测试结果不会超出该范围。,21,10-2 单随机变量的数据处理,2.保证极限法如前述，在区间内数据出现的概率与所取的k有关。例如k2，相当于保证率为95，即在区间内数据出现的概率为95。在实用上，保证值是以偏于安全为原则来选取最大值或最小值。如承载力等指标采用最小值；含水量等指标采用最大值。采用最小值时，保证

10、值表示大于该值的数据出现的概率等于所选取的保证率，采用最大值时，保证值表示小于该值的数据出现的概率等于所选取的保证率。,22,10-2 单随机变量的数据处理,2.保证极限法 K 保证率 0.00 0.0 0.67 50.0 1.00 68.0 1.645 90.0 2.00 95.0 2.58 99.0 3.00 99.7,23,10-2 单随机变量的数据处理,在实用上，保证值是以偏于安全为原则来选取最大值或最小值。如承载力等指标采用最小值；含水量等指标采用最大值。采用最小值时，保证值表示大于该值的数据出现的概率等于所选取的保证率，采用最大值时，保证值表示小于该值的数据出现的概率等于所选取的保

11、证率。,24,10-2 单随机变量的数据处理,例2 岩石抗压强度均值15.3MPa,标准差为0.786MPa 例3 含水量平均值为40%,标准差为5%,大于该值保证率50%,大于该值保证率95%,大于该值保证率99.7%,大于该值保证率50%,大于该值保证率95%,大于该值保证率99.7%,25,10-3 多变量数据的处理经验公式的建立,在试验研究中，不但要测量随机变量的平均值和分布特性，更重要的是要研究一些变量之间的相互关系，以探求物理量之间相互变化的内在规律。对于两个以上变化着的物理量的试验数据处理，通常有如下三种方法：(1)列表法。根据试验的预期目的和内容，合理地设计数表的规格和形式，使

12、其具有明确的名称和标题，能够对重要的数据和计算结果突出表示，有清楚的分项栏目、必要的说明和备注，试验数据易于填写等。该法简单易作，数据易于参考比较，形式紧凑，同一表中可表示多个变量的变化，但数据变化趋势不如图解法明了直观。,26,10-3 多变量数据的处理经验公式的建立,(2)图形表示法。在选定的坐标系中，根据试验数据画出几何图形来表示试验结果，通常采用散点图。其优点是：数据变化的趋向能够得到直观、形象的反映。缺点是：超过三个变量就难于用图形来表示，绘图含有人为的因素，同一原始数据因选择的坐标和比例尺的不同也有较大的差异。,27,10-3 多变量数据的处理经验公式的建立,(3)解析法。也称方程

13、表示法和计算法，是通过对试验数据的计算，求出表示各变量间关系的经验公式。其优点是结果的统一性克服了图解法存在的主观因素的影响。最简单的情况是对于两个或多个存在着统计相关的随机变量，根据大量有关的测量数据来确定它们之间的回归方程(经验公式)。这种数学处理过程也称为拟合过程。回归方程的求解包括两个内容：回归方程的数学形式的确定；回归方程中所含参数的估计。,28,10-3 多变量数据的处理经验公式的建立,一、一元线性回归设有一组试验数据：(x1,y1)(x2,y2)，(xn,yn)，一元线性回归分析的目的就是要找出一条直线方程，使它既能反映各散点的总的规律，又能使其与各散点之间的差值的平方和最小。

14、设欲求的直线方程为则要求,min,29,10-3 多变量数据的处理经验公式的建立,根据极值定理，有解方程得,30,10-3 多变量数据的处理经验公式的建立,求出a和b之后还必须检验两个变量间相关的密切程度，只有二者相关密切时，直线方程才有意义。现在进一步分析残差平方和Q：若Q0，则全部散点均落在直线上，则,31,10-3 多变量数据的处理经验公式的建立,令式中 r线性相关系数。r1，表示完全线性相关；r0表示线性不相关。因而 r 表示两量的相关密切程度。注意:只有当r的绝对值大到一定程度时，才可用回归直线来近似地表示 x 与 y 的关系。此时称相关系数显著，即 x 与 y 关系密切。通常

15、也只有在此情况下，才能判定 x 与 y 存在线性关系。,32,10-3 多变量数据的处理经验公式的建立,33,10-3 多变量数据的处理经验公式的建立,上表为在不同自由度数 n-2(n为实验点数)、两种显著性水平(0.05及0.01)相关系数达到显著的最小值。例如 n12，若|r|0.576，则意味差在0.05 水平上显著；若|r|0.708，则它在=0.01水平上显著。愈小，显著性程度愈高。若|r|O.576，则 r 不显著，x 与 y 的线性关系就不明显。,34,10-3 多变量数据的处理经验公式的建立,通常，回归方程的显著性检验采用F检验法。查F分布表(一元回归,1=1,2=n-2)中三

16、种不同显著性水平的数值，设记为F(1,n-2)，将这三个数与由上式计算的F值进行比较:F F0.01(1,n-2)，回归高度显著(在0.01水平上显著)；F0.05(1,n-2)F0.01(1,n-2)，回归显著(在0.05水平上显著)；F0.10(1,n-2)F0.05(1,n-2)，回归在0.1水平上显著；F F0.1(1,n-2)，回归不显著y对x的线性关系不密切。,35,10-3 多变量数据的处理经验公式的建立,36,10-3 多变量数据的处理经验公式的建立,37,10-3 多变量数据的处理经验公式的建立,38,10-3 多变量数据的处理经验公式的建立,则一元线性回归方程的表达形式为

17、若将离散点和回归曲线及上下误差限曲线同时绘于图上，则落在上下误差线外的点必须舍去。,可用计算回归方程的均方差估计其精度，并判断试验点中是否有可疑点需舍去。一元线性回归方程均方差为,39,10-3 多变量数据的处理经验公式的建立,二、可线性化的非线性有时，自变量与因变量之间是非线性关系，但可以通过对自变量作适当的变换，把一个非线性的相关关系转化成线性的相关关系，然后用线性回归分析来处理。既然自变量可以变换，那么能否对因变量y也作适当的变换呢?这需要慎重对待，因为y是一个随机变量,对 y作变换会导致y的分布改变，即有可能导致随机误差项不满足服从零均值正态分布这个基本假定。但在实际工作中，习惯于对

18、回归函数 y=f(x)中的自变量x与因变量 y 同时作变换，以便使它成为一个线性函数。,40,10-3 多变量数据的处理经验公式的建立,41,10-3 多变量数据的处理经验公式的建立,42,10-3 多变量数据的处理经验公式的建立,43,10-3 多变量数据的处理经验公式的建立,44,10-3 多变量数据的处理经验公式的建立,45,10-3 多变量数据的处理经验公式的建立,46,10-3 多变量数据的处理经验公式的建立,三、多元线性回归多元线性回归方程为现有n次测量值(yi,xij)(j1,2,m;i=1,2,n),利用最小二乘原理，要求剩余误差平方和最小，即,47,10-3 多变量数据的

19、处理经验公式的建立,根据极值定理，有,48,10-3 多变量数据的处理经验公式的建立,进一步展开为,49,10-3 多变量数据的处理经验公式的建立,用矩阵形式表示为其中,50,10-3 多变量数据的处理经验公式的建立,51,10-3 多变量数据的处理经验公式的建立,52,10-3 多变量数据的处理经验公式的建立,则方程组变为其解为,53,10-3 多变量数据的处理经验公式的建立,回归效果衡量指标:(1)偏差平方和Q(2)平均标准偏差s和残余标准差(3)复相关系数r,54,10-3 多变量数据的处理经验公式的建立,(4)偏相关系数V Vi越大,xi对y的作用越显著;若Vi小,则xi对y影响小,可剔除。(5)检验值F,55,10-3 多变量数据的处理经验公式的建立,四、多项式回归多项式回归方程为对自变量x作变换，令可得到这是一个m元回归分析问题,可按多元线性回归方法求解。,56,10-4 其它方法,1.逐步回归法 2.线性递推回归法 3.戴明法 4.岭回归法 5.偏最小二乘法 6.最优化方法 7.灰色系统理论 8.时间序列法 9.传统谱估计法与现代谱估计法10.人工神经网络法、遗传算法和混合算法,

展开阅读全文