《误差与数据处理》PPT课件.ppt

资源描述

《《误差与数据处理》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《误差与数据处理》PPT课件.ppt（91页珍藏版）》请在三一办公上搜索。

1、第1部分：数据、误差与统计计算,Outline,数据信息数据挖掘物理量的正确值是不可能得到的；误差：实验误差随机误差（偶然误差）、系统误差、过失误差计算误差截断误差、舍入误差先讲计算误差（计算机数值计算的基本问题）再讲实验误差样本与总体测量值、误差的统计规律性实验误差的矫正（离群点数据的剔除）参数估计、统计检验（总体的不同分布）引出下一章：常用分布函数,数据(Data),数据(Data)：数值数据、非数值数据信息(Information)数据挖掘(Data Mining)模式识别人工智能数理统计（理论）统计计算（应用）,数据与误差,实验误差数据来源：测量（实验）Kolthoff断言：物理量的正

2、确值是不可能得到的。加工误差（计算误差）计算过程带来误差,误差分类,实验误差随机误差（偶然误差）随机因素引起的不易控制的误差；统计研究的重点（正态分布）系统误差由于某种人为因素引起实验结果有明显的固定偏差只能进行统计检验，一般不能通过增加实验次数消除过失误差明显歪曲实验结果的误差离群值、异常值、Outlier,统计研究的重点！,误差分类(Cont.),计算误差（加工误差）截断误差近似算法（无穷级数逼近）计算机字长限制舍入误差截断舍入（四舍五入）乘、除运算误差,数值计算研究的重点！,举例：计算地球的表面积,数学模型：误差：地球被看成是一个球,简单理想模型系统误差、人为误差测量仪器误差如何测得地

3、球的半径长度R计算误差截断误差：公式中的是无理数舍入误差：浮点数的计算,误差与“统计计算”,“统计计算”要研究两类误差!,计算误差,利用计算机进行计算带来的误差数在计算机中的表示舍入误差截断误差计算机算法的基本问题计算复杂性稳定性问题的病态性,数值计算的最基本概念！,数在计算机中的表示-浮点数,计算机中数的表示方式,说明：计算机中的数只有有限多个，同时只能是有限精度，且为实数集的一个子集。称之为浮点数，记为F.,数在计算机中的表示-浮点数,浮点数集合F由（t,L,U)唯一确定,数值实验-floatgui.m（t=3,L=-4,U=3）f=(0:2t-1)/2t;F=;for e=emin:

4、emax F=F(1+f)*2e;end,t=3,L=-4,U=3 eps=1/8=0.125，则12之间的数的表示：1 1.125 1.250 1.375 1.500 1.625 1.750 1.825 2现在给定实数1.0625,1.1249999.如何表达?误差多少？,数在计算机中的表示-浮点数,结论：浮点数集合F中的元素分布是不均匀的由于计算机字长有限，浮点数只能是有限的集合：字长增加，浮点数集合变大。不能直接表达的实数只能“舍”或“入”为与之接近的浮点数,课后练习：运行floatgui.m程序，调整(t,U,L)取值，观察可以表示的浮点数集合的变化。求给定(t,U,L)后可表达的浮点

5、数个数（修改floatgui.m程序）,数在计算机中的表示-浮点数,结论：尾数多少决定了eps的大小，决定了计算机的精度L，U决定了可以表示的浮点数的大小范围,数在计算机中的表示-浮点数,IEEE双精度二进制数使用64位存储一个数，每位取值0或1位的分配为：尾数符号 1尾数52阶码11t=52,-1023=s=1023但-1023保留做它用,数在计算机中的表示-浮点数,IEEE双精度数系的标志Binary Decimaleps2(-52)2.2204e-16realmin2(-1022)2.2251e-308realmax(2-eps)*210231.7977e+308,数值实验：a=4/3;

6、b=a 1;c=3*b;d=1-c,得到的d即为机器精度,21024;(1+1-eps)*21023得到的是最大数,数在计算机中的表示-浮点数,原因：舍入误差在起作用,数值实验x=0.988:.0001:1.012;y=x.7-7*x.6+21*x.5-35*x.4+35*x.3-21*x.2+7*x-1;plot(x,y)或plot(x,(x-1).7),数在计算机中的表示-浮点数,避免舍入误差的过度影响（算法设计）注意计算次序避免相近的大数值相减或相差很大的两数值做加减运算；简化计算公式，减少计算次数；,计算机算法的基本问题,构造算法的基本手段：近似研究算法的核心问题：近似对计算结果的影响

7、算法的稳定性不能扩散舍入误差算法的复杂度算法的收敛性问题的病态性,算法的稳定性,Algorithm 1,Algorithm 2,问题：En=1-nEn-1,E1=1/e 递推算法，且E=0,Program of algorithm 1,clearep(1)=1/exp(1)N=15;for n=2:N ep(n)=1.0-n*ep(n-1);endplot(ep,b*);,Algorithm 1 with N=15,Algorithm 1 with N=100,Program of algorithm 2,clearep(100)=0N=100;for n=N:-1:2 ep(n-1)=(1.

8、0-ep(n)/n;endplot(ep,b*);,Algorithm 2 with N=100,Algorithm 2 with N=500,算法的稳定性,结论：可以使用的算法是 Algorithm 2！原因：设两个算法初值的舍入误差一样，均为e1,则算法1计算到第n步时，误差累计为n!e1,而算法2，误差衰减为e1/(n!/m!),m=n-1,n-2,1稳定的算法-算法中产生的任何误差，对后续计算的影响是衰减或可以控制的。,不稳定的算法=不能用的垃圾！,算法的复杂度,指数型算法算法计算量是问题规模的指数函数只能够处理规模很小的问题多项式型算法算法计算量是问题规模的多项式函数可以处理规模较大

9、的问题,Complexity,Descriptor Size in Bytes Storage Mode Tiny 102 Piece of Paper Small104 A Few Pieces of Paper Medium 106 A Floppy Disk Large 108 Hard Disk Huge 1010 Multiple Hard Disks Massive 1012 Robotic Magnetic Tape Storage Silos Super-massive1015 Distributed Data ArchivesThe Huber-Wegman Taxonomy

10、 of Data Set Sizes,O(n1/2)Plot a Scatter-plotO(n)Calculate Means,Variances,Kernel Density EstimatesO(n log(n)Calculate Fast Fourier TransformsO(n c)Calculate Singular Value Decomposition of an r x c Matrix;Solve a Multiple Linear RegressionO(n 2)Solve most Clustering AlgorithmsO(a n)Detect Multivari

11、ate Outliers,Algorithmic Complexity,Complexity,Complexity,Complexity,算法的收敛性,误差收敛性,问题的病态性,考虑如下的问题 f(x)=(x-1)(x-2).(x-20)显然方程 f(x)=0 的解是 1 2 3 4 19 20请问:如下方程的解是什么？,Matlab program,p=poly(1:20);%help polyep=zeros(1,21);ep(3)=1.0e-5;re=roots(p+ep)plot(re,b+);hold onplot(1:20,0,r*);hold off,=10e-5,=10e-6,

12、=10e-8,计算误差分析作业,1.Explain the output produced byt=0.1n=1:10e=n/10-n*t2.What does each of these programs do?How many lines of output does each program produce?What are the last two values of x printed?x=1;while 1+x 1,x=x/2,pause(.02),endx=1;while x+x x,x=2*x,pause(.02),endx=1;while x+x x,x=x/2,pause(

13、.02),end,计算误差分析作业,3.The classic quadratic formula says that the two roots of the quadratic equationUse this formula in Matlab to compute both roots for a=1;b=-100000000;c=1Compare your computed results with roots(a b c)What happens if you try to compute the roots by hand or with a hand calculator?Yo

14、u should find that the classic formula is good for computing one root,but not the other.So use it to compute one root accurately and then use the fact that x1x2=c/a to compute the other.,计算误差分析作业,4.The power series for sin x isThis Matlab function uses the series to compute sin x.function s=powersin

15、(x)%POWERSIN.It tries to compute sin(x)from a power seriess=0;t=x;n=1;while s+t=s;s=s+t;t=-x.2/(n+1)*(n+2).*t;n=n+2;endWhat causes the while loop to terminate?Answer the following questions for How accurate is the computed result?How many terms are required?What is the largest term in the series?Wha

16、t do you conclude about the use of floating-point arithmetic and power series to evaluate functions?,实验误差及处理,实验误差(Outline)随机误差随机变量总体、样本总体的数字特征样本特征量及其计算直方图概率密度函数总体分布的估计与检验正态性检验：QQ检验数据的变换与校正,随机误差与随机变量,随机误差由于某些无法控制的因素的随机波动而形成的误差，又称为偶然误差；随机现象由于随机误差的存在，在基本条件不变的情况下，重复测量会得到不同的结果随机事件随机现象中的某种结果（如测量中得到某个值）概率随

17、机事件A的概率P(A)表示事件A发生的可能性大小,随机误差与随机变量,概率的公理体系随机事件A的概率满足必然事件U的概率为1如果随机事件A,B互斥（不相交），则P(A+B)=P(A)+P(B)频率如果在n次试验中，随机事件A出现了a次，则称F(A)=a/n为随机事件A在n次试验中出现的频率频率与概率当n趋向无穷大，即测量次数无限多时，频率的极限为该事件发生的概率,随机误差与随机变量,随机变量就是随着试验结果的不同而随机地取各种值的变量。（随机现象与随机变量的取值）离散型随机变量有些随机变量，只能在离散点上取值，例如，掷一个骰子掷出的点数，同时扔两个硬币出现正面向上的硬币个数；连续型随机变量有些

18、随机变量，它们的取值范围是实数轴上的连续区间，例如，加工零件时的加工误差，炮弹落点到目标的距离，两次电话来到之间的时间间隔等事件的概率采用随机变量的取值进行刻画,总体与样本,总体随机变量X的所有可能取值组成研究的对象全体称为总体有穷总体与无穷总体随机变量的取值具有规律性分布函数离散型 X是离散型随机变量，将可能取的所有的值以及它取这些值的概率一一列举出来，这样得到的一组概率，称为X的概率分布常见离散型概率分布(参见：常见概率分布.doc),总体与样本,连续型,常见连续型概率分布及密度函数(参见：常见概率分布.doc),总体与样本,随机变量的数字特征(总体）用于描述随机变量X取值的基本统计特性

19、数学期望（Expectation,均值）E(X)方差(Variance)D(X)和标准差(Standard Deviation)协方差(Covariance)和相关系数（Correlation Coefficient）(参见：随机变量的特征.doc),总体与样本,个体对总体的每一次观测所得到的测量值称为一个个体样本n个个体组织在一起构成对总体观测的一个样本，其中观测次数n称为样本容量一次观测就是总体X取得一个值；样本容量为n的样本可以看成是n个来自同一总体的随机变量的不同取值。所取得的值又称为样本观测值。样本具有二重性：在观测（抽样）前，它是n个随机变量（与来自的总体同分布）在观测（抽样）后，

20、它是n个观测值（随机变量的取值）,总体与样本,为什么要研究样本抽样实验研究样本的目的估计总体的特征怎样产生样本有放回抽样、无放回抽样简单随机样本组成样本的每个个体与总体同分布组成样本的每个个体彼此相互独立,总体,选择个体,样本,观测样本,样本观察值,(数据),数据处理,样本有关结论,推断总体性质,统计量,统计的一般步骤,总体与样本,统计量为了集中简单随机样本所带来的总体信息,考虑样本的函数,且不含任何未知参数,这样的“不含未知参数的样本的函数”称为统计量抽样分布统计量的分布称为抽样分布,(2)样本均值,(4)样本方差,(5)样本标准差,(3)样本k阶中心矩,(1)样本k阶原点矩,注：,常用样本

21、统计量,样本统计量的Matlab计算,均值Mean方差Var标准差Std极值Range中位数Median算例：a=randn(100,1);mean(a);a=randn(100000,1)mean(a);,随机变量的概率分布,测量值随机变量概率分布？画直方图找出最大值和最小值，求出极差R根据样本容量大小进行分组。大样本分10-20组，小样本（n50)分为5-6组，然后根据组数k与极差R确定组距dx=R/k确定分点计算测量值落在各组内的个数ni,求出频率ni/n及相对频率ni/n/dx以分点为横坐标，相对频率为纵坐标画直方图,随机变量的概率分布,直方图,Matlab算例(doc hist)x=

22、-2.9:0.1:2.9;y=randn(10000,1);hist(y);hist(y,x),随机变量的概率分布,直方图到概率密度,随机误差的分布(密度函数),伽利略原则(Galileo)所有观测值都可以有误差，其来源归因于观测者、仪器工具以及观测条件等：存在性绝对值小的误差出现的概率大，绝对值大的误差出现的概率小：单峰性绝对值相等的正、负误差出现的概率相等，随机误差的总体平均值为0：对称性绝对值很大的误差出现的概率极小，小概率事件：有界性,随机误差的分布(密度函数),辛普森的工作(Simpson,1710-1761)一封信：在应用天文学中取若干个观测值的平均值的好处平均的可信度与“最谨慎观

23、测所得值”的可信度拉普拉斯的工作(Laplace)误差密度函数f(x)应该关于0对称f(x)在x=0处增加时，f(x)值下降选择了-df(x)/dx=mf(x),x=0,随机误差的分布(密度函数),高斯的工作(Gauss,1777-1855)饶日天体运动的理论推导出随机误差分布的概率密度函数高斯分布（正态分布）,从样本估计总体：参数估计,正态分布总体,采用来自同分布的样本构造统计量进行估计！参数估计点估计极大似然估计区间估计,从样本估计总体：参数估计,极大似然估计,从样本估计总体：参数估计,极大似然估计,极大似然估计高斯分布,推导随机误差分布的密度函数,极大似然估计高斯分布,极大似然估计高斯分

24、布,极大似然估计高斯分布,假设检验,假设检验的原理(参见：假设检验.doc)假设检验的应用测量值的正态概率分布等距直方图总体的概率密度函数（前已介绍）等频率直方图拟合优度检验法QQ检验法（直线检验法）,假设检验,等频率直方图拟合优度检验法,假设检验,假设检验,QQ检验法,假设检验,QQ检验法(续),假设检验,QQ检验法(续),假设检验,QQ检验法(续),假设检验,QQ检验法(续),假设检验,QQ检验法(数值试验),Matlab程序（源程序）经验分布函数：cdfplot正态性假设检验：qqplot,normplot,假设检验,假设检验QQ检验法例：已知20名学生的各科平均成绩为：56，23，59

25、，74，49，43，39，51，61，99，23，56，49，75，20.请检验其正态性。,Matlab程序：A=56 23 59 74 49 43 39 51 61 99 23 56 49 75 20qqplot(A),normplot(A),假设检验,作业1：根据上述介绍的算法，自行设计实现myqqplot(x)，图示数据正态性检验，计算相关系数r并将其值显示在图上适当的位置;使用myqqplot针对上例数据进行正态分布性检验。,数据集中离散程度的可视化度量,Box plot（盒图）分位数(quartile)P(XXp)=p，则Xp称为p分位数p=0.5时，Xp又称为中位数四分位数下四分位

26、数：p=0.25；中位数：p=0.5；上四分位数：p=0.75直观解释：将所有数值按大小顺序排列并分成四等份，处于三个分割点位置的得分就是四分位数。最小的四分位数称为下四分位数：所有数值中，有四分之一小于下四分位数，四分之三大于下四分位数。中点位置的四分位数就是中位数；最大的四分位数称为上四分位数：所有数值中，有四分之三小于上四分位数，四分之一大于上四分位数,数据集中离散程度的可视化度量,四分位数间距interquartile range(IQR)IQR=q0.75-q0.25代表中间50%数据的极差值下界lower limit(LL)和上界upper limit(UL)LL=q0.25 1.

27、5*IQRUL=q0.75+1.5*IQR超出LL和UL的观测点可视为异常点（Outlier）邻近值Adjacent values 如果不存在异常点，则邻近值为观测值的最大值和最小值否则，邻近值为LL和UL,数据集中离散程度的可视化度量,数据集中离散程度的可视化度量,Box plot(绘制box图)用水平线画出三个四分位数，连接成盒装；用水平线画出邻近值；从下四分位数出发用竖线与最小的邻近值相连；从上四分位数出发用竖线与最大的邻近值相连；将异常点标用*号标注在图上,数据集中离散程度的可视化度量,Help boxplotExamplesInd=(Origin=G);Ger=MPG(ind(:,1

28、);boxplot(Ger);(重点以Germany为例进行说明),数据集中离散程度的可视化度量,例：data1=normrnd(0,1,100,1);data2=normrnd(0,10,100,1);data3=normrnd(10,1,100,1);data=data1;data2;data3;style1=repmat(1,100,1);style2=repmat(2,100,1);style3=repmat(3,100,1);style=style1;style2;style3;boxplot(data,style);grid on;,数据的变换与校正,数据的近似正态化变换为什么要变

29、换？使前提假设成立容易讨论其性质如何变换？模变换法（略）幂变换法box-cox变换,数据的变换与校正,幂变换法,Box-Cox变换法,数值试验Matlab:BoxCox函数（type boxcox）Example:help boxcox,数据的变换与校正,作业2写出boxcox程序的算法（即实现步骤）；对给定数据集X=1.1 2.3 3.2 1.5 2.1 2.5 3.4 4.5 3.4 2.6 5.7 6.8 8.2 1.6 1.7,首先检验其正态性，再利用boxcox进行变换后再检验其正态性。写出Matlab程序及结果。,数据的变换与校正,实验误差的校正随机误差多次重复实验予以消除系统误差根据产生的原因采取措施过失误差异常数据的处理(Outlier Detection)F检验检验样本是否来自同一总体t检验检验样本平均值的准确度3sigma原理,数据的变换与校正,3sigma原理,

展开阅读全文