《实验设计与优化-统计学基础.ppt》由会员分享,可在线阅读,更多相关《实验设计与优化-统计学基础.ppt(41页珍藏版)》请在三一办公上搜索。
1、试验设计及优化-统计学基础,试验设计与数据处理概述定义,狭义的试验设计主要是指试验单位(试验单元)的选取、重复数目的确定、试验单位的分组和试验处理的安排。合理的试验设计能控制和降低试验误差,提高试验的精确性,为统计分析获得试验处理效应和试验误差的无偏估计提供必要的数据。数据处理:研究试验测量或观察值的分析计算处理方法.承认并尽量排除偶然因素的干扰,将处理间是否存在本质差异揭示出来.可以揭示出试验指标或性状间的内在联系,试验设计与数据处理概述发展,20世纪20年代,费歇(英国)提出方差分析,并应用于生物学、农业、遗传学等领域,使得试验设计成为统计学的一个分支。20世纪50年代,田口玄一(日本)深
2、入浅出的解说了正交试验表格,使其广泛使用。我国:华罗庚-积极倡导和普及优选法 王元和方开泰-提出均匀设计近年,出现了各种应用软件:SAS(统计分析系统)、SPSS(社会科学统计包)、Matlab Origin、Excel,试验设计与数据处理概述意义,实验变化规律实用目的实验目的、影响因素、-选择方法科学安排实验误差分析可靠性确定因素主次抓住主要矛盾因素与结果间的函数关系,预测实验结果实验因素对实验结果的影响规律确定最优实验方案,本课程主要框架,统计学基础(讲课4学时)数据的统计检验(讲课4学时)方差分析(讲课4学时,上机2学时)回归分析(讲课4学时,上机2学时)正交试验设计(讲课4学时,上机2
3、学时)均匀设计(讲课4学时,上机2学时),统计学基础(一),统计学中的常用术语误差的表示法及分类随机误差的正态分布及标准正态分布,统计学中的常用术语总体与样本,总体:根据研究目的确定的研究对象的全体个体:总体中的每一个研究单位样本:依据一定方法由总体中抽取部分个体所组 成的集合有限总体:含有有限个个体的总体无限总体:包含有无限多个个体的总体样本容量:样本中所包含的个体数目频率:在n次测定中,随机事件A出现了nA次,则F(A)=nA/n称为随机事件A在n次实验中出现的频率.,统计学基础(一),统计学中的常用术语,概率:随机事件A发生的可能性大小P(A).频率的极限为概率.必然事件P=1;不可能事
4、件P=0;随机事件0P1试验研究的目的:了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。随机抽取:是指总体中的每一个个体都有同等的机会被抽取到样本中统计分析的特点-有很大的可靠性但有一定的错误率真值:某量的客观值或实际值,统计学基础(一),统计学中的常用术语平均值,算术平均值:观察值的总和除 以其个数.代表性较高,统计学基础(一),若没有系统误差,则总体平均值就是真实值,总体平均值:,加权平均值P3:为了增加结果的可靠性,对出现频率大或误差较小的测量值乘以一个与频率或误差相关的较大的数,对出现频率小或误差较大的数乘以一个与频率或误差相关的较小的数.这个数就叫权.P4,
5、P41-1,统计学中的常用术语平均值,统计学基础(一),中位值:是将一系列测定数据按大小顺序排列是中间的那个数值(奇数次测定)。如测定次数为偶数次,则中位值为正中两个值的平均值,其优点是求法简便而又直观。,例:求下列数据的平均值和中位值。20.06,20.10,20.08,20.20。,误差的表示法,绝对误差:实验值与真值之差x=x-xt(P5,P41-2)相对误差:ER=x/xt x/x(P7:例1-3,1-4.),统计学基础(一),例:有一已知含糖量为24.36%的奶粉,进行数次测定所得的平均值为24.31%,计算这个平均值的绝对误差和相对误差。,精密度(Precision)是指在相同条件
6、下,对同一量进行多次重复测定时,测定值的离散程度。表达测定数据的重现性,它是反映随机误差大小的一个量,测定值越集中,测定精密度越高。精密度通常用偏差来量度。偏差是用测定值与一系列测定数据的平均值之差来表示。,精密度和准确度,统计学基础(一),误差的表示法,偏差:di=xi-x平均偏差:,统计学基础(一),标准偏差:,特点:简单;但大偏差得不到应有反映。,误差的分类,统计学基础(一),系统误差,系统误差是由较确定的原因引起的,可校正和消除。(正确度)随机误差,随机误差是由不确定原因引起的,不可避免和消除。(精密度:极差,标准差,方差)过失误差,过失误差是指一种显然与事实不符的误差,必须避免和剔除
7、。,准确度:正确度+精密度随机误差是由一些偶然因素造成的误差,其大小、方向都不固定,难以预计,不能测量也无法消除。它的出现似乎很不规律,但实质上,它的出现和分布服从统计规律,减小误差-提高准确度,1.选择合适的分析方法(根据被测物含量、共存元素的干扰情况)。2.减少分析过程的误差。A.减小测量误差。B.增加平行测定的次数,减小随机误差。C.消除测量中的系统误差。,统计学基础(一),随机误差的正态(高斯)分布N(,2),统计学基础(一),正态分布的数学表达式:,随机误差的分布规律:1)偏差大小相等、符号相反的测定值出现的概率大致相等2)偏差小的测定值比偏差较大的测定值出现的概率大,偏差很大的测定
8、值出现的概率极小,趋近于03)大多数测定值集中在的附近,所以为最可信赖值或最佳值有界性,单峰性,对称性,补偿性,概率密度函数y,随机误差的标准正态分布N(0,1),统计学基础(一),又,则,随机误差的标准正态分布,统计学基础(一),所以分析化学中以误差2作为允许的最大误差,大于2出现的机会不到5%,同时误差在3以内的测定有99.74%的机会出现,即误差大于3的测定只有0.26%(1000次测定才不到3次)。,从计算结果可知,95以上的测量值都会落在范围内,随机误差x-超过 的大误差(或测量值)出现的概率0.3,一般化学分析是作几次测定,所以可以认为实际上是不可能出现的,如一旦出现,可认为其不是
9、由于随机因素引起的,应弃去,统计学基础(二)-区间估计和分析结果的表达,有限次测定的统计处理预测分析数据和置信度总体平均值的区间估计测定结果不确定度和分析结果的表达有效数字的取舍误差的传递,有限次测定的统计处理,统计学基础(二),正态分布是无限次测量数据的分布规律,而实际测定只能是有限次,其分布规律不可能完全相同。英国的统计学家兼化学家戈塞特()提出了t分布规律,平均值的标准偏差,有限次测定的统计处理,统计学基础(二),总体平均值,无系统误差时就是真值,纵坐标仍为概率密度,横坐标为t,t分布曲线与正态分布曲线相似t分布曲线随自由度f(f=n-1)而改变,当 时,t分布曲线即标准正态分布曲线。,
10、有限次测定的统计处理,统计学基础(二),与标准正态分布曲线一样,t分布曲线下面一定范围内的面积,即是该范围内测定值出现的概率,但应注意,对于标准正态分布曲线,只要u值一定,相应的概率也就一定;但对于t分布曲线,当t一定时,由于f不同,相应曲线所包括的面积,即概率也就不同。为此引入置信度的概念,置信度P人们对所作判断的把握程度,其实质为某事件出现的概率,在此表示某一t值时,平均值落在()区间内的概率。落在此范围之外的概率为(1P)称为显著性水平,用表示。,不同概率P与f值所对应的t值,表示为t,f。如 t 0.05,10 代表置信度95,自由度为10时的t值。Page221(附录三)t与u(n2
11、0,已很接近),预测分析数据和置信度,根据统计学的理论,可以期望使真值以指定的概率落在测定平均值附近的一个界限内,这个界限被称为置信界限。如,测定某食品中水的含量,报告为:%H2O(95%)=71.380.22%这个报告能比较明确地说明数据的合理性,既不绝对化而又很明确地回答问题。,统计学基础(二),预测分析数据和置信度,测定的平均值为 71.38%。有95%的把握认为试样的含水量落在71.380.22%这个范围内。要求有95%的把握,这称之为置信水平,表示对可靠性要求的准则。在分析化学中常按95%的置信水平来要求。0.22%称之为置信区间,其大小取决于测定的总体标准偏差和置信水平的选择,平均
12、值的置信区间还与测定次数有关。另外,=1-95%=5%.显著性水平,统计学基础(二),总体平均值的区间估计,在一定置信度上,根据(样本)估计(总体平均值)可能存在的区间,当,显然做不到,少数测量得到的总带有一定的不确定性,所以只能在一定置信度上,根据 对可能存在的区间作出估计 由t分布式 这表示在一定置信度下,以平均值 为中心,包括总体平均值范围,就叫平均值的置信区间。,统计学基础(二),总体平均值的区间估计,例:已知=35.21%,S=0.06%,n=4,求P=0.95,0.99时,平均值的置信区间解:P0.95,t0.025,3 3.18,统计学基础(二),理解为:在区间 中包括总体平均值
13、的把握(概率)有95。P0.99 t0.005,3?,总体平均值的区间估计,统计学基础(二),置信度越高,t曲线下面积越大,置信区间就越大,即所估计的区间包括真值的可能性也就越大。但P100,则意味着区间无限大,肯定会包括,这样的区间毫无意义;分析中通常将P定在95或90。,例1 测某铁矿样中的含量,得:37.45%,37.30,37.20,37.50,37.25,报告分析结果(P=95%),例2 测定结果47.64%、47.69%、47.52%、47.55%,计算置信度为90%、95%、99%时总体平均值的置信区间?,测定结果不确定度和分析结果的表达,统计学基础(二),一般分析结果的统计表示
14、法 多次重复测定得到一系列测定值,在报告分析结果时,要反映出数据的集中趋势和分散性,一般采用下列四项值,x是总体的最佳估计值,反映数据的集中趋势。S是 的估计值,反映数据的离散程度。测定次数n用于求自由度f,反映数据的可靠程度。置信区间。,有效数字的取舍,记录一个测量值时,数据中只应保留一位不确定的数字.有效数字:包括全部可靠数字及一位不确定数字在内的所有数字运算中采取四舍六入五成双的原则舍去多于数字几个数相加减时,有效数字的位数决定于绝对误差最大的一个数.几个数相乘除时,以有效数字位数最少(相对误差最大)的为标准.在乘,除,开方,乘方时,若第一位有效数字等于8或大于8时,则有效数字可多记一位
15、(如8.01ml,可计为四位)常数可认为无限位.对数如pH=2.00,统计学基础(二),有效数字的取舍,正确记录有效数值(万分之一天平,50ml移液管)正确计算和表达分析结果(先计算,后修约;先修约,后计算)0.0124+20.12+1.236+3.245+4.255=?0.0124*20.14*1.2364=?P41-11,统计学基础(二),误差的传递,一、系统误差的传递规律1.加减法:设R为计算结果,A、B、C为三个测量数据,它们的绝对系统误差为EA、EB、EC,对分析结果的绝对系统误差为ER,其计算关系式为:结果的绝对误差是各步骤绝对误差的代数和,统计学基础(二),若,则,若,则,误差的
16、传递,一、系统误差的传递规律,统计学基础(二),2.乘除法:设R为计算结果,A、B、C为三个测量数据,它们的系统误差为EA、EB、EC,对分析结果的系统误差为ER,其计算关系式为:结果的相对误差是各步骤相对误差的代数和。注意:如分析结果计算公式中同时有四则运算,先计算加减后计算乘除!,误差的传递,例:X=(A-C)/G 已知:EA=EC=0.1 EG=0.001A=80.0 C=1.0 G=1.0 求X,EX,X校正各为多少?解:X=79.0 EA-C=EA-EC=0,统计学基础(二),误差的传递,一、系统误差的传递规律,统计学基础(二),3.指数关系4.对数关系,误差的传递,一、偶然误差的传递规律,统计学基础(二),1.加减法,结果的标准偏差的平方是各测量值标准偏差的平方总和,2.乘除法结果的相对标准偏差的平方是各测量值相对标准偏差的平方总和,3.指数关系,4.对数关系,例 设天平称量时的标准偏差s=0.10mg,求称量试样时的标准偏差sm?解:称量质量m是称量两次的差值,例 移取NaOH溶液25.00mL,用0.1000molL-1 HCl标准溶液滴定消耗30.00mL。已知移取时s1=0.02mL,每次读取滴定管读数时s2=0.01mL,计算标定NaOH溶液时的标准偏差sc?解:,P22,1-17,1-18,作业,P41:1,4,5,