试验设计与优化拟合ppt课件.ppt

上传人:小飞机 文档编号:1892442 上传时间:2022-12-24 格式:PPT 页数:185 大小:1.87MB
返回 下载 相关 举报
试验设计与优化拟合ppt课件.ppt_第1页
第1页 / 共185页
试验设计与优化拟合ppt课件.ppt_第2页
第2页 / 共185页
试验设计与优化拟合ppt课件.ppt_第3页
第3页 / 共185页
试验设计与优化拟合ppt课件.ppt_第4页
第4页 / 共185页
试验设计与优化拟合ppt课件.ppt_第5页
第5页 / 共185页
点击查看更多>>
资源描述

《试验设计与优化拟合ppt课件.ppt》由会员分享,可在线阅读,更多相关《试验设计与优化拟合ppt课件.ppt(185页珍藏版)》请在三一办公上搜索。

1、第三部分试验设计,实验设计与优化的重要性,就分析化学而言,通过试验设计以找到最优的量测实验条件一直是化学计量学研究的一个重要内容,如色谱分析中的最优分离条件的选择、各种仪器分析方法的诸多参量的选择等。 对于化学量测实验,试验设计的成败,关系到实验能否得到包含所需信息的化学量测数据,一个失败的试验设计将导致所得到的数据中包含的信息量极低,任何卓有成效的处理数据的化学计量学方法也无法从中提取有用的信息。,教学内容,1基本概念2 因子设计和部分因子设计3正交试验设计4 均匀试验设计5 D-最优试验设计6 星点设计,基本概念,试验指标或响应值,在试验设计中,衡量试验效果的量称为试验指标或响应值,能用数

2、值表述的指标称定量指标,如化学反应的产率、分析试验的检测限或其他品质因数等。,定性指标,不是用量表示的指标称为定性指标,如化学产品的色度等。,定量指标,定性指标常可转化为定量指标,如用5级计分进行评分等。,多指标试验设计,当试验设计的指标要用一组数表示时,如分析方法的优化需考虑灵敏度、准确度、选择性等,称多指标试验设计的问题。,因素(因子),在改变试验条件时,能够影响试验指标取值的量称为因素(亦称因子)。,因素也可以是定量因素或定性因素,和指标一样,定性因素总可转化为定量因素。,水平,因素的取值,称为因素(或因子)的水平。,一般试验方案是由若干个试验组成,因素在这些试验中变化了几种状态就称为几

3、种水平。,试验设计中,只对可控因素在试验前作出设计,而对不可控因素,则在试验过程中记录其水平,在数据分析中加以处理。,有的因素所处的状态是不可控制的,例如在自然条件下进行的某些试验。一般化学实验的条件多是可控。,水平,协同作用,交互作用,试验域,因素的可能取值的区域称为试验域,多个因素对试验的共同影响,但不是简单的加和的现象。,同时试验,通过试验设计对有关因素的水平进行规划后,同时进行诸因子各水平的试验,继综合分析所得到的试验结果,求出最优条件。,序贯试验,每进行一次或少数几次试验后,先分析已取得的试验结果,再根据这些结果规划下一步的试验,目前应用广泛的正交试验、均匀试验设计及最优试验设计基本

4、上属于同时试验法,而序贯试验法的典型代表是单纯形优化法。值得提出的是,同时试验与序贯试验可在优化试验中综合使用。,序贯试验,设计和优化,试验设计就是研究如何选择和优化实验条件,好的试验设计能够通过有限次数的试验,选择优良的实验条件,节约人力、物力、财力和时间。因此,试验的设计与优化密不可分。,方法分类,分析法,在试验区域内有目的、有规律地散布一定量的试验点,多方向同时寻找优化目标。因只是对给定条件下一切可能的试验点进行优化,因此不能真正实现全局优化,所谓的最优化只是近似的,最优点也只是较优点。但实际应用表明,该优化方法完全能够满足一般科研和生产的实际需要。,也就是同时试验法又称同步试验法或离散

5、优化法,黑箱法,在实现优化目标的整个过程中,遵循一定的优化路径逐渐寻找最优点的方法,它是单向寻优,后一阶段是在前一阶段优化的基础上进行。,方法分类,也就是序贯试验又称循序试验法或序贯优化,拉丁方,18世纪的欧洲,普鲁士弗里德里希威廉二世要举行一次与往常不一样的阅兵仪式,他要求阅兵式由6列方队组成,每个方队的行和列都要由6种不同部队的6种军官组成,不得有重复和空缺。这实际上就是要求在6列方队中,安排的部队、军官在,行和列全部排列均衡。这在当时可难坏了大臣们,他们冥思苦想也没有找到答案,就请教于当时著名的数学家欧拉。,由此引起了数学家们的极大兴趣,提出了均衡分布的新的数学思想,这种思想对研究自然世

6、界具有普遍的意义。这种思想正是今天试验设计的基本思想。20世纪20年代,英国统计学家Fisher运用均衡排列的拉丁方成功地解决了农业试验中的试验条件不均匀问题,创立了试验设计这一学科。,拉丁方是用字母或数字排列的具有一定性质的方阵,每个字母或数字在该方阵中每行和每列中恰好出现一次,方阵的行数或列数称为拉丁方的阶。,第一行,以及第1列上所有字母(或数字)是按字母(或数字)顺序排列的拉丁方。如上图中前一种,标准拉丁方,从标准拉丁方出发,通过交换行或列可得到其它形式的拉丁方。如上图后一种是由标准形式的1和2列互换而得,因子设计,因子设计(Factorial Design)是一种多因素试验设计方法。因

7、子设计根据拉丁方的思想,考察各因素所有可能的组合来安排实验,属于全面试验。,试验数目,因子设计的任务就是要通过这样的试验安排来了解各个因素及各因素水平之间的搭配对响应值或指标的影响,即析因问题。,为水平数(n)为底、因素数(m)为指数的幂,即nm,2水平 3 因素: 23=82水平 4 因素: 24=162水平 7 因素: 27=1283水平 4 因素: 34=81,析因设计表,因素:A因素 B因素 AB因素,水平:低水平 高水平,FD4(22)析因设计表,第1列是试验序号,第2列是第1个因素从开始,以与相间排列,第列是第个因素从与开相间排列, 即前一因素的水平加倍后,再相间排列,第4列是两因

8、素的交互效应列,遵守乘法规则排列,FD8(23)析因设计表,设计矩阵MATLABR的实现,fullfact函数,desing=fullfact(levels),格式,说明,函数FULLFACT用于混合水平(mixed-levels)的全因子设计矩阵。输入矢量参数levels用于定义因素的水平数,如levels=2 4 3,函数将给出24次试验的全因子设计矩阵。其中第1列是2水平;第2列是4水平;第3列是3水平。,示例,d = 1 1 1 2 1 1 1 2 1 2 2 1 1 1 2 2 1 2 1 2 2 2 2 2 1 1 3 2 1 3 1 2 3 2 2 3,d=fullfact(2

9、2 3),d = 0 0 0 0 0 1 0 1 0 0 1 1 1 0 0 1 0 1 1 1 0 1 1 1,示例,d=ff2n(3),full2n函数,格式,desing=full2n(N),说明,Full2n用于构建两水平设计表,给出具有N列的设计矩阵,其中输入参数N为因子数,效应分析,主效应估价,主效应:单个因素对实验结果的影响,A因素主效应,B因素主效应,因素主效应等于: (高水平和低水平之和)/水平重复数,效应A=(y2-y1)+(y4-y3)/2 =(y2+y4)-(y1+y3)/2,=(y3-y1)+(y4-y2)/2 =(y3+y4)-(y1+y2)/2,交互效应估价,交互

10、效应在直观图上表现为对角线的变化,交互效应=(正项和负项和)/重复数,交互效应存在于否的直观判定,FD8(23)析因设计表,对于FD8(23)析因设计,各因素主效应,A效应=(y2+y4+y6+y8) (y1+y3+y5+y7)/4,B效应=(y3+y4+y7+y8) (y1+y2+y5+y6)/4,C效应=(y5+y6+y7-y8) (y1+y2+y3+y4)/4,对于三因素的试验,其各因素的主效应已由原来的二因素的线表示,变化成面的表示。联系其设计表,各因素的主效应对应的计算式如下,FD8(23)析因设计表,两因素间交互作用效应,三因素中任意两因素间的交互效应已由原来的二因素试验时的交线变

11、为交叉成面的表示。联系其设计表对应的计算式如下,AB交叉效应=(y1+y4+y5+y8) (y2+y3+y6+y7)/4,AC交叉效应=(y1+y3+y6+y8) (y2+y34+y5+y7)/4,BC交叉效应=(y1+y2+y7+y8) (y2+y3+y5+y6)/4,三因素间交互作用效应,ABC三项间的交叉作用在立体直观图上无法表示,其对应的计算式为,ABC交叉效应 =(y2+y3+y5+y8) (y1+y4+y6+y7)/4,【例】液相色谱分离酚,试验立体直观图,主效应,=(y2+y4+y6+y8)-(y1+y3+y5+y7)/4 =(9.5+10.7+8.8+11.7) - (10.0

12、+11.0+9.3+11.9) /4 = -0.375,=(y3+y4+y7+y8) - (y1+y2+y5+y6)/4 =(11.0+10.7+11.9+11.7)-(10.0+9.5+9.3+8.8)/4 =1.925,=(y5+y6+y7+y8) - (y1+y2+y3+y4)/4 =(9.3+8.8+11.9+11.7) -(10.0+9.5+11.0+10.7)/4 =0.125,甲醇(M),乙酸(A),柠檬酸(C),两因素交叉效应,乙酸对甲醇(AM) =(y8+y5+y4+y1)- (y7+y6+y3+y12)/4 =(11.7+9.3+10.7+10) -(11.9+ 8.8+1

13、1+9.5+)/4 =0.125,乙酸对柠檬酸(AC) =(y8+y6+y3+y1)- (y7+y5+y4+y2)/4 =(11.7+8.8+11+10) -(11.9+ 9.3+10.7+9.5+)/4 =0.025,两因素交叉效应,甲醇对柠檬酸(MC) =(y1+y2+y7+y8)- (y3+y4+y5+y6)/4 =(10+9.5+11.9+11.7) -(11+10.7+9.3+8.8)/4 =0.825,三因素交叉效应,乙酸甲醇柠檬酸(AMC) =(y2+y3+y5+y8)- (y1+y4+y6+y7)/4 =(9.5+11+9.3+11.9) -(10+10.7+8.8+11.9)

14、/4 =0.025,效应及残差正态图,效应正态图(Normal plot of effects),对各因素的主效应及交叉效应的计算后,进而需对这些效应进行统计估价,决定哪些效应在模型建立时需要包括,哪些可以忽略。,正态图即正态分布图。是用来检测一系列 变量是否服从正态分布的图形。 因正态分布为一种由多种不定因素综合效 果而产生出来的分布,所以,如某些效应 服从正态分布,就可认为它们实际对实验 不产生显著影响。,残差正态图(Normal plot of residuals),残差正态图是在建立模型后,按模型计算试验结果的残差,进而对残差进行统计估价,判断所得模型是否合理。,正态分布图的构造,1)

15、先将需检验的一系列变量按大小进行排列,对于已得到的各种效应,可得如下表所示的排列;,色谱分离试验所得各种效应的顺序排列表,效应名称 A AC AMC C AM MC M效应数值 -0.375 0.025 0.025 0.125 0.125 0.825 1.925,2)计算累积概率:对于有T个数据的系列,可根据以下公式计算它们的累积概率,Pi(%) =100 (i - 0.5) / T,3)以需检验变量的标度为x轴,以累积概率为y轴作图,在图上能用一条直线描述的变量可视为是服从正态分布的变量。,效应名 A AC AMC C AM MC M概率 7.14 21.43 35.71 50 64.88

16、78.57 92.86,色谱分离试验的正态分布图,从图可以看出,效应AC、AMC、C以及AM正好落在一条直线上,说明它们对试验的影响很小,可以忽略。于是,如果需对此色谱分离试验建立回归模型的话,只需选择乙酸(A)、甲醇(M)和甲醇及柠檬酸的交叉效应(MC)来建立相应的模型即可。,对数据建模得,y =10.363 - (0.375/2)XA +(1.925/2)XM +(0.825/2)XMC,得到上述模型后,用它来计算该模型的残差,如所得残差按上述方法所得的残差正态分布图可用一直线表出,说明模型是合理的。用此模型算出的残差列表,它们的残差正态分布图示于下图。这些残差点近似可由一条直线表出,但分

17、散度较大。,No. 1 2 3 4 5 6 7 8实验值 10.09.511.010.7 9.3 8.8 11.9 11.7计算值 10.08.8011.111.55 10.0 8.80 11.10 11.55残差 -0.00.70-0.10-0.85-0.70-0.00 0.80 0.15,色谱分离试验所得残差表,色谱分离试验的残差正态分布图,对于来自于正态分布的一系列数据X,当把X按升序(由小到大)排列、对序号绘图后,大多数数据近似一条直线。,正态分布图,正态分布随机产生的标准差为1的组数,排序后示意图( 均值为0, 100个数据),将T个自然数进行变换,使成累积概率形式,Pi(%) =1

18、00 (i - 0.5) / T,此时,累积概率同自然数序列成线性关系,正态分布随机产生的(均值为0,标准差为1 )100个数据的组数,排序后,对按自然数进行变换,使成累积概率作图,正态分布随机产生的(均值为0,标准差为1 )10个数据的组数,排序后,对按自然数进行变换,使成累积概率作图,正态分布随机产生10个数据,排序后,对按自然数进行变换,使成累积概率作图,对直线偏离较大的点,或是不来自不同分布,蓝:均值为0标准差为1 ;红,均值为0标准差为4黑:均值为4标准差为1,有关MATLAB指令,生成服从正态分布的随机数:r=normrnd (mu, sigma, m)% mu为均值% sigma

19、为标准差% m为12的向量%r=normrnd(0,1,100 1)排序: r=sort(r)累积概率:y=100*(i-0.5)/T绘图:plot(r,y,o)添加最小二乘拟合线:isline,经正态分布图估算效应的其它算法,直接绘正态概率图,MATLAB 指令normplot(x) % x 待处理原始数组,正态分布的Q-Q图,MATLAB 指令qqplot(x),关系模型,对于二因素试验方案,当用代表Y指标,代表X因素,因素与指标间的模型可用下列方程表示,式中y表示4次试验结果构成的矢量,xj表示第j个因素在4 次试验中的水平矢量;e 为误差矢量。写成矩阵为,即,A的最小二乘解为,矩阵A中

20、第一个a0元素是一常量(平均贡献)a1, a2, 分别是因素x1和x2的主效应a3是因素x1和x2的两者之间x1x2的交互效应的量度。,在因子设计中,X矩阵的形式非常简单,元素仅为“+1”和“-1”,其逆阵存在、且其值是原矩阵的X的转置1/n倍。其中n为试验次数,故可有,即,同理对于三因素试验方案,对于实例模型,y =10.363 - (0.375/2)XA +(1.925/2)XM +(0.825/2)XMC,平均贡献=10.363,2水平因子设计时需计算的效应数,在实际研究中,因素只有3个的并不多,而且因素试验的水平也不可能只限于2,只要因素和水平数一增加,因子设计就显出了它的不足。即使全

21、部因素均是二水平的,当因素数为n时,总试验数就是N=2n。,部分因子设计(Fractional Factorial Design),对于2水平的部分因子设计半因子设计法 N=2n-1四分之一因子设计法 N=2n-1对于3水平的部分因子设计三分之一因子设计法 N=3n-1,为何要进行部分因子设计?,在不损失信息的情况下,减少试验次数,这一目标可能实现吗?,相关因素 硫酸锌(Zinc sulphate,Z) 硫酸镁(Magnesium sulphate,M) pH值(P) 对硝基苯基磷酸二钠 (Disodium p-nitrophenyl phosphate,D) 2-氨基2-甲基-1-丙醇 (2

22、-Amino-2-methyl-1-propanol, A),实例:磷酸酶活性,构造一个五因素两水平的全因子设计表来进行实验,以得到有关磷酸酶活性的主要影响因素等信息。试验次数N=25=32,磷酸酶活性25次全因子效应正态分布图,此结果似乎说明对于磷酸酶活性的试验原本就可只用三因子设计表来完成,因pH和硫酸镁的效应不显著。这从另一方面说明25次全因子试验本身就存在信息盈余,完全可以想办法减少试验次数。,对磷酸酶活性有显著影响的因素,A(2-氨基2-甲基-1-丙醇),D(对硝基苯基磷酸二钠),Z(硫酸锌),ZD交叉效应(对硝基苯基磷酸二钠与硫酸锌),DA交叉效应 (2-氨基2-甲基-1-丙醇与对

23、硝基苯基磷酸二钠),磷酸酶活性25-1次半因子效应正态分布图,3 正交试验设计,基本思想在试验因素的全部水平组合中,挑选部分有代表性的水平组合进行试验,通过对这部分试验结果的分析了解全面试验的情况,找出最优的水平组合。特点用部分试验来代替全面试验,通过对部分试验结果的分析,了解全面试验的情况。本质上正交试验设计是一种特殊的部分因子设计,正交试验设计,正交试验设计法是利用规格化的表格正交表,科学地挑选试验条件,合理安排实验。正交试验设计法最早由日本质量管量专家田口玄一(Taguchi 日本工业之父)提出,称为国际标准型正交试验法。认为:“一个工程技术人员若不掌握正交试验设计法,只能算半个工程师”

24、。我国工业企业,正交试验设计法的应用也取得相当的成就,中国数学家张里千教授发明了中国型正交试验设计法。上世纪六七十年代由华罗庚教授倡导而兴起。,全面试验与正交试验,全面试验指参与试验的全部因素与全部水平互之间的全部组合。 例:有3个因素(A,B,C), 每个因素有两水平(A1 A2,B1 B2,C1 C2) 则全面试验数为:238 当3因素3水平时,全面试验的次数达到27次正交试验相应的试验次数分别为4次和9次。,3因素(ABC) 2水平(1,2)的全面试验A1B1C1,A1B1C2, A1B2C1,A1B2C2, A2B1C1, A2B1C2,A2B2C1, A2B2C2,23因子设计(全面

25、试验)表,全面试验与正交试验直观图,全面试验:27个试验点正交试验:9个试验点,二因素三水平直观图,三因素三水平直观图,每一平面有均匀分布的2个试验点,3因素(ABC)3水平(1, 2, 3)试验,每一平面有均匀分布的3个试验点,完全对,设有两组元素a1, a2, , an与b1, b2, , bn, 则有nm个“元素对”,上数表为两组元素构成的“完全对”。如有一个矩阵的某两列中,同行元素所构成的元素是一完全对,并在此两列中每对出现的次数也相同,则称这两列搭配均衡,否则为搭配不均衡。,两列搭配均衡,两列搭配不均衡(每对出现的次数不同),对于一个nm阶矩阵A,它的第j列的元素由数码1,2,, t

26、j (j=1, 2, , m)所构成,如该矩阵的任意两列都搭配均衡,则称矩阵A为一个正交表。这里称矩阵为表,因可将其写成表格的形式,常简记为,L:正交表的代号,拉丁方(Latin square)第一个字母,n :试验次数,tj (j=1, 2, , m):第j列由tj个水平组成,t水平正交表,各列水平均相同的正交表,混合型正交表,水平数均不同的正交表,L9(33)试验表(1/3实验),正交表的基本性质,任一列中,各水平都出现,且出现的次数相等。例如L9(33)中不同数字有1、2和3,它们各出现3次。任何两列之间各种不同水平的所有可能组合都出现,且对出现的次数相等。即每个因素的一个水平与另一因素

27、的各个水平所有可能组合次数相等。例如L9(34)中,A列与B列,A的3个水平分别与B的3个水平均进行了组合。A与C、A与D、B与C,B与D、C与D同样呈现上述的规律。,正交性,正交表的基本性质,(1)任一列的各水平都出现,使得部分试验中包括了所有因素的所有水平;(2)任两列的所有水平组合都出现,使任意两因素间的试验组合为全面试验。由于正交表的正交性,正交试验的试验点必然均衡地分布在全面试验点中,具有很强的代表性。因此,部分试验寻找的最优条件与全面试验所找的最优条件,应有一致的趋势。,代表性,正交表的基本性质,综合可比性,在这9个水平组合中,A因素各水平下包括了B、C因素的3个水平,虽然搭配方式

28、不同,但B、C皆处于同等地位,当比较A因素不同水平时,B因素不同水平的效应相互抵消,C因素不同水平的效应也相互抵消。所以A因素3个水平间具有综合可比性。同样,B、C因素3个水平间亦具有综合可比性。,正交表的基本性质,正交表的三个基本性质中,正交性是核心,是基础,代表性和综合可比性是正交性的必然结果 根据以上特性,我们用正交表安排的试验,具有均衡分散和整齐可比的特点。,La(bc),正交设计,试验总次数,行数,因素的水平数,因素个数,列数,正交表的符号La(bc),正交试验方案设计,试验目的与要求,试验指标,选因素、定水平,选择合适正交表,列试验方案,试验结果分析,交互效应,根据L8(27)表和

29、其交互效应表,可将A因素定在L8(27)表的第一列,B因素定在L8(27)表的第二列。从L8(27)的交互效应表知,第1列与第2列的交叉效应在第3列,将其空出,将C因素定在第4列,再由交互效应表知,第1列与第4列的交互效应在第5列,故也需将第5列空出,在根据交互效应表找出B因素与C因素的交互效应列,即第2列与第4列的交互效应列,从交互效应表可找出它们的交互效应列是第6列,也将其空出。于是,D因素就定在第7列了。,示例,设有一化学反应,需考察四个实验条件的影响:1)反应温度(A);2)反应时间(B);3)反应物配比(C);4)反应压力(D),并设各条件均是两水平,考察交叉效应:A与B、A与C、B

30、与C,使用L8(27)表,直观分析法极差分析法,计算Kjm,kjm, Rj,判断,因素主次,优水平,优组合,正交试验的结果分析,Kjm为第j列因素m水平所对应的试验指标和,kjm为Kjm平均值。,Rj为第j列因素的极差,反映了第j列因素水平波动时,试验指标的变动幅度。Rj越大,说明该因素对试验指标的影响越大。,根据Rj大小,根据kjm大小,根据kjm大小,山楂液化率试验,影响因素,品种、果肉破碎度、加水量、pH 、果胶酶种类、酶量、酶解温度、酶解时间,试验因素,A:水量、B:酶量、C:酶解温度、D:酶解时间,因素个水平:3,试验仅考察四个因素对液化率的影响效果,不考察因素间的交互作,选用L9(

31、34)正交表。,指标趋势图,MATLAB计算, r=4; f=3; %因素、水平数r1,c=size(data1); %数据大小t=zeros (f, r); %预设极差为零 for k=1:f for j=1:r b=0; for i=1:r1 if data1(i,j)= =k %水平相同 b=b+data1(i,c); %同水平相加 end end t(k,j)=b; %替换 end end t1=t/3; %求均值 r=max(t1)-min(t1); %求极差, data1=1 1 1 1 0 1 2 2 2 17 1 3 3 3 24 2 1 2 3 12 2 2 3 1 47 2

32、 3 1 2 28 3 1 3 2 1 3 2 1 3 18 3 3 2 1 42;,正交试验结果的方差分析,将数据的总变异分解成因素引起的变异和误差引起的变异两部分,构造 F 统计量,作 F 检验,即可判断因素作用是否显著。,基本思想,偏差平方和分解,自由度分解,方差,构造F统计量,列方差分析表,作F检验,若计算出的F值F0Fa,则拒绝原假设,认为该因素或交互作用对试验结果有显著影响;若F0Fa,则认为该因素或交互作用对试验结果无显著影响。,L9(34)正交表,分析第1列因素时,其它列暂不考虑,将其看做条件因素。,因素A第1水平3次重复测定值,因素A第2水平3次重复测定值,因素A第3水平3次

33、重复测定值,单因素试验数据资料格式,Ln(mk)正交表及计算表格,总偏差平方和,列偏差平方和,试验总次数为n,每个因素水平数为m个,每个水平作r次重复rn/m。,当m2时,,总自由度,因素自由度,啤酒酵母的最适自溶条件,示例2,试验指标,自溶液中蛋白质含量()。,试验因素,温度(), pH值,加酶量(),因素水平表,试验方案及结果分析表,计算,计算各列各水平对应数据之和K1j、K2j、K3j及其平方K1j2、K2j2、K3j2。,计算各列偏差平方,同理,SSB=6.49,SSC=0.31,SSe=0.83(空列),计算自由度,计算方差,显著性检验,根据以上计算,进行显著性检验,列出方差分析表,

34、结果见表2-1,表2-1 方差分析表,dfAdfBdfCdfe3-1=2,因素A高度显著,因素B显著,因素C不显著。因素主次顺序A-B-C。(c可以选取最小值),优化工艺条件的确定,本试验指标越大越好。对因素A、B分析,确定优水平为A3、B1;因素C的水平改变对试验结果几乎无影响,从经济角度考虑,选C1。优水平组合为A3B1C1。即温度为58,pH值为6.5,加酶量为2.0%。,MATLAB的运用,anovan函数,功能:进行多因素的方差分析(analysis of variance),p=anovan (x, group),x: 试验结果。,group:因素水平(各个因素个水平的排布即每列的

35、排布没有交互相和误差项),x=6.25 4.97 4.54 7.53 5.54 5.5 11.4 10.9 8.95;,g=1 1 1 2 2 2 3 3 3;1 2 3 1 2 3 1 2 3;1 2 3 2 3 1 3 1 2, p=anovan(x,g),%转置使p结果行显示,p p = 0.0179 0.1133 0.7264,C因素最不显著,将其剔除再做方差分析(c与e作误差相), g=1 1 1 2 2 2 3 3 3;1 2 3 1 2 3 1 2 3, p=anovan(x,g),p =0.0006 0.0224,:N个主效应零假设的p值。小于0.05或0.01时,认为结果显著

36、,%花括号:元胞数组,正交试验方差分析说明,误差自由度一般不应小于2,dfe很小,F检验灵敏度很低,有时即使因素对试验指标有影响,用F检验也判断不出来。为了增大dfe,提高F检验的灵敏度,在进行显著性检验之前,先将各因素和交互作用的方差与误差方差比较,若MS因(MS交) 2MSe,可将这些因素或交互作用的偏差平方和、自由度并入误差的偏差平方和、自由度,这样使误差的偏差平方和和自由度增大,提高了F检验的灵敏度。由于进行F检验时,要用误差偏差平方和SSe及其自由度dfe,因此,为进行方差分析,所选正交表应留出一定空列。当无空列时,应进行重复试验,以估计试验误差。,表3-1试验方案及结果分析表,示例

37、 3 AAS法测定食品中的铅,表3-2 方差分析表,显著性检验,因素B高度显著,因素A、C及交互作用AB、AC、BC均不显著。各因素对试验结果影响的主次顺序为:B、A、AC、C、AB、BC。,优化条件确定,交互作用均不显著,确定因素的优水平时可以不考虑交互作用的影响。对显著因素B,通过比较K1B和K2B的大小确定优水平为B2;同理A取A2,C取C1或C2。优组合为A2B2C1或A2B2C2。,方差分析可以分析出试验误差的大小,从而知道试验精度;不仅可给出各因素及交互作用对试验指标影响的主次顺序,而且可分析出哪些因素影响显著,哪些影响不显著。对于显著因素,选取优水平并在试验中加以严格控制;对不显

38、著因素,可视具体情况确定优水平。但极差分析不能对各因素的主要程度给予精确的数量估计。,mydata=1 1 1 1 1 1 1 2.42;1 1 1 2 2 2 2 2.24;1 2 2 1 1 2 2 2.66;1 2 2 2 2 1 1 2.58; 2 1 2 1 2 1 2 2.36;2 1 2 2 1 2 1 2.4;2 2 1 1 2 2 1 2.79;2 2 1 2 1 1 2 2.76;,f=2;r=7; r1,c=size(mydata);t=zeros(f,r);for k=1:f for j=1:r b=0; for i=1:r1 if mydata(i,j)=k b=b+

39、mydata(i,c); end end t(k,j)=b; endendt/4R=max(t/4)-min(t/4),运用MATLAB分析,R = 0.1025 0.3425 0.0525 0.0625 0.0675 0.0075 0.0425,t =9.9000 9.4200 10.2100 10.2300 10.2400 10.1200 10.1900 10.3100 10.7900 10.0000 9.9800 9.9700 10.0900 10.0200,g=1 1 1 1 2 2 2 2;1 1 2 2 1 1 2 2 ;1 2 1 2 1 2 1 2;,anovan(mydata

40、(:,8), g, 1 2 3 4 5),由极差结果可知,6与7列对试验结果影响很小,可删除,方差分析,% mydata(:,8):试验指标,% 1 2 3 4 5方差分析的编码 1 主项A 2 主项B 3 交叉项AB 4 主项C 5 交叉项AC 6 交叉项BC 7 交叉项ABC 8 交叉项D,anovan(mydata(:,8), g, 1 2 4 5),ans = 0.0795 0.0032 0.2094 0.1839,ans = 0.0784 0.0078 0.2275 0.1771 0.1575,试验目的与要求,试验指标,选因素、定水平,因素、水平确定,选择合适正交表,表头设计,列试验

41、方案,试验方案设计,试验结果分析,进行试验,记录试验结果,试验结果极差分析,计算K值,计算k值,计算极差R,绘制因素指标趋势图,优水平,因素主次顺序,优组合,结 论,试验结果分析,试验结果方差分析,列方差分析表,进行F 检验,计算各列偏差平方和、自由度,分析检验结果,写出结论,4均匀设计(uniform design),概 述,上世纪70年代我国巡航导弹研究,当时七机部的5因素多于10水平,试验总数小于50的要求,问题提出,发明人,王元 时任中科院数学所所长方开泰 时任中科院应用数学所副所长,历史,85 多元统计学习班,2002福特汽车公司讲学,论文、专著,均匀设计学会,特点,试验点分布均匀分

42、散,在处理设计中各个因素每个水平只出现一次,适用于多水平多因素模型拟合及优化试验,试验结果采用回归分析方法,与正交设计的比较,正交试验特点为“均衡分散、整齐可比”,而均匀设计不考虑整齐可比性而完全保证均匀性,让试验点在试验范围内充分地均匀分散,大大地减少了试验点,对于3因素5水平试验,正交法需25次试验,而均匀法仅有5次。,3因素5水平均匀设计和正交设计的比较图,均匀设计表及其使用,Un(qs),均匀设计,试验次数,因素的最大数,水平数,均匀设计表及其使用,均匀设计是通过一套精心设计的表来进行试验设计的。每一个均匀设计表有一个代号,Un(qs) 其中“U”表示均匀设计,“n” 表示要做n 次试

43、验,“q”表示每个因素有q个水平(n=q) ,“s”表示该表有s列。,每个均匀设计表都附有一个使用表,它指示我们如何从设计表中选用适当的列,以及由这些列所组成的试验方案的偏差。,由于均匀设计表列间的相关性,最多安排因素,U5(54)表,U5(54)使用表,U7(76)表,U7(76)使用表,U9(96)表,U9(96)使用表,均匀设计表结构,每个因素的每个水平各作一次试验,表中的行数体现了 水平数,即试验次数;表中的列数是最多可供选择的列 数。,表中第一列的数字按自然数的顺序由1排到n(试验次数),对于为素数的试验表,表中第一行的数字,按自然数的 顺序由1排到n-1,对于为非素数的试验表,表中

44、第一行的数字均小于n , 且不包括可被n整除的数,排列顺序也是由小到大,任一列的数字没有重复,对于n为偶数的试验表,列数较少。,均匀设计表使用,对于均匀设计使用表,是建议我们如何选择适当的列。其中偏差为均匀性的度量值,数值小的设计表示均匀性好。例如 U7 (74)的使用表为,均匀设计表使用,数据分析多元回归复习,一元线性回归分析,x:0.0000.0200.0400.0600.0800.1000.120y:0.0320.1350.1870.2680.3950.4350.511,X与Y的函数表达?,X与Y函数式怎样确定?,X与Y函数式正确性如何?,X与Y的函数表达?,若n有个实验点(xi,yi)

45、,则的观察值yi可由下式表达,式中,ei为残差。令yi的估计值为,则,X与Y函数式怎样确定?,只要确定了线性方程中的b(斜率)与a (截距),即可确定函数式,X与Y函数式正确性如何?,所有的点(xi, yi)到直线距离越近,即选取a 与 b ,使残差平方和 Q= ei2=yi(a+bxi)2越小,所建立的函数式越准确,即最小二乘。,求Q(a,b)的最小,即求其极值,利用上二式可解得,系数的求算,相关程度检验,用一个数量性指标来描述两变量线性关系的密切程度。在直线回归中,人们常用相关系数r来衡量两变量间线性关系的密切程度。,r值在01之间,r值越接近0,两变量间的线性相关性越差;越接近1,两变量

46、间的线性相关性越好。,方差分析,总偏离平方和,加归平方和,残差平方和,MATLAB的实现,restool函数,生成线性拟合图,在图中Export下拉式中进行选择,当选all后,蓝线可拖动,相应的X1,Y1发生变化,或在X1框中输入,beta %拟合系数,beta =0.0399 4.0089前一为截距a,后一为斜率b,rmse %均方差,rmse=0.0197, residuals %残差,-0.0079 0.0149 -0.0133 -0.0124 0.0344 -0.0058 -0.0100,Corrcoef 函数,corrcoef(x,y),ans = 1.0000 0.9947 0.9

47、947 1.0000,多元线性回归分析,m个变量n次测试的一般表示,y的观测值可表示为,令,则,类似一元回归,统计检验,若,则说明回归效果较显著,复相关系数,MATLAB的实现,regess函数,b,bint,r,rint,stats=regress(y,x),stats包含R2统计量,回归的F值和p值,X=,7 1 11 11 7 1,1 3 1 2 21 1 11 10 26 29 56 31 52 55 71 31 54 47 40 66 68 6 15 8 8 6 9 17 22 18 4 23 9 8 60 52 20 47 33 22 6 44 22 26 34 12 12,y=7

48、8.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4,在b中返回的估计,bint为的95置信区间r为残差,,b = 2.1930 1.1533 0.7585 0.4863,bint =1.7739 2.6122 1.0449 1.2618 0.3977 1.1194 0.3926 0.5800,r = -0.5680 1.9943 -0.2042 -1.2017 -0.0239 4.1180 -1.5779 -3.5314 2.0821 -0.0386 1.4933 0.3946 -2.8605,rint =

49、 -4.7218 3.5858 -2.6478 6.6363 -5.6325 5.2240 -6.1767 3.7733 -4.7305 4.6828 -0.2283 8.4642 -6.0304 2.8747 -7.1130 0.0502 -2.8664 7.0306 -3.3262 3.2490 -2.9409 5.9276 -4.8088 5.5980 -7.3850 1.6639,stats = 0.9860 152.6920 0.0000,逐步回归分析,最优回归方程的选择,从所有可能的组合中挑选最优。但变量多时不可行,从包含全部变量方程中剔除。但当变量很多,且重要变量 少时,方法效率

50、低。,把变量个引入方程。但先引入的可能使后面的变量的显著 性降低,逐步回归法,按自变量对y作用的显著程度,从大到小依次逐个引入,但先引入的变量由于后面的变量变的不显著时,则随时将其剔除。即每一步的前后都要作显著性检验,引入新变量前回归方程中只包含显著的变量,直到没有显著的变量可引入。,MATLAB的实现,Stepwise(x,y)函数,窗口1,Parameter:变量回归系数,Cofidence intervals:变量回归系数95%置信区间,RMSE:均方差; R-suare:相关系数平方,窗口2,均方差示意图,窗口3,误差条图,点击图中圆圈或线,可转换对应变量的引入或剔除状态。红色对应剔除

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号