《DPS数据处理详解ppt课件.ppt》由会员分享,可在线阅读,更多相关《DPS数据处理详解ppt课件.ppt(156页珍藏版)》请在三一办公上搜索。
1、DPS数据处理系统及应用,DPS介绍,一、DPS 基本操作1.文件基本操作打开文件:可以打开DPS数据文件;文本文件;或Excel数据文件新建文件:保存文件:,文件打印,2.数据输入和复制1)数据输入建立新的DPS文件后,便可进行输入数据操作,DPS中以单元格为单位进行数据的输入,选中单元格即可输入数据。DPS中数据类型分为3类:数值型;字符型;日期型。DPS根据输入数据的格式自动判断数据属于什么类型。 如日期型的数据输入格式为:“月/日/年”、“月-日-年”或“时;分;秒”。 如输入的数据由数字与小数点构成,DPS自动将其识别为数值型。数据数据统计分析要求是数值型数据。数值型数据显示为蓝色。
2、字符型数据显示为黑色。,点击工具栏的(设置单元格格式)按钮,弹出“单元格属性”对话框,可以改变当前数据块中的文字字体、字号、对齐方式等格式。,2)数据复制可以在不同单元格之间复制数据,也可以在不同工作表之间复制数据。可以一次复制一个数据,也可以同时复制一批数据。复制方法:(1)同word; (2)利用填充柄复制 即选中单元格数据,然后缓慢移动鼠标到单元格的右下角,当鼠标形状变为黑色实心“十”字后,拖动鼠标到目标单元格即可完成复制。,3.数据删除,行列插入、删除数据删除:直接选中单元格数据敲Delete删除整行、整列插入、删除:用鼠标选中单元格,点击插入行按钮 ,会在该单元格上方插入一行。用鼠标
3、选中单元格,点击插入列按钮 ,会在该单元格左方插入一列用鼠标选中要删除的行,点击删除行按钮 ,可删除该行。用鼠标选中要删除的列,点击删除列按 ,可删除该列。,4.当前工作表规格定义 DPS工作表,每张表最大可为255列65535行。在此范围内,工作表大小可根据需要自己设定。设定方法: 点击工具栏里的设置表格行列数按钮 (或点击数据编辑表格尺寸), DPS会根据当前工作表的大小给出一个工作表大小的缺省值对话框, 可以重新输入行列数,调整工作表的大小。,但如果输入行数小于已有文件存放数据的最大行数时,系统会提示如下。此时,应将行数增加。,二、文本转换数值及字符串转换数值1.文本转换数值当从其他文本
4、编辑器复制数据到DPS的电子表格时,会发现数据都是放在第一列里,而不是一个一个数据分布在单元格里。原因是原来数据之间是用空格隔开的,DPS不能自动识别这种格式,只能以字符串的格式直接放进来。 解决方法: 点击数据编辑“文本转换为数值”,可将文本行里的各个数值分离开,放在后面各个单元格里注意:复制过来的文本数据应该放在DPS系统工作表的第一列里面,否则,不能转换。,2.字符串转换数值 DPS中,数据应在“英文数字”方式下输入。 如果忘记,在“全角、中文汉字输入方式下输入了字符型全角数字,这些全角型数字,在单元格里显示呈黑色。DPS系统不能对这些数据进行统计分析计算。 如果输入了字符型全角数字,解
5、决方法: 点击数据编辑“字符串转换为数值”即可,,三、数据统计分析及其建模基本步骤1.数据统计分析基本步骤 在DPS电子表格中输入数据 定义数据块 进入菜单选统计菜单,执行统计分析。 定义数据块:将鼠标移至数据块块首,按下左键拖到块尾位置即可。2.数学模型分析基本步骤1)在DPS电子表格中输入数据,在下方公式编辑区输入模型。2)先定义公式块 再定义数据块 点数学模型 单因变量模型参数估计 麦夸特法 当弹出“置初值并用空格隔开”对话框时选默认 选OK 结束,在DPS系统内,各因子都用x1、x2、 、xm表示,所有常数都用c1、c2、 、cm表示。 所以,在数学模型分析时,要将方程中的自变量和因变
6、量换成x1、x2、 、xm;将所有常数换成c1、c2、 、cm。,四、图表处理DPS常用图表处理 : 常用图表有二维和三维图,可以绘条形图、折线图、阶梯图、饼图等。定义数据块后点击按钮 ,或点“数据分析” “常用图表” 在图形选择对话框中选择图类型(2D、3D) 下一步 显示图形 标出坐标轴代表的项目名称、符号、单位以及图题、图注、图例等。过程见下面图:,得到如下所示图: 选相应项作图。,Q-Q图利用Q-Q图也可判断数据是否符合正态分布规律,即可作数据正态分布检验。在Q-Q图上,若所有数据散点分布在一条直线附近时,表明符合正态分布,否则,不符合正态分布。,DPS数据处理系统及应用,一、用户界面
7、公式编辑区:用于数学模型分析时,数学公式的编辑、定义。电子表格区(即数据编辑器):用于数据编辑和数据计算。在此区内完成各种数据编辑和计算操作,输出统计结果。,1系统主菜单,系统主菜单均有下拉菜单。当把待分析的数据编辑好并定义成数据矩阵块后,点击主菜单,在其下拉菜单中选择相应的操作即可。,2主要主菜单、下拉菜单命令及应用,1)数据分析菜单DPS 数据分析下拉菜单常用命令: 基本参数估计数据分析基本参数估计试验资料经整理后,可以计算一系列的统计指标,以说明资料的特征和对资料进行进一步统计分析。,例:现取甜菜块根蔗糖含量100个样本资料中的40个,做基本参数估计示例。步骤: 将数据在电子表格区(即数
8、据编辑器)输入后,定义成数据块,然后点数据分析基本参数估计。就会立即得到基本参数:(见软件),基本参数估计输出结果中的基本参数:(1)总和(sum):样本数的总和 (2)均值(Mean):平均值,是分析计量资料的基本统计量,均值表示一组性质相同的观察值的平均水平。平均值包括:算术平均值、几何平均值、中位数。在基本参数估计中的均值是指算术平均值。计算式为: 算术平均值主要适用于描述具有对称分布资料的集中趋势。 当数据为正态分布时常用算术平均值,在一组等精度的测量中,算术平均值为最佳值或最可信赖值。,几何平均值:它是n个观测值的连乘积开n次方的根,记作G 它用于反映对数正态分布或近似对数分布资料以
9、及等比级数资料的集中趋势。 对一组测量数值取对数,所得图形的分布曲线呈对称分布时,常用几何平均值。,中位数(值): 中位数是指观测值由大到小或由小到大依次排列,居于中间位置的数据。记作Me ( n为奇数) ( n为偶数) 在环境与资源研究中收集的数据,有时会比较分散,个别是离群较远,所以,对比较分散的数据往往要用中位数来表征平均特征。中位数不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。,(3)平均偏差(adev) 平均偏差是描述个体值间的变异,即观察值的离散度的指标之一。 平均偏差较小,表示观察值围绕均数的波动较小,若平均偏差大,则观察值围绕均数的波动较大。平均偏差计算式为:,
10、(4)极差(Range) 极差描述个体值间差异变异范围,极差越大,样本变异范围越大,反之,极差越小,样本变异范围越小。极差计算公式 :,(5)方差(VAR) Variance 方差是衡量观察值间的离散程度。方差较小,表示观察值围绕均数的波动较小。 方差小时,其估计值就比较可靠,方差越小指标越稳定。方差计算式 :,(6)标准差(SD) std. Deviation 它描述个体观察值间的变异程度的大小,即观察值的离散程度。标准差较小,表示观察值围绕均数的波动较小,说明数据越集中。标准差越大,说明数据越分散。可用标准差表示试验精度。标准差小些好。SD计算公式: 当观察值呈正态分布或近似正态分布时,可
11、将均数及标准差同时写出。如,(7)标准误(SE) std. Error 标准误差 它描述样本均数变异程度及抽样误差的大小 ,即样本统计量与总体参数的接近程度。 SE叫做样本平均数的标准误差,简称为标准误。 标准误小,表示抽样误差小,则统计量较稳定并与参数较接近。 可将统计量及其标准误同时写出,如,(8)变异系数(CV) 又称离散系数,是用于衡量一系列测定值的相对离散程度的一种特征数。变异系数无单位。 变异系数是一个相对变异度量,它是样本的标准差与均数的比值。变异系数CV小了好。注意:a.两种单位不同的样本之间作变异程度比较时,不能用标准差,要用变异系数。 b.平均数不同的两个样本也不能用标准差
12、进行比较,要用变异系数。 c.两个样本基数不一致或基数相差较大时,不能用标准差,要用变异系数。,(9)正态性检验 正态性检验的目的就是要判定数据资料是否服从正态分布,或样本是否来自正态总体。 正态性检验是检验各样本所属的总体参数差异显著性的前提条件。 只有样本都来自正态总体或近似正态总体这个条件符合时,才能用t检验法和F检验法来检验各样本所属的总体参数差异显著性。 就是说,在统计分析前先要对数据进行正态性检验,只有当符合正态分布时,才能进行进一步统计分析。,基本参数估计时DPS正态性检验结果格式如下: 正态性检验(100个甜菜块根蔗糖含量的结果)偏度 表示以平均值为中心的分布的不对称度。 如果
13、样本符合正态分布时,偏度参数(系数)等于0,此例中偏度系数为 0.6373,属于负偏态,P0.01属于正态分布,但不是标准正态分布,为左偏分布。 如果偏度系数大于1时,样本肯定不符合正态分布。,左偏(负偏) 标准正态分布 右偏(正偏),峰度 反映与正态分布相比,某一分布的尖锐度或平坦度。峰值为正时(0),表示相对尖锐的分布。峰值为负时(0),表示分布相对平坦。峰值为0时,表示是标准的正态分布。,异常值检验,操作步骤:先将待检验数据输入 定义为数据块 数据分析 异常值检验 弹出异常数据剔除检验对话框 选一种检验分析方法和显著水平 确定。如果有异常数据,则异常数据就会变为红色或系统有具体提示。检验
14、方法有: 3S法(3法)数据要服从正态分布 狄克松(Dixson)法 格拉布斯(Grubbs)法数据要服从正态分布,例 对某物理量测量15次数据如下,检查有无异常值.,2)试验设计菜单,完全随机及随机区组设计 完全随机分组(用于产生随机数) 单因素随机设计 二因素随机设计正交设计 30个正交表 2水平互作设计,正交回归组合设计,3)试验统计菜单,次数分布及平均数比较 完全随机设计,正交实验方差分析 二次回归(正交)旋转组合设计二次通用旋转组合设计 二次多项式回归分析新版本里几个设计,数据处理通用了 :二次通用组合设计、二次正交旋转设计、二次正交回归设计,做统计分析时如果不做区组,都在实验统计下
15、拉菜单里的实验优化分析二次多项式回归分析操作。,4)多元分析,回归分析 : 线性回归 二次多项式逐步回归多因子及互作项逐步回归多因子及平方项逐步回归,5)数学模型,一元非线性回归模型(用于一元非线性回归)单因变量模型参数估计,二、 t 检验主要用于检验两个处理平均数差异是否显著。条件是要求资料呈正态分布或近似正态分布。1)单样本均数与总体均数比较的t检验用于检验一个样本均数与总体均数差异是否显著。例 随机测得7个儿童身高为:137,133,136,129,133,130,131cm, 已知该班身高总体平均数为131cm,检验样本均数与总体均数差异是否显著。,步骤:按行输入7个数,第二行输入总体
16、平均数定义数据块 选试验统计 单样本平均数检验在弹出的对话框中输入总体平均数131OK,2) 配对样本t检验用于配对试验计量资料的比较步骤:按行输入数据定义数据块 选试验统计 两样本比较配对两处理t检验输出结果例:进口仪器:32 40 27 37 32 35 28 43 40 41 41 35 49 34 mm 国产仪器: 43 44 30 34 30 31 26 26 42 40 42 43 37 43 mm,3)两样本均值差异t检验方法: (1)将两个处理的样本观察值分两行输入,并定义成数据块。 (2)试验统计两样本比较student t 检验输出结果例处理1 160 160 200 16
17、0 200 170 150 210处理2 170 270 220 250 270 290 270 230 160 160 200 160 200 170 150 210 170 270 220 250 270 290 270 230 Jrj,4)小样本均值差异检验方法: (1)输入数据,并定义成数据块 (2)试验统计两样本比较样本较少时平均数差异检验输出(显示)结果。例 处理1 0.96 1.14 1.59 处理2 1.29 1.31 1.6 1.88 2.21 2.270.96 1.14 1.591.29 1.31 1.6 1.88 2.21 2.27,三、试验设计及统计分析,一)全面试验设
18、计(一)单因素完全随机设计1试验方案设计试验只考察一个主要因素,它有a个水平A1,A2,Aa, 比较这a个水平对试验指标的影响,称为单因素试验。单因素试验中,只考虑对指标影响最大的因素,其余因素固定不变。假定a个水平均重复m次,则总共要进行am次试验。如果a个水平试验的实施顺序完全按随机原则确定,这种试验设计方法称为完全随机化单因素试验设计。,例1 在无酒精啤酒的研究中,为了了解麦芽的浓度对发酵液中双乙酰生成量的影响。在发酵温度为7,非糖比为0.3,二氧化碳压力为0.06MPa,发酵时间为6天的试验条件下,考察麦芽汁浓度改变对双乙酰生成量的影响。,解:固定因素为:温度7;非糖比0.3,CO2压
19、力0.06MPa;发酵时间6天。考察因素为:麦芽汁浓度A,因素A水平:A1=6%,A2=10%, A3=12%每个水平重复次数:5次试验指标:双乙酰含量mg/L(按专业要求此指标要低些)目的:寻找适宜的麦芽汁浓度。,本试验中水平a=3,重复次数m=5,总计进行试验次数 am=35=15次15次试验完全按随机顺序进行。从随机数表上按任意方向从某数开始读取15个数,再将15个随机数字从小到大编号,这个编号就是进行试验时的顺序号。如随机数:,根据随机数安排的单因素试验方案如下表表1 完全随机化单因素试验方案,2试验按表1方案具体完成试验,测得每次试验所得的双乙酰含量,得试验结果(数据)如下表表2 试
20、验结果(双乙酰含量mg/L),用DPS系统产生随机数:,为安排试验中所有试验次数的试验随机顺序,DPS系统操作步骤如下:试验设计完全随机及随机区组设计完全随机分组弹出“完全随机试验设计”对话框输入“实验样本数”和“分组组数”确认后就输出要试验的次数的随机顺序。,例如:一个试验共要作10次。在“试验样本数中”输入10,“分组织数”中也输入10,确认后会给出随机数顺序号如下:,3统计分析,1)方差分析方法试验目的:是要知道因素各水平之间是否有差异?如有差异,哪一个水平最好?因此,需对试验结果进行方差分析。方差分析的实质是检验多个正态总体均值是否相等。方差分析方法:借助F检验来分析、判断各因素、水平
21、显著差异的的方法。 一般,不管试验顺序如何,对a个水平,每个水平重复m次试验的单因素试验,试验结束后,试验数据整理及计算表格式如下表。,表3 单因素方差分析试验资料整理表,关于检验的假设:在方差分析中,当处理试验数据和检查各个处理(水平)是否有显著性差异时,总是先建立零假设(原假设、或无效假设):原假设为:各均数不存在差异备择假设为:各均数存在差异进行F检验时,将计算的F值与临界值 F相比较,若F F则拒绝接受H0,即试验中各个处理(水平)间有真实差异存在(存在显著差异)。若F F则接受H0 ,即各处理间无显著差异。,一般,方差分析结果多以表格形式给出。根据平方和与相应的自由度,可计算出相应的
22、均方,并列出方差分析表。 表4 单因素完全随机设计方差分析表,检验结果判定:,如何根据给出的p值来进行统计推断?DPS在统计分析之后,多数情况下会给出假设检验中的p值。p值就是传统所说的水平(显著水平), p值是接受各处理间(各均值间)存在显著差异时可能犯错误的概率。P值可以精确地告诉我们检验结果的显著水平,而不用再重复采用不同的水平。根据p 值进行统计推断常用标准是:,如果0.01p0.05,则结果显著。如果0.001p0.01, 则结果极显著。如果p0.001,则结果是极高地显著。如果p0.05,则结果被认为没有统计显著性。一般来说,给出p值后,如果:p0.05,则拒绝H0,即结果有统计学
23、显著性(有 显著差异); p0.01时 有极显著差异如果p0.05 ,则接受H0,即结果没有统计学显著性(无显著差异)。,2)用DPS对单因素试验资料分析步骤数据输入格式在数据编辑器中按规定格式将试验资料整理表中的数据输入。对a个水平,m个重复的数据资料,其数据排列顺序为:,将11am待分析数据定义成数据块。点试验统计完全随机设计单因素试验统计分析在弹出的“方差分析”参数设置对话框中设置好三种参数 点确定即可得结果 分析所得结果,关于数据转换方式,实验研究中,有时会遇到一些样本资料,其所属总体特征与方差分析的基本假定不符,对这些资料作方差分析前必须经过适当的转换来变更度量尺度,即试验资料作方差
24、分析时,如资料基本参数估计结果与方差分析基本假定不符时,就要作数据转换,常用的数据转换方式有4种。,1.不转换当样本符合正态分布时,数据不需转换。2.平方根转换有些取值小的间断数据,例如单位面积上的杂草数、每一视野中的细菌数等,其取值的低限为0,高限可能相当大。这种变量的分布往往不成正态分布,而其处理的平均数往往与方差成比例,对这样的数据资料作平方根转换往往很有效。 转换公式为:Y= ( Y )1/2 。,平方根转换的两种情况:当大多数观测值 10,并出现0时, 转换公式 Y= ( Y +1)1/2 当大多数观测值 10,并出现0时, 转换公式 Y= ( Y +0.5)1/2 平方根转换的作用
25、:主要是减小了极端大值对方差的影响,大大改善了各处理误差方差的同质性(或称齐性),即12=22= =n2 (即使各误差方差趋于相近),3.对数转换若有些数据数据出现明显偏态分布时(左偏或右偏),可用对数转换使趋向正态分布。因为对数转换的作用是将普通尺度变为对数尺度,于是向右(向左)侧延伸的钟形图的长尾被缩短,使分布趋向正态分布。转换公式为: Y= LgY 或 Y= LnY 当观测值较小时 Y= Lg(Y+1) 或 Y= Ln(Y+1),4.倒数转换当方差与平均数的平方成比例时,可采用倒数转换,使资料符合方差分析的基本假定。 Y=1/Y,关于多重比较,方差分析中得出的均值差异显著性(检验)是一个
26、整体概念,当方差分析为显著时,说明在各处理所有均值中至少有两个有显著差异,方差分析结果并不能判明各个处理的均值两两之间都有显著的差异。 主要原因是某些处理间的差异十分突出,从而掩盖了某些处理之间不显著的差异,使总的结论为差异显著。因此,为了考察各个均数两两之间差异的显著性,就要对各个均数进行比较,这种比较称为多重比较。多重比较目的:考察各个均值两两之间是否相等,如相等无差异,如不等就有差异。一般来说,只有方差分析表中的显著性水平P值小于等于0.05时,才能进一步做多重比较。,3)DPS单因素数据处理实例例1 麦芽汁浓度对双乙酰含量的影响, 试验结果(双乙酰含量mg/L)因素A: A1=6% ,
27、 A2=10% , A3=12%方差分析结果(见软件)。,例2:四种小麦,欲测单株粒重,均重复10次,分析不同品种单株粒重有无差异。 实验结果如下表。,(二)二因素无重复完全随机设计(组内无重复),1方差分析如果试验要同时考察因素A和B对试验结果(指标)的影响,因素A取A1 ,A2 ,A a共a个水平,因素B取B1, B2, B b共b个水平。在方案设计时,因素和水平要依研究问题确定。A和B两因素的每种水平搭配A iBj (i =1,2, ,a; j=1,2, ,b)各进行一次独立试验,共进行ab次试验。其试验设计及数据排列如下表,2二因素无重复DPS分析步骤1)按二因素无重复完全随机设计方案
28、及数据表 的格式输入数据 2)将待分析数据定义为数据块3)选试验统计完全随机设计二因素无重复试验统计分析不转换(或转换)OK选多重比较方法确定可得分析结果。,3二因素无重复随机设计DPS分析实例,例1 在5种不同温度研究一种微生物的生长和温度的关系,在接种后不同天数测量微生物的生长速度。取温度和生长天数作为考察因素。温度(A):取5个水平 17.5 21.0 24.5 27.5 30.5天数(B):取4个水平 1天 2天 3天 4天,分析结果(软件),(三)二因素有重复完全随机设计,1方案及数据表假设试验包含A,B两个试验因素,A因素有a个水平(处理),B因素有b个水平(处理)。则两个因素共有
29、ab个水平组合,而两因素的每个水平组合有n个观察值,即重复n次。所以,整个试验共有abn个观察值。abn次试验的先后顺序完全按随机方式确定,这就是完全随机化双因素试验设计方法。,DPS系统二因素重复试验方案及数据格式,2方差分析,dddd,3DPS分析实例(二因素重复)及步骤输入数据,定义数据块点试验统计完全随机设计二因素有重复试验统计分析在弹出的“输入各处理个数(水平数)”对话框中输入A因素水平数(a)和B因素水平数(b)弹出转换对话框选“不转换(或转换)”OK在多重比较方法选择中选一多重比较方法确定可得分析结果分析结果,4DPS二因素重复试验分析实例例:用三种压力(A1,A2,A3)和四种
30、温度(B1,B2,B3,B4)组成试验方案,得到的产品得率资料如下表。试分析压力和温度以及它们的交互作用对产品得率有无显著影响(=0.05),结果(软件),二)正交试验设计,(一)正交试验设计的程序包括试验方案设计及试验结果分析。1试验方案设计1)试验指标确定试验指标是由试验目的确定的,因此,在试验前必须明确试验目的,对试验所要解决的问题应有全面深刻了解。经周密考虑,确定试验指标。一项试验至少应有一个指标,也可同时考察几个指标。,2)确定试验因素和水平根据试验目的确定试验要研究的因素。尽可能全面地考虑影响试验指标的诸因素。实际确定因素时,应先选择对试验指标影响大的因素。因素确定后,再确定每个因
31、素的水平。从有利于试验结果分析考虑,水平取3比取2好。因为3水平的因素其试验指标趋势图多数为二次曲线。二次曲线有利于呈现试验因素水平的最佳区域。 二水平因素其试验结果趋势图为线性的,只能得出因素水平效应的趋向,很难呈现最佳区域。,因素水平确定后,列出因素水平表。,3)选用合适的正交表根据试验因素水平数以及是否需要估计互作来选择合适的正交表。其原则是既要能安排下全部试验因素,又要使部分实验的水平组合数尽可能的少,以减少试验次数。在能安排下试验因素和要考察的交互作用的前提下,尽可能选用小号正交表。另外,为了考察试验误差,所选正交表安排完各因素及交互作用后,最好有1列空列,否则必须进行重复试验以考察
32、试验误差。,正交试验最少试验次数确定:,例1 对四因素2水平试验,最少试验次数为:即四因素2水平正交试验最少应作5次试验,应选表 安排试验。,习题,例2 4因素3水平最少试验次数为 例3 有8个因素,各3个水平。并且考虑 交互效应,确定最小试验次数T。,4)表头设计正交表的每一列可以安排一个因素,所谓表头设计就是将试验因素填到正交表的表头中各列中去的过程。表头设计的原则:不要让主效应间、主效应与交互作用间有混杂现象。由于正交表中一般都有交互列,因此,当因素少于列数时,尽量不在交互列中安排试验因素,以防发生混杂。当存在交互作用时,需查交互作用表。将交互作用安排在合适的列上。,(1)无交互作用时,
33、表头设计是直接将各因素填到正交表的各列号上代替列号,如表表头设计为:,(2)有交互作用时,如正交试验表安排A,B,C,D 四个因素试验,又要考虑AB和AB两个交互作用。所以设计表头时查交互作用表。按顺序因素A、B先安排在第1、2列,查表得AB应排在第3列,因素C只能排在第4列,所以AC交互应排在第5下列,再依次排因素D,表头设计如下表:,5)列出试验方案在表头设计基础上,将所选正交表中各列的不同数字换成对应因素的相应水平,就形成了试验方案。,2试验试验方案设计完成后,按方案进行试验,获得试验指标值,并将所得指标列在试验方案右侧,得到了试验方案及结果。注意:用DPS系统进行方差分析时要有空列,否
34、则无法估算试验误差。若所选表较小,各列均安排了试验因素,可采用对每一个水平组合重复试验,得到指标的重复值,或取样后从同一次试验中取几个样品进行测试取得指标的几个值。分析时将重复测得的几个指标值全部放在编辑器正交表的右侧。全部定义成数据块。,3正交设计统计分析方法,1)极差分析,2)方差分析,(二)DPS正交设计试验结果分析,DPS数据处理系统中,正交试验结果可进行直观分析(极差分析)和方差分析,并在一起进行。1分析方法及步骤1)先将相应正交表调入数据编辑器。2)将试验所得数据结果按列输入正交表右边。3)将正交表和试验结果(一个或几个)一起定义成数据矩阵。4)点试验统计正交试验方差分析弹出输入处
35、理和空闲因子总数对话框(系统一般能自动识别出来)点OK输入空列列号OK选多重比较方法确定可得结果,2DPS正交分析实例,例 、 自溶酵母提取物是一种多用途食品配料。探讨外加中性蛋白酶方法中,啤酒酵母的最适合自溶条件。1)试验指标由专业知,指标为自溶液中蛋白质含量Pr%2)确定因素和水平主要考察:温度()、pH值、加酶量(%)三因素,每个因素各取三个水平。因素水平表如下:,3)正交表选择最少试验次数确定所以宜选正交表 。,4)表头及试验方案打开系统试验设计正交设计正交设计表在弹出对话框中选中表确定调出原表格式。在原表格式将原表头中的第1列、第2列、第3列、第4列换为要考察的因素。再将原表中各列中
36、的数字换成对应因素的相应水平,即成实验方案。根据试验方案完成试验,在编辑器中将所得结果列在试验方案右侧。试验方案及结果如下表,5)用DPS计算分析方差分析,分析方法及步骤1)先将相应正交表调入数据编辑器。2)将试验所得数据结果按列输入正交表右边。3)将正交表和试验结果(一个或几个)一起定义成数据矩阵。4)点试验统计正交试验方差分析弹出输入处理和空闲因子总数对话框(系统一般能自动识别出来)点OK输入空列列号OK选多重比较方法确定可得结果(软件),三)正交回归组合设计,DPS数据处理系统中,进行二次正交回归组合试验设计时只需要确定试验因素和因素的上、下界水平,然后确定处理的零水平,并计算好各因素的
37、变化区间。系统将自动对处理水平编码,计算星号臂的值。正交回归组合设计包括:二次正交(回归)旋转组合设计;二次通用旋转组合设计;二次回归正交设计。二次回归旋转组合设计和二次通用旋转组合设计,除两种试验方案的零水平(即中心点试验次数)不同外,其它均相同。,正交回归设计的试验设计方法1因素及水平确定设某项试验需考察P个因素,分别以z1,z2, ,zp表示,每个因素分上、下两个水平。上水平以z2j表示,下水平以z1j表示(j=1,2, ,p),那么各个处理的零水平z0j为当确定好各因素及各因素的上、下水平范围后,再计算各因素的变化区间 j,2因素编码由于自然因素是有量纲的,经过编码,对各个因素的实际水
38、平进行线性变换,即可把有量纲的自然变量 z1,z2, ,zp 的回归问题转化成了无量纲的规范变量1,2, ,p的回归问题。经过这种量纲的编码变换,所有变量的取值都是+1和 -1。对因素编码的目的是为了消除自然因素单位和取值对所求的回归系数的影响,使求得的回归系数的大小直接反映该因素作用的大小。,自然因素zj与规范变量j变换公式为:zj是问题中的各变量j是DPS中的变量,求出回归方程后,要将此式代入方程,用zj将j换掉。对每个因素zj的各水平按j变换式进行线性代换,可列出因素水平编码表如下 :,由表可知,经过线性变换编码后,可将自然因素上、下界(z2j 、z1j)水平转换成规范因素j 。,附表:
39、,关于组合设计中试验点在因子空间中的分布:两因素(x1、x2)时试验点分布有9个;三因素(x1、x2、x3)时试验点分布有15个。,3列出试验方案根据因素水平编码,查合适的设计表,再将因素水平值填入设计表中的1,2,3等列,即得试验方案。步骤为:试验设计正交回归组合设计 确定因素数确定得设计表再将上、下水平、零水平、 、-值对号入座就成为试验方案。如下表形式:,4统计分析按试验方案完成试验,将所得结果值在数据编辑器中输入方案表右边一列,进行统计分析。对二次正交(回归)旋转组合设计;二次通用旋转组合设计步骤如下:调出相应试验设计表在表头输入规范变量1p在表右侧列输入Y值将Y指标值定义成数据 块选
40、试验统计 在弹出的“选 择对应的试验方案”对话框中选对应因素个数确定弹出“请输入指标临界值”对话框(可不改系统自认值)OK得分析结果,5.二次回归正交设计统计分析步骤,确定因素水平,完成因素水平编码表后,用“试验统计”命令调出试验方案表,再将各因素的水平具体编码值填入表格,形成试验方案。按试验方案完成试验,获得指标值,重新调出方案表,将指标值填入右边一列。 根据试验次数大于或小于二次多项式中参数的个数,统计步骤分两种情况:,二次多项式模型基本形式:1)当试验次数大于二次回归模型方程中的参数个数时,步骤:试验统计二次多项式回归分析 极大值 极小值,2)若试验次数小于二次回归模型方程中的参数个数时
41、,直接用如下步骤:多元分析回归分析 二次多项式逐步回归 多因子及互作项逐步回归 多因子及平方项逐步回归 三项中选用哪一个,依据专业问题希望建立什么模型而定,较灵活。,6实例1:为了考察镓溶液的电导率Y与温度 Z1(),镓的浓度Z2(g/L),NaOH浓度Z3(g/L)的关系,用二次通用旋转组合设计进行试验。,5)列试验方案及结果,6)统计分析(软件),实例2杏仁蛋白的最佳碱溶提取工艺的确定。二次回归旋转组合设计及试验结果为了对碱溶提取工艺进行深入研究,结合单因素试验,选择pH、料液比、提取温度3因素进行二次回归正交旋转组合设计,试验因素、水平及编码见表。试验因素水平编码表,统计分析(软件),四
42、)线性回归分析,回归分析是处理变量之间的相关关系的一种数理统计方法。回归分析主要解决以下三方面的问题。从一组数据出发,确定变量间是否存在相关关系,如果存在相关关系,则确定它们之间合适的数学表达式,并对它(表达式)的可信度作统计检验。从共同影响一个变量(y)的许多变量(x)中,判断哪些变量的影响是显著的,哪些变量的影响是不显著的。利用所找到的数学表达式对变量进行预测或控制。,1一元线性回归分析回归方程的形式:称为 y 关于x 的一元线性回归方程,此方程就是我们要求的 y 与 x 之间的定量关系表达式。一元线性回归分析的任务就是根据试验所获得的 x , y 的数据求得方程中的未知参数的估计 b0
43、和 bb0和 b 称为回归系数,b 是回归直线的斜率,b0 是回归直线的截距。,2多元线性回归分析回归方程形式:同一元回归一样,各回归系数们采用最小二乘法。,3回归方程的显著性检验回归方程的显著性检验用方差分析法(即F检查),DPS系统除给出方程的显著性检验结果外,还同时给出回归系数的显著性。,4DPS线性回归分析例题,线性回归DPS分析步骤:在数据编辑器里输入上表数据将x , y 两列数据定义为数据块多元分析回归分析线性回归系统给出线性回归操作界面在线性回归操作界面操作完成后点击“返回编辑”会给出分析全部结果。,1)一元回归例1用银盐法测定食品中的砷时,吸光度y与砷的含量之间有一定的相关关系
44、,数据如右表,确定回归方程并作检验。回归分析结果 (软件)Y=0.00063+0.04393X1,2)多元回归例2在麦芽酶试验中,发现指标吸氨量与x1(底水)及x2(吸氨时间)都有关系,其试验数据及结果如表,确定回归方程并作检验。回归分析结果 (软件)Y=95.71-0.692X1+0.022X2,五)非线性回归分析,在实际问题中,所遇到的因变量y与自变量x之间的统计关系不一定都是线性关系,两个变量之间的关系大多是非线性的。所以根据实验数据拟合出y与x之间的数学模型表达式,通过拟合曲线方程,可以定量地研究因素和指标之间的定量关系。当通过实验数据完成了模型的定义之后,就要根据试验数据求出那些已知
45、形式的非线性回归模型的参数(即回归参数)。,1一元非线性回归模型非线性回归分析模型中,最常见的是建立两个变量之间函数关系的一元非线性回归模型。DPS数据处理系统为使用户快速地掌握非线性回归建模技术,对一元非线性回归模型进行参数估计。软件提供了非常方便、直观的用户界面。在用户界面中提供了26种常用且较典型的一元非线性回归方程,供用户选用(见下表)。用该系统提供的这些非线性回归方程建立模型时,系统可自动进行参数估计。如果认为这些回归方程式还不能完整地表达你所构思的模型,你也可在这些方程基础上,进行扩充、修改,衍生出适合要求的新的回归方程。,用DPS进行一元非线性回归的方法。1)建立一元非线性回归模
46、型前,先按系统要求输入数据,即以行为样本,列为变量的方式输入数据。 定义数据块时要注意,一元非线性回归只允许定义2列数据;第一列为自变量,第2列为因变量。2)定义数据块数学模型一元非线性回归模型出现初始界面。3)在初始界面中选择模型,估计参数,最后输出结果。,例:某种肉鸡在良好生长条件下体重随时间变化数据如表。拟合回归模型。回归结果 (软件)y=2.8438*e(-4.9484*e(-0.370226X1),2非线性回归分析实例,1)普通非线性模型这类模型一般不含指数或复杂的数学函数,此类普通非线性模型仅仅是一些加减乘除的组合。这类模型建模时,只需要将试验数据编辑定义之后,将希望建立的数学模型
47、(公式)进行编辑定义,一般不需给出各个参数的初值(因系统默认各个参数的初值为0.01)就可以使用麦夸特法(非线性最小二乘法)快速地求出模型中的各个参数。,DPS处理步骤:1先在公式编辑器中输入要估计参数的数学模型(公式)并定义成公式块。2在数据编辑器中输入数据并定义成数据块。 先定义公式,再定义数据块。3选择数学模型单因变量参数估计麦夸特法(非线性最小二乘法)OK输出分析结果。,例 某植物播种后土壤温度 x 与齐苗期 y 的数据见下面。根据有效积温模型,齐苗期天数与土壤温度间回归方程的数学表达式为:,回归结果 (软件)Y=50.7528/(X-14.6123),2)含有指数或某些函数的非线性模
48、型。这类非线性模型因含指数或其它数学函数,往往不宜或无法转换为线性模型求解。因此,这类模型的参数估计,必须借助于非线性的迭代法(如Newton-Raphson方法)求解。但要求十分熟悉数理知识。在DPS处理平台上,用户只需要将试验数据和希望建立的数学模型(公式)编辑定义成数据块和公式块,便可很快获得分析结果。,DPS处理步骤:(1)先在公式编辑器中输入要估计参数的数学型(公式),并将公式定义成公式块。(2)在数据编辑器中输入数据,并定义成数据块,注意:要先定义公式块,再定义数据块。(3)进入菜单,选择数学模型单因变量参数估计麦夸特法(非线性最小二乘法)OK输出分析结果。,例 植物病毒侵染稀度数
49、学模型的拟合问题。方程为: y=b1ln(1+b2V)接种病毒浓度:V 半叶平均枯斑数: y按DPS系统要求: 1=V 2=y c1=b1 c2= b2 2 = c1ln(1+c21)回归结果 (软件)Y=54.1536ln(1+791.522V),3)多元非线性模型的拟合多元非线性模型的拟合方法与前面含有指数的非线性模型的方法相同,在DPS处理平台上,也只需要将试验的数据和希望建立的数学模型(公式)编辑定义成数据块和公式块,先定义公式块,后定义数据块,即可获得分析结果。,拟合分析步骤(1)在公式编辑器中输入要估计参数的数学模型,并将公式定义成公式块。(2)在数据编辑器中按列将自变量和指标从左向右按列输入,并定义成矩阵块。(3)选数学模型单因变量模型参数估计麦夸特法(默认值不变)OK输出分析结果,例 某农场经过试验,获得了大豆产量和氮(N)、磷(P)、钾(K)肥用量之间的关系数据。试建立柯布-道格拉斯方程。用现在试验数据拟合此方程。柯布-道格拉斯方程是美国数学家C.W.Cobd和经济学家P.H.Douglas提出的,方程形式如:本例中N, P, K和产量Y数据见下表:,本例由于只有三个自变量,方程应为 :将数据和变换后公式输入编辑器并定义成块,运行后可得回归结果。 (软件) Y=58.008 X10.16332X20.00440X30.20920,