《生物统计学-方差分析.ppt》由会员分享,可在线阅读,更多相关《生物统计学-方差分析.ppt(167页珍藏版)》请在三一办公上搜索。
1、第六章 方差分析,应用统计学,重庆大学生物工程学院,基本概念,方差分析:方差分析是对两个或两个以上样本平均数差异显著性检验的方法。例:为研究某种生物材料的生物学性能,将材料分成三组,分别与成骨细胞共培养1,7,11天后测试细胞活性。为避免误差,每组测试5个样品,试判断材料的生物学性能。,基本概念,两个样本数据平均数比较,1、当总体方差 和 已知,或总体方差 和 未知,但两样本均为大样本,2、当总体方差 和 未知,且两样本均为小样本,例:生产某种纺织品,要求棉花纤维长度平均在30mm以上。现有一棉花品种,以n400进行抽样,测得纤维平均长度为30.2mm,标准差为2.5mm,问该棉花品种的纤维长
2、度是否合格?,分析:1)已知,u检验 2)由于只能大于30mm才能合格,故单尾检验,解:(1)假设,即该棉花品种纤维长度不能达到纺织品生产要求含量。对,(2)选取显著水平,(3)检验计算,(4)推断,u0.05,显著水平上接受H0,拒绝HA。即认为该棉花品种纤维长度不符合纺织品种生产要求,例 为了探讨不同窝的动物的出生重是否存在差异,随机选取4窝动物,每窝中均有4只幼仔,结果如下:,表 4窝动物的出生重(克),通过对以上数据的分析,判断不同窝别动物出生重是否存在差异。,方差分析的意义,k个样本均数的比较:如果仍用t检验或u检验,需比较次数为:,例如4个样本均数需比较次数为6次。,假设每次比较所
3、确定的检验水准为0.05,则每次检验拒绝H0不犯第一类错误的概率为1-0.05=0.95;那么6次检验都不犯第一类错误的概率为(1-0.05)6=0.7351,而犯第一类错误的概率为0.2649,方差分析的意义,k个样本均数的比较:如果仍用t检验或u检验,有以下问题:,1、检验过程繁琐 2、无统一的试验误差,误差估计的精确性和检 验的灵敏性低 3、推断的可靠性降低,犯第1类错误的概率增加,方差分析:是一类特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种引伸。u 检验和t 检验可以判断两组数据平均数的差异的显著性,而方差分析则可以同时判断多组数据平均数之间的差异的显著性。当然,在多组
4、数据的平均数之间做比较时,可以在平均数的所有对之间做 t 检验。但这样做会提高犯型错误的概率,因而是不可取的。,方差分析由英国统计学家首创,为纪念Fisher,以F命名,故方差分析又称 F 检验(F-test)。用于推断多个总体均数有无差异,方差分析的定义,方差分析是对两个或多个样本平均数差异显著性检验的方法。它是将测量数据的总变异按照变异来源分解为处理效应和试验误差,并做出其数量估计。,它将所有处理的观测值作为一个整体,一次比较就对多有各组间样本平均数是否有差异做出判断。如果差异不显著,则认为它们都是相同的;如果差异显著,再进一步比较是哪组数据与其它数据不同。,方差分析的意义,方差分析基本思
5、想:1、把k个总体当作一个整体看待2、把观察值的总变异的平方和及自由度分 解为不同来源的平方和及自由度3、计算不同方差估计值的比值4、检验各样本所属的平均数是否相等实际上是观察值变异原因的数量分析,方差分析的应用条件和用途,方差分析应用条件:1、各样本须是相互独立的随机样本 2、各样本来自正态分布总体 3、各总体方差相等,即方差齐,方差分析基本用途:1、多个样本平均数的比较 2、多个因素间的交互作用 3、回归方程的假设检验 4、方差的同质性检验,第一节 方差分析的基本原理,试验指标(Experimental index):试验测定的项目或者性状。日增重、产仔数、瘦肉率试验因素(Experime
6、ntal factor):影响试验指标的因素,也称:处理因素,简称因素或因子。1、可控因素(固定因素):人为可控 2、非控因素(随机因素):不能人为控制试验因素的表示:大写字母A,B,C,等来表示,一、相关术语,因素水平(Level of factor):试验因素所处的特定状态或者数量等级。简称水平水平的表示方法:用代表该因素的字母添加下标表示,如A1,A2,B1,B2试验处理(Treatment):实施在试验单位上的具体项目,简称处理。单因素:试验因素的一个水平多因素:试验因素的一个水平组合,一、相关术语,试验单位(Experimental unit):试验载体,即根据研究目的而确定的观测总
7、体重复(Repetition):一个处理实施在两个或者两个以上的试验单位上,称为处理有重复。试验单位数称为处理的重复数,一、相关术语,方差分析是关于k(k3)个样本平均数的假设测验方法,是将总变异按照来源分为处理效应和试验误差,并做出其数量估计。发现各变异原因在总变异中相对重要程度的一种统计分析方法。,二、方差分析的基本原理,总变异分解为组间变异和组内变异。组内变异是个体差异所致,是抽样误差。组间变异可能由两种原因所致,一是抽样误差;二是处理不同。在抽样研究中抽样误差是不可避免的,故导致组间变异的第一种原因肯定存在;第二种原因是否存在,需通过假设检验作出推断,二、方差分析的基本原理,三、数学模
8、型,每组具有n个观测值的k组样本数据资料,例 2.1调查了5个不同小麦品系的株高,结果列于表21。在这个例子中,只出现“品系”这样一个因素(factor),故称单因素。共有5 个不同的品系,我们称品系这一因素共有5个水平(level)。5个品系可以认为是5个总体,表 21的数据是从5个总体中抽出的5个样本,通过比较这5个样本,判断这5个总体是否存在差异。,表 21 5个小麦品系株高调查结果,例 2.2 为了探讨不同窝的动物的出生重是否存在差异,随机选取4窝动物,每窝中均有4只幼仔,结果如下:,表22 4窝动物的出生重(克),通过对以上数据的分析,判断不同窝别动物出生重是否存在差异。,以上两个例
9、子的共同点是:每个实验都只有一个因素,该因素有a个水平或称为有a个处理(treatment),这样的实验称为单因素实验。从单因素实验的每一处理所得到的结果都是一随机变量X i。对于a个处理,各重复n次(或者说做n次观察)的单因素方差分析的一般化表示方法见表23。,表 23单因素方差分析的典型数据,每一个观察值可以通过如下常用的所谓线性统计模型(linear statistical model)描述:,其中:xij 是在第 i 水平(处理)下的第 j 次观察值。是对所有观察值的一个参量,称为总平均数(overall mean)。i是仅限于对第 i 次处理的一个参量,称为第i次处理效应(treat
10、ment effect)。方差分析的目的,就是要检验处理效应的大小或有无。eij是随机误差成份。,上述模型中,包括两类不同的处理效应。第一类处理效应称为固定效应(fixed effect),它是由固定因素(fixed factor)所引起的效应。若因素的a个水平是经过特意选择的,则该因素称为固定因素。例如,几个不同的实验温度,几个不同的化学药物或一种药物的几种不同浓度,几个作物品种以及几个不同的治疗方案和治疗效果等。,在这些情况中,因素的水平是特意选择的,所检验的是关于ai 的假设,得到的结论只适合与方差分析中所考虑的那几个水平,并不能将其结论扩展到未加考虑的其它类似水平上。所以上述的那些因素
11、:温度、药物、品种等,称为固定因素。处理这样的因素所用的模型称为固定效应模型(fixed effect model)。例2.1中的5个小麦品系是特意选择的,目的是从这5 个品系中,选出最优者,因而“品系”这个因素属于固定因素,所用的模型是固定效应模型。,第二类处理效应称为随机效应(ran-dom effect),它是由随机因素(random factor)所引起的效应。若因素的a 个水平,是从该因素全部水平的总体中随机抽出的样本,则该因素称为随机因素。从随机因素的a 个水平所得到的结论,可以推广到这个因素的所有水平上。处理随机因素所用的模型称为随机效应模型(random effect mo-d
12、el)。例2.2 的动物窝别,是从动物所有可能的窝别中随机选出来的,实验的目的是考查在窝别之间,出生重是否存在差异,因而“窝别”是随机因素。,有时固定因素和随机因素很难区分,除上述所讲的原则外,还可以从另一角度鉴别。固定因素是指因素水平,可以严格地人为控制。在水平固定之后,它的效应值也是固定的。例如,研究三种温度对胰蛋白酶水解产物的影响。因为温度水平是可以严格控制的,即每一温度水平,在各个重复之间都可以准确地控制在一个固定值上,所以在重复该实验时,水解产物的产量也是固定的。简单地说,在水平(不同温度)固定以后,其效应值(产量)也是固定的。因此,温度是固定因素。,随机因素的水平是不能严格地人为控
13、制的,在水平确定之后,它的效应值并不固定。例如,在研究不同农家肥施用量对作物产量的影响试验中,农家肥是因素,不同施用量是该因素的不同水平,作物的产量是它的效应值。由于农家肥的有效成份很复杂,不能像控制温度那样,将农家肥的有效成份严格地控制在某一个固定值上。在重复试验时即使施以相同数量的肥料,也得不到一个固定的效应值。即在因素的水平(施肥量)固定之后,它的效应值(产量)并不固定,因而农家肥是一随机因素。,三、数学模型,三、数学模型,三、数学模型,四、平方和与自由度的分解,全部观测值的总变异可以用总体方差来度量。方差即均方是离均差平方和除以自由度。把一个实验资料的总变异按变异来源分解为相应的变异,
14、首先要将总平方和与总自由度分解为各个变异来源的相应部分。则考察总方差可以考察处理间方差和处理内的方差,四、平方和与自由度的分解,平方和的分解:,总平方和=处理间平方和处理内平方和,四、平方和与自由度的分解,自由度的分解:,总自由度=处理间自由度处理内自由度,四、平方和与自由度的分解,计算方差:,五、统计假设的显著性检验F检验,F检验的目的:推断处理间的差异是否存在,五、统计假设的显著性检验F检验,注意:方差分析中的F检验总是单尾检验,而且为右尾检验,F越大,越说明组间方差是主要方差来源,因子影响越显著;F越小,越说明随机方差是主要的方差来源,因子的影响越不显著,五、统计假设的显著性检验F检验,
15、eg.某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成4组,投喂不同饲料,经1个月以后,各组鱼的增重(g)资料如下表,试进行方差分析,分析:1个因素,4个水平,5个重复的方差分析,解:,不同饲料饲喂鱼增重的方差分析表,二、固定效应模型 在固定效应模型中,ai 是处理平均数与总平均数的离差,且是个常量,因而,要检验a个处理效应的相等性,就要ai 判断各是否等于0。若各ai 都等于0,则各处理效应之间无差异。因此,零假设为:,备择假设为:HA:ai0(至少有1个i)。若接受H0,则不存在处理效应,每个观察值都是由平均数加上随机误差所构成。若拒绝H0,则存在
16、处理效应,每个观察值是由总平均数、处理效应和误差三部分构成。,例 2.1调查了5个不同小麦品系的株高,结果列于表21。在这个例子中,只出现“品系”这样一个因素(factor),故称单因素。共有5 个不同的品系,我们称品系这一因素共有5个水平(level)。5个品系可以认为是5个总体,表 24的数据是从5个总体中抽出的5个样本,通过比较这5个样本,判断这5个总体是否存在差异。,表 21 5个小麦品系株高调查结果,解:在方差分析中,为了简化计算可以用编码法。方差分析的编码,必须将全部数据均减去同一个共同的数。在例2.1中,每一个xij都减去65,列成下表,,先计算校正项C,再计算,将以上结果列成方
17、差分析表(见表25):,表25 不同小麦品系株高方差分析表,*a0.01,当分子自由度为4,分母自由度为20时,F4,20,0.052.87,F4,20,0.014.43,FF0.01。因此,不同小麦品系的株高差异极显著。习惯上用“*”表示在0.05水平上差异显著,用“*”表示在0.01水平上差异显著,常常称为差异“极显著”(highly significant)。,三、随机效应模型 在实验中,经常回遇到某个因素有许多可能的水平,若参加实验的a个水平,是从该因素的水平总体中随机选出的,那么这一因素称为随机因素。其方差分析是通过随机选取的a个水平对该因素的水平总体做推断。要求水平的总体是无暇总体
18、,即使不是无限总体,也应相当大,以至于可以认为是无限总体。例2.2中动物的“窝”是随机因素,每一窝是一个水平,这种动物所有的窝构成一水平总体。从该总体中随机选择4个水平(4窝)做实验,实验的目的是希望由这4窝动物去推断该种动物所有不同的窝别之间幼仔出生重是否存在差异。,固定效应模型中ai0的假设在这里不再适用。在随机模型中,对单个处理效应的检验是无意义的,所要检验的是关于ai的变异性的假设,因而,H0:sa20HA:sa2 0 如果接受H0:sa20,则表示处理之间没有差异;若拒绝H0而接受HA:sa20,则表示处理之间存在差异,方差分析的做法仍然是将总平方和分解,,自由度做同样分解,由此可得
19、出MSt和MSe。然后用F 单侧检验(具dft,dfe 自由度),,方差分析的程序与固定效应模型的方差分析程序完全一样,但是结论不同。随机效应模型适用于全部水平的总体,而固定效应模型只适用于所选水平的总体。下面计算例 2.2,并对结果加以解释。,例 2.2 为了探讨不同窝的动物的出生重是否存在差异,随机选取4窝动物,每窝中均有4只幼仔,结果如下:,表22 4窝动物的出生重(克),解:将表22中的每一个数值都减去30,列成下表,,将上述结果列成方差分析表:,表26 动物出生重方差分析,查表得知,F3,12,0.053.49,因FF0.05,所以差异不显著。通过对4窝动物出生重的调查,可以推断不同
20、窝别动物的出生重没有显著差异。,Excel方差分析,Office的默认安装中没有“数据分析”要指定才会安装。一旦安装,“工具”菜单下出现“数据分析”条,可以用它来方便的做方差分析等统计推断分析。可通过运行Analysis中的模板文件 ANALYS32.XLL调入此宏,加载数据分析,如“工具”菜单下没有“数据分析”单击“加载宏”,Excel解方差分析,选一批单元格输入原始数据;,Excel解方差分析,选“工具”“数据分析”;,Excel解方差分析,选“工具”“数据分析”“单因素方差分析”,Excel解方差分析,“单因素方差分析”对话框中:输入区域,分组方式,输出选项,Excel解方差分析,“单因
21、素方差分析”对话框中:填入信息后单击“确定”按钮,Excel解方差分析,分析结果,Excel解方差分析,方差分析结果表中各项目的含义,SS 平方和df 自由度MS 均方F及 F crit F值及F临界值,F crit=FINV(a,df1,df2)P-value F分布概率 P-value=FDIST(F,df1,df2),F检验如果否定了H0,接受了HA,表明试验的总变异主要来源于处理间的变异,六、多重比较,多重比较:假设对一个固定效应模型经过方差分析之后,结论是拒绝H0,处理之间存在差异。但这并不说在每对处理之间多存在差异。为了弄清究竟在哪些对之间存在显著差异,哪些对之间无显著差异,必须在
22、个处理平均数之间一对一对地做比较,这就是多重比较。即:多个平均数的相互比较,六、多重比较,常用的:1、最小显著差数法(LSD法)2、最小显著极差法(LSR法)新复极差检验(SSR法)q检验,LSD称为最小显著差数(least significant difference)它的计算方法简述如下:,对于任意两组数据的平均数,差数(x1x2)的差异显著性检验,可以用成组数据 t 检验,,当n1n2时,最小显著差数法(LSD法),样本平均数的差数,样本平均数差数的标准误,其中MSe为误差方差,即处理内方差,n为每一处理的观察次数,于是,具k(n1)自由度,当tt0.05时差异显著,当 tt0.01时差
23、异极显著。因此,当差异显著时,最小显著差数法(LSD法),并可得到,当,时差异显著。t0.052MSen 称为最小显著差数,记为 LSD。每一对平均数的差与LSD比较,当x1x2 LSD时,差异显著;否则差异不显著。LSD是一种很有用的检验方法,计算起来很方便,也容易比较。但是它有难以克服的缺点,即这种比较方法将会加大型错误的概率。,最小显著差数法(LSD法),LSD法的步骤:,最小显著差数法(LSD法),1、计算平均数差数标准误,2、由t逆函数(TINV)和平均数差数标准误计算出达到差异显著的最小差数,记为LSD,3、将全部平均数从大到小依次排列,并比较若 即为在给定的水平上差异显著,反之亦
24、然,说明实质上是 t 检验,但统一了标准误简单、灵敏(降低了检验标准、夸大了差异的显著性)I 类错误概率增大,控制单次比较的I类错误时应用无法控制所有比较的总体 I 类错误,最小显著差数法(LSD法),2、求解达到差异显著的最小差数(LSD)临界值:t0.05(16)=2.120,t0.01(16)=2.921 LSD0.05(16)=2.120*14.622=31.0 LSD0.01(16)=2.921*14.622=42.7,3、将全部平均数从大到小依次排列,并比较,excel数据的排序,工具,数据分析,排序与百分比,excel数据的排序,四种饲料饲喂鱼增重差异显著性(LSD检验,梯形法)
25、,4、分析结果:A1饲料对鱼增重效果极显著高于A3和A2,显著高于A4;A4饲料对鱼增重效果显著高于A3;A4和A2,A2和A3饲料对鱼增重效果没有显著差异,四种饲料饲喂鱼增重差异显著性(LSD检验,字母标记法),(1)在最大的平均数上标字母aA1行标注a,a,(2)将该平均数与以下各平均数相比,凡相差不显著的(LSD0.05,则A4标b,b,(3)再以标有b的平均数为标准,与各个比它大的平均数比较,凡差数差异不显著的在字母的右边加标字母b,然后再以标b的最大平均数为标准与以下未标字母的平均数相比,凡相差不显著的都标上字母b,直到某个与相差显著的则标字母c往上:(A4-A1)是已经比较了;往下
26、(A4-A2)=17.0,标b,(A4-A3)=32.4,标c,b,c,(4)以此重复,直到最小的平均数标记字母以A3为标准,往上:A3与A2相比无显著差异,故在A2行b右边标注c,A3与A4已比较了,c,A,A,B,B,B,总结:差异不显著标同一字母,差异显著标不同字母,四种饲料饲喂鱼增重差异显著性(LSD检验,字母标记法),判断:凡有一个相同标记字母的即为差异不显著,凡具有不同标记字母的即为差异显著,分析结果:A1饲料对鱼增重效果极显著高于A3和A2,显著高于A4;A4饲料对鱼增重效果显著高于A3;A4和A2,A2和A3饲料对鱼增重效果没有显著差异,把平均数的差异看成是平均数的极差(ran
27、ge)根据极差范围内所包括的处理数(称为秩次距)k的不同,而采用不同的检验尺度叫做 最小显著极差LSR秩次距是指当平均数由大到小排序后,相比较的两个平均数之间(含这两个平均数)包含的平均数个数I类错误下降、工作量加大,最小显著极差法(LSR法),为了克服LSD法的缺点,Duncan(1955)提出了Duncan多范围检验(Duncan multiple test)。检验方法如下:首先,将需要比较的a个平均数依次排列好,使之,并将每一对 x 之间的差(范围)列成下表,注:表中的 x 均为 x,新复极差法,Duncan检验与LSD的一个明显不同是Duncan检验中,不同对平均数的差有不同的临界值R
28、k。,其中,rara(k,df)的值可以从附表“多重比较中的Duncan表”中查出:表的最左边一列是误差自由度df a(n1),最上一列为k值,表体为ra(k,df)。表中的 k 值是相比较的两个平均数之间所包含的平均数的个数。如两个要比较的平均数相邻时k2,两个要比较的平均数中间隔一个平均数时k3,依此类椎。因为平均数共有a个,所以需查出a一1个ra,分别乘以S,得:,先从表的第一行最左边的一个差x1xa开始比较。若x1xa Ra,则x1与xa的差异显著;否则差异不显著,然后比较下一个。若x1xa1 R a一1,则x1与xa1差异显著,否则差异不显著,。第一行比较完之后用同样的方法比较第二行
29、。先从第二行最左边的一个差x2xa开始,在x2到xa这个范围内共包含a1个平均数,因此x2xa应与R a1比较,若x2xaR a1,则差异显著,否则不显著,。第二行比较完再比较第三行,第四行,。直到所有平均数的差均与其相应的R k比较完为止。对于显著的标上“*”,极显著的标上“*”。,新复极差法,此法是以统计量SSR的概率分布为基础的。SSR值由下式求得,SSR检验步骤,计算出平均数标准误;由自由度dfe、秩次距M(所含平均数的个数)查临界SSR值(附表6),计算最小显著极差LSR0.05,M,LSR0.01,M;将平均数多重比较表中的各极差与相应的最小显著极差LSR0.05,M,LSR0.0
30、1,M比较,作出统计推断,有关采用excel自定义函数来生成SSR值可参见文献,q检验法,此法是以统计量q的概率分布为基础的。q值由下式求得,q值分布表附表7,其余与SSR检验法一样,例6.2:测定东北、内蒙古、河北、安徽、贵州5个地区黄鼬冬季针毛的长度(mm),每个地区随机抽取4个样本,测定结果于下表,试比较各个地区黄鼬针毛长度的差异显著性,分析:1个因素,5个水平,4个重复的方差分析,解:“excel”“工具”“数据分析”“单因素方差分析”,由分析结果知:P0.01,说明5个地区黄鼬冬季针毛长度差异显著,q检验,1、计算平均数标准误,2、查附表7,当dfe=15,M=2,q0.05=3.0
31、1,q0.01=4.17,则,当M=3,M=4,M=5时按同理计算,结果列表,不同地区黄鼬冬季针毛长度的LSR值(q检验),a,b,b,c,A,B,B,C,3、不同地区黄鼬冬季针毛长度的差异显著(q检验),d,C,c,C,4、结果表明:东北与其他地区;内蒙古和安徽、贵州黄鼬冬季针毛长度差异均达极显著水平。河北和贵州,安徽和贵州差异达显著水平。内蒙古和河北,河北和安徽差异不显著。,LSD检验的分析结果:东北与其他地区;内蒙古和安徽、贵州;以及 河北和贵州黄鼬冬季针毛长度差异均达极显著水平。安徽和贵州差异达显著水平。内蒙古和河北,河北和安徽差异不显著。,多重比较有多种方法,不同方法用途不同、比较的
32、结果不同,总结:多重比较,尺度大小:LSD法SSR法q检验法,(原因:SSR和q检验是针对不同秩次距的平均数极差采用不同的显著尺度,充分考虑到同一总体抽样时,平均数的极差将随秩次距的增大而增大这一现象),对试验要求严格时,用q检验法较为妥当,生物试验中,由于试验误差较大,常采用新复极差法(SSR法),应该注明利用的是何种多重比较方法,1、多个实验组与一个对照组均数间两两比较 若目的是减小第II类错误,最好选用最小显著差法LSD;若目的是减小第I类错误,最好选用SSR法。,总结:多重比较,2、多个样本均数间两两比较 常用q检验的方法,第二节 单因素方差分析,单因素方差分析,分析目的:判断某试验因
33、素各水平的相对效果,分类:根据组内观测数目(重复数)是否相同1、组内观测次数相等的方差分析2、组内观测次数不等的方差分析,各处理重复次数不等的方差分析,Excel中对应函数:,求和:SUM()求幂:POWER(x,power)求平方和:SUMSQ(),例题6.3.用某种小麦种子进行切胚乳试验,试验分为3种处理:整粒小麦(I),切去一半胚乳(II),切去全部胚乳(III),同期播种于条件比较一致的花盆内,出苗后每盆选留2株,成熟后进行单株考种,每株粒重(g)结果如下表,试进行方差分析,分析:1个因素,10个水平,3个重复的方差分析,解:“excel”“工具”“数据分析”“单因素方差分析”,结果分
34、析:3种处理的单株粒重无显著差异,第三节 二因素方差分析,两因素试验资料的方差分析是指对试验指标同时受到两个试验因素作用的试验资料的方差分析,两因素方差分析,主效应:各试验因素的相对独立作用,简称主效或效应,互作:某一因素在另一因素的不同水平上所产生的效应不同,则二因素间存在交互作用,简称互作。互作效应实际是由于两个或多个试验因素的相互作用而产生的效应,互作分类:1、正的交互作用 2、负的交互作用 3、无交互作用:即互作效应为零。没有交互作用的因素是相互独立的因素,此时,不论在某个因素哪个水平,另一因素的效应都是相等的,互作效应,互作与主效应的关系:因素间的交互作用显著与否关系到主效应的利用价
35、值 1、若交互作用不显著:各因素的效应可以累加,各因素的最优水平组合起来,即为最优的处理组合 2、若交互作用显著:各因素的效应就不能累加,最优处理组合的选定应根据各处理组合的直接表现选定 3、有时候交互作用相当大,甚至可以忽略主效应,互作效应,二因素方差分析,分析目的:判断对因素主效应和交互作用,分类:1、无重复观测值的二因素方差分析2、具有重复观测值的二因素方差分析,前提二因素无互作,每个处理可不设重复数据假定A因素有a个水平、B因素有b个水平,每个水平组合只有一个观测值,全试验共有ab个观测值,无重复观测值的二因素方差分析,无重复观测值的二因素数据资料,A因素每个水平看作b个重复B因素每个
36、水平看作a个重复,模型假定,每个观察值为一个从平均值等于 ij 的群体随机、独立的抽样。共有 a b 个样本。处理效应和区组效应是加性的。处理和区组没有互作数据的方差相等eij为随机误差,相互独立,且服从N(0,2),数学模型,=总体平均ai=第 i 个处理效应,i.bj=第 j 个区组的效应,.j eij=随机误差项,xij ij,方差剖分,无重复观测值二因素的试验A因素的每个水平有b次重复,B因素的每个水平有a次重复,每个观测值同时受到A、B 两 因素及随机误差的作用。因此全部 ab 个观测值的总变异可以剖分为 A 因素水平间变异、B因素水平间变异及试验误差三部分自由度也相应剖分,平方和计
37、算,各项方差计算,ANOVA表,例题6.4:将一种生长激素配成M1,M2,M3,M4,M5五种浓度,并用H1,H2,H3三种时间浸渍某大豆品种的种子,出苗45天后得到各处理每一植株的平均干物重(g),结果如下表,试作方差分析。,分析:2个因素,无重复的方差分析,解:“excel”“工具”“数据分析”“无重复双因素方差分析”,F检验结果表明:激素处理浓度之间的F值大于F0.01,达到极显著水平;激素处理时间之间的F值未达到显著水平,说明不同激素浓度对大豆干物重有极显著的影响。,多重比较(用SSR检验):激素处理浓度之间的效应达到极显著水平,而激素处理时间之间的F值未达到显著水平,所以只对5种浸渍
38、浓度进行多重比较。,计算浓度之间的平均数标准误:,查SSR值表(附表6),得到在dfe8时,不同秩次距下的SSR值和LSR值,不同激素浓度大豆干物重多重比较的LSR值(SSR检验),a,a,b,c,A,A,B,C,不同激素浓度大豆干物重平均数的差异显著(SSR检验),c,C,多重比较结果表明:5种生长激素浓度度对大豆干物重有极显著的影响。M1与M2,M5与M3之间差异不显著;除此之外,其他激素浓度之间的大豆干物重均达到极显著差异。5种激素浓度中,M1和M2的处理效果较好,如果两个因素存在互作将互作项和误差项的平方和自由度分解有互作试验设计设重复,有重复观测值的二因素方差分析,上面讲过,因素可分
39、作固定因素和随机因素。在两因素实验中,当两个因素都是固定因素时,称为固定模型(fixed model);两个因素均为随机因素时,称为随机模型(random model);一个因素是固定因素,另一个因素是随机因素时,称为混合模型(mixed model)。这三种模型虽然在计算方法上没有多大不同,但在检验以及对结果解释上却截然不同。尤其是在两因素之间存在交互作用时,不同类型模型的区别就更明显。,两因素实验的典型设计是:假定A因素有a水平,B因素有b水平,则每一次重复都包括ab次实验,并设实验重复次数n次,ijk表示A因素的第i水平,B因素第j水平和第k次重复的观察值。数据将以下表的形式出现。表2-
40、7中A和B可以是固定因素,也可以是随机因素,因而引出三种不同的统计模型。,表27 两因素交互分组实验的一般格式,表27中的各种符号做如下说明:ci表示A因素第i水平的所有观察值的和;cj表示B因素第j水平的所有观察值的和;cij表示A的第i水平和B的第j水平的所有观察值的和;c表示所有观察值的综合。,数学模型,平方和的计算,自由度计算,各项方差计算,F检验,固定模型,两因素固定模型方差分析表如下:,表28 固定模型方差分析表(因素A、B固定型),例2.3 为了从三种不同原料和三种不同发酵温度中,选出最适的条件,设计了一个两因素试验。并得到以下结果(表29):,在这个试验中,温度和原料均为固定因
41、素。每一处理有4次重复。因此可按上面叙述过的方法分析。将表中的每一数字均减去30,列成表210.1,由表210.1中,可以计算出,及,表210.1 发酵实验方差分析计算表,利用ij列列成表210.2。,表210.2 发酵实验方差分析表,由表210.2 中可以计算出,列成方差分析表:,表211 发酵实验方差分析表,*a0.01*a0.05,原料和温度在0.01水平上拒绝H0;交互作用在0.05水平上拒绝H0。因此酒精的产量不仅与原料与温度有关,而且与两者的交互作用也有关。,随机模型,表214 随机效应模型方差分析表(因素A、B随机型),随机效应模型的方差分析表如下:,例 2.6 为了研究不同地块
42、中施用不同数量农家肥对作物产量的影响,设计了一个两因素试验。试验结果列在下表中。,解 前面已经说过,这是一随机模型。随机模型的各项平方和的计算与固定模型是一样的。将上表中的cijk每一个均减去9.5列成下表:,表215.1 作物产量方差分析计算表,利用ijk列,列成下表:,表215.2 作物产量方差分析计算表,由表215.1 计算出,由表215.2 计算出,列成方差分析表:,*a0.01,从以上方差分析表中,可以看出所选择的不同地块对产量没有显著影响。但不同施肥两对产量的影响极为显著。,混合模型,混合模型方差分析表如下:,表216 混合模型方差分析表(A固定,B随机),例27 表217 所列出
43、的数据是四个受试者在四种速度下工作,即正常速度的60、80、100、120所得到的能量消耗的比值,试验共有16种处理,每一处理重复观察2次,共做32次观察。,表217四个受试者在四种速度下工作的能量消耗,解 首先,看因素的类型。因素A是从60120这个范围内,人为地选出的四个水平,这四个水平是可以严格控制的,所以因素A为固定型;因素B的四个水平,是从受试者人群中随机抽取的,所以因素B为随机型。本试验属于混合效应模型。具体计算过程不再重复,下面给出方差分析表,表 218能量消耗实验方差分析表,首先,检验假设,因为FF9,16,0.05,所以A、B之间存在交互作用。检验,FF3,16,0.05,所
44、以实验对象个体之间的差异不显著。,最后,检验,FF3,16,0.01,接受H01。因素A是不显著的。在这四种速度下,工作的能量消耗没有显著不同。要提醒大家的是,在混合模型的方差分析时,正确区分因素的类型,正确地使用检验的统计量是非常重要的。,ANOVA表,例题6.5:为了研究某种昆虫滞育期长短和环境的关系,在给定的温度和光照条件下进行实验室培养,每一处理记录4只昆虫的滞育天数,结果列于下表,试对该资料进行方差分析,分析:2个因素,有重复的,固定模型的方差分析,解:“excel”“工具”“数据分析”“可重复双因素方差分析”,F检验结果表明:不同光照和温度对该昆虫的滞育有极显著影响,即昆虫滞育期长
45、短主要决定光照和温度;光照和温度两者之间的互作关系不大需要对光照和温度分别作多重分析,采用Excel计算重复观测值的二因素方差分析,注意事项:1、数据输入区域必须有标题2、直接分析结果仅适用用固定模型,例题:用两种不同的饲料A和B,以不同的配比方式饲养大白鼠,每一种饲料均取4个水平,各配比处理的食量相同,每一个处理重复2次,一段时间后测定增重(单位:g),结果见excel表,试对该资料进行方差分析。在方差分析时,考虑以下几个问题1)该试验资料可能属于哪种模型?其前提是什么?2)如果该试验资料属于随机模型,设置重复与不设重复对分析结果有无影响?3)若试验本身是固定模型,设置重复与不设重复对分析结
46、果有无影响?若不设重复,对分析结果会产生何种影响?,分析:2个因素,有重复的(a=4,b=4,n=2),模型方式待定的方差分析,解:,如果A和B饲料来源是天然饲料,其成分无法准确控制,则二因素均为随机模型如果A和B饲料来源是人工合成的,其成分可以人为控制,则二因素均为固定模型如果一个是天然饲料,另外一个是人工合成,则混合模型,根据不同的模型,重新计算F值以及F crit值,第四节 多因素方差分析(自学),第四节 数据变换(data transformation)在方差分析应具备的条件不能满足时做方差分析,往往导致错误的结论。这时,必须采取适当的变换,使变换后的数值能满足上述条件,用变换后的数值
47、做方差分析。变换的目的主要是满足方差分析的要求,同时对正态性以及可加性的要求都可得到较好的满足。下面主要讨论三种常用的变换方法:平方根变换(square root transforma-tion)、对数变换(logarithmic transfor-mation)和反正弦变换(inverse sine transformation)。,一、平方根变换 属于Poisson分布的数据,它们的平均数与方差等值,常常需采取这种变换方法。例如,单位面积内菌落数、一定区域内某种昆虫或某种植物数、放射性物质在单位时间内放射的次数、单位数量的种子中混有的草籽数等等。都属于这种情况。对于这类数据,应该将每个c
48、i j取其平方根c i j,然后再计算。当数值很小时,如有几个数小于10时,为了矫正,可以使用c i j1变换。,例28 施用5种不同的除草剂后,稻田中混杂的杂草株数见下表,,表220 不同除草剂除草后的杂草株数,将以上数据做c i j 变换得下表,,表221 表220中数据经平方根变换后的结果,这是一个两因素实验,一个因素是除草剂,为固定型因素;另一个因素是地块,为随机因素。做两因素方差分析,得方差分析表:,表222 例28的方差分析表,*a0.01,二、反正弦变换 属于二项分布的数据,常常需采取这种变换方法。生物学中常见的一些百分数资料,如某些多发病的患病率、某些病原体的感染率、白细胞的分
49、类计数()、淋巴细胞的转换率、玫瑰花的簇生形成率等等数据,都需要进行反正弦变换。反正弦变换的方法是,取每个观察值的平方根的反正弦的值,使它变成一个角度。然后,用这个角度做方差分析。在百分数的数值范围很大时,尤其要使用这种变换。当百分数的范围在020或80100时,可以用平方根变换,在变换之前,应先用100减去。若百分数的范围是在3070,则不一定非要做变换。当百分数的变化范围很大时,一定要做反正弦变换。,例 29 六个大豆品种,在不同试验地上发病率见表223:括号内是进过反正弦变换后的数值。按两因素方差分析发分析,计算结果列在方差分析表中(表224)。,表223 不同品种不同实验地的大豆发病率,表224 例29的方差分析表,*a0.01,三、对数变换 当反复强调差与平均数的平方成正比时,经对数变换后,则方差具备齐性。对数变换适用于大范围的正整数,对于一些小的数值,例如小于10时,每一cij都加上1再变换,即取lg(cij1)。对数变换与前两种的方法相同,不在举例。,第五节 方差分析缺失数据的估计(自学),