试验数据统计分析.ppt_三一办公31ppt.com

资源描述

《试验数据统计分析.ppt》由会员分享，可在线阅读，更多相关《试验数据统计分析.ppt（195页珍藏版）》请在三一办公上搜索。

1、1,试验数据统计分析,一、攻关目标,建立节水型的优质高效农业发展模式。提高区域农业水资源利用率及生产效率。为节水条件下农业高效持续发展提供技术支持和示范模式。,第三章试验数据统计分析,第一节方差分析第二节单因素试验结果的统计分析第三节多因素试验结果的统计分析第四节相关与回归分析,一、攻关目标,建立节水型的优质高效农业发展模式。提高区域农业水资源利用率及生产效率。为节水条件下农业高效持续发展提供技术支持和示范模式。,一、方差分析的基本原理二、单向分组资料的方差分析三、两向分组资料的方差分析,第一节方差分析,第一节方差分析,一、方差分析的基本原理（一）几个变异数的概念1、极差：最大值

2、-最小值2、离均差：观察值-平均值（xi-x)3、平方和：离均差平方的总和4、方差：平方和/观察值数5、标准差：方差的平方根值6、自由度及其意义：观察值数-1（n-1),一、攻关目标,第一节方差分析,（二）方差分析的作用 1、将总变异分裂为各个因素的相应变异，作出数量估计；发现各个因素在变异中所占的重要程度。2、准确估计试验误差。（三）自由度和平方和的分解设有k组样本，每样本皆具有n个观察值，则该资料共有nk个观察值，其数据分组如表1：,一、攻关目标,第一节方差分析,表1 每组具有n个观察值的k组样本的符号表（I=1,2,.,k;j=1,2,n）,一、攻关目标,第一节方差分析,在表1

3、中，总变异是nk个观察值的变异，故其自由度v=nk-1，而平方和SST则为总平方和：,矫正系数,组间平方和,一、攻关目标,第一节方差分析,组内平方和：SSe=SST-SSt自由度分解：（nk-1）=(k-1)+k(n-1)总自由度=组间自由度+组内自由度平方和分解：总平方和=组间平方和+组内平方和,例1 以A、B、C、D 4种药剂处理水稻种子，其中A为对照，每处理各得4个苗高观察值（cm），其结果如表2，试分析其自由度和平方和。,第一节方差分析,第一节方差分析,表2 水稻不同药剂处理的苗高（cm）,总变异=（44）-1=15药剂间自由度=4-1=3药剂内自由度=4（4-1）=12,第一节

4、方差分析,一、攻关目标,第一节方差分析,（试验误差加药剂效应）,（试验误差估计）,一、攻关目标,第一节方差分析,(四）F测验的概念：对于两个独立的样本，分别求得其均方S12和S22则将二者的比值定义为F：,在方差分析的体系中，F测验是用于测验某项变异因素的效应或方差是否真实存在。所以在计算F值时，总是将测验项变异因素的均方作分子，而将另一项变异因素（例如试验误差）作分母。若所得FF0.05或F0.01，则F值即为在a=0.05或a=0.01水平上显著；否则不显著。,一、攻关目标,第一节方差分析,例2 测定东方红3号小麦的蛋白质含量10次，得均方；测定农大139小麦的蛋白质含量5次，得均

5、方。试测前者的变异是否比后者大。显著水平面取a=0.05，v1=9，v2=4时，查附表得F0.05=6.00。测验计算：,此F F0.05，即东方红小麦蛋白质含量变异大于农大139,一、攻关目标,第一节方差分析,例如前已算得的药剂间均方:,药剂内均方:,具自由度v1=3，v2=12。试测验药剂间变异是否大于药剂内变异？,第一节方差分析,显著水平取a=0.05，F0.05=3.49。测验计算：,此F F0.05，即药剂间变异大于药剂内变异，不同药剂对水稻苗高是具有不同效应的。,第一节方差分析,(四)多重比较 F测验是一个整体的概念。仅能测出不同处理效应的平均数的显著差异性。但是，是否各个平

6、均数间都有显著差异性？还是仅有部分平均数间有显著差异而另一部分平均数间没有显著差异？它不曾提供任何信息。要明确各个平均数间的差异显著性，还必须对各平均数进行多重比较。,第一节方差分析,(一)最小显著差法（LSD法）首先算得平均数差数的标准误：,式中：为方差分析时的误差均方值，n为样本容量。由t表查得ta，即有最小显著差数：,第一节方差分析,若两个平均数的差数LSDa，即为a水平上显著。LSD法实质上是t测验，而t测验只适用于两个相互独立的样本平均数。(二)最小显著极差法（LSR法）这一方法的特点是不同平均数间的比较采用不同的显著差数标准，因而克服了LSD法的局限性，可用于平均数间的所有相互

7、比较。其常用的有新复极差测验和q测验两种。,第一节方差分析,1、新复极差测验（SSR测验）：平均数的标准误,查SSR表，查得所具有的自由度下，p=2，3，k时的SSR值（p为某两极差间所包含的平均数个数）。进而算得各个p下的最小显著极差LSR。LSR=SESSRa将各个平均数按大小顺序排列，用各个p的LSRa值即可测验各平均数的显著性；凡两极差LSRa者为显著。,第一节方差分析,例3 对前述资料的各个平均数作新复极差测验。表3 LSR值计算（新复极差测验）,第一节方差分析,4种药剂对苗高效应的平均数大小顺序是D=24，B=23，A=19，C=18。D与B比、B与A比、A与C比时p皆为2；

8、D与A比、B与C比时，p=3，D与C比时p=4，故测验结果为：B与A比：23-19=44.84，不显著A与C比：19-18=14.84，不显著D与A比：24-19=55.07，不显著,第一节方差分析,B与C比：23-18=55.23，显著结论：只有处理D和C的差异在a=0.05水平显著，其余皆不显著。2.q测验：q测验与SSR测验相似，其区别仅在于计算最小显著极差LSRa值时不是查SSRa，而是查qa。查qa值后，即有:LSR=SEqa,第一节方差分析,三.各方法的异同根据上述测验计算，可以看到在两极差间所包含的平均数个数p=2时，t测验（LSD法）、SSR测验和q测验的显著尺度都是完全

9、相同的。但是，当p2时，三种测验的显著尺度不相同，LSD法最低，SSR测验次之，q测验最高。因此，（1）对于试验结果事关重大或有严格要求的试验，宜用q测验：（2）一般试验可采用SSR测验；（3）试验中各个处理平均数皆与对照相比的，可用LSD测验。（4）LSD测验必须经过F测验确认各平均数间有显著差异之后，才宜应用；SSR测验和q测验可不经过F测验。,第一节方差分析,（(四)多重比较结果的表示方法表4标记字母法,第一节方差分析,表5.列梯形表法：,第一节方差分析,(五)方差分析的基本步骤 1将资料总变异的自由度和平方和分解为各变异因素的自由度和平方和，并进而算得其均方；2计算均方比，作出

10、F测验，以明了各变异因素的重要程度；3对各平均数进行多重比较。,第一节方差分析,二.单向分组资料的方差分析单向分组资料是指观察值仅按一个方向分组的资料.如试验中将全部供试单位随机地分成若干组,然后按组给以不同处理,这样所得的全部观察值就是单向分组资料.这种试验叫做完全随机设计试验.例4 研究6种氮肥施用方法(K=6)对小麦的效应,每种施肥方法种5盆小麦(n=5),完全随机设计,最后测定它们的含氮量,其结果如下表.试作方差分析.,第一节方差分析,表6 6种施肥法小麦植株含氮量,第一节方差分析,(一)自由度和平方和的分解总变异自由度=6*5-1=29 处理间自由度=6-1=5 误差(处理

11、内)自由度=6(5-1)=24(二)平方和分解矫正数,第一节方差分析,表7 方差分析表,第一节方差分析,(三)各处理平均数的比较在此用新复极差测验(LSR),算得,表8 新复极差测验的LSR值,第一节方差分析,表 9 6种施氮法植株含氮量的差异显性,第一节方差分析,二、两向分组资料的方差分析试验数据按两个因素交叉分组的，为两向分组资料。例如选用几种灌水量和几种施肥量，研究其对作物生长和产量的影响，其每一观察值都是某一灌水量和某一施肥量的组合同时作用的结果，故属两向分组资料。两向分组又叫交叉分组。按完全随机设计的两因素试验数据，都是两向分组资料；其方差分析按各组有无重复观察值分为两

12、种不同分析方法。（一）组合内只有单个观察值的两向分组资料的方差分析例5 用生长素处理豌豆试验，试验结果如下表：,第一节方差分析,表10 生长素处理豌豆的试验结果,第一节方差分析,（一）自由度和平方和的分解,第一节方差分析,（二）F测验,第一节方差分析,（三）处理间比较此例有指定的对照，故用LSD法。,第一节方差分析,二、组合内有重复观察值的两向分组资料的方差分析例6：施用A1、A2、A3 3种肥料于B1、B2、B3 3种土壤，以小麦为指示作物，每处理组合种3盆，得产量结果如表12，试作方差分析。,第一节方差分析,第一节方差分析,第一节方差分析,（一）自由度和平方和的分解,第一

13、节方差分析,（二）F测验,第一节方差分析,（三）平均数的比较、各处理组合平均数的比较：肥X土的互作显著，说明肥效随土类而不同，故进一步作比较。在此用新复极差测验，求得,根据v=18，算得各0.05和0.01的值于下表。,第一节方差分析,各处理组合平均数的值（新复极差测验）,第一节方差分析,各处理组合平均数的新复极差测验,2.各肥类平均数的比较：肥类间的测验极显著，求得肥类平均数的标准误,第一节方差分析,故有各肥类平均数的值及显著性测验结果于下表：,第一节方差分析,平均数的值,各肥类平均数的新复极差测验,第二节单因素试验结果的分析,一、对比和间比试验的统计分析二、随机区组试验的统计

14、分析,第二节单因素试验结果的分析,一、对比和间比试验的统计分析（一）对比试验结果的统计分析例7 有一大豆品种比较试验，有A、B、C、D、E、F6个品种，另加一标准品种CK，采用对比法设计，3次重复，所得产量结果如下表（13），试作分析。,第二节单因素试验结果的分析,表13 大豆品比试验（对比法）产量结果与分析,第二节单因素试验结果的分析,例如：a品种对邻近ck的,第二节单因素试验结果的分析,（二）间比试验结果的统计分析步骤：1、将各处理在各重复的小区产量相加，得总和；2、总和除以重复次数得小区平均数X；3、计算各处理的理论对照标准CK，CK为前后两个对照的平均数；4、计算各处理产量对相

15、应CK产量的百分数。,第二节单因素试验结果的分析,第二节单因素试验结果的分析,二、随机区组试验的统计分析随机区组试验结果的统计分析，应用方差分析部分所述两向分组单个观察值资料的方差分析法。在这里可将处理看作A因素，区组看作B因素，其余部分则为试验误差。设试验有n个处理，k个区组，则其自由度和平方和的分解如下：nk-1=(k-1)+(n-1)+(n-1)(k-1)总自由度=区组自由度+处理自由度+误差自由度总平方和=区组平方和+处理平方和+试验误差平方和,第二节单因素试验结果的分析,例8有一灌溉试验，共有A、B、C、D、E、F、G、H8个处理（k=8），其中A是对照处理，采用随机区组设计，

16、重复3次（n=3），其产量结果如下表（14）：,第二节单因素试验结果的分析,第二节单因素试验结果的分析,（一）自由度和平方和的分解1。自由度的分解：总自由度,第二节单因素试验结果的分析,2.平方和的分解：,第二节单因素试验结果的分析,（二）方差分析和F测验将上述结果列入下表：方差分析表,第二节单因素试验结果的分析,方差分析结果（根据上表）：对于区组 F=13.78/1.64=8.40F0.05，说明区组间土壤肥力有显著差异。对于处理间 F=4.87/1.64=2.97F0.05，说明8个处理间有显著差异。但是到底哪些处理间有显著差异？哪些处理间没有显著差异？则需作多重比较。,第二节

17、单因素试验结果的分析,（三）处理间比较1。T测验（LSD法）：如果测验各处理与对照是否有差异，宜用LSD法。步骤如下：（1）计算处理间差数的标准误以小区平均数为比较标准时，差数标准误为,并有,第二节单因素试验结果的分析,以各处理的小区总产量为比较标准时，因总产量比平均产量大n倍，故差数标准误为,并有,第二节单因素试验结果的分析,在此以小区平均产量为比较标准，则,由于v=14时，t0.05=2.145，t0.01=2.977，故LSD0。05=1.05*2.145=2.25（斤）LSD0。01=1.05*2.977=3.13（斤）,第二节单因素试验结果的分析,如以小区总产量为比较标准，则,

18、第二节单因素试验结果的分析,如以亩产量为比较标准，则可算得化各品种总产量为亩产量的改算系数：,式中，3为小区数目，200为小区面积。并有,第二节单因素试验结果的分析,表15 各处理产量和对照相比的差异显著性,第二节单因素试验结果的分析,2、新复极差测验（LSR法）：测验各处理相互比较的差异显著性，宜应用LSR法。步骤如下：（1）计算处理标准误SE以小区平均数比较时为,第二节单因素试验结果的分析,以小区总数为比较时为,以亩产量为比较时为,第二节单因素试验结果的分析,（2）查表当v=(n-1)(k-1)时p自2至k的SSR0.05和SSR0.01值，进而算得LSR0.05和LSR0.01

19、值LSR0.05=SE*SSR0.05LSR0.01=SE*SSR0.01上式LSR0.05和LSR0.01即为测验各种P下极差显著性的尺度。,第二节单因素试验结果的分析,在本例如以小区平均数为比较标准，则有,查附表，v=14，P=2时，SSR0.05=3.03，SSR0.01=4.21，故,第二节单因素试验结果的分析,P=3时，SSR0.05=3.18，SSR0.01=4.42，故,P=4，5，时，可以类推，在此应一直求至P=k=8时为止。其全部结果录入下表：,第二节单因素试验结果的分析,表16 新复极差测验的最小显著极差,第二节单因素试验结果的分析,表17 新复极差测验,第三节多

20、因素试验结果的分析,多因素试验结果的统计分析的基本原理，已在第一节作过介绍。本节只是这些基本原理的引伸应用。一、两因素随机区组试验结果的统计分析设有A和B两个试验因素，各具a和b 个水平，作随机区组设计，有r次重复，则该试验共得rab个观察值。其各项变异来源的自由度可分解于下表：,第三节多因素试验结果的分析,表18 二因素随机区组试验自由度的分解,第三节多因素试验结果的分析,由表18可见，二因素随机区组试验和单因素随机区组试验，在变异来源上的区别仅在于：前者的处理项可进而分解为A因素水平间、B因素水平间、和AB互作间三个部分，因而也就可分解出相应的自由度和平方和(ab-1)=(a-1)+(

21、b-1)+(a-1)(b-1)处理自由度=A的自由度+B的自由度+AB自由度处理平方和=A的平方和+B的平方和+AB平方和,第三节多因素试验结果的分析,例9 有一小麦二因素试验，A因素为品种，分A1（早熟）、A2（中熟）、A3（晚熟）三个水平（a=3)，B因素为灌水量，分B1（50m3)、B2（100m3)、B3（150m3）三个水平（b=3），共ab=3*3=9个处理组合，重复3次（r=3），小区计产面积60尺2。其田间排列和小区产量（斤）列于下图。试作分析。,第三节多因素试验结果的分析,小麦品种和灌水量随机区组试验的田间排列和产量,I,II,III,第三节多因素试验结果的分析,1.

22、结果整理：（1）将结果按处理和区组作两向分组整理成表：,第三节多因素试验结果的分析,（2）按品种和灌水量作两向分组整理成表：,第三节多因素试验结果的分析,在上表中，Tr=区组总和，TAB=处理总和，TA=品种总和，TB=灌水总和，T=全试验总和。2.自由度和平方和的分解：,第三节多因素试验结果的分析,第三节多因素试验结果的分析,对处理组合项SS再进行分解：,第三节多因素试验结果的分析,3.方差分析和F检验：表19 二因素试验的方差分析,第三节多因素试验结果的分析,4.差异显著性测验（1）品种间比较,查附表，P=2时，SSR0.05,16=3.00，SSR0.01,16=4.13，P

23、=3时，SSR0.05,16=3.15，SSR0.01,16=4.34。因此有P=2，LSR0.05,=0.238X3.00=0.71，LSR0.01,=0.238X4.13=0.98，,第三节多因素试验结果的分析,P=3，LSR0.05,=0.238X3.15=0.75，LSR0.01,=0.238X4.34=1.03。测验结果列于下表：三个品种平均产量新复极差测验,第三节多因素试验结果的分析,（2）品种灌水的互作：,（1）A1品种,作新复极差测验，算得,P=2时，LSR0.05,16=1.24，LSR0.01,16=1.70，P=3时，LSR0.05,16=1.30，LSR0.01,1

24、6=1.79。,第三节多因素试验结果的分析,（3）A3品种,（2）A2品种,第三节多因素试验结果的分析,5.试验结论本试验品种主效有显著差异，以A3产量最高，与A1有显著差异，而与A2无显著差异。灌水主效无显著差异（？）。但品种与灌水互作极显著，A3品种需用B3灌水量，A2品种需用B1灌水量，才能取得高产。,第三节多因素试验结果的分析,二、三因素随机区组试验结果的分析设有A、B、C三因素，各具a、b、c个水平，作随机区组设计，设有r个区组，则该试验共有rabc个观察值，其各项变异来源及自由度的分解如下表：,第三节多因素试验结果的分析,三因素随机区组试验自由度的分解,第三节多因素试验结

25、果的分析,由上表可见，三因素随机区组试验和单因素随机区组试验比起来，仅在于前者的处理间变异再被分解为7项，其中主效3项，一级互作3项，二级互作1项。各项都有相应的自由度和平方和，并且这些项的自由度之和与平方和之和一定等于处理项的自由度和平方和。,第三节多因素试验结果的分析,例10 有一随机区组设计的棉花栽培试验，有A（品种）、B（播期）、C（灌水）3个试验因素，各具a=2，b=2，c=3个水平，重复3次，小区计产面积200尺。其处理内容和代号见下表，田间排列和皮棉产量见下图，试作分析。,第三节多因素试验结果的分析,第三节多因素试验结果的分析,区组I,区组II,区组III,棉花三因素随机区

26、组试验的田间排列示意图,第三节多因素试验结果的分析,1.结果整理：将试验结果按区组和处理作两向分组整理成表1；再按任两个因素作两向分组整理成表2、3、4。以下页表中，Tr、TABC、TA、TB、TC依次分别为各区组、处理、品种、播期、灌水的总和数，T为试验总和数。各个总和数所包含的小区数目，必为总小区数（rabc）除以该总和数的下标所具有的水平。,第三节多因素试验结果的分析,表20 区组和处理两向表,第三节多因素试验结果的分析,AB两向表,AC两向表,第三节多因素试验结果的分析,BC两向表,第三节多因素试验结果的分析,2.自由度和平方和的分解：,由区组和处理两向表可求得,第三节多因

27、素试验结果的分析,由AB两向表求得,第三节多因素试验结果的分析,由AC两向表求得,第三节多因素试验结果的分析,由BC两向表可求得,SSABC=382.00-256.00-25.00-0.50-18.7-80.16-1.50=0.07,第三节多因素试验结果的分析,3.方差分析和 F 测验：棉花品种、播期、灌水三因素试验的方差分析如下页表（21）。,第三节多因素试验结果的分析,第三节多因素试验结果的分析,4、效应和互作的显著性测验：（1）品种效应：如前表每个品种的TA是rac=323=18个小区的产量，故,因此，A1品种亩产量=174 1.67=290.6(斤）A2品种亩产量=78 1.

28、67=130.3(斤）相差 160.3(斤）,第三节多因素试验结果的分析,为测验差数160.3斤/亩的显著性，算得亩产量的标准误,即A1品种的产量显著高于A2（160.315.9）。实际上，当因素或互作的v=1时，t测验、q测验、SSR测验的结果都完全相同，也和F测验的结果完全相同。所以遇到这种情况，可以据F测验直接作出判断，不需再作测验（见方差分析表）。,第三节多因素试验结果的分析,（2）播期效应：因为v=1，由F测验可直接判断是否显著。（3）品种X播期的互作：A X B互作值=61-35=26(斤）（见AB两向表）。F测验已表明此差数亦显著。（4）品种X灌水的互作：由AC两向表求得A

29、 XC的各个互作值于下表：,第三节多因素试验结果的分析,表 22 品种（A）X灌水（C）的互作值,第三节多因素试验结果的分析,求得亩产量标准误,上述尺度测验A与C的互作值的亩产量，都达0.01的水平。,5、试验结论：试验品种和播期皆有显著效应，品种应选A1，播期应选B1。AXB互作显著，选用A1B1组合，可取得亩增收43.4斤的互作；AXC的互作也显著，选用A1C1也可取得亩增收35.0-107.5斤的互作。因此本试验的最优组合为A1B1C1，即处理1。,第三节多因素试验结果的分析,三、裂区试验结果的统计分析设有A和B两个试验因素，A因素为主处理，具a个水平，B因素为副处理，具b个水平，

30、设有r个区组，则该试验共得rab个观察值。其各项变异来源和相应的自由度如下表：,第三节多因素试验结果的分析,表23 二裂式裂区试验自由度的分解,第三节多因素试验结果的分析,由上表可见，二裂式裂区试验与二因素随机区组试验在分析上的不同，仅在于前者有主区部分和副区部分，因而有主区误差和副区误差。也就是说裂区试验有误差项的再分解。例11 有一小麦中耕次数（A）和灌水（B）试验，主处理为A，分A1、A2、A3 3个水平；副处理为B，分B1、B2、B3、B4 4个水平，裂区设计，重复3次（r=3),副区计产面积300平方尺，其田间排列和产量如下图，试作分析。,第三节多因素试验结果的分析,第三节多

31、因素试验结果的分析,A1,A3,A2,A3,A2,A1,A1,A3,A2,重复I,重复II,重复III,（一）结果整理按区组和处理作两向分组整理成下表（24）：,第三节多因素试验结果的分析,第三节多因素试验结果的分析,（续）,第三节多因素试验结果的分析,（续）,按 A 因素和 B 因素作两向分类整理成下表（25）：,第三节多因素试验结果的分析,（二）自由度和平方和的分解,第三节多因素试验结果的分析,（二）自由度和平方和的分解,第三节多因素试验结果的分析,（二）自由度和平方和的分解,第三节多因素试验结果的分析,（三）F 测验,第三节多因素试验结果的分析,（四）效应和互作的显著性测

32、验基本步骤（具体计算略）：1、计算标准误；2、查附表得SSRa值；3、求得LSRa值；4、根据上述尺度测验各因素水平的差数。测验结果如下页表：,第三节多因素试验结果的分析,表 26 三种中耕处理亩产量的新复极差测验,第三节多因素试验结果的分析,表 27 灌水处理亩产量的新复极差测验,第三节多因素试验结果的分析,（五）试验结论本试验中耕次数的A1显著优于A2、A3，灌水量的B2显著优于B1、B3、B4。由于AXB互作不存在，故应取相加式，最优组合必为A1B2。,第三节多因素试验结果的分析,三、应用正交表分析试验结果凡采用正交表设计的试验，皆可再用正交表分析试验结果。首先将试验结果按处理列

33、于正交表的右侧；然后，按表头设计的列，将各水平的和用T1、T2、T3等表示，记于正交表的下方。正交表上行（处理）的自由度是为各列所分解的，而各列的自由度则为该列的水平数减1。所以，表头各因素的效应或互作的自由度，即为该列的水平数减1；其相应平方和则可由列下的T1、T2、T3等值得出。,第三节多因素试验结果的分析,试验误差的自由度和平方和为误差DF=总DF-区组DF-各列DF之和误差SS=总SS-区组SS-各列SS之和例12 有一早稻三因素试验，A因素为品种，有A1、A2、A3、A4水平；B因素为栽插密度，有B1、B2水平；C因素为施氮量。有C1、C2水平；选用L8（4x24），其表头设计和产

34、量结果如下页表（27），试作分析。,第三节多因素试验结果的分析,表27 422试验，L8（4x24）设计,第三节多因素试验结果的分析,（续）,第三节多因素试验结果的分析,（一）结果整理在上表中：1、将各处理小区产量相加得Tt，将各区组的小区产量相加得Tr；2、将各列下同水平的Tt相加，如T1=52+59=111；3、空列不加，其变异归入误差；4、根据列下各Ti值可算得各列极差 R。,第三节多因素试验结果的分析,（二）自由度和平方和的分解总DF=rt-1=(3x8)-1=23区组DF=r-1=3-1=2A的DF=a-1=4-1=3B的DF=b-1=2-1=1C的DF=c-1=2-1=1误

35、差DF=23-2-（3+1+1）=16,第三节多因素试验结果的分析,按多因素试验的一般方法分解平方和，求得,第三节多因素试验结果的分析,第三节多因素试验结果的分析,当因素只有两水平时，其效应平方和可用简式计算：,（三）F 测验,第三节多因素试验结果的分析,（四）差异性显著性测验因为C因素只有2个水平，所以不需再作测验，即知C2显著优于C1，其亩产量为C2=262X6000/（12X150）=873.2（斤）C1=234X6000/（12X150）=780.0相差 93.2(斤）,第三节多因素试验结果的分析,A因素各水平的差异显著性需进一步测验。在此以亩产量为比较标准，故Cf=6000

36、/（6X150）=6.6667亩产标准误（下页）：,第三节多因素试验结果的分析,第三节多因素试验结果的分析,表28 各品种亩产量的q测验,第三节多因素试验结果的分析,对各处理组合间的差异性作显著性测验：由于表中的TA值是3个小区的产量，故Cf=6000/(3X150)=13.3333亩产量的标准误,第三节多因素试验结果的分析,应用q测验法，可算得p=2，3，8，v=16时的各个LSR值于表29。,表29 LSR值的计算,第三节多因素试验结果的分析,表30 各处理组合的差异显著性,第三节多因素试验结果的分析,一、回归和相关的概念二、直线回归方程三、直线回归的假设测验和区间估计四、直线

37、相关,第四节直线回归与相关,第四节直线回归与相关,变量间的关系有两类：函数关系；统计关系函数关系有严格的数学依存关系统计关系又称相关关系，不能精确用固定不变的数学公式表示统计关系有两种分析方法：相关分析法和回归分析法,第四节直线回归与相关,一、回归和相关的概念科学实验中所要研究的变数往往不只是一个，而是两个或两个以上。如：土壤水分与作物产量的关系，亩穗数，穗粒数和产量的关系等。为了处理具有一定联系的两个以上的变数，除继续应用符号x外，还需引入符号y.这样两个变数（x,y）的各对观察值可用（x1，y1）、（x2，y2）、（xn，yn）表示。为初步考察x和y的关系，我们可将每一对（xi，

38、yi）都表示为直角坐标平面上的一个点，作成如下散布图：,第四节直线回归与相关,X 生物产量（克）图1 水稻生物产量和稻谷产量散布图,第四节直线回归与相关,图2 水稻每米2颖花数和结实率散布图,第四节直线回归与相关,图3 水稻最高叶面积指数和亩产量的散布图,第四节直线回归与相关,由这种散布图可以了解：（1）两个变数的性质和密切程度或由x估计y的精确度；（2）两个变数的关系是直线型的还是非直线型的；（3）是否有一些特殊的不规则的点着有其它因素的干扰等。,第四节直线回归与相关,如从上述3个不同散布图可以看出：（1）图1、图2都是直线型的，但方向相反；前者y随x的增大而增大，表示两个变数的关

39、系是正的；后者y随x的增大而减小，表示关系是负的性质。（2）图1的各个点几乎都落在一直线上，图2则较为分散；因此，前者的相关程度高于后者。（3）图3 中x和y的关系不是直线型。本节仅讨论直线型关系。,第四节直线回归与相关,在统计上，x和y的关系有两种理论模型：第一种叫回归模型，第二种叫相关模型。两种理论模型的区别是：1、在回归模型中：（1）自变数x是固定的，无误差或误差很小；（2）依变数y随x变化，有随机误差；（3）有x变化预测y变化的作用，具有预测特征；（4）回归资料的统计分析叫回归分析；就是要导出由x预测y或控制y的回归方程。,第四节直线回归与相关,2、在相关模型中：（1）x和y是平行

40、变化关系；（2）x和y皆有随机误差，因而不能区别哪个是自变数，哪一个是依变数；（3）相关模型的特征是表示两个变数的偕同变异，不具预测性；（4）相关分析是要测定两个变数在数量关系上的密切程度和性质。,第四节直线回归与相关,但是回归和相关并不能截然分开，因为由回归可获得相关的一些信息，由相关也可获得回归的一些重要信息。3、以防统计方法误用必须注意的问题：（1）变数间是否存在相关，须有具体学科本身来定；（2）由于自然界各种事物间的相互联系和制约，一事物的变化通常都会受到其它事物的影响。因此，如果仅研究一对事物的关系，其余事物的均匀性必须尽可能得到严格控制。,第四节直线回归与相关,（3）为提高回

41、归和相关分析的准确性，两个变数的成对观察值应尽可能地多一些，应有5对以上观察值，并使x的取值范围尽可能大一些。二、直线回归方程（一）直线回归方程式对于在散布图上呈直线趋势的两个变数，如果要概括其在数量上的互变规律，即从x的数量变化来预测或估计y的数量变化，则要采用回归方程来描述。此方程的通式如下：,第四节直线回归与相关,上式读作“y依x的直线回归。其中x是变数，是和x的量相对应的依变数y的点估计值；a是x=0时的值，即回归直线在y轴上的截距，叫回归截距；b是x每增加一个单位数时，平均地将要增加（b0)或减少(b0)的单位数，叫回归系数。,（1）,第四节直线回归与相关,要使能够最好地代

42、表y和x在数量上的互变关系，根据最小平方法，须使,第四节直线回归与相关,因此，a和b值按微分学上求极小值原理得出，即有正规方程,以上是二元一次联立方程组，解之得,（2）,（3）,第四节直线回归与相关,上述（3）式的分子是离均差的乘积和，记作SP；分母是离均差平方和，记作SSx。将（2）、（3）式算得的a和b值代入（1）式，即可保证Q值最小。A和b可正可负，因具体资料而异。在a0时，回归直线在第I象限交于y轴；在a0时，表示y随x的增大而增大，成正相关；在b0时，表示y随x的增大而减小，成负相关；见下图。在b=0或和0的差异不显著时，则表明y的变异和x的取值大小无关，直线回归关系不能成立。,

43、第四节直线回归与相关,图4 直线回归方程的图象,第四节直线回归与相关,将（2）式代入（1）式可得,（4）,由（4）式可见，若x=,则y=.所以回归直线必通过坐标点（，）。记住这一点有助于绘制具体资料的回归直线。（二）直线回归方程的计算例1 如下表：,第四节直线回归与相关,表 1 累积温和一代化螟蛾盛发期的关系,第四节直线回归与相关,首先由上表资料算得6个一级数据：,然后，由一级数据算得二级数据：,第四节直线回归与相关,第四节直线回归与相关,第四节直线回归与相关,故得直线回归方程为,（三）直线回归方程的图示1、直线回归图包括回归直线图象和散布图；2、制作回归图时，以x为横坐标，y为

44、纵坐标；3、纵、横坐标皆需标明名称和单位；4、取x坐标上的一个小值x1代入回归方程得y1;再取一个大值x2代入回归方程得y2。连接坐标点（x1，y1）和（x2，y2）成一条回归直线（如下图5）。,第四节直线回归与相关,图5 旬平均温度累积值和一代三化螟蛾盛发期的关系,第四节直线回归与相关,（四）直线回归的估计标准误由上图可见，直线回归方程和实测的坐标点并不吻合。故应对其误差进行估计。由于Q为离回归平方和，且建立回归方程时用了a和b两个统计数，故Q的自由度v=n-2。则回归的标准误：,（4）,第四节直线回归与相关,（五）直线回归的数学模型和基本假定在直线回归中，总体的每一个Y值决定于三个

45、因素：（1）Y的总体平均数Y；（2）因X的作用而使Y发生的离均变异，（3）Y的随机误差。因此，直线回归,第四节直线回归与相关,的数学模型可表示为：,在按上述模型进行回归分析时，假定：1、任一个X上都存在一个Y总体，它是作正态分布的；2、所有Y总体都具共同方差，因而直线回归总体具有我们得到的观察值只是总体N中的随机本。3、直线回归的总体方差是可分的。4、X是没有误差的固定变数，而Y是随机变数。,第四节直线回归与相关,三、直线回归的假设测验1、回归关系的假设测验对于样本的回归方程，必须测定其来自无直线回归关系的总体的概率大小。只有当这种概率a0.05或a0.01时，才能确认其所代表的总体

46、存在直线回归关系。这就是回归关系的假设测验，可由t测验或F测验给出。由于回归系数的标准误Sb为,（5）,第四节直线回归与相关,并且,遵循v=n-2的t分布，故由t值即可知道样本回归系数b来自不存在回归关系总体的概率的大小。例：试测上述回归关系的显著性。已算得b=-1.0996，SSx=144.6356，Sy.x=3.266，故有,第四节直线回归与相关,查表得：t0。05，7=2.36，t0。01，7=3.50。现实得ltl=4.05，表明在总体中因抽样误差而得现有样本的概率a0.01，或说此b=-1.0996是极显著的。因而所建回归方程是可靠的。,第四节直线回归与相关,2、F测验：当以

47、表示y资料时（不考虑x的影响），y变数有平方和和自由度v=n-1。当以表示y资料时（考虑x的影响），则SSy将分解成两个部分，即,离回归平方和：,回归平方和：,第四节直线回归与相关,由于回归和离回归的方差比遵循v1=1、v2=n-2的F分布，故由,即可测定回归关系的显著性。例试测前述资料回归关系的显著性。前已算得Ssy=249.5556，Q=74.6670，故,第四节直线回归与相关,U=249.5556-74.6670=174.8886，并有方差分析表：回归关系的假设测验,第四节直线回归与相关,上述t和F测验，在任何回归样本上，其结果都完全一致。因为在同一概率值下，v1=1、v2=n

48、-2的一尾概率值恰巧等于v=n-2 的两尾t值的平方。如本例，F=16.40，t=-4.05，(-4.05)2=16.40。所以，对直线回归作假设测验，只需选择上述方法的一种。（二）两个回归系数比较时的假设测验若有两个直线回归样本，分别具有样本回归系数b1、b2和总体回归系数1、2，则在测验b1、b2的差异显著性时，两个样本回归系数的差数的标准误Sb1-b2为,第四节直线回归与相关,上式的分母分别为两个样本x变数的平方和，分子为两个样本回归估计标准误的合并方差，其值为,第四节直线回归与相关,上式中的Q1和Q2分别为两个样本的离回归平方和，n1和n2分别为两个样本的成对观察值数目。由于（b

49、1-b2)/Sb1-b2遵循v=(n1-2)+n2-2)的t分布，故有,第四节直线回归与相关,四、直线回归的区间估计（一）直线回归的抽样误差设直线回归总体，具有总体回归方程Y=a+X和标准差Y.X（它给定了坐标点的离散程度）。在对该总体抽取若干个样本时，则由于Y.X各样本的a、b值都有误差。因此，由Y=a+bx给出的点估计的精确性，决定于SY。X和a、b的误差的大小。比较科学的方法应是考虑到误差的大小和坐标点的离散程度，给出一个区间估计，即给出对其总体的、Y等的置信限。,第四节直线回归与相关,（二）回归截距的置信限样本回归截距a的标准误为,而（a-)/Sa是遵循v=n-2的t分布的。所以

50、对总体回归截距有95%可靠度的置信限为L1=a-t0.05 Sa,L2=a+t0.05 Sa,第四节直线回归与相关,置信限表示总体回归截距在L1，L2区间内的可靠度为95%；或可解释为：样本的回归截距a可预期每100个中约有95个a值在L1，L2区间内。（三）回归系数的置信限（b-)/Sb亦遵循v=n-2的t分布，故对总体回归系数有95%可靠度的置信区间为L1=b-t0.05 Sb,L2=b+t0.05 Sb,第四节直线回归与相关,上式中的Q1和Q2分别为两个样本的离回归平方和，n1和n2分别为两个样本的成对观察值数目。由于（b1-b2)/Sb1-b2遵循v=(n1-2)+n2-2)的t分

展开阅读全文