《方差分析一:单向.ppt》由会员分享,可在线阅读,更多相关《方差分析一:单向.ppt(46页珍藏版)》请在三一办公上搜索。
1、方差分析(一)单向方差分析(one-way ANOVA),方差分析(analysis of variance,ANOVA)又称变异数分析或 F检验,适用于对多个平均值进行总体的假设检验,以检验实验所得的多个平均值是否来自相同总体。,实验三要素:,统计模型:,效应值=总平均效应+处理效应+随机误差效应,效应值-总平均效应=处理效应+随机误差效应,第一节 方差分析的基本思想,方差分析的基本思想是将出现在所有测量值上的总变异按照其变异的来源分解为多个部分,然后进行比较,评价由某种因素所引起的变异是否具有统计学意义。单向方差分析(one way analysis of variance)是指处理因素只
2、有一个。这个处理因素包含有多个离散的水平,分析在不同处理水平上应变量的平均值是否来自相同总体。,例8-1 有3种解毒药:A、B及C,同时设一个空白对照D,共有4个组。即解毒药这个处理因素包含有4个水平,或4个处理组,用i表示处理组号,i1,2,3,4分别代表A、B、C、D4个组。受试大白鼠共24只,故动物总数或样本含量N=24。按完全随机化方法将它们分成等数的4个组,每组有6只动物。用ni表示第i组受试动物数(当每组受试动物数相等时用n代替 ni)。用j(j=1,2,6)表示每组受试动物号。应变量用Yij表示第 i组第j号大白鼠的血中胆碱酯酶含量(/ml)。实验结果见表8l。,表8-1 应用不
3、同解毒药的大白鼠血中胆碱酯酶含量(Yij)(ml),各组平均值为。各组测定值的总和为=111+89480。样本总平均值为 4802420.0。在单向方差分析中,变异来源于两个方面,一方面是受试对象个体间的变异(称组内变异),另一方面是实验因素各水平间的变异(称组间变异)。因此,总变异可按其变异来源进行分解。,总变异=处理间变异(组间)+误差(组内),观察值效应=总平均效应+处理效应+随机误差效应,总平均,单因素方差分析的基本思想(图示),一、离均差平方和的分解,个体测定值与总平均值之差可写为 上式等号右边第一项称为组内离均差,第二项是组平均值与总平均值之差,称为组间离均差。将等式两边平方后求和
4、得到,上式第二行中间的一项又可以写成下列等式:这是因为有之故。最后得到公式(8-1)就是单向方差分析的总离均差平方和分解公式。用文字表达为:总离均差平方和组间离均差平方和十组内离均差平方和SS总SS组间+SS组内,二、F值与F分布,t检验是用t值进行假设检验的,方差分析则用F值进行假设检验。每种来源的离均差平方和用相应的自由度去除,可得到平均的离均差平方和,简称均方(mean square,MS)。各种均方表示为:组间均方:MS组间SS组间v组间SS组间(al)组内均方:MS组内SS组内v组内SS组内(Na)组内均方表示各组内均方的平均值,它是随机误差项的方差的综合估计值。其代表性优于每个组的
5、组内均方。它的分子和分母分别是各组内离均差平方和之和及各组内自由度之和。,关系式为:由于组间均方包含由随机误差及处理因素引起的误差,故其值比组内均方大。理论上的组间均方的期望值可表示为:式中为组内均方的期望值 E(MS组内),i及为分别对应于及 的期望值。,F值的计算公式为F值的实际意义表现为如下的比值:,H0:T=0 H1:T0,F统计量不可能是负值,因为分子及分母都是平方项。分子中的SS组间是各组平均值与总平均值之差的加权平方和。如果各处理组所代表的总体平均值彼此相等,则各组样本平均值也就彼此接近。其结果是各组样本平均值很接近总平均值。反之,如果各处理组所代表的总体平均值差别很大,则相应的
6、各组样本平均值也就彼此差别很大;某些组平均值就明显不同于总平均值。因此一个大的组间均方MS组间可使F值变大,它提供足够的把握来拒绝无效假设。若MS组间很小,则缺乏证据来拒绝无效假设。,由于分析数据都是来自样本,故必须考虑资料的变异性。组内均方MS组内是随机误差方差的估计值,它是衡量样本资料随机变异性大小的指标。如果资料的随机变异性很大,则MS组内也大。若资料的随机变异性很小,则MS组内也小。当MS组间大,而MS组内小时,F值就大。当MS组间大,MS组内也大时,则F值就不一定大。那么F值要多大才能有把握拒绝无效假设呢?这就要由F统计量的分布来决定了。当F统计量达到一个小的P值水平时,就可以拒绝无
7、效假设。,t分布只有一个自由度。因为两组比较时,组间自由度恒为l。F分布有两个自由度,即组间自由度v组间=a-l及组内自由度v组内=Na,又分别称为分子自由度v1和分母自由度v2。F分布是一种偏态分布。它的分布曲线由这两个自由度来决定。分子自由度v1 4及分母自由度v2 10的F分布曲线见图8l。,F分布的随机变量没有负值。依据不同 水准下的F界值表。例如当v1=10,v2=30时,0.05的临界F值F0.05(10,30)2.16,当计算出的统计量 F值等于或大于临界 值时,就在水准上拒绝无效假设,否则就不拒绝无效假设。根据计算出的F统计量与临界F值 之间的关系有如下的统计学推断规则:,第二
8、节 方差分析的步骤,方差分析的步骤为:一、整理和描述资料。在第一节中已经介绍了方差分析所用的资料表格式(见表8-l)。按格式整理后,计算出每组的测定值之和、组平均值,测定值平方和以及总平均值等。二、提出检验假设及规定类错误概率水准的大小。H0:1=2=a,各组所代表的总体平均值相等;H1:i h,至少有一个不等式成立。i,hl,2,a。i h。0.05。,离均差平方和的简化计算公式:,式中C为校正数,三、计算各种离均差平方和、自由度及均方。例一资料用式(8-l)、式(8-2)与式(8-3)计算出的结果如下:l总离均差平方和 SS总10616(480)2241016.0。总自由度v总24l23。
9、2组间离均差平方和组间自由度v14-l3,组间均方 MS组间568.33/3=189.443组内离均差平方和SS组内1016.0568.33447.67。组内自由度v2=4(6l)20,组内均方MS组内447.67/20=22.38,四、计算F值。应用式(8-4)计算得 F189.44/22.38=8.46将以上计算结果列于方差分析表中(见表8-2)。五、确定P值并作出统计学推断。查附表5:F界值表,得F0.05(3,20)3.10。由于FF0.05(3,20),故有概率P0.05,根据式(8-5)的推断规则拒绝无效假设,接受备择假设。处理因素的 4个水平中至少有一个组的总体平均值不同于其他各
10、组。从表8-l所示的各 值可见,不同解毒药物的效果是不同的。解毒药物 A和 C与空白对照组 D相近。B组血中胆碱酯酶含量较其他组为高。,表8-2大白鼠血中胆碱酯酶含量方差分析表,第三节 平均值之间的多重比较,方差分析是对各观察组的平均值是否来自相同总体进行总的检验,不能对各组间的差别作深人分析。这一点却往往是研究者最关心的。对于一个实验,如果经方差分析后不拒绝无效假设,则表示各组平均值所代表的总体是相等的。分析工作即可终止。但若结果拒绝了无效假设,则需进行平均值之间的多重比较以进一步确定哪些组的平均值之间的差别,具有统计学意义。这时就涉及到累积类错误概率的问题。,当有a个平均值需作两两比较时,
11、比较的次数共有c=a!/2!(a-2)!。例如当a3时c3,a4时c6。当比较的次数越多,在无效假设为真时,拒绝无效假设时的累积类错误概率也越大。设每次检验所用类错误的概率水准为,累积类错误的概率为,则在对同一实验资料进行c次检验时,在样本彼此独立的条件下,根据概率乘法原理,其累积类错误概率与c有下列关系:例如,设=0.05,c=6,其累积类错误的概率为l-(1-0.05)6=1-(0.95)6=0.26。目前有多种有效控制累积类错误概率的多重比较方法,下面介绍常用的Bonferroni法、SNK法和Tukey法。,均数间多重(两两)比较的三种形式及比较的方法:1.各均数间全部比较(探索性研究
12、)方法:SNK法(q检验)、Bonferroni法、Tukey法等。2.多个实验(处理)组与一个对照组比较 例:A B C三组分别与对照组比较 方法:Dunnett检验3.比较具有专业意义的组(确定性研究)例:A、B、C、D四组,从专业意义认为只需比较 A与C和B与D,其余各组不需比较。方法:LSD法(最小显著差法 least significant difference),一、Bonferroni法,Bonferroni提出,如果在水准上进行c次假设检验,当无效假设为真时,至少有一次拒绝无效假设的累积类错误概率不超过ca,即有不等式 ca。例如设0.05,c=3时运用概率乘法原理计算出的 0
13、.143(30.05)。因此可以重新选择类错误概率水准,以便使累积类错误概率0.05。根据 Bonferroni不等式可得到要重新选择的水准为(/c)。例如设定0.05,进行 3次比较(c=3)时,重新选定的水准为=(0.05/3)0.016。只有当t检验的类错误概率等于或小于0.016时才能拒绝无效假设。这样当无效假设为真时,其累积类错误概率不超过0.05。,用Bonferroni法进行多个平均值之间的两两比较时所用的t检验公式为:式(8-7)的分母Se,为两平均值之差的标准误,计算公式为:、及ni、nh分别是两个比较组的平均值及观察例数。例如对例8-1的四个平均值进行两两比较时,c6。设累
14、积 I类错误概率0.10。对用于每次检验的类错误概率水准进行调整得(0.10/6)0.0167。故采用t(=0.0167/2,v)作为临界值。但在通用的t分布表中查不到这一概率水准下的t值,须通过下列公式换算:,式(89)中的v为组内均方的自由度。Z是标准正态分布面积下的横轴距离取值。本例为/20.0083,Z=2.395,v20,代入上式即得到临界值为:利用式(8-8)计算t检验所需的标准误Se:利用式(8-7)计算各组平均值之间两两比较的t值为:,用相同的方法计算出t(A:C)0.072.607,t(A:D)1.352.607;t(B:C)3.402.607;t(B:D)4.832.97;
15、t(C:D)1.432.607。从以上的两两比较中可知,只有B组与其他各组间的差别具有统计学意义,而其他各组间的差别无统计学意义。这一结果的累积类错误的概率不超过0.10。当比较次数不多时,Bonferroni法的效果较好。但当比较次数较多(例如在10次以上)时,则由于其检验水准选择得过低,结论偏于保守。,二、SNK法,SNK(student-Newman-Keuls)法又称q检验,是根据q值的抽样分布作出统计推论。仍以例8l为例介绍其检验过程。1.将各组的平均值按由小到大的顺序排列:排列顺序(1)(2)(3)(4)平均值 28.0 18.7 18.5 14.8 原组号 B C A D 2.计
16、算两个平均值之间的差值及组间跨度k,见表8-3第(2)、(3)两列。,表8-3SNK法两两比较的计算用表,3.计算两对比组之差的标准误S。计算公式为:由于本例中各组例数相等都为n6,故有对任意两对比组之差公用的标准误Se1.9313。4.按下列公式计算统计量q值:按式(8-11)计算的平均值之间两两比较的q值见表8-3第(4)列。,5.计算 P值并作出统计推断。按 v20,0.05及0.01两个检验水准,根据不同组间跨度k查附表6:q界值表得的q0.05(20,k)及q0.01(20,k)列于表8-3第(5)、(6)两列。表8-3最后一列列出了概率P。可见 与其他各组比较,都在0.01水准上具
17、有统计学意义。而 之间的差异均无统计学意义。结论为解毒药B的效果显著优于其他各组。,三、Tukey法,Tukey法用称为真正显著差(honestly significant difference,HSD)的单一值作为判断标准。该法的计算步骤为:1.计算各组平均值两两之间的绝对差值。计算结果见表8-4第2列。2.根据检验水准,观察总例数N及比较组数k,从附表6:q界值表中查出q(k,N-k)的值。本例有k4,N24,N-k20。选取0.05,从附表6得q0.05(4,20)3.96。,3.用下列公式计算HSD值:式(8-12)中的n是比较组的观察例数。当两组的观察例数相等时用n;当两组的观察例数
18、不相等时用例数较少的ni代替n。本例的HSD=7.65。4.将差值d(i,h)与HSD值进行比较。凡d(i:h)HSD者则拒绝无效假设;否则不拒绝无效假设。本例的比较结果见表8-4最后一列。检验结果表明,B组与A、C、D组之间的差别具有统计学意义,而A、C、D三组之间的差别无统计学意义。,表8-4HSD法计算用表,SAS软件中的方差分析过程:Data anova;do group=1 to 4;do n=1 to 6;input y;output;end;end;Cards;23 12 18 16 28 14 28 31 23 24 28 3414 24 17 19 16 22 8 12 21
19、 19 14 15;Proc anova;class group;model y=group;Means group/snk bon tukey dunnett lsd;Means group/hovtest;Run;Quit;,SPSS软件中单因素方差分析过程:DATA LIST FRE/x groupBegin data23 1 12 1 18 1 16 1 28 1 14 128 2 31 2 23 2 24 2 28 2 34 214 3 24 3 17 3 19 3 16 3 22 3 8 4 12 4 21 4 19 4 14 4 15 4End data.Oneway x by
20、group/STATISTICS DESCRIPTIVES HOMOGENEITY/POSTHOC=SNK TUKEY ALPHA(.05).,第四节 方差分析的假定条件和数据变换,一、方差分析的假定条件 l.观察值Yij独立来自正态分布的总体 如果样本含量较大,虽然总体分布偏离正态,由于有中心极限定理的保证,方差分析也是适用的。但是如果总体极度地偏离正态时,则须作数据转换,以改善其正态性。2.方差齐性(homogeneity)只有当各组内方差在总体上相等时,才能有效地分析各对比组平均值之间的差异。当最大方差与最小方差之比值()超过3时,由于增大了类错误的概率,就可能影响对方差分析结果的判断。
21、如果各对比组的观察例数不相等,则其影响程度会更大。,二、方差齐性检验,第五章第五节介绍了检验两个总体方差齐性的方法。这里介绍检验多个总体方差齐性的方法,并用例81的资料解释其计算步骤。1.提出检验假设。2.计算每一组的中位观察值mdi中位观察值mdi是指在第i组内所有观察值按由大到小的顺序排列后位置居中的观察值。如果组内观察例数是偶数,则mdi取正中间两个观察值的平均值。例8-l的各组中位观察值为:md1(l816)/217,md2(2828)228,md3(17+19)218,md4(l415)214.5。,3.计算各组内个体观察值与中位观察值之差的绝对值dij dij=|Yij-mdi|(
22、8-13)例如,d11=|2317|=6,d12|1217|5,余类推。用dij作单向方差分析。本例得 F0.37,v13和v2=20。查附表 6:F界值表得F0.05(3,20)=3.10F,故不拒绝H0,认为这些组内均方都来自具有相同理论均方的总体。本例用原始测定值Yij计算的各组内方差为 最大方差与最小方差之比,表明方差基本齐性。,测得的三组大白鼠营养试验中每组12只大鼠尿中氨氮的排出量X(mg/6天),A组:30 27 35 35 29 33 32 36 26 41 33 31B组:43 45 53 44 51 53 54 37 47 57 48 42C组:82 66 66 86 56
23、 52 76 83 72 73 59 53,方差不齐性,Levenes检验 F=9.44 P0.01,三、数据变换,对于一些明显偏离正态性和方差齐性条件的资料,可以通过数据变换的方法以改善其假定条件,使方差分析的结果趋于稳健。常用的数据变换方法有:1.平方根反正弦变换(arcsine square root transformation)当观察值为服从二项分布的比例资料时,由于当样本平均值靠近0或1时方差小,而在0.5时方差最大,这时宜采用平方根反正弦变换,将比例数据转换为新数据后再进行方差分析。设原观察值为Y(用小数表示),变换后的新值为X。变换公式有两种:,(1)用角度表示的变换公式为:(
24、2)用弧度表示的变换公式为:上面两个公式中的sin-1为反正弦函数,为圆周率。例如 Y0.53(即53),用式(8-14)变换为用式(8-15)变换为,2.平方根变换(squae root transformation)平方根变换法适用于观察值为服从泊松分布的计数资料。由于这类资料的方差等于平均值,当平均值大时方差也大。平方根变换公式为:3.对数变换(logarithm transformation)对数变换适用于某些服从对数正态分布的资变换公式为:(当cv接近于一个常数时)Xlog10(Y)(8-17)由于0和负值无对数,这时可改用,Xlog10(Y+a),a为任意常数。数据变换的缺点是对分析结果作解释欠直观。,对上例数据用对数转换:令 y=log10(x),得:,转换后:方差齐性,Levenes检验 F=1.53 P=0.23,