统计学-第六章方差分析.ppt

上传人:牧羊曲112 文档编号:6015725 上传时间:2023-09-14 格式:PPT 页数:42 大小:232.13KB
返回 下载 相关 举报
统计学-第六章方差分析.ppt_第1页
第1页 / 共42页
统计学-第六章方差分析.ppt_第2页
第2页 / 共42页
统计学-第六章方差分析.ppt_第3页
第3页 / 共42页
统计学-第六章方差分析.ppt_第4页
第4页 / 共42页
统计学-第六章方差分析.ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《统计学-第六章方差分析.ppt》由会员分享,可在线阅读,更多相关《统计学-第六章方差分析.ppt(42页珍藏版)》请在三一办公上搜索。

1、第六章 方差分析(一),第一节 方差分析的基本概念,一、目的:Analysis of variance ANOVA用于检验两个或两个以上样本均数间差别有无统计意义二、样本均数间差别的原因(变异的来源):1、总变异:全部试验数据大小不等。用观察值与总均数的离均差平方和sum of squares of deviations from mean表示,记为SS总,或l总;总的自由度总N1,2、组间变异:各处理组的样本均数大小不一,用各组均数与总均数的离均差平方和表示,记为SS组间或l组间,组间自由度 组间k-1。MS组间l组间/组间组间变异反映的是处理因素的作用,同时也包括随机误差均方:mean s

2、quare,MS,3、组内变异:各处理组内部观察值大小不等,用各处理组内部每个观察值与组均数的离均差平方各表示,记为l组内。组内(n1-1)+(nk-1)=N-kMS组内l组内/组内组内变异反映的观察值的随机误差,如个体差异和随机测量误差,4、三种变异的关系l总l组间l组内总N1(k-1)+(N-k)=组间组内,三、方差分析的基本思想:总变异可分解为组间变异和组内变异两个部分,相应的总自由度也分解为组间自由度和组内自由度。如果各样本均数来自同一总体,即各组之间无差别,则组间变异和组内变异均只反映随机误差,这时若计算组间均方与组内均方的比值,FMS组间/MS组内,应接近1。反之,若各样本均数不是

3、来自同一总体,组间变异较大,F值将明显大于1。要大到多大程度才有统计学意义?,这个程度就是与随机误差而言。即以随机误差进行衡量,若处理组间的变异明显大于组内变异,则不能认为组间的变异仅反映随机误差,也就是说处理因素有作用。R.A.Fisher于20世纪20年代推导出在无效假设成立的情况下,统计量F的分布规律。1934年G.W.Snedecor以Fisher的名字命名了这一分布,称F分布,故ANOVA又称F检验。F(组间,组内)查表,基本思想:根据资料变异的不同来源,将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作

4、用)加以解释,如各组均数间的变异SS组间,可由处理因素的作用加以解释,通过比较不同变异来源的均方,用F分布作出统计推断,从而了解该因素对观察指标有无影响。,注意:1、ANOVA与试验设计类型联系在一起,并非任何变异都有适当的分解。2、数据要求:各次观察独立,即任何两个观察值间均不相关;每一水平下的观察值xij分别服从总体均数为 ij的正态分布;各总体的方差相等,即方差齐性homogeneity of variance.(任何观察值都是独立地来自具有等方差的正态总体),第二节 完全随机设计的单因素ANOVA(one-way ANOVA),按完全随机化的原则将受试对象随机分配到一个研究因素的多个水

5、平中去,然后观察试验效应。目的:比较不同水平下,各组均值间的差别是否具有统计学意义,基本步骤:P59,例61为例1、建立检验假设和确定检验水准:Ho:4种衣料吸附硼氢量的总体均数相等,即 1 2 3=4H1:4种衣料吸附硼氢量的总体均数不全相等0.052、计算检验统计量F值:如下表,成组设计方差分析计算表,以P59表61实例进行计算:先计算基本数据结果,再代入上表的公式计算:C、SS、MS、F等一般将计算结果列为表62的形式,见P613、确定P值和作出统计推断结论按计算所得F值:11.1644,查附表62,表中1指分子均方的自由度,2为分母均方的自由度。F=11.164F0.01(3,16)=

6、5.29,故P0.01。认为四组均数间差别有高度统计学意义,各组样本含量相等和各组样本含量不等时,计算的基本方法完全一样,只是在计算l组间时有所不同,相等时将ni直接用n计算即可。举例:P61,例62,第三节 随机区组设计的ANOVATwo-way ANOVA,一、概念:1、随机区组设计randomized block design,亦称配伍组设计:应用分层的思想,事先将受试对象按某种或某些特征分为若干个区组block,使每个区组内的观察对象的特征尽可能的相近。每个区组内的观察对象数与研究因素的水平数相等,分别使每个区组内的观察对象随机地接受研究因素某一水平的处理。,2、此外,同一受试对象不同

7、时间点上的观察,或同一样本给予不同处理的比较,亦当作随机区组设计进行分析。3、由于区组内个体特征比较一致,减少了个体间变异对结果的影响,统计效率高,易检出组间的差别。4、用两因素方差分析two-way ANOVA,两因素指研究因素和区组因素。研究因素有k个水平,共n个区组。5、当k=2时,两因素方差分析等价于配对t检验,且F=t2,二、随机区组设计方差分析中变异的分解:总变异分解为:处理组间变异、误差、区组间变异(新增的,用ss区组l区组表示,大小为各区组均数与总均数的离均差平方和)。ss总ss处理ss区组ss误差自由度分解:总 处理 区组 误差N1(k-1)+(n-1)+(k-1)(n-1)

8、.k为处理组数,n为区组数,N为总例数,三、分析计算步骤:例63,P 631、建立检验假设和确定检验水准H0:放置不同时间的血糖浓度相等,即 1 2 3 4H1:放置不同时间的血糖浓度不全相等0.052、计算检验统计量F值,根据下表计算公式计算,随机区组方差分析计算公式,3、确定P值和作出推断结论放置时间的F值0.9681/0.0125=77.44受试者间的F值0.3569/0.0125=28.55查附表62,1(处理)3,2(误差)21,F0.05(3,21)=3.07,F0.01=4.87;当 1(区组)7,2(误差)21,F0.05(7,21)=2.49,F0.05=3.64F均F0.0

9、1,P0.01,说时放置时间长短对血糖浓度的变化是有影响的。另外,不同受试者间血糖浓度亦有差别。,第四节 均数间的相互比较,一、几点说明1、ANOVA并不能回答哪几个均数间差别有统计学意义,需进一步做两两间的多重比较multiple comparison2、两两比较,不可用t检验,因为会增加第一类错误的概率。k个样本均数可做k!/2!(k-2)!次比较,如:5个样本10次,不犯第一类错误的概率为(1-0.05)10=0.5987,正确接受全部10次无效假设的概率,一类错误概率为1-0.5987=0.4013,二、常用的多重比较的方法,1、LSD-t检验:称最小有意义差别(least signi

10、ficant difference)t检验,检验k组某一对或某几对在专业上有特殊意义的均数dAB=XA-XB的总体水平是否为0。,算得的t值以误差自由来查t值表与前述t检验的的不同:举例说明计算过程:t0.001(16)=4.015,LSD t 检验,2、Dunnett-t 检验,用于k-1个实验组与一个对照组均数差别的多重比较:P66,例6-5,Dunnet t 检验,3、Student-Newman-Keuls法,SNK法,检验统计量为q,通常称q检验用于多个样本均数间的两两比较,SNK q 检验,比较时应将均数按大小顺序排列,一般先比较相关最大的两个均数q的分布与两比较组间跨度a及自由度

11、有关。组间跨度a(对比组内包含组数a)是指XA与XB之间涵盖的均数个数,包括XA与XB自身在内MS误差为误差均方或组内均方依q值、组间跨度a(处理数Ti)、误差自由度及检验水准查q值表,qq(a,)时,有统计学意义(P553,附表64),两两比较方法选用,1、在研究设计阶段未预先考虑或预料到,经假设检验得出多个总体均数不全相等的提示后,才决定的多个均数的两两事后比较(post hoc comparisons/unplanned comparisons),常用于探索性研究exploratory research,两两比较用:SNK法、Bonfferoni t检验、Sidak t检验,2、在设计阶

12、段就根据研究目的或专业知识而计划好的某些均数间的两两比较(planned contrasts/comparisons)或称事前beforehand 比较,常用于事先有明确假设的证实性研究confirmatory research,如多个处理组与对照组的比较、某一对或某几对在专业上有特殊意义的均数间的比较,用Dunnett-t检验、LSD-t检验,也可用Bonfferoni t检验(该方法最保守)或Sidak t检验,第五节 拉丁方设计资料的方差分析*,一、拉丁方设计latin square design:设计因素(标志)两个以上,各因素的水平数相同,可用此设计。拉丁方是以拉丁字母排列的方阵的简

13、称。二、分析步骤:,例6-6,P681、求C2、求l总3、求l受试者,4、求l日期5、求l防护服6、求l误差7、自由度:总格子数减1为总变异自由度,防护服间、受试者间、试验日期间均为n-1=5-1=4;误差自由度=总自由度-防护服间-受试者间-试验日期间=24-4-4-4=128、列拉丁方分析表,见P70,表6-169、查表,判断结果,优点:可以从较少的实验数据获得较多的信息,比随机区组设计来得优越。(控制受试者间个体的差异,及实验日期间的差异)缺点:各因素间有交互作用时,不适用。实施时,要求各因素的水平数相等,实际中不易办到。拉丁方可由统计书中查到,亦可自己编写。,第七节 方差齐性检验,检验

14、多个样本的方差齐性用 Bartlett法一、各组样本含量相等时:P71,例6-7卡方值略大于某一临界值时,应计算校正卡方值,公式见P72,二、各样本含量不等时:P72,例6-8Bartlett法在各样本含量相等时是不敏感的。所以各组样本含量相差不大,各组S2相差不过大,可不必进行Bartlett检验。,第七节 近似F检验,方差不齐时:采用以下两方法1、对原始数据进行转换2、用加权的方法计算加权的方差进行F检验,即近似F检验(F检验或pseudo F test),具体计算方法,参见P7374,第八节 变量变换,ANOVA的要求:任何观察值都独自地来自具有等方差正态总体。不能满足时,可导致F值偏大

15、,从而有增加第一类错误的危险,尤其违反独立性假设时,影响较为严重。明显偏离可进行变量变换。样本例数较多时,对总体的正态性并不苛求;每组样本例数相等时,对方差齐性亦不苛求,故最好采用例数相等的平衡设计方案。,一、变量变换:是将原始数据作某种函数转换,可使各组达到方差齐性,亦可使资料转换成正态分布,以满足方差分析和t检验的要求。通常适当转换,可同时满足以上两个目的。二、常用方法1、对数变换logarithmic transformation X=lgX;X=lg(X+1);X=lg(X+k);X=lg(X-k)用于:1)、使服从对数正态分布的数据正态化。如环境中某些污染物的分布,人体中某些微量元素

16、的分布,2)、使数据达到方差齐性,特别是各样本的标准差与均数成比例或变异系数接近一个常数时2、平方根转换square root transformation常用于:1)、使服从Poisson分布的计数资料或轻度偏态的资料正态化2)、当各样本的方差与均数呈正相关时,可使资料达到方差齐性,3、倒数转换reciprocal transformationX=1/X常用于:数据两端波动较大的资料,可使极端值的影响减小4、平方根反正弦变换arcsine transformation常用于:服从二项分布的率或百分比的资料。一般认为总体率较小(如70%)时,偏离正态较为明显,通过平方根反正弦转换可使资料接近正态分布,达到方差齐性要求,说明:使用数据转换进行方差分析后,各均数间差别的比较及可信区间的计算,应该用转换后的数据进行计算,而当分析最终结论时,需返回原测量单位加以说明。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号