《方差分析PPT课件.ppt》由会员分享,可在线阅读,更多相关《方差分析PPT课件.ppt(116页珍藏版)》请在三一办公上搜索。
1、方差分析,方差分析,第一节 方差分析的基本问题 第二节 单因素方差分析 第三节 双因素方差分析,方差分析(Analysis of variance,ANOVA),又叫变量分析,是英国著名统计学家R . A . Fisher于20世纪提出的。它是用以检验两个或多个均数间差异的假设检验方法。它是一类特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种引伸。为纪念Fisher,以F命名,故方差分析又称 F 检验 (F-test),方差分析的基本功能,本章重点,二、数学模型,一、方差分析的基本思想、目的和用途,三、平方和与自由度的分解,四、统计假设的显著性检验,五、多重比较,六、ANOVA过程
2、的应用,观测指标(experimental index): 为衡量观测结果的好坏和处理效应的高低,实际中具体测定的性状或观测的项目称为试验指标。常用的试验指标例如有:身高、体重、日增重、酶活性、DNA含量等等。,影响因素( experimental factor): 观测中所研究的影响观测指标的定性变量称之为因素。当考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上因素的影响时,则称为两因素或多因素试验。,因素水平(level of factor): 因素所处的某种特定状态或数量等级称为因素水平,简称水平。如研究3个品种奶牛产奶量的高低,这3个品种就是这个试验因素的3个水平。,试验
3、单位( experimental unit ): 在实验中能接受不同试验处理的独立的试验载体叫试验单位。一只小白鼠,一条鱼,一定面积的小麦等都可以作为实验单位。,重复(repetition): 在实验中,将一个处理实施在两个或两个以上的试验单位上,称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂4头猪,就说这个处理(饲料)有4个重复。,试验处理(treatment): 事先设计好的实施在实验单位上的具体项目就叫试验处理。如进行饲料的比较试验时,实施在试验单位上的具体项目就是具体喂哪一种饲料。,观测值不同的原因,因素效应(treatment effect):水平不同引起
4、,试验误差:试验过程中偶然性因素的干扰和测量误差所致。,方差:又叫均方,是标准差的平方,是表示变异的量。,在一个因素不同状态下的试验中,可以得出一系列不同的观测值。,方差分析的基本思想,总变异,因素效应,试验误差,方差分析的目的,确定各种原因在总变异中所占的重要程度。,因素效应,试验误差,相差不大,说明试验处理对指标影响不大。,相差较大,即因素效应比试验误差大得多,说明试验处理影响是很大的,不可忽视。,方差分析的用途,1. 用于多个样本平均数的比较,2. 分析多个因素间的交互作用,3. 回归方程的假设检验,4. 方差的同质性检验,1. 用于多个样本平均数的比较,2. 分析多个因素间的交互作用,
5、第一节 方差分析的基本问题,一、方差分析问题的提出 问题:为了探索简便易行的发展大学生心血管系统机能水平的方法,在某年级各项身体发育水平基本相同,同年龄女生中抽取36人随机分为三组,用三种不同的方法进行训练,三个月后,测得哈佛台阶指数如表 1 ,试分析三种不同的训练方法对女大学生心血管系统的影响有无显著性差异。,表 1,分析,方差分析的直观思想,方差分析的直观思想,方差分析的基本思想,根据变异的来源,将全部观察值总的离差平方和及自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某些特定因素的作用加以解释。通过比较不同来源变异的方差(也叫均方MS),借助F分布做出统计推断,从而判断
6、某因素对观察指标有无影响。,因 素,因素又称因子,是在实验中或在抽样时发生变化的“量”,通常用A、B、C、表示。方差分析的目的就是分析因子对实验或抽样的结果有无显著影响。如果在实验中变化的因素只有一个,这时的方差分析称为单因素方差分析;在实验中变化的因素不只一个时,就称多因素方差分析。双因素方差分析是多因素方差分析的最简单情形。,水 平,因子在实验中的不同状态称作水平。如果因子A有a个不同状态,就称它有 a 个水平。我们都针对因素的不同水平或水平的组合,进行实验或抽取样本,以便了解因子的影响。 在A的不同水平上对Y的取值进行独立测试,并假定其独立同分布于某个正态分布,进一步可假定各总体具有相同
7、的方差,因素A的各水平的影响只体现在各总体均值的差异上。,交互影响,当方差分析的影响因子不唯一时,必须注意这些因子间的相互影响。如果因子间存在相互影响,我们称之为“交互影响”;如果因子间是相互独立的,则称为无交互影响。交互影响有时也称为交互作用,是对实验结果产生作用的一个新因素,分析过程中,有必要将它的影响作用也单独分离开来。,方差分析的原理,(一)方差的分解。 样本数据波动有两个来源:一个是随机波动,一个是因子影响。样本数据的波动,可通过离差平方和来反映,这个离差平方和可分解为组间方差与组内方差两部分。组间方差反映出不同的因子对样本波动的影响;组内方差则是不考虑组间方差的纯随机影响。,方差分
8、解,离差平方和的分解是进入方差分析的“切入点”,这种方差的构成形式为分析现象变化提供了重要的信息。,如果组间方差明显高于组内方差,说明样本数据波动的主要来源是组间方差,因子是引起波动的主要原因,可以认为因子对实验的结果存在显著的影响;反之,如果波动的主要部分来自组内方差,则因子的影响就不明显,没有充足理由认为因子对实验或抽样结果有显著作用。,方差分解,(二)均方差与自由度 因素或因素间“交互作用”对观测结果的影响是否显著,关键要看组间方差与组内方差的比较结果。当然,产生方差的独立变量的个数对方差大小也有影响,独立变量个数越多,方差就有可能越大;独立变量个数越少,方差就有可能越小。,均方差与自由
9、度,为了消除独立变量个数对方差大小的影响,用方差除以独立变量个数,得到“均方差(Mean Square)”,作为不同来源方差比较的基础。 引起方差的独立变量的个数,称作“自由度”。,检验统计量,检验因子影响是否显著的统计量是一个F统计量: F统计量越大,越说明组间方差是主要方差来源,因子影响越显著;F越小,越说明随机方差是主要的方差来源,因子的影响越不显著。,29,用线性模型来描述每一观测值:,ij 随机误差 (3.1),要求ij 是相互独立的,且服从正态分布 N(0,2 ),数学模型,3.1.2 因素作用显著性的检验,检验假设 或者 考虑数据的总变化量,总平方和分解,总离差平方和,自由度的确
10、定,是由于A的波动引起的方差,但是,这里所有的变量并不独立,它们满足一个约束条件,真正独立的变量只有n-1个,自由度是n-1。 是因子在不同水平上的均值变化而产生的方差。但是,a个均值并不是独立的,它们满足一个约束条件,因此自由度是a-1。 是由在各因素水平上的围绕均值波动产生,它们满足的约束条件一共a个,失去了a个自由度,所以SSE的自由度是n-a。 自由度满足如下关系: n-1=(a-1)+(n-a),统计性质,无论 成立与否, 总是 的一个无偏估计; 为真时, 为 的一个无偏估计。启发我们通过比较 和 来构造统计量检验假设。,检验统计量,检验统计量是:当 为真时,,F值越大,越说明总的方
11、差波动中,组间方差是主要部分,有利于拒绝原假设接受备选假设;反之,F值越小,越说明随机方差是主要的方差来源,有利于接受原假设,有充分证据说明待检验的因素对总体波动有显著影响。因此,检验的拒绝域安排在右侧。,接受域,拒绝域,检验P值,当 为真时,F 的值应在1 的周围波动;反之,F的值有增大的趋势。检验p值为 为由观测数据求得的统计量F的观测值。,例1,测定东北、内蒙古、河北、安徽、贵州5个地区黄鼬冬季针毛的长度,每个地区随机抽取4个样本,测定的结果如表,试比较各地区黄鼬针毛长度差异显著性。,40,(1)首先计算出,及,并列于表中。,(2)计算出离均差平方和与自由度:,41,186.7-173.
12、7112.99,20119,5(41)15,(3)计算均方差:,514,42,(4)进行F 检验:,查F 值表,得 3.06, 4.89,故F F0.01 ,说明5个地区黄鼬冬季针毛长度差异极显著。,43,结果做成方差分析表:,不同地区黄鼬冬季针毛长度方差分析表,为了确定各个地区之间的差异是否显著,需要进行多重比较。,例2 投诉问题,问题:消费者与供应厂商间经常出现纠纷。纠纷发生后,消费者经常会向消费者协会投诉。消协对以下几个行业分别抽取几家企业,统计最近一年中投诉次数,以确定这几个行业的服务质量是否有显著的差异。结果如下表:,投诉问题的解(Excel),SPSS,例 3,纸张光滑度比较 四个
13、不同的实验室试制同一型号的纸张,比较各实验室生产的纸张的光滑度,测量了每个实验室生产的8张纸,光滑度如表所示:GHD.xls 假设上述数据服从方差分析模型,对显著水平0.05,检验各实验室生产的纸张的光滑度是否有显著差异。,3.2.2 因素各水平均值的估计与比较,如果拒绝原假设,则认为因素A的a个水平的均值有显著的差异。这时,需要进一步研究两方面的问题: 第一,对各水平的均值作出估计; 第二,比较各水平的均值的差异,即对每一对 与 的差异程度作出估计,以便为实际应用选择最优的因素水平。,各水平均值的估计及其置信区间,样本均值 是 的一个无偏估计,且,可以证明,所以,对给定的置信水平 , 置信度
14、为 的置信区间为,各对均值差异的置信区间,很显然, 是 的一个无偏估计,,可以证明,所以,对给定的置信水平 , 置信度为 的置信区间为,如果此置信区间包含零,则表明根据所给观测数据,可以 的置信度断言 与 没有显著差异;如果整个区间在零的左边,则可以 的置信度断言 小于 ;若整个区间在零的右边,则可以 置信度断言 大于 。,续 例3,根据例3中实验室生产纸张的光滑度数据,求各实验室生产的纸张光滑度的均值及其两两之差的置信度为95%的置信区间。 解:根据所给数据,四个实验室生产的纸张光滑度的均值的置信度为95%的置信区间为 (42.788,48.637),(38.751,44.600) (37.
15、451,43.300),(34.326,40.175),续 例3,两两均值之差的置信度为95%的置信区间分别为 (-0.098,8.173); (1.202,9.473); (4.327,12.598); (-2.836,5.436); (0.289,8.561); (-1.011,7.261);,多重比较与Bonferroni同时置信区间,在各因素水平的比较中涉及到多个置信区间,虽然每个置信区间的置信度都是 ,但多个这样的置信区间联合起来的置信度就不再是 ,一般要比它小。,以 表示m个置信度为 的置信区间,则由Bonferroni不等式:为使 同时发生的概率不小于 ,一个简单的办法就是将每个
16、置信区间的置信度提高到 ,这时就有,Bonferroni同时置信区间,所以,对给定的置信水平 ,为了构造m个 置信度不小于 的置信区间,只需要对每个求区间,注意:Bonferroni同时置信区间的同时置信度只能保证不小于 ,因此得到的同时置信区间会显得比较保守(即得到的置信度为 的同时置信区间的长度往往比实际上的大)。,续 例3,求均值两两之差的置信度为至少为95%的Bonferroni同时置信区间。 解:将置信水平调整为0.05/6=0.0083, (-1.695,9.770) (-0.395,11.070) (2.730,14.195) (-4.432,7.032) (-1.307,10.
17、157) (-2.607,8.857),3.2 两因素等重复实验下的方差分析,.统计模型影响变量的因素A和B,其中A有a个不同水平,B有b个不同水平。在因素A和B的各水平组合下均做c(c1)次试验,以 记在水平组合 下第k次试验的Y的观测值,对任一水平组合,假设且各样本之间相互独立。,统计模型,引入记号,统计模型,.交互效应及因素效应的显著性检验,如下三个假设检验问题:,总平方和分解,可以证明,均方,易得,检验统计量,检验值,注意,上述三个假设检验问题是同时讨论的,但它们的地位有所不同,在具体应用中,首先应考察有无交互作用的检验,若检验的结论是不能拒绝 (即交互作用不显著),接下来再考虑因素或
18、的效应的显著性才有意义。,如果A和B之间存在交互作用,即不全为零,则对于的两个水平,它们在的第个水平上的两个组合 和 下的均值之差为 该值可能会与B所处的水平有关。, 两因素方差分析中交互作用的解释例如,A、B均有2个水平,下图给出可能出现的两种情况: 图3.1 有交互作用时A的各水平均值在B的不同水平上的差异,12,22,11,21,A1,A2,B1,B2,5,20,5,20,B1,B2,A2,A1,11,21,22,12,在有交互效应时,检验假设 和 的实际意义并不大,尤其是当交互效应显著,而A或B的效应不显著时,对结果的解释更应慎重。相反,如果A与之间无交互作用,则在B的任何水平上,均有
19、 ,其在B的各水平上均相等且完全由A的水平效应之差所确定,也真实地反映了A的不同水平对因变量的影响是否显著。,在有交互效应时要考察各因素对Y的显著性影响,一般只能将一个因素的各水平逐个给定,在各给定的水平上考察另一因素的各水平均值之间的差异来了解该因素对的影响。,例.,某高校为了解数学专业和计算机低年级、高年级、研究生在人文社科知识方面的差异,从不同专业和不同级别的学生中各任选名参加有关考试,成绩如表所示。假设考试成绩服从两因素方差分析模型,对其作方差分析。,结果分析,交互效应是不显著的,即两专业学生的人文社科知识水平的差异在各级别的学生中可认为是相同的。同时,数学专业中各级别学生的人文社科知
20、识水平的差异与计算机科学专业中相应级别学生的知识水平差异可认为是相同。,两个因素对成绩的影响均显著,即两个专业学生的人文社科知识水平是有显著差异的,不同级别的学生的人文社科知识水平也有显著差异。,例.,三名修理工修理三种类型的计算机磁盘驱动系统,随机指定修理三种类型的磁盘驱动系统各个,修理时间如表所示。假设修理时间服从两因素方差分析模型,试对此数据作方差分析。,结果分析,交互效应是十分显著的,即不同的修理工修理不同类型的驱动器所花费的时间是显著不同的。不同的修理工与不同类型的驱动器对修理时间的影响均不显著。交互效应可能会掩盖各因素对因变量的某些本质影响。,.无交互效应时各因素均值的估计与比较,
21、在给定的显著水平下,当交互效应不显著,并且因素或至少有一个对因变量的影响显著,则可以对影响显著的因素在各水平上的均值作出估计,并给出其本身及任两个之差的置信区间。,若因素的影响显著,则对其任一个水平,为的一个无偏估计;置信度为的置信区间为,均值的估计,均值差置信区间,两个水平均值之差置信度为的置信区间为,置信区间,作同时比较,置信度不小于的同时置信区间为,续例.,两专业之间学生成绩的均值之差和各级别学生之间成绩的均值之差的置信度不小于的同时置信区间。,解:.专业因素(.,.)数学专业学生的人文社科知识显著差于计算机科学专业的学生.学生级别因素(.,.)(.,.)(.,.)由此结果知,在至少的置
22、信度下可断言两个专业的研究生的人文社科知识强于低年级和高年级学生,而高年级学生与低年级学生的人文社科知识无显著差异。,.有交互效应时因素各水平组合上的均值估计与比较,如果因素和之间有显著的交互效应,这时单独考虑或各水平上均值的差异并无多大实际意义。这时,可通过直接比较因素各水平组合上的均值来了解其差异。,对于给定的因素B的某个水平 , 是 的估计置信度为的置信区间为,作同时比较,置信度不小于的同时置信区间为,续例3.6,对每一类型的磁盘驱动系统,给出三名修理工修理时间均值两两之差的置信度不小于95%的Bonferroni同时置信区间。 解:对于 类型, ,两因素等重复试验方差分析流程图,3.3
23、两因素非重复试验下的方差分析,在因素和B的每个水平组合上仅做一次试验,从而只有一个观测数据,此时模型为,注意:这里已经做了与之间无交互效应的假定。如果根据问题的实际背景和经验认为交互效应不显著,则可在每个水平组合上只做一次试验,然后用上述方法进行分析。若分析的结果是在一定显著水平下,或至少有一个对的影响显著,则可完全类似单因素方差分析方法分别讨论或的各水平均值的估计和比较问题。,备注,需要针对所给的数据考察方差分析模型的合理性,包括误差的正态性和等方差性的假定是否合理,主要方法仍然是残差分析;不等重复试验下的两因素方差分析问题比较复杂;随机效应方差分析模型;多因素方差分析,特别是交互效应显著时
24、的分析和解释相当困难;,ANOVA过程,用于单因素方差分析和多因素等重复实验设计的方差分析,默认输出结果为方差分析表。主要语句形式为: PROC ANOVA 选项1; CLASS variables; MODEL dependent=effects/选项2; MEANS effects/选项3;,ANOVA过程,选项1部分指定要分析的SAS数据集,若省略,则为最新创建的数据集。CLASS variables;列出所分析的SAS数据集中各因素变量的名称。MODEL dependent=effects/选项2; 指明数据集中因变量名称和所要考虑的因素效应,如“Y=A B”、“Y=A B C A*B
25、 A*C B*C” (其中“*”表示交互效应),ANOVA过程,选项2: (1)INT|INTERCEPT:要求把截距项作为一个效应进行处理,缺省时不输出与其有关的假设检验结果。当截距项在模型中不显著时,用NOINT选项去掉它。 (2)NOUNI:不输出单变量分析结果。MEANS effects/选项3; 计算MEANS后列出的每个效应所对应的因变量的样本均值和标准差。,ANOVA过程,选项3可以是下列选项中的部分或全部:(1)T(或LSD least significant difference 最小显著差异)对“effects”列出的各因素在其不同水平上的均值进行两两比较的t检验。(2):
26、对“effects”列出的各因素在其不同水平上的均值进行同时两两比较的检验。(3)ALPHA=p:指定进行上述检验的显著水平为p,默认值为0.05。,(4)CLDIFF:要求输出“effects”中列出的各因素在其不同水平上的两两均值之差的置信区间。若置信区间不包含零(即两水平均值有显著差异),则在输出结果的右端打上“*”号。(5)CLM:要求输出“effects”中列出的各因素在其不同水平上的均值的置信区间。,例1,例3.2,四个实验室各生产8纸张的光滑度比较; GHD.xls .Paper.sas,例3.5 人文知识比较; RW.sav,SPSS方差分析,单因素Analyze-Compare Means-One-Way ANOVA.Analyze-General Linear Model-Univariate多重比较Post Hoc Multiple Comparison,本章小结,方差分析的基本原理;数学模型;单因素、双因素等重复实验下的方差分析和估计;ANOVA过程;,作业,习题3.5,3.7两周以后提交。,