《应用统计学方差分析.ppt》由会员分享,可在线阅读,更多相关《应用统计学方差分析.ppt(81页珍藏版)》请在三一办公上搜索。
1、,方差分析,方差分析入门 单因素方差分析 均数两两比较的方法 趋势检验 单因素方差分析小结双因素方差分析协方差分析,内容提要,前面提到的有关统计推断的方法,如单样本、两样本t检验等,其所涉及的对象千变万化,但归根结底都可以视为两组间的比较,如果是有一组的总体均数已知,则为单样本t检验,如果两组都只有样本信息,则为两样本t检验。但是如果遇到以下情形,该如何处理?,方差分析入门,案例 对于大学新生的入学成绩,可以通过t检验来考察男女学生间的入学成绩是否有差异?但要是想知道来自于江苏、浙江、上海、安徽等省份的学生,其入学成绩是否有差异,那么是否可以用6次t 检验来达成目的?,方差分析入门,在以上例子
2、中,涉及的问题其实就是在单一处理因素之下,多个不同水平(多组)之间的连续性观察值的比较,目的是通过对多个样本的研究,来推断这些样本是否来自于同一个总体。那么能否使用两两t 检验,例如做三组比较,则分别进行三次t检验来解决此问题呢?这样做在统计上是不妥的。因为统计学的结论都是概率性的,存在犯错误的可能。,方差分析入门,分析:用6次t 检验来考察4个省份的大学生新生入学成绩是否相同,对于某一次比较,其犯I类错误的概率为,那么连续进行6次比较,其犯I类错误的概率是多少呢?不是 6,而是1-(1-)6。也就是说,如果检验水准取0.05,那么连续进行6次t 检验,犯I类错误的概率将上升为0.2649!这
3、是一个令人震惊的数字!结论:多个均数比较不宜采用t 检验作两两比较;而应该采用方差分析!,方差分析入门,统计思想:观测变量的总方差可分解为组间方差和组内方差,前者反映控制因素的影响,后者体现随机误差,如果前者显著大于后者,则可认为控制因素对观测值有影响。分析步骤:明确控制因素和观测变量剖析观测变量的离均差平方和:SST=SSA+SSE分解自由度比较组间和组内的方差大小,根据F分布界值做出统计结论。,方差分析入门,组别i,观测值j,数学模型:,方差分析入门,R.A.Fisher 提出的方差分析的理论基础:将总变异分解为由研究因素所造成的部分和由抽样误差所造成的部分,通过比较来自于不同部分的变异,
4、借助F分布作出统计推断。后人又将线性模型的思想引入方差分析,为这一方法提供了近乎无穷的发展空间。,方差分析入门,总变异 随机变异 处理因素导致的变异,总变异 组内变异 组间变异,SS总 SS组内 SS组间,这样,我们就可以采用一定的方法来比较组内变异和组间变异的大小,如果后者远远大于前者,则说明处理因素的确存在,如果两者相差无几,则说明该影响不存在,以上即方差分析的基本思想。,方差分析入门,方差分析的原假设和备择假设为:H0:12=kH1:k个总体均数不同或者不全相同,方差分析入门,方差分析基本步骤提出假设 H0:a1=a2=ak=0确定显著性水平构造检验统计量并计算统计结论与结果解释,方差分
5、析入门,独立性(independence):观察对象是所研究因素的各个水平下的独立随机抽样 正态性(normality):每个水平下的应变量应当服从正态分布 方差齐性(homoscedascity)各水平下的总体具有相同的方差。但实际上,只要最大/最小方差小于3,分析结果都是稳定的,应用条件,有时原始资料不满足方差分析的要求,除了求助于非参数检验方法外,也可以考虑变量变换。常用的变量变换方法有:,对数转换:用于服从对数正态分布的资料等;平方根转换:可用于服从Possion分布的资料等;平方根反正弦转换:可用于原始资料为率,且取值广泛的资料;其它:平方变换、倒数变换、BoxCox变换等。,应用条
6、件,例1 在肾缺血再灌注过程的研究中,将36只雄性大鼠随机等分成三组,分别为正常对照组、肾缺血60分组和肾缺血60分再灌注组,测得各个体的NO数据见数据文件no.sav,试问各组的NO平均水平是否相同?,单因素方差分析,分析:对于单因素方差分析,其资料在SPSS中的数据结构应当由两列数据构成,其中一列是观察指标的变量值,另一列是用以表示分组变量。实际上,几乎所有的统计分析软件,包括SAS,STATA等,都要求方差分析采用这种数据输入形式,这一点也暗示了方差分析与线性模型间千丝万缕的联系。,单因素方差分析,预分析(重要):检验其应用条件,单因素方差分析,选择data 中的split file,出
7、现如下对话框:,单因素方差分析,单因素方差分析,单因素方差分析,这里仅取其中一组结果,表明该资料符合分组正态性的条件。,单因素方差分析,注意分组检验正态性后,要先回到data菜单下的split file,如下操作取消拆分后才能进行后续的方差分析:,单因素方差分析,单因素方差分析,选入分组变量,选入因变量,给出各组间样本均数的折线图,指定进行方差齐性检验,单因素方差分析,结果分析,单因素方差分析,(1)方差齐性检验,Levene方法检验统计量为3.216,其P值为0.053,可认为样本所来自的总体满足方差齐性的要求。,单因素方差分析,结果分析,(2)方差分析表,第1列为变异来源,第2、3、4列分
8、别为离均差平方和、自由度、均方,检验统计量F值为5.564,P0.008,组间均数差别统计学意义,可认为各组的NO不同。,变异来源,组间,方差MS,离差平方和SS,自由度,F值,P值,组内,单因素方差分析,结果分析,(3)各组样本均数折线图,Means plots 选项给出,更直观。注意:当分组变量体现出顺序的趋势时,绘制这种折线图可以提示我们选择正确的趋势分析模型。,通过以上分析得到了拒绝H0的结论,但实际上单因素方差分析并不这样简单。在解决实际问题时,往往仍需要回答多个均数间到底是哪些存在差异。虽然结论提示不同组别个体的NO量不同,但研究者并不知道到底是三者之间均有差别,还是某一组与其他两
9、组有差别。这就应当通过两两比较(多重比较)进行考察。,均数两两比较方法,直接校正检验水准(相对粗糙)专用的两两比较方法:计划好的多重比较(Planned Comparisons)非计划的多重比较(PostHoc Comparisons),均数两两比较方法,Contrasts按钮,Post Hoc按钮,点击单因素方差分析主对话框中的Post Hoc按钮,总共有14种两两比较的方法,如下:,均数两两比较方法,LSD法:最灵敏,会犯假阳性错误;Sidak法:比LSD法保守;Bonferroni法:比Sidak法更为保守一些;Scheffe法:多用于进行比较的两组间样本含量不等时;Dunnet法:常用
10、于多个试验组与一个对照组的比较;S-N-K法:寻找同质亚组的方法;Turkey法:最迟钝,要求各组样本含量相同;Duncan法:与Sidak法类似。,均数两两比较方法,仍以例1为例,LSD法的输出格式:,均数两两比较方法,结果分析,仍以例1为例,SNK法的输出格式:,结果分析,均数两两比较方法,该方法的目的是寻找同质子集,故各组在表格的纵向上,均数按大小排序,然后根据多重比较的结果将所有的组分为若干个子集,子集间有差别,子集内均数无差别。,当各组样本含量不同,选择Scheffe法,得结果:,均数两两比较方法,结果分析,假设在调查的设计阶段,就计划好了第二组和第一组,以及第三组和第一组的比较,可
11、以使用主对话框中的contrast 按钮实现。,在coefficients后面的框中输入1,-1,0,每次输入后点击add,就可以比较第一组和第二组的NO;再点击next按钮,继续输入下一个组合,即0,-1,1。,均数两两比较方法,均数两两比较方法,结果分析,可见,第一个组合无统计学意义,而第二个组合有显著性差异。,理论上,方差分析所对应的分组变量应该是一个无序的变量。但实际上,往往分组变量的取值也可以体现顺序的意义,比如,多个时间点上的某项指标的比较;不同pH下某些化学物质转化率的比较等。这类资料并不少见。对于这类资料,既然是多组间计量资料的比较,当然是优先考虑单因素方差分析。但是在得到各组
12、间有差异的结论之余,也应该注意到单纯的方差分析并未利用分组变量中蕴涵的次序信息。,趋势检验,例2 要研究高梁的不同播种深度与出苗时间的关系,数据如下表,见trend.sav:,高梁的不同播种深度与出苗时间的关系,趋势检验,本例经方差分析可知各种播种深度下出苗天数不等或不全相等,而Meansplot 图进一步提示天数与深度之间的关系,如下。,趋势检验,自变量间各取值间间隔相等时,除了对此进行方差分析之外,还可以利用线性模型的有关原理对数据作进一步的分析,以考察应变量与处理因素之间是否存在某种依存关系,统计学上称为趋势检验。这种趋势并非仅仅指线性的,也可能是一种多项式关系。因此,一般通过建立正交多
13、项式模型的方法来进行趋势检验。,趋势检验,在contrast对话框中,选择polynomial复选框,并在degree列表中选择cubic(三次型)。,趋势检验,可见,播种深度和发芽天数之间的关系的确需要使用高次项关系来描述。,趋势检验,结果分析,注意:趋势检验的目的并非拟合线性或非线性模型,而是希望知道当因素的水平改变时,均数以什么样的形式(线性、二次性或者其他)随之改变。,趋势检验,单因素方差分析所针对的是多组均数间的比较,其基本思想是变异分解,即将总变异分解为组间变异和组内变异,再利用F分布做出有关的统计推断。单因素方差分析要求资料满足正态性、独立性和方差齐性的条件。方差分析拒绝H0只能
14、说明各组之间存在差异,但不足以说明各组之间的关系。利用多重比较可以初步判断各组间的关系。,小 结,多重比较可以分为事前计划好的比较和事后比较。前者往往借助于Contrast,而后者有很多不同的方法,这些方法的核心问题是如何控制总的一类错误的大小。在分组变量包含次序信息时,如果方差分析作出了各组间差异有统计学意义的结论,并在MeansPlot提示各组均数的某种趋势时,可以利用趋势分析探讨观察值与分组变量取值的数量依存关系。,小 结,研究内容与前提条件单元拟研究:两个及以上控制因素对观测变量的影响,包括各因素的独立作用和交互作用。是实验设计的常用分析方法,常用于寻找最佳的实验因素组合。前提条件:同
15、单因素方差分析,要求每一单元格的样本数据符合独立性、正态性及方差齐性。但对正态性和方差齐性的要求不严格。只要无极端值,前提条件稍有偏离是可以耐受的。格无重复数据时,不要求正态性及方差齐性。,双因素方差分析,双因子方差分析的数据结构,利用下表资料分析研究不同地区和不同时间对农民家庭人均纯收入(元)的影响,分析步骤,确定观测变量和若干个控制变量剖析观测变量的离均差平方和SST控制变量的独立作用SSA、SSB控制变量的交互作用SSAB随机因素的影响SSESST=SSA+SSB+SSAB+SSE分解自由度比较各部分方差的大小,双因子方差分析数学模型,设因素A有r个水平,因素B有s个水平,在每个单元格内
16、有l个样本,则在因素A的Ai水平和因素B的Bj水平下的第k个样本值xijk,可定义为:,双因子(有交互作用)方差分析表,相关概念,饱和模型(Full Factorial):即全因素模型,方差分析模型中包含所有因素的独立作用和可能的交互作用。不饱和模型:非全因素模型。主效应:控制变量的独立作用。交互效应:控制变量之间的相互作用,如果一个因素的效应大小在另一因素不同水平下明显不同,则二者存在交互效应。,交互作用,A、B无交互作用,A、B有交互作用,固定效应与随机效应,固定效应:考察因素的水平数是可控的,在研究中对该因素的所有可能水平都进行了考察,不需要进一步外推,如性别。因素的效应是固定。随机效应
17、:考察因素难以控制在固定的水平上,或因素的所有可能水平并未都出现在样本中。因此要用样本来推论总体情况,包括未出现的水平。这不可避免的存在误差(即随机效应),需要估计该误差的大小,因而其效应具有随机性。如家庭。,基本步骤,提出假设 H0:各控制变量不同水平下观测变量各总体的均值无统计学差异。确定显著性水平构造模型、并计算检验统计量固定效应模型(Fixed factor),随机效应模型(Random factor):统计结论与结果解释,SPSS多因素方差分析过程(GLM),操作AnalyzeGeneral Linear ModelUnivariate,即单变量一般线性模型,饱和模型,多因素方差分析
18、的其他选项,不饱和模型的建立(Model)均值检验多重比较检验(Post Hoc):两两比较对比检验(Contrast):单样本t检验的思想,检验值可指定:观测变量的均值(Deviation):选择忽略水平第一水平或最后水平的观测变量的均值(Simple)该水平前的所有水平的观测变量的均值(Difference)该水平后的所有水平的观测变量的均值(Helmert)前一水平的观测变量的均值(Repeated)多项式比较(Polynomial),主效应模型,图形分析(Profile plot):均值折线图,可直观显示交互作用保存新变量(Save):可计算观测变量的预测值;可计算残差,评价模型拟和优
19、度;异常点诊断。,Options选项:Estimated Marginal Means:输出均数比较Display:一些常用的指标Estimates of effects:计算偏Eta统计量Observed power:观测检验效能Parameter estimates:参数估计Homogeneity:方差齐性检验Residual plot:绘制实测值、预测值与残差的两两散点图Lack of fit::失拟检验,检验模型拟和优度,零假设如被拒绝,则说明模型不能刻划观测变量与控制变量的关系。可能有其他因素未发现。,模型拟和一般流程,先拟和饱和模型;交互效应无意义时,可剔除该项,再拟和不饱和模型;
20、因素有意义时,对因素的各个水平两两比较;选择一些常用选项;,广告、城市与销售量,统计思想研究控制变量对观测变量的影响时,如果存在对观测变量确有影响的其他因素,而该因素又不能在实验设计时予以排除,当该因素为连续性变量时,可用协方差分析其作用,该变量为协变量。差异来源:控制因素的独立作用、交互作用、协变量的作用、随机误差,协方差分析,特点线性回归方差分析线性回归求出假定协变量相等时的控制因素各水平下的观测变量修正均数。方差分析比较修正均数的差别。,前提,观测变量与协变量间有显著的线性关系。在控制因素不同水平下,观测变量与协变量的总体回归系数应相等。即控制因素与协变量无交互作用。多个协变量间无交互作用。各比较组间协变量的取值范围不宜相差过大。,数学模型与假设检验,单因素协方差分析:假设检验 H0:协变量对观测变量的线性影响不显著。其余同前。,例:生猪与饲料研究三种饲料(SL)对生猪体重增加的影响协变量:生猪喂养前体重(WYQ),操作AnalyzeGeneral Linear ModelUnivariate,(一)前提条件预分析,分组散点图直观判断协变量与观测变量的关系。交互作用模型:检验协变量与控制因素是否存在交互作用。,1.操作GraphScatterSimple,2.交互作用模型检验,(二)比较修正均数,