《建模培训讲座第二讲方差分析及SAS.ppt》由会员分享,可在线阅读,更多相关《建模培训讲座第二讲方差分析及SAS.ppt(100页珍藏版)》请在三一办公上搜索。
1、2 方差分析,第2.1节 方差分析的基本思想,第2.2节 单因素方差分析,第2.3节 双因素方差分析,第2.4节 多因素方差分析,在现实的生产和经营管理中,经常要分析各种因素对研究对象某些特征值的影响.,方差分析(analysis of variance)就是采用数理统计方法对数据进行分析,以鉴别各种因素对研究对象的某些特征值影响大小的一种有效方法.,研究对象的特征值,即所考察的试验(其涵义包括调查,收集等)结果(如产品质量、数量、销量、成本等)称为试验指标,简称指标,常用x表示.,在试验中对所关心的“指标”有影响的、要加以考察而改变状态的原因称为因素,用A,B,C等大写英文字母表示.,第2.
2、1节 方差分析的基本思想,在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。通常是比较不同实验条件下样本均值间的差异方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。例如医学界研究几种药物对某种疾病的疗效;农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响不同饲料对牲畜体重增长的效果等都可以使用方差分析方法去解决,因素在试验中所取的各种不同状态称为因素的水平.因素A的r个水平常用A1,A2,A r表示,其中r称为因素A的水平数.,若在试验中考虑了因素的全部水平,则该因素称为固定因素;若在试验中仅随机选择了因素的部分水平,则该因素称为随机因素.,若只考察一个因素对指
3、标的影响,这种试验称为单因素试验,相应的方差分析就称为单因素方差分析;若一个试验中同时考察两个因素,则相应的试验称为双因素试验,这时所作的方差分析称为双因素方差分析,在多因素试验中要考察的因素多于两个,相应的方差分析称为多因素方差分析.,方差分析(ANOVA)又称 F 检验,其目的是推断多组资料的总体均数是否相等。本章主要内容包括单因素方差分析(即完全随机设计资料的方差分析)、两因素方差分析(即随机区组设计资料的方差分析)和三因素方差分析(即拉丁方设计资料的方差分析)及多个样本均数间的多重比较。,方差分析的基本思想方差分析的基本思想借助以下例题予以说明:例9-1 为研究煤矿粉尘作业环境对尘肺的
4、影响,将18只大鼠随机分到甲、乙、丙3个组,每组6只,分别在地面办公楼、煤炭仓库和矿井下染尘,12周后测量大鼠全肺湿重(g),数据见表92,问不同环境下大鼠全肺湿重有无差别?,从以上资料可看出,三个组的数据各不相同,这种差异(总变异)可以分解成两部分:即(1)组间变异:甲、乙、丙三个组大鼠全肺湿重 各不相等(此变异反映了处理因素的作用,以及随机误差的作用)(2)组内变异:各组内部大鼠的全肺湿重各不相等(此变异主要反映的是随机误差的作用),各部分变异的计算:,总变异(全部试验数据间大小不等)用总离均差平方和 来表示。,其中,组间变异(由于所接受的处理因素不同而致各组间大小不等)用组间离均差平方和
5、 来表示。各组均数 之间相差越大,它们与总均数 的差值就越大,越大;反之,越小。,组内变异(同一处理组内部试验数据大小不等)用组内离均差平方和 来表示。,三个变异之间的关系:,其中:,离均差平方和只能反映变异的绝对大小。变异程度除与离均差平方和的大小有关外,还与其自由度有关,由于各部分自由度不相等,因此各部分离均差平方和不能直接比较,须除以相应的自由度,该比值称均方差,简称均方(MS)。的大小就反映了各部分变异的平均大小。,方差分析就是通过比较组内均方 和组间均方 的大小关系来判断处理因素有无效应。,检验统计量:,可见,方差分析的基本思想就是根据实验设计的类型,将全部测量值总的变异分解成两个或
6、多个部分,每个部分的变异可由某个因素的作用(或某几个因素的作用)加以解释,通过比较各部分的均方与随机误差项均方的大小,借助 F 分布来推断各研究因素对实验结果有无影响。,二、方差分析的应用条件,(1)各观测值相互独立,并且服从正态分布;(2)各组总体方差相等,即方差齐性。,例 某公司为了研究三种内容的广告宣传对某种无季节性的大型机械销售量的影响进行了调查统计.经广告广泛宣传后,按寄回的广告上的订购数计算,一年四个季度的销售量(单位:台)为:,广告类型第一季度第二季度第三季度第四季度 A1 163 176 170 185A2 184 198 179 190 A3 206 191 218 224,
7、A1是强调运输方便性的广告,A2是强调节省燃料的经济性的广告,A3是强调噪音低的优良性的广告.试判断:新闻广告的类型对该种机械的销售量是否有显著影响?若影响显著,哪一种广告内容为好?,新闻广告是所要检验的因素,三种不同的内容是三个水平,这是一个单因素三水平的试验.,试验过程中各种偶然性(随机性)因素的干扰所致差异,称为试验误差.,如果差异单纯是由误差引起的,那么我们认为广告的不同类型对销售量没有显著影响,则可简称因素(新闻广告)不显著,如果不同广告下销售量的不同,除了误差影响外,主要是由于广告类型(水平)不同所造成的,那么我们就认为因素的不同水平对销售量有显著影响,简称因素显著.,方差分析就是
8、通过对试验结果的分析去判断因素本身及各因素间交互作用对指标是否影响显著的一种统计方法.,单因素方差分析(single factor analysis of variance)是要判断因素各水平对指标是否有显著影响,归结为判断不同总体是否有相同分布的问题.由于实际中常遇到的是具有正态分布的总体,同时,在进行方差分析时,除了所关心的因素外,其他条件总是尽可能使其保持一致,这样就可以认为每个总体的方差是相同的,因而,判断几个总体是否具有相同分布的问题就简化为检验几个具有等方差的正态总体均值是否相等的问题.,第2.2节 单因素方差分析,考虑的因素记为A,假定它有r个水平,并对水平Ai作了ni次观察,第
9、i水平的第j次观察为,这样可得观察资料,设 是来自总体 的简单随机样本,检验,其中,1.数学模型,记,则,等价于,记总观察次数,组平均值,总平均值,则有平方和分解式:,2.方差分析,Q称为总离差平方和,简称总平方和,它反映全部数据之间的差异;Q1称为误差平方和或组内平方和,反映了随机误差的影响;Q2称为组间平方和或因素A的平方和,反映了各总体的样本平均值之间的差异,在一定程度上反映了 间的差异程度,因而通过Q2与Q1的相对大小可以反映H0是否成立.,若Q2显著地大于Q1,说明 间的差异显著地大于随机误差,那么H0可能不成立.,取,也就是说有 的把握认为因素对指标有显著影响,即 间的差异是显著的
10、.,通常情况下要列出方差分析表(analysis of variance table):,例 某公司为了研究三种内容的广告宣传对某种无季节性的大型机械销售量的影响进行了调查统计.经广告广泛宣传后,按寄回的广告上的订购数计算,一年四个季度的销售量(单位:台)为:,广告类型第一季度第二季度第三季度第四季度 A1 163 176 170 185A2 184 198 179 190 A3 206 191 218 224,A1是强调运输方便性的广告,A2是强调节省燃料的经济性的广告,A3是强调噪音低的优良性的广告.试判断:新闻广告的类型对该种机械的销售量是否有显著影响?若影响显著,哪一种广告内容为好?,
11、所以拒绝H0,即认为广告内容不同对销售量的影响是显著.,分析结果如下:,例2.设有三台机器,用来生产规格相同的铝合金薄板.取样,测量薄板的厚度精确至千分之一厘米.得结果如表所示.问不同机器对生产的铝合金板的厚度有无影响 请看分别用菜单系统和程序进行讨论 程序名data lb给出了单因素方差分析的典型解法,进行了方差分析同时又在各水平组间进行了均值的比较,作了直方图,菜单系统和程序中均有选项”Dunnett”进行某一水平和其余水平的均值差异比较和检验,选项”snk”则进行所有水平间均值差异的比较和检验.,例.设有三台机器,用来生产规格相同的铝合金薄板.取样,测量薄板的厚度精确至千分之一厘米.得结
12、果如表所示.问不同机器对生产的铝合金板的厚度有无影响?,1.编程输入数据:Data E411;input c$y;cards;1 0.236 2 0.257 3 0.258 1 0.238 2 0.253 3 0.264 1 0.248 2 0.255 3 0.259 1 0.245 2 0.254 3 0.267 1 0.243 2 0.261 3 0.262;proc print;RUN;,SolutionAnalysisAnalyst(分析员系统)(出现空白数据表)FileOpen By Sas Name(在Make one selection窗口中)work 选中数据名E411(OK)
13、StatisticsANOVA One-Way ANOVA Independent填分类变量c Dependent因变量yPlots可选择分水平的盒形图(Box-Whisker Plot),条形图(Bar Chart)及均值、标准差图MeansComparisons Methods给出了10种多重比较的方法 为选择的显著性水平,Breakdown可按水平分组出描述性统计量 OK(点击运行后的结果树标签则会打开相应图.,编程进行单因素方差分析Data E411;input c$y;cards;1 0.236 2 0.257 3 0.258 1 0.238 2 0.253 3 0.264 1 0.
14、248 2 0.255 3 0.259 1 0.245 2 0.254 3 0.267 1 0.243 2 0.261 3 0.262;proc glm data=E411;/*glm为方差分析*/class c;/*分类变量c*/model y=c;/*模型 因变量=自变量*/lsmeans c;/*最小误差法*/means c;/*求c的均值*/RUN;,自由度公式总自由度ft=试验次数n-1;误差自由度fe=总自由度ft-模型自由度f模型方差分析中(单因素模型)因素A(即模型)的自由度fA=水平数-1(A,B双因素考虑交互效应模型)因素A的自由度fA=水平数-1 因素B的自由度fB=水平
15、数-1 交互效应A*B的自由度fA*B=fA*fB 模型自由度f模型=fA+fB+fA*B 回归分析中 项自由度=1 模型自由度f模型=项自由度之和,第2.3节 双因素方差分析,双因素方差分析的数据结构为,1.无交互作用的双因素方差分析(double factor analysis of variance),因素,因素A的第i种效应和因素B的第j种效应分别记作,试验误差记作,那么,其 中,假定,(1)数学模型,j,i,b,a,判断因素A是否显著,等价于检验假设,判断因素B是否显著等价于检验假设,将总离差平方和Q进行分解:,选取检验统计量:,(2)方差分析,列出如下方差分析表:,例 为提高某种产
16、品的合格率,考察原料用量和来源地对其是否有影响.原料来源地有三个:甲、乙、丙.原料用量有三种:现用量、增加5%、增加8%.每个水平组合各做一次试验,得到的数据如下:,试分析原料用量及来源地对产品合格率的影响是否显著.,解:设原料来源地为因素A,三个地区为因素A的三个水平,第i个水平对合格率的特殊效应为;原料用量为因素B,三种用料量为因素B的三个水平,第j个水平对合格率的特殊效应为,,原假设为,双因素试验的方差分析,案例,因素和指标之间的应该是什么样的模型是由它们之间的客观关系确定的,譬如双因素A、B数据表(类似数据Rocket处数据表)进行方差分析讨论时可能的模型有以下几种:1)主效应A、B都
17、显著、交互效应A*B显著(有交互效应的双因素方差分析模型)2)只有主效应A显著、主效应B显著(只有主效应的双因素方差分析模型)3)只有主效应A显著(单因素方差分析模型)4)只有主效应B显著(单因素方差分析模型),我们的研究是发现这样的合适的模型.看下例分析过程.例3 分析下面数据表,说明合适的模型是个单因素模型(数据名E632)下表(数据名E632)给出某种化工过程在三种浓度、四种温度水平下得率的数据.,例 抗牵拉强度是硬橡胶的一项重要的性能指标,现试验考察下列两个因素对该指标的影响.A(硫化时间):A1(40秒),A2(60秒).B(催化剂种类):B1(甲种),B2(乙种),B3(丙种).六
18、种组合水平下,各重复做了两次试验,测得数据(单位:kg/cm2)如下,试问因素A,因素B对该指标的影响是否显著?,2.有交互作用的双因素方差分析,第二节 两因素方差分析,1.数据输入:见Data Rocket2.编程进行:proc glm data=rocket;class f m;/*class语句说明对分类变量 f,m分析*/model r=f m f*m;/*模型:连续变量r;考虑因素f,m及交互f*m*/lsmeans f m f*m;run;说明:如果要考虑交互效应,则每一水平组合必须做重复试验,否则可以不做重复试验.,3.应用分析员应用系统:SolutionAnalysisAnal
19、yst(分析员系统)(出现空白数据表)FileOpen By Sas(在Make one selection窗口中)work(选中数据名Data rocket)(OK)Statistics ANOVA Factorial ANOVA Independent填分类变量f,mDependent填因变量R Model-Standard Models Main effects only只考虑主效应;Effects up to 2-way interactions考虑交互效应Plots可选择响应变量的均值(主效应或交互效应)连线图MeansComparisons Methods给出了10种多重比较的方法
20、 为选择的显著性水平,Breakdown可按水平分组出描述性统计量OK 请看演示,第三节 多因素(3)方差分析,指标y(回收率),因素:XA(尿素量),XB(水量),XC(反应时间),XD(溶剂量)(一)初步分析:从数据表(见data Q98)看出各因素等间距取值,由正交多项式理论,此时因素的主效应(在以下变换的前提下,注意未经变换主效应的线性部分和二次项部分无法有正交性分解)可以进一步分解成线性部分和二次项部分.对于显著因素,如果二次项部分不显著,只是线性项部分显著,那么因素与指标呈线性关系;如果二次项部分显著那么因素与指标呈抛物线关系.因素等间距取值时,因素的取值与水平数(自然数1,2,3
21、)可以有线性变换关系 新变量(可看成水平序号,已经无量纲影响)=(原变量左端点)/步长+1此时在SAS中应先用水平数为自变量进行项的删选,删选结束用水平数与原始变量进行方差分析和回归分析结论完全相同,说明:A,B,C,B分别是四个因素在正交表上的水平值(二)数据输入data Q98;input number$A B C D XA XB XC XD y;A2=A*2;B2=B*2;C2=C*2;D2=D*2;XA2=XA*2;XB2=XB*2;XC2=XC*2;XD2=XD*2;cards;(数据略)proc print;run;,(三)分析过程进行分析时(1)当因素很多或误差自由度显然不够时可
22、先只考察所有因素的主效应,如有可能再进一步考虑主要因素的二次项和交互项或(2)当试验次数相对较多时直接在进行变量代换 新变量(可看成水平序号)=(原变量左端点)/步长+1后,可考虑所有一次项和二次项采用逐步回归删去不显著的项直接讨论本例先采用方法(1)分步讨论与直接采用方法(2)讨论的结果是一致的方法(1)第一步得输出表如下:,分析:由于每个因素自由度2,合计模型自由度8,n-1-p=0即误差自由度为0,从而无法产生统计量F和相应概率Pr,但从平方和分解中可以看出因素效应大小的顺序,并看出因素D是不显著的,故可以删去因素D后进入 Statistics Regression-Linear重新分析
23、(在选项Statistics中选择型平方和SS)得表如下(从平方和比较中可以看出因素A只是线性效应而因素B,C呈抛物线效应,):,删除A2项重新上步工作得最终结果如表:,项的删选结束后当采用原始数据进行回归可发现方差分析结束完成一致并且得原变量和指标的回归方程见下表 方法(1)的以上过程与对新变量采用方法(2)直接利用逐步回归直接完成的结论相同,多因素(3)方差分析(续),五因素三水平安排在正交表L18(37)上,要考察每个因素和其平方对指标y的影响的显著性.数据见下程序data Q146;input number$A B C D E y;A2=A*A;B2=B*B;C2=C*C;D2=D*D
24、;E2=E*E;cards;1 1 1 1 1 1 943.44 2 1 2 2 2 2 975.06(数据部分略);proc print;run;,SolutionAnalysis Analyst(“分析员应用”)FileOpen By Sas Name(在Make one selection窗口中)work 选中数据名 Q146(OK)Statistics Regression Linear线性回归在线性回归主窗口中Dependen填入因变量;Explanatory填入各自变量;(以下为返回式选项窗口,进入该类窗口并进行选择后OK 返回)OK Model 选择筛选变量的方法逐步回归step
25、wise selection(如果对项的入选采取较宽容的态度可以适当调大值譬如0.1)OK;Statistics选择Type 1 sum of squares OK OK请看演示,总和T,修正项CT,以及各列的波动平方和S和总波动平方和ST等可以用SAS求得:data Q143;input A B C Em y;cards;1 1 1 1 5.09/*数据前三列为正交表L9(34)前三列*/1 2 2 2 20.39 1 3 3 3 24.56 2 1 2 3 16.8 2 2 3 1 23.23 2 3 1 2 18.94 3 1 3 2 21.01 3 2 1 3 15.59 3 3 2
26、1 22.34;proc print;run;,运行数据后再利用SAS菜单系统进行方差分析:SolutionAnalysis Analyst(分析员系统)(出现空白数据表)File Open By Sas(在Make one selection窗口中)work(选中数据名Data Q143)(OK)Statistics ANOVA Linear Models Independent填分类变量A,B,C Dependent因变量(响应变量)填y 在选项Statistics Type1下打勾 OK OK请看演示,发现因素A不显著,准备删去因素A,重新进入菜单系统:StatisticsANOVALi
27、nearModels Reset后 Independent填分类变量B,C Dependent因变量(响应变量)填y 在选项Statistics Type1下打勾 OK OK 请看演示,第四节 拉丁方设计资料的方差分析,一、拉丁方设计完全随机设计只涉及到一个处理因素;随机区组设计涉及一个处理因素和一个区组因素。若实验涉及一个处理因素和两个控制因素,而且每个因素的水平数相等,此时可采用拉丁方设计来安排实验,将两个控制因素分别安排在拉丁方的行和列上。,44,拉丁方是由 g 个拉丁字母排成的 gg方阵,每行或每列中每个字母都只出现一次,这样的方阵称为 g 阶拉丁方。拉丁方设计是在随机区组设计的基础上
28、发展的,它可多安排一个已知的对实验结果有影响的非处理因素,提高了效率。应用时,根据水平数 g 来选定拉丁方大小。,33,44,55,例9-3 研究A、B、C、D四种食品,以及甲、乙、丙、丁四种加工方法对小白鼠增体重的影响。拟用4窝大鼠,每窝4只,每只小白鼠随机喂养一种食品、随机采用一种加工方法;8周后观察大鼠增体重情况。实验结果如表9-9所示。问:(1)食品种类是否影响大鼠体重增加?(2)食品加工方法是否影响大鼠增体重?(3)不同窝别的大鼠体重增加是否不同?,表9-9 四种食品及四种加工方法喂养大鼠所增体重(g),44,二、变异分解,表9-8 拉丁方设计资料的方差分析表,表中C 为校正数,、分
29、别为不同处理、行区组、列区组的合计。,三、分析步骤 例9-3 问:(1)食品种类是否影响大鼠体重增加?(2)食品加工方法是否影响大鼠增体重?(3)不同窝别的大鼠体重增加是否不同?,表9-9 四种食品及四种加工方法喂养大鼠所增体重(g),解:(1)建立检验假设,确定检验水准H处理0:A=B=C=D 即四种食品对大鼠体重增加相同H处理1:A,B,C,D不全相等 即四种食品对大鼠体重增加不全相同H行0:1=2=3=4 即不同窝别大鼠体重增加相同 H行1:1,2,3,4不全相等 即不同窝别大鼠体重增加不全相同H列0:甲=乙=丙=丁 即不同加工方法对大鼠体重增加相同 H列1:甲,乙,丙,丁不全相等 即不
30、同加工方法对大鼠体重增加不全相同=0.05,(2)计算检验统计量=62772-59292.25=3479.75(2232212222423152)-59292.25=1726.25(2492245222722532)-59292.25=98.75(2212306222522222)-59292.25=1304.25=350.5,表9-10 例 9-3方差分析表,(3)确定P值,作出推断结论对处理:以处理=3和误差=6查F界值表,F0.05(3,6)=4.76,F0.01(3,6)=9.78,得P0.05,按=0.05水准不拒绝H0,差别无统计学意义,尚不能认为不同窝别可影响大鼠增重。对列区组:
31、以列=3和误差=6查F界值表,F0.05(3,6)=4.76,F0.01(3,6)=9.78,得P0.05,按=0.05水准拒绝H0,接受H1,差别有统计学意义,可认为食品加工方法会影响大鼠增重。,拉丁方设计的要求:一定是三因素,且三因素水平数相等;行间、列间、处理间均无交互作用;各行、列、处理的方差齐。拉丁方设计的优缺点:优点是可同时研究三个因素,减少实验次数。从组内变异中不但分离出行区组变异,而且还分离出列区组变异,使误差变异进一步减小。缺点是要求处理组数与所要控制的两个因素水平数相等,一般实验不容易满足此条件,而且数据缺失会增加统计分析的难度。,第五节 多个均数间的两两比较,经过方差分析
32、,若拒绝了检验假设H0,只能说明多个总体均数不等或不全相等。若要得到各组均数间更详细的信息,应在方差分析的基础上进行多个样本均数的两两比较。多重比较常用的方法有:SNK-q检验、LSD-t 检验和Dunnett-t 检验。,一、SNK-q检验,SNK(Student-Newman-Keuls)检验,亦称 q 检验,适用于多个均数两两之间的全面比较。检验统计量 q 的计算公式为:,例9-4 例9-1经 F检验结论有统计学意义,试用SNK-q检验方法对三组均数进行多重比较。解:(1)建立假设,确定检验水准。H0:(对比组总体均数相等);H1:(对比组总体均数不等);,(2)计算检验统计量 q 值。
33、计算差值的标准误:本例 nAnB6,MS误差MS组内0.269 将三个样本均数从小到大排序,并赋予秩次:均数 3.817 4.233 4.733 组别 甲组 乙组 丙组 秩次(R)1 2 3 列表计算检验统计量q 值:,表9-12 例91的3个样本均数两两比较的q检验,(3)确定 P 值,作出推断结论 以误差15及组数 a 查 q 界值表,并确定 P 值,填入表9-12。结论:甲组与丙组(“1与3”)比较P0.05,按=0.05水准不拒绝H0。因此,可认为矿井下环境会造成肺功能损害。,二、Dunnett-t 检验,Dunnett t 检验适用于多个实验组与一个对照组均数差别的多重比较。检验统计
34、量为:,例9-5 例9-2中甲组是对照组,研究目的是比较乙营养素和丙营养素是否比甲营养素多增加体重,经F检验结论有统计学意义,试用Dunnett-t检验方法对三组均数进行多重比较。解:(1)建立假设,确定检验水准。H0:(所比较实验组与对照组总体均数相等)H1:(所比较实验组与对照组总体均数不等)(2)计算检验统计量Dunnett-t值。本例 n T=n C=6,MS误差16.122,则差值的标准误为 2.318,列表计算 tD 统计量,如表9-13所示。(3)确定 P 值,作出推断结论。以 及处理数T=2查Dunnett-t 检验界值表,并确定P值,填入表9-13。丙组与甲组比较P0.05,
35、没有统计学意义,按=0.05水准不拒绝H0,尚不能认为乙营养素与对照组增加体重不同。,表9-13 例92的2个处理组与对照组均数比较的tD检验,三、LSD-t 检验,LSD-t 检验即最小显著差异 t 检验,适用于一对或几对在专业上有特殊意义的样本均数间的比较。检验统计量 t 的计算公式为:,LSD-,例9-6 例9-3中食品种类是否影响大鼠增体重,研究目的只为比较A食品与B食品,C食品与D食品便可;多组间经F检验结论有统计学意义,试用LSD-t检验方法对这两对均数进行多重比较。检验步骤为:(1)建立检验假设,确定检验水准 H0:A=B 即所研究的两个对比组的总体均数相等 H1:A B 即所研
36、究的两个对比组的总体均数不等=0.05(2)计算检验统计量 本例 nAnB4,MS误差58.417,误差6,计算统计量LSD-t值,如表9-14所示。(3)确定P值,作出推断结论 以误差6查 t 界值表,并确定P值,填入表9-14。由表9-14得A食品与B食品比较P0.05,按=0.05水准,不拒绝H0,无统计学意义,还不能认为A食品和工食品增体重不同。但C食品与D食品比较P0.01,按=0.05水准,拒绝H0,有统计学意义,可认为C食品增体重不如D食品。,表9-14 例93的两个对子均数比较的LSD-t检验,上述三种方法均基于方差分析中估计的误差均方,这是与t检验最大的不同之处。这三种方法是
37、一致的,但并非等价,结果略有差别。由于统计软件可同时作十几种多重比较检验,应用中应根据统计设计和专业知识考虑来确定采用哪一种方法,不能多种方法一起使用,然后选取“有利”的结果。,第五节 多组样本的方差齐性检验,方差分析的一个应用条件是相互比较的各样本的总体方差相等,即具有方差齐性,这就需要在作方差分析之前,先对资料的方差齐性进行检验,特别是在样本方差相差悬殊时,应注意这个问题。本节介绍多个样本的方差齐性检验方法,Bartlett检验法和Levene检验法。,一、Bartlett 检验 检验统计量为:,例9-7 对例9-1资料,检验其是否满足方差齐性?解:H0:H1:不全相等=0.10,表9-1
38、5 例9-1的方差齐性检验计算表,首先计算各样本方差 Si2 和合并方差 SC2,再计算 2。=31=2查 2界值表,2 0.10,按=0.10水准,不拒绝H0,差别无统计学意义,尚不能认为不同环境下大鼠全肺湿重的方差不齐。,注意事项:1当 2值仅略大于某一临界值时可计算校正 2值,减少偏倚。计算公式为2Bartlett检验法要求资料具有正态性。,二、Levene 检验 与Bartlett检验法比较,Levene检验法在用于多样本方差齐性检验时,所分析的资料可不具有正态性。检验统计量为,检验过程:1.建立假设、确定检验水准。H0:(即三个总体方差相等);H1:三个总体方差不等或不全相等;2.计
39、算检验统计量W 值 3.查 F 界值表作结论 Levene法的计算量较大,一般借助于统计软件来完成。,第七节 数据变换,当数据为偏态或方差不齐时,有时可通过数据转换的方法改善。常用方法有对数变换、平方根变换、倒数变换、平方根反正弦变换等。,1平方根反正弦变换 医学上有许多指标是用百分数形式表示的,如白细胞分类的百分数、淋巴细胞转换率、畸变细胞出现率等,一般倾向于二项分布,此时宜采用平方根反正弦变换。,2平方根变换 平方根变换法适用于观测值为服从泊松分布的计数资料,如单位时间的放射粒子数目。,3对数变换 对数变换适用于某些服从对数正态分布的资料。由于 0 和负值无对数,这时可改用,a为任意常数。,