《交检验的极差分析和方差分析.ppt》由会员分享,可在线阅读,更多相关《交检验的极差分析和方差分析.ppt(77页珍藏版)》请在三一办公上搜索。
1、方差分析解决的主要问题是什么?单因素方差分析与双因素方差分析 原理的相同点与不同点?正交实验设计的基本原理是什么?,例题 某公司计划引进一条生产线.为了选择一条质量优良的生产线以减少日后的维修问题,他们对6种型号的生产线作了初步调查,每种型号调查4条,结果列于表8-1。这些结果表示每个型号的生产线上个月维修的小时数。试问由此结果能否判定由于生产线型号不同而造成它们在维修时间方面有显著差异?,4.1 方差分析的基本概念和原理,表 41 对6种型号生产线维修时数的调查结果,4.1 方差分析的基本概念和原理,研究的指标:维修时间记作Y,控制因素是生产线的型号,分为6个水平即A,B,C,D,E,F,每
2、个水平对应一个总体Yi(i=1,2,6)。,4.1 方差分析的基本概念和原理,现在的试验就是进行调查,每种型号调查4台,相当于每个总体中抽取一个容量为4的样本,得到的数据记作yij(i=1,2,6;j=1,2,3,4),即为下表数据。计算各样本平均数 如下:,表 82,4.1 方差分析的基本概念和原理,两个总体平均值比较的检验法把样本平均数两两组成对:与,与,与,与,与,共有(15)对。,4.1 方差分析的基本概念和原理,即使每对都进行了比较,并且都以0.95的置信度得出每对均值都相等的结论,但是由此要得出这6个型号的维修时间的均值都相等。这一结论的置信度仅是,上述方法存在的问题,工作量大,置
3、信度低,将这15对平均数一一进行比较检验,4.1 方差分析的基本概念和原理,方差分析的基本原理:(1)将数据总的偏差平方和按照产生的原因分解成:(总的偏差平方和)=(由因素水平引起的偏差平方和)+(试验误差平方和)(2)上式右边两个平方和的相对大小可以说明因素的不同水平是否使得各型号的平均维修时间产生显著性差异,为此需要进行适当的统计假设检验.,4.1 方差分析的基本概念和原理,数学模型和数据结构参数点估计分解定理 自由度显著性检验多重分布与区间估计,4.2 单因素试验的方差分析,在单因素试验中,为了考察因素A的k个水平A1,A2,Ak对Y的影响(如k种型号对维修时间的影响),设想在固定的条件
4、Ai下作试验.所有可能的试验结果组成一个总体Yi,它是一个随机变量.可以把它分解为两部分(4-1),4.2.1 数学模型和数据结构,其中:纯属Ai作用的结果,称为在Ai条件下Yi的真值(也称为在Ai条件下Yi的理论平均).是实验误差(也称为随机误差)。(4-2)其中,和 都是未知参数(i=1,2,k).,4.2.1 数学模型和数据结构,假定在水平Ai下重复做m次试验,得到观测值,表 43,4.2.1 数学模型和数据结构,表中:(i=1,2,k)(4-3)Yij表示在Ai条件下第j次试验的结果,用式子表示就是(i=1,2,k j=1,2,m)(4-4)注意:每次试验结果只能得到Yij,而(4-4
5、)式中的 和 都不能直接观测到。,4.2.1 数学模型和数据结构,为了便于比较和分析因素A的水平Ai对指标影响的大小,通常把 再分解为(i=1,2,k)(4-5)其中,称为一般平均(Grand Mean),它是比较作用大小的一个基点;,8.2.1 数学模型和数据结构,并且称 为第i个水平Ai的效应.它表示水平的真值比一般水平差多少。满足约束条件(4-6)可得,i=1,2,k;j=1,2,m,4.2.1 数学模型和数据结构,要解决的问题,找出参数和 的估计量,分析观测值的偏差,检验各水平效应有无显著差异,4.2.1 数学模型和数据结构,用最小二乘法求参数 的估计量,然后寻求 的无偏估计量.须使参
6、数 的估计值能使在水平Ai下求得的观测值Yij与真值 之间的偏差尽可能小。为满足此要求,一般考虑用最小偏差平方和原则,也就是使观测值与真值的偏差平方和达到最小.,4.2.2 参数点估计,由(4-4)可知,上述偏差平方和令下列各偏导数为零,(i=1,2,k),4.2.2 参数点估计,由 解得(4-7)由 解得(4-8),4.2.2 参数点估计,并由此得 的估计量至此,求得参数 的估计量(4-9),4.2.2 参数点估计,按照上述原则求参数估计量的方法称为最小二乘法,称为最小二乘估计量.我们还可以证明 分别是参数 的无偏估计量。将 和 分别用它们的估计量代替,可以得到试验误差 的估计量,(4-10
7、),4.2.2 参数点估计,为了由观测值的偏差中分析出各水平的效应,我们研究三种偏差:,和.根据前面参数估计的讨论,它们分别表示,定理(4-11),的估计.,和,4.2.3 分解定理 自由度,证明:,4.2.3 分解定理 自由度,令则分解定理(8-11)可写成(4-12),4.2.3 分解定理 自由度,上式中,称为总偏差平方和.称为误差平方和(或组内平方和);称为因素A的效应平方和(或组间平方和),ST的自由度fT=km-1 SA的自由度fA=k-1 SE的自由度fE=k(m-1)容易看出,自由度之间也有类似于分解定理的关系(4-13),4.2.3 分解定理 自由度,参数假设检验的假设条件,观
8、测值(i=1,2,k;j=1,2,m)相互独立,在水平Ai条件下,Yij(j=1,2,m)服从正态分布N,4.2.4 显著性检验,要判断在因素A的k个水平条件下真值之间是否有显著性差异,即检验假设 H0:,H1:不全相等相当于检验假设 H0:(i=1,2,k),H1:i不全为零,4.2.4 显著性检验,可以证明当H0为真时,(4-16)并且 与 相互独立.得(4-17)其中 和 称为均方(Mean Square).,4.2.4 显著性检验,利用(8-17)式来检验原假设H0是否成立.对于给定的显著水平,可以从F分布表查出临界值 再根据样本观测值算出FA的值.当 时,拒绝H0,当 时,接受H0。
9、,4.2.4 显著性检验,表 44 方差分析表,4.2.4 显著性检验,下面继续讨论前面6种型号的生产线的例子。根据调查结果,在=0.05的显著水平时,检验这6种型号的生产线在平均维修时间方面有无显著差异?根据实践经验,认为各种型号生产线的维修时间是近似服从正态分布的。作统计假设:6种型号的生产线平均维修时数无显著差异,即 H0:i=0(i=1,2,6),H1:i不全为零,4.2.4 显著性检验,计算SA及SE,4.2.4 显著性检验,表 45 计算列表,4.2.4 显著性检验,再将计算结果分别代入SA与SE两式中,得到第一自由度 第二自由度,4.2.4 显著性检验,查F分布表得由于,故拒绝H
10、0。该结论说明,至少有一种生产线型号的效应不为零,这等价于至少有两种型号的生产线的平均维修时数是有显著差异的。,表 46 方差分析表,4.2.4 显著性检验,q 检验法:,计算任意两水平的差值,,当 时,判断 与 差异显著;当 时,判断 与 差异显著。,查多重比较的q表得(8-18),4.2.5 多重分布与区间估计,区间估计在置信度为 的情况下,的置信区间为(8-19),4.2.5 多重分布与区间估计,双因素方差分析的类型数据结构离差平方和的分解应用实例,4.3 双因素方差分析,在实际问题的研究中,有时需要考虑两个因素对实验结果的影响。例如饮料销售,除了关心饮料颜色之外,我们还想了解销售地区是
11、否影响销售量,如果在不同的地区,销售量存在显著的差异,就需要分析原因。采用不同的销售策略,使该饮料品牌在市场占有率高的地区继续深入人心,保持领先地位;在市场占有率低的地区,进一步扩大宣传,让更多的消费者了解、接受该生产线。,4.3.1 双因素方差分析的类型,若把饮料的颜色看作影响销售量的因素A,饮料的销售地区则是影响因素B。对因素A和因素B同时进行分析,就属于双因素方差分析。双因素方差分析的内容,是对影响因素进行检验,究竟是一个因素在起作用,还是两个因素都起作用,或是两个因素的影响都不显著。,4.3.1 双因素方差分析的类型,双因素方差分析的类型,无交互作用的双因素方差分析,有交互作用的双因素
12、方差分析,假定因素A和因素B的效应之间是相互独立的,不存在相互关系,假定因素A和因素B的结合会产生出一种新的效应,4.3.1 双因素方差分析的类型,例如,若假定不同地区的消费者对某种颜色有与其他地区消费者不同的特殊偏爱,这就是两个因素结合后产生的新效应,属于有交互作用的背景;否则,就是无交互作用的背景。有交互作用的双因素方差分析已超出本书的范围,这里介绍无交互作用的双因素方差分析。,4.3.1 双因素方差分析的类型,双因素方差分析的数据结构如表所示:双因素方差分析数据结构,表 87,4.3.2 数据结构,表中,因素A位于列的位置,共有r个水平,代表第j种水平的样本平均数;因素B位于行的位置,共
13、有k个水平,代表第i种水平的样本平均数。为样本总平均数,样本容量n=rk。每一个观察值Xij看作由A因素的r个水平和B因素的k个水平所组合成的rk个总体中抽取样本容量为1的独立随机样本。这rk个总体的每一个总体均服从正态分布,且有相同的方差。这是进行双因素方差分析的假定条件。,4.3.2 数据结构,4.3.3 离差平方和的分解,各离差平方和对应的自由度:总离差平方和SST的自由度为rk-1=n-1;因素A的离差平方和SSA的自由度为r-1;因素B的离差平方和的自由度为k-1;随机误差SSE的自由度为(r-1)(k-1),4.3.3 离差平方和的分解,由离差平方和与自由度可以计算均方差:对因素A
14、而言:对因素B而言:对随机变量而言:,4.3.3 离差平方和的分解,表 48 双因素方差分析表,4.3.3 离差平方和的分解,某商品有五种不同的包装方式(因素A),在五个不同地区销售(因素B),现从每个地区随机抽取一个规模相同的超级市场,得到该商品不同包装的销售资料如下表.表 49现欲检验包装方式和销售地区对该商品销售是否有显著性影响。(=0.05),4.3.4 应用实例,解:若五种包装方式的销售的均值相等,则表明不同的包装方式在销售上没有差别。建立假设对因素A:H0:,包装方式之间无差别H1:不全相等,包装方式之间有差别对因素B:H0:地区之间无差别H1:不全相等 地区之间有差别,4.3.4
15、 应用实例,计算F值 因素A的列均值分别为:因素B的行均值分别为:总均值=15.04故:SST=(20-15.04)2+(10-15.04)2=880.96 SSA=5(21.6-15.04)2+5(11.6-15.04)2=335.36 SSB=5(15.2-15.04)2+5(18.8-15.04)2=199.36 SSE=880.96-335.36-199.36=346.24,4.3.4 应用实例,接下来:因此,4.3.4 应用实例,统计决策 对于因素A,因为 FA=3.87Fcrit=3.01 故拒绝H0,接受H1,说明不同的包装方式对该商品的销售产生影响。对于因素B,因为 FB=2.
16、30Fcrit=3.01 故接受H0,说明不同地区该商品的销售没有显著差异。,4.3.4 应用实例,在工农业生产和科学研究中,经常会遇到多因素试验问题,在实际中不需要进行各种水平组合的全面试验,只需从各种不同搭配情况中,选取一小部分来进行就可以了。那么,怎样选取以及如何分析试验结果,才能科学的回答如下问题:各因素对指标的影响,哪个因素重要?哪个因素次之?每个因素中,哪个水平为好?各个因素和水平依哪种情况搭配可使试验结果最佳?解决这些问题正是正交试验设计的主要内容。,4.4 正交试验设计,正交试验统计的基本思想 正交表与直观分析法 方差分析法,4.4 正交试验设计,考虑进行一个三因素、每个因素有
17、三个水平的试验。如果作全面试验,需作=27次。,图8-1,4.4.1 正交试验统计的基本思想,如果进行正交试验设计,利用正交表安排试验,对于三因素三水平的试验来说,需要作9次试验,用“”表示,标在图中。如果每个平面都表示一个水平,共有九个平面,可以看到每个平面上都有三个“”点,立方体的每条直线上都有一个“”点,并且这些“”点是均衡地分布着。,4.4.1 正交试验统计的基本思想,正交表是正交试验设计的工具。最简单的正交表是L4(23),此外还有L8(27),L9(34),L16(45)等等。L表示一张表,它的数字,有三层不同的含义,以L4(23)为例加以说明。,4.4.2 正交表与直观分析法,L
18、4(23)表的结构:包括4行,3列,表中只出现1、2两个反映水平的数字。,行数,水平数,列数,L4(23),4.4.2 正交表与直观分析法,Ln(rm),L4(23)表的用法作4次试验,可以最多安排3个二水平的因素(因子),试验数,水平数,因子数,L4(23),4.4.2 正交表与直观分析法,L4(23)表的效率全因素全水平的实验做8次,正交实验做4次.,理论上全部试验的次数,实际试验次数,L4(23),4.4.2 正交表与直观分析法,表 410 L4(23),4.4.2 正交表与直观分析法,正交表的特点,每一列中,不同的数字出现的次数相等,如L4(23)表中的数1和2,它们各出现了两次,任意
19、两列中,将同一横行的两个数字看成有序数对时,每种数对出现的次数相等。如L4(23)表中共有的四种有序数对(1,1),(1,2),(2,1),(2,2),它们各出现一次。,由此保证了用正交表安排的试验计划是均衡搭配的。,4.4.2 正交表与直观分析法,例 某化工厂生产一种试剂,产率较低,希望通过试验探索好的生产工艺以提高产率。考察的因子与水平如下表:表 411,4.4.2 正交表与直观分析法,表 412 试验计划表,4.4.2 正交表与直观分析法,表 813 计算表,4.4.2 正交表与直观分析法,在A因子水平相同的三组试验中,极差 它表示反应温度40摄氏度与50摄氏度相比,试剂的产率平均提高1
20、5.6%.用同样的方法可以比较B因子和C因子各水平的好与差.,4.4.2 正交表与直观分析法,结论,反应温度对产率影响最大,其次是反应时间,再其次是搅拌速度.,反应温度是40度好,反应时间是1.5小时好,搅拌速度是快速好.,最好的生产工艺是A2B2C1:即反应温度 40摄氏度;反应时间 1.5小时;搅拌速度 快速.,4.4.2 正交表与直观分析法,利用方差分析法来分析试验结果时,由于要考虑随机因素对指标的影响,因此在选取正交表安排试验时,要使表中的因子数大于实际的因子数。例如,试剂产率的试验是三因子三水平,我们仍然可以选用L9(34)表安排试验,将三因素依次放在表的第1、2、3列后,还空出一列
21、无因素可安排,这一列可视为随机试验误差。把试验结果的所有数据都减去同一常数,不会影响结论,故常用此法简化数据。,4.4.3 方差分析法,试验计划表和计算表,表 814,4.4.3 方差分析法,按本章前面介绍的方差分析方法,将试验结果产率y的变动(或波动、差异)用总偏差平方和ST来表示,则其中,,T=yi,4.4.3 方差分析法,总偏差平方和可以分解为各因子的偏差平方和与试验误差的偏差平方和,即 ST=SA+SB+SC+SE其中可化简为 将具体数值代入得SA=421.6,4.4.3 方差分析法,类似地,可求出因子B、C和试验误差E的偏差平方和SB,SC和SE的值:各因子与试验误差的自由度为,4.4.3 方差分析法,表 815 方差分析,4.4.3 方差分析法,由F分布表查得F0.10(2,2)=9,F0.05(2,2)=19,F0.01(2,2)=99,比较F值与F0.10、F0.05、F0.01的大小得出:FAF0.05,FAF0.01,故A因子非常显著;F0.10FBF0.05,故B因子比较显著;F0.10FCF0.05,故C因子也比较显著,但比A、B二因子的影响作用差。,4.4.3 方差分析法,本例方差分析的结论与直观分析法的结论是一致的即:反应温度对产率影响最大,搅拌速度影响最小;好的生产工艺条件仍然是A2B2C1。,4.4.3 方差分析法,