Minitab单因素方差分析.ppt_三一办公31ppt.com

资源描述

《Minitab单因素方差分析.ppt》由会员分享，可在线阅读，更多相关《Minitab单因素方差分析.ppt（83页珍藏版）》请在三一办公上搜索。

1、方差分析,方差分析,实际工作中这样的问题：几种不同的原料对产品质量有无显著影响这里考察的对象：原料称为因素把因素所对应的状态称为水平当考察的因素只有一个时，称为单因素问题。,Minitab,方差分析(analysis of variance 简称ANOVA).,方差分析,例考察温度对某一化工产品的得率的影响，选了五种不同的温度，同一温度作了三次试验，测得的结果如下：,Minitab,要分析不同的温度对得率的影响，考虑如下的问题：同一温度下的得率不一样，差异原因称为试验误差；温度的不同引起的得率的差异称为条件误差。,方差分析,Minitab,当我们要问温度对得率到底有无确切的影响时，由于上述多

2、种误差原因的存在，就不能随意回答.,方差分析,Minitab,方差分析的功能：分析实验数据中不同来源的变异对总变异的贡献大小，确定实验中的自变量是否对因变量有重要影响。方差分析的方法：检验各总体的均值是否相等来判断分类型自变量（因素）对数值型因变量是否有影响。,方差分析,Minitab,方差分析,方差分析与回归分析的区别：当研究的是两个数值型变量的关系时是回归分析.回归分析沿水平轴的自变量是数值型变量，而方差分析中是分类变量。,Minitab,方差分析,在因素只有一个时不一定要采用方差分析，可以采用t-检验和 z-检验t-检验和 z-检验不能用于多于 2 个样本的数据.此时就要采方差分析。方差

3、分析有单因素与多因素的区分。,Minitab,单因素方差分析理论基础,单因素方差分析单因子试验的一般概述（记号）,在一个试验中只考察一个因子A及其r个水平A1，A2，Ar在水平Ai下重复mi次试验，总试验次数n=m1+m2+mr 记yij是第i个水平下的第j次重复试验的结果，这里i 水平号，j 重复号经过随机化后，所得的n个试验结果列于下表单因子试验的数据：,Minitab,单因素方差分析单因子试验的三项基本假定,A1.正态性。在水平i下的数据yi1,yi2,yimi是来自正态总体的一个样本，i=1,2,rA2.方差齐性。r个正态总体的方差相等，即A3.随机性。所有数据yij都相互独立,单因子

4、试验所涉及的多个正态总体,Minitab,单因素方差分析单因子试验的统计模型,其中是因子A的第i个水平下第j次试验结果；是因子A的第i个水平的均值，是待估参数；是因子A的第i个水平下第j次试验误差，它们是相互独立同分布的随机变量由此可知：,单因子试验的三项基本假定用到试验数据yij上去，可得到如下统计模型：,Minitab,单因子方差分析,Minitab,单因子方差分析总平方和的分解公式,Minitab,单因子方差分析,Minitab,单因子方差分析总平方和的分解公式,Minitab,单因子方差分析均方和,Minitab,单因子方差分析F检验,Minitab,单因素方差分析方差分析表,Min

5、itab,例2:茶是一种饮料，它含有叶酸（folacin），这是一种维他命B。如今要比较各种茶叶中的叶酸含量。现选定绿茶，这是一个因子，用A表示。又选定四个产地的绿茶，记为A1,A2,A3,A4，它是因子A的四个水平。为测定试验误差，需要重复。我们选用水平重复数不等的不平衡设计，即A1,A2,A3,A4分别制作了7,5,6,6个样品，共有24个样品等待测试。,单因素方差分析,Minitab,单因素方差分析,采用随机化试验方法，填写试验结果.,Minitab,四个产地绿茶叶酸含量的打点图（dotplot）,图上表示叶酸含量，线表示样本均值。下述一些直观的印象是重要.图中每种绿茶的叶酸含量有高有低

6、.从样本均值看，A1与A2的叶酸含量偏高一些.从样本极差看，A1，A2，A3 的极差接近，A4的略小一点。,单因素方差分析,Minitab,单因素方差分析,Minitab,单因素方差分析诸均值的参数估计,Minitab,单因素方差分析小结,Minitab,多重比较,多重比较,r个水平均值是否彼此相等？用方差分析方法假如r个均值不全相等，哪些均值间的差异是重要的？用多重比较,Minitab,多重比较,Minitab,多重比较重复数相等情况的多重比较(T法),Minitab,多重比较重复数相等情况的多重比较(T法),Minitab,多重比较重复数不等情况的多重比较(S法),Minitab,多重比较

7、重复数不等情况的多重比较(S法）,Minitab,多重比较的Minitab参数设置,个别误差率与全族误差率（显著性水平）与多重比较关联的类型 I 误差率（假设检验第I类错误的概率）通常用于确定方差分析中的特定因子水平之间的显著差异。,Minitab,个别误差率单一比较错误地断定实测差异与原假设显著不同的最大概率。此概率等于为假设检验选择的显著性水平。全族误差率由多个比较组成的过程错误地断定至少有一个实测差异与原假设显著不同的最大概率。全族误差率基于个别误差率和比较次数。对于单一比较，全族误差率等于个别误差率。但是，每个附加比较都会导致全族误差率不断增加。,Minitab,多重比较的误差率,

8、示例查看五个不同钢铁厂的钢强度（在每个工厂中使用 25 个样本），可以运行单因子方差分析。方差分析产生的 p 值小于 0.05，断定至少有一个工厂的平均值不同于其他工厂的平均值。查看五个工厂之间所有的 10 个比较，以明确确定哪些平均值是不同的。,Minitab,多重比较的误差率,如果为 10 个比较中的每一个指定的 Alpha 均为 0.05（个别误差率），则 Minitab 将针对由 10 个比较组成的一组计算全族误差率，即 0.28。但是，如果要让整个一组比较的全族误差率为 0.05，则 Minitab 为每个单个比较指定的 Alpha 均为 0.007。,Minitab,多重比较的误差

9、率,许氏与最佳值的多重比较(MCB)专门用于确定最佳因子水平、与最佳值稍有差异的因子水平、以及与最佳值有显著差异的因子水平的多重比较方法。可以将“最佳值”定义为最高平均值或最低平均值。许氏 MCB 将为每个水平均值与其余水平均值的最佳值之间的差异创建置信区间。,Minitab,Minitab多重比较方法,具体地说：最高为最佳最低为最佳置信区间包含零无差异无差异置信区间整个大于零明显更好明显更差置信区间整个小于零明显更差明显更好,Minitab,Minitab多重比较方法,Fisher 最低显著性差异(LSD)法将个别误差率控制到指定水平的同时，为因子水平均值之间的配对差异创建置信区间

10、。Fisher 法随后使用个别误差率和比较次数为所有置信区间计算同时置信水平。此同时置信水平是所有置信区间包含实际差值的概率。,Minitab,Minitab多重比较方法,Minitab,例，测量内存芯片的响应时间。从五个不同的制造商处抽取 25 个芯片作为样本。方差分析产生的 p 值为 0.01，至少有一个制造商的平均值不同于其他制造商。查看五个工厂之间所有的 10 个比较，以明确确定哪些平均值是不同的。使用 Fisher 法，可以指定每个比较的个别误差率都应为 0.05（等效于 95%置信水平）。Minitab 将创建这十个 95%置信区间，并计算出这一组置信区间的71.79%同时置信水平

11、。,Minitab多重比较方法,多重比较的 Dunnett 法用于为每个因子水平的平均值与控制组平均值之间的差异创建置信区间。为所有比较指定全族误差率，Dunnett 法针对每个单个比较相应地确定置信水平。,Minitab,Minitab多重比较方法,Tukey，全族误差率：选中此项可通过使用 Tukey 方法（在不平衡情况下也称为 Tukey-Kramer）获得水平平均值之间的所有配对差异，然后输入介于 0.5 和 0.001 之间的全族误差率。大于等于 1.0 的值解释为百分比。默认误差率为 0.05。,Minitab,Minitab多重比较方法,Fisher，个别误差率：选中此项可通过使

12、用 Fisher 的 LSD 过程获得水平平均值之间的所有配对差异，然后输入介于 0.5 和 0.001 之间的个别误差率。,Minitab,Minitab多重比较方法,Dunnett，全族误差率：选中此项可为每个处理平均值和控制平均值之间的差异提供双侧置信区间，然后输入介于 0.5 和 0.001 之间的全族误差率。对照组水平：输入用于对照组因子水平的值,Minitab,Minitab多重比较方法,许氏 MCB，全族误差率：选中此项将获得每个水平平均值与其他水平均值中的最佳值之间的差异的置信区间。最佳有两种选择。如果将最小平均值视为最佳，则设置 K=-1；如果将最大平均值视为最佳，则设置 K

13、=1。最大为最佳：选择此项会将最大平均值视为最佳。最小为最佳：选择此项会将最小平均值视为最佳。,Minitab多重比较方法,残差检验,残差是否正态分布正态概率图、直方图残差是否序列相关残差与顺序图残差是否异方差残差与拟合值图,残差概率图,Minitab,残差概率图,Minitab,方差齐性检验,Minitab,某项研究对三类公路上有行驶经验以及无行驶经验的驾驶员进行比较。这两个因子是：驾驶经验。在此次研究中，分别采用了 8 名无经验和 8 名有经验的驾驶员。经验具有两个水平，其代码分别为有经验=1，无经验=0。道路类型。每位驾驶员在三种道路的其中一种上驾驶。三个水平分别编码为一级公路=1，二级

14、公路=2，土路=3。检验人员记录了每位驾驶员在每种公路上所做的控制校正次数。响应变量为“校正”。下面给出了数据集：道路类型经验12304231618152782123101314162204615138871217数据：驾车.MTW,95%标准差Bonferroni置信区间道路类型经验N下限标准差上限 1 0 42.803845.8878440.4990 1 1 41.844353.8729826.6400 2 0 42.267214.7609532.7478 2 1 41.982614.1633328.6371 3 0 42.883596.0553041.6509 3 1 42.4282

15、05.0990235.0732 解释对于驾车数据，第一个因子为经验，第二个因子为道路类型。在六个因子水平组合的每一单元中有四个观测值。s 的第一个值 5.88784 与道路类型=1 和经验=0 对应。区间(2.80384，40.4990)估计道路类型=1 和经验=0 的总体标准差。根据此区间，s 介于 2.80384 和 40.4990 之间。标准差的最大值 6.05530 与道路类型=3 和经验=0 对应。,输出示例,Bartlett检验（正态分布）检验统计量=0.85,p值=0.974 Levene检验（任何连续分布）检验统计量=0.42,p值=0.830 解释如果检验的 p 值较高（0.

16、974 和 0.830），则表明方差之间不存在差异。,输出示例,输出示例：等方差检验图形,对于驾车数据，置信区间图表明：在所有道路类型的控制校正次数中，经验越少的驾驶员具有更大的变动性。,调查员比较了四种不同配方的油漆的硬度。将每种油漆配方取六份样品涂到一小块金属上，然后待其凝固，测量其硬度。此外，还记录每份样品的凝固温度以及涂油漆的人（操作员）的编号。数据：油漆硬度.MTW,输出示例来源自由度SS MSFP 油漆3 281.793.96.020.004 误差20 312.115.6 合计23 593.8 S=3.950R-Sq=47.44%R-Sq（调整）=39.56%解释油漆硬度方差分析得

17、到的 p 值是 0.004。因此，假设选择常用的 a 水平 0.05 进行检验，则将断定油漆配方之间的硬度存在显著差异。对于油漆数据，S 为 3.950，R 为 47.44%，调整的 R 为 39.56%。,方差分析输出第一部分：方差分析表,S、R 和调整的 R 是模型对数据的拟合优度的度量。这些值有助于您选择具有最佳拟合的模型。S 表示数据值与拟合值的标准距离。对于给定研究，模型预测响应的效果越好，S 越小。R（R 平方）描述在观测的响应值中由预测变量解释的变异量。R 始终随预测变量的增加而增大。例如，最佳的五预测变量模型的 R 始终比最佳的四预测变量模型的高。因此，比较相同大小的模型时

18、R 最有效。调整的 R 表示已根据模型中的项数调整的修正 R。如果包括了不必要的项，R 会人为地变得很高。与 R 不同，调整的 R 在您向模型中添加项时可能变小。使用调整的 R 比较预测变量数不同的各个模型。,使用单个统计量的表评定数据的以下属性：N。因子每个水平所包括的观测值数。均值。每个水平观测值的均值。这些样本均值是对每个水平总体均值的估计值。标准差。每个水平的样本标准差。方差分析假定所有水平的总体标准差相等。因此，如果样本标准差差异很大，则可能需要使用等方差检验命令来检验数据的方差相等性。合并标准差。合并标准差是对所有水平公共标准差的估计值。,方差分析输出第二部分：个体值估计及置信区间

19、,输出示例均值（基于合并标准差）的单组95%置信区间水平N均值标准差+-+-+-+-混料1614.7333.363(-*-)混料268.5675.500(-*-)混料3612.9833.730(-*-)混料4618.0672.636(-*-)+-+-+-+-5.010.015.020.0 合并标准差=3.950 解释油漆硬度分析的结果表明：配方 2 的硬度均值最低(8.567)，配方 4 的最高(18.067)。不同配方的标准差之间的差异还不足以引起关注。合并标准差为 3.950。,输出示例均值（基于合并标准差）的单组95%置信区间水平N均值标准差+-+-+-+-混料1614.7333

20、.363(-*-)混料268.5675.500(-*-)混料3612.9833.730(-*-)混料4618.0672.636(-*-)+-+-+-+-5.010.015.020.0 合并标准差=3.950 解释在油漆硬度的结果中，配方 2 和配方 4 均值的区间不重叠。这表明这些水平的总体均值不同。,Minitab 为因子的每个水平都提供 95%的置信区间。当方差分析表中的 p 值表明因子水平均值之间有差异时，可以使用单个置信区间的表来研究差异：每个星号都表示样本均值。每对圆括号都表示总体均值的 95%的置信区间。每个水平的总体均值位于相应区间内的可信度为 95%。如果两个均值的区间不重叠

21、，则表明总体均值不同。,使用Tukey法对信息进行分组油漆N均值分组混料4618.067A 混料1614.733AB 混料3612.983AB 混料268.567 B 不共享字母的均值之间具有显著差异。,方差分析输出第三部分：多重比较（Tukey比较）,Tukey95%整体置信区间油漆水平间的所有配对比较单组置信水平=98.89%,解释油漆硬度数据的分组信息显示组 A 包含混料 1、3 和 4，而组 B 包含混料 1、2 和 3。这两个组都包含混料 1 和 3。组内的因子水平之间并不存在显著差异。因为混料 2 和 4 并不共享同一个字母，混料 4 具有一个比混料 2 显著高很多的均值。

22、置信区间显示所有均值差异的可能范围：配方 2 和配方 4 的均值之间差异的置信区间为(3.114,15.886)。此范围不包括 0，表明这些均值之间差异显著。其余均值对的置信区间都包括 0，表明这些均值之间差异不显著。,多重比较-Fisher 最低显著性差异(LSD),输出示例使用Fisher方法对信息进行分组油漆N均值分组混料4618.067A 混料1614.733AB 混料3612.983BC 混料268.567C 不共享字母的均值之间具有显著差异。,Fisher95%两水平差值置信区间油漆水平间的所有配对比较同时置信水平=80.83%,解释油漆硬度数据的分组信息显示组 A 包含混

23、料 1 和 4；组 B 包含混料 1 和 3；而组 C 包含混料 2 和 3。混料 1 和 3 分别位于两个组中。组内的因子水平之间并不存在显著差异。因为下列因子水平组合不共享同一个字母，所以它们的均值存在显著差异：混料 1 和 2混料 2 和 4 混料 3 和 4置信区间显示所有均值差异的可能范围：配方 1 和配方 2 的均值之间差异的置信区间为(-10.924,-1.409)。此范围不包括 0，表明这些均值之间差异显著。类似地，配方 2 和配方 4 之间差异的置信区间(4.743,14.257)以及配方 3 和配方 4 之间差异的置信区间(0.326,9.841)也不包括 0，表明这些差异

24、也显著。其余均值对的置信区间都包括 0，表明这些均值之间差异不显著。,多重比较-许氏与最佳值的多重比较(MCB),输出示例许氏MCB（与最佳值的多重比较）全族误差率=0.05 临界值=2.19,解释对于油漆硬度分析，将最大均值指定为最佳。因此，配方 1 的均值(14.733)、配方 2 的均值(8.567)和配方 3 的均值(12.983)都与配方 4(18.067)的均值进行比较，因为后者是最大（最佳）均值。配方 4 本身的均值与配方 1 的均值进行比较，因为后者是其余三个均值中最大的。结果表明：配方 4 的均值与配方 2 的均值之间差异的置信区间(-14.500,0.000)以及与配方 3

25、的均值之间差异的置信区间(-10.083,0.000)都以 0 为终点，表明这些差异显著。其余两个区间的终点不为 0，表明差异不显著。,方差分析输出第四部分：图形（残差检验）,图形-单值图,解释油漆硬度数据的单值图显示：一般情况下配方 4 的硬度值最高。所有四个水平中数据的展开程度（离差）几乎都相同。任何点与其余点相比都不异常大或异常小（异常值）。,图形-数据的箱线图,解释油漆硬度数据的箱线图对以下情况进行图解：配方 4 的硬度值、均值和中位数均为最大。配方 2 的硬度值、均值和中位数均为最小。配方 2 数据的中间一半展开的程度很大，如大箱所示。配方 2 的值的整体范围最大，如细丝的末端所示

26、。任何水平的数据中都没有异常值（星号）。此例中，每个水平只有六个观测值，因此单值图可能比箱线图更合适。,图形-残差的直方图,解释：对于油漆硬度数据，没有证据表明存在偏度或异常值。,图形-残差的正态概率图,解释对于油漆硬度数据，残差显示为直线。没有证据表明存在非正态性、偏度、异常值或未确定的变量。,图形-残差与拟合值,解释从此图中可以看出，残差随机分散在 0 附近。没有证据表明存在异方差、缺项或异常值。,图形-残差与顺序,解释对于油漆硬度数据，残差随机分散在 0 附近。没有证据表明误差项彼此相关。,图形-残差与变量,解释对于油漆硬度数据，残差随机分散在 0 附近。没有证据表明残差中存在模式或数据中存在弯曲。此图表明样本凝固的温度似乎没有对响应产生系统化影响。,图形-四合一残差图,

展开阅读全文