方差分析基本原理.ppt

上传人:小飞机 文档编号:5059481 上传时间:2023-06-01 格式:PPT 页数:77 大小:1.39MB
返回 下载 相关 举报
方差分析基本原理.ppt_第1页
第1页 / 共77页
方差分析基本原理.ppt_第2页
第2页 / 共77页
方差分析基本原理.ppt_第3页
第3页 / 共77页
方差分析基本原理.ppt_第4页
第4页 / 共77页
方差分析基本原理.ppt_第5页
第5页 / 共77页
点击查看更多>>
资源描述

《方差分析基本原理.ppt》由会员分享,可在线阅读,更多相关《方差分析基本原理.ppt(77页珍藏版)》请在三一办公上搜索。

1、第二章 方差分析基本原理,第一节 方差分析基本原理,方差分析的基本原理,一、模型构造,表2.1,单因素等重复实验的典型数据,我们 的兴趣在于检验处理均值的等式;也就是,至少有一对(i,,j),二、偏差的构造,为了检验零假设H0,首先讨论单因素等重复试验的各种偏差,有三种偏差:总偏差、条件偏差、试验偏差,总偏差,利用偏差平方和来作为数据变异性的一个度量,直观看,这是合理的。但在同样 的波动程度下,测定数据越多,偏差平方和就越大,因此仅用偏差平方和来反映变异显然不够,还应当考虑测定数据个数的贡献,即要考虑测定相对偏差平方和,离均差平方和的分解,组间变异,总变异,组内变异,随机变量的自由度是由数据个

2、数n及数据所受的线性约束方程个数 m所决定的。,当n个随机变量 x1,x2,xn 受到且受到m个独立方程约束时,则这n 个数据的平方和 的自由度为n-m。,方程组的系数矩阵为m,举例:假定样本有三个数据:x1=2;x2=4;x3=9,则,当 确定后,x1,x2,x3只有两个数值可以自由取值,比如:x1=6;x2=7,那 x3 则必然取 2,而不能取其他值,令(i=1,2,n),则:,由此来看平方和 的自由度,其中:,当 xi 满足关系:也即 时,数据 满足且满足下面一个关系式:,因为:,可见:平方和 仅受到 式约束所以平方和 的自由度为数据 的个数 n减去约束方程个数1。,结论:若一组随机变数

3、 的平均数为 则平方和 的自由度为n-1,总平方和ST的自由度,数据 yij共N=ar个,它们仅受到 的约束,因此其自由度为,因素A偏差平方和SA的自由度,因此其自由度为,a个数据 与 有关系,误差平方和Se的自由度,所以,误差平方和Se的自由度为数据yij的个数ar减去约束方程个数 a,因此其自由度为,假设有a个独立的样本:,如果原假设成立的话,H0:,那么就意味着这 a个正态总体不但方差相同,均值也相等。从这a个完全相同的正态总体中各抽取一个容量为r的样本,就相当于从一个正态总体 中分别抽取了a个样本,由数理统计无偏估计理论,,1.抽自正态总体 的样本 x1,x2,xr无偏方差,是总体方差

4、 的无偏估计,也即,结论2.来自同一正态总体 的a个容量为r的样本均值 服从于正态分布,根据以上1、2两点知识,我们知道:若Y1,Y2,,Ya是来自正态总体 的a个样本,则a 个样本的均值y1,y2,,ya也就服从正态总体。又注意到y1,y2,,ya的均值为 进而又有y1,y2,,ya的无偏方差,是正态总体 的方差 的无偏估计,亦即,上式括号中 恰是因素均方差,结论:在原假设 H0 成立的前提下,统计量 是总体 的无偏估计量,子样 的无偏方差 是 的无偏估计 即,不难证明,误差均方差 也是总体方差 的无偏估计量,事实上由,及 均值为 yi,上式两边关于i求和,得,亦即,括号中便是,结论:误差均

5、方差是总体方差 的无偏估计,三、F统计量的构造,由以上分析知,在原假设成立的前提下,,因素均方差,误差均方差,这清楚地表明,检验处理均值之间有没有差异,这一假设可以代之以比较因素均方差和误差均方差来实现。,很接近于1,如果因素均方差比误差均方差大得很多,即 F 值比“1”大得多,则与原假设相矛盾。,四、F 统计量的分布,关于数理统计中 分布的定义可知:当 是来自正态总体 的一个子样时,有,那么如果当原假设 是正确的,由 分布的定义及性质,就有,分布具有可加性,因此,由于,综上结论,由F分布定义可知:,设随机变量Y与Z相互独立,且Y和Z分别服从自由度为m和n 的 分布,则随机变量X有如下表达式:

6、,则称X服从第一自由度为m,第二自由度为n 的F分布,记为XF(m,n),由此得:,四、F统计量的检验,对于给定的检验显著性水平a,FFa=a,当一次检验中给出现 FFa。这一小概率事件时,有理由拒绝原假设H0,即否定不同条件下的总体,其均值完全相同的假设,认为因素的效应显著,不同条件下的均值有明显不同。反之若 FFa,接受原假设H0,即认为不同条件下的总体,其均值没有明显的变化,认为因素的效应不够显著。,方差分析是一种检验同方差的若干个正态总体的均值是否相等的统计分析方法。同时也可说明属性变量对数值型数据产生显著影响的统计分析方法.,五、偏差平方和的简化计算,总偏差,令,则,条件偏差,同理实

7、验偏差,则,若等重复实验,【2.1】:测试一种合成纤维的抗拉强度,工程师根据以往的经验知道,纤维的抗拉强度受棉花在纤维中所占的比例大小影响,若已知含棉量在10%-40%之间为允许取值范围,因此工程师决定检验棉花百分率为五个水平的样本,分别是15%,20%,25%,30%,35%,对每个水平进行五次实验。测试结果如下:,抗拉强度实验数据(ib/in2),五个水平含棉量其所得抗拉强度实验数据(ib/in2)是否存在显著差异?a=0.01 棉花含棉量方差分析结论.xls,查:Fa=0.01(4,20)=4.43,得:FFa,否定:H0,肯定 H1,即:含棉量对抗拉强度产生显著影响当a=0.01时,第

8、二节 对于方差分析的几点说明,一、方差分析的 基本假定条件,基本假定:,1.正态性:子样来自a个正态总体,2.方差齐性:a个正态总体方差相等,即:,巴特莱法,当随机样本来自独立的正太总体时,统计量 抽样分布渐近于自由度为a-1的卡方分布,Si是第i个总体的样本方差,ri 为样本容量(或实验重复数),当所有样本方差相等时,q=0,当样本方差有较大差异时,q较大。因此当 的值太大时,否定H0;即当否定H0,为误差均方差,实例分析2.1,已知:,检验统计量是:,取显著水平 a=0.05,肯定H0假设,即以95%的概率保证认为五个方差相同,极差比值法,步骤:1 首先对每种实验条件下的重复数据求极差Ri

9、(i=1,2,n)从 各极差Ri 中确定最大极差R max与最小极差R min,步骤:2 查临界值R a,n为实验条件的种数,r为实验重复数 r4 该方法不适用,步骤:3 判断当RW Ra 可认为在显著水平 a下,各总体方差相等.,平均极差法,步骤:3 判断,当任意一个Ri(i=1,2,n)都满足以下不等式,认为 n 个总体的方差是齐性的,步骤:1 首先对n 种实验条件下的重复数据求极差Ri(i=1,2,n)然后求各条件下的极差平均值,步骤:2 求临界值,从控制图中查系数D3,D4 其中r 为同一条件下的重复数下临界值为,上临界值为,平均极差法的理论说明,该方法属于数理统计学中的质量控制,质量

10、控制的数理根据:,计量控制中关于总体的 的近似估计通常的方法是:一方面控制产品质量数据集中的程度,可通过子样平均数 来进行;另一方面是控制产品质量数据的离散程度,常通过子样的极查差R进行,定理:若总体为,则从该总体中抽取的子样平均数 服从,如果抽得的 落在 范围内,则生产过程被认为是正常的,否则就是不正常的。,然而总体的 通常是未知的,如果有标准质量数据且实际可以达到的话,即可用它作为控制中心,或以多批样本 的平均数 作为控制中心,对于 如果抽得一个容量很大的样本,也可用样本均方差S作为 而计算S这个统计量是较复杂的,一般是从子样中算出极差R来代替S,以R作为控制对象,以掌握质量数据的离散程度

11、。,对于正态分布的总体来说,一个子样的极差R和其均方差之间有着密切的关系,即当均方差比较大时,极差也比较大,若从该总体中连续抽取大量的容量为n 的子样,这些子样的R和S是随机变量,它们的期望值之间也存在着一定的倍数关系,即,这个倍数 a 是随 n 的大小而定的常数,对于正态分布的母体,和母体均方差 之间也存在着一定的倍数关系,即:,这个倍数 b 也是随 n 的大小而定的常数,得:,这个倍数 c 也是随 n 的大小而定的常数,附表 c 的数据表,附表 d 的数据表,此外对于正态分布的总体,各样本R的均方差 和 之间也存在着一定的倍数关系,即:,这个倍数 d 也是随 n 的大小而定的常数,这样由

12、可算出,公式说明:,制定质量控制图步骤:,第一步:抽若干个子样,计算出每个子样的 和 R,再算出这些子样平均数 的平均数,同时算出这些子样R的平均数,第二步:指定 的控制上限和下限,由正态分布理论知,生产正常的情况下,所抽子样的 超出控制上限或下限的概率只有0.0027,如超出界限,就不能认为生产正常,第三步:指定 R 的控制上限和下限,指定的控制上限,指定的控制下限,由正态分布理论知,生产正常的情况下,所抽子样的 超出控制上限或下限的概率只有0.0027,如超出界限,就不能认为生产正常,当n 在 510之间时,因子样的分布渐进地服从正态分布,令,令,则:,则:,实例分析2.2,为测试某批纱线

13、的收缩率,在六种水温下各重复实验4次,所得数据如下:,试判断6个总体的方差齐性,纱线的收缩率数据,解:n=6;重复数 r=4,1.极差比值法:,取显著水平a=0.05,查得临界值为 Ra=R0.05=7.992,认为六个总体的方差均一,解:n=6;重复数 r=4,2.平均极差法:,查系数表D3=0,D4=2.282,经检验任意值Ri(1i6)都满足,所以:可以认为六个总体的方差均一,二、多重比较,抗拉强度实验数据(ib/in2),(一)最小显著差异(LSD),检验H0:,检验ij(1,2,a):,t统计量,检验是双边的,在给定的显著水平a下,当,可判断均值 有显著差异,称为最小显著差异,两个总

14、体均值之差的检验(12、22 未知但相等,小样本),检验具有等方差的两个总体的均值假定条件两个样本是独立的随机样本两个总体都是正态分布两个总体方差未知但相等12=22检验统计量,其中:,【2.1】:测试一种合成纤维的抗拉强度,工程师根据以往的经验知道,纤维的抗拉强度受棉花在纤维中所占的比例大小影响,若已知含棉量在10%-40%之间为允许取值范围,因此工程师决定检验棉花百分率为五个水平的样本,分别是15%,20%,25%,30%,35%,对每个水平进行五次实验。测试结果如下:,抗拉强度实验数据(ib/in2),试利用LSD 进行多重比较,a=0.05,已知:,查t分布表:,(二)多重极差检验法(

15、Duncan),首先,将被考察因素的 k 个处理平均值按递增顺序排列,计算 每一个平均值的标准误差,其次,计算最小显著极差DRp,P=2,3,k,式中:由Duncan的显著极差表可得,a是显著水平,是 误差自由度,最后,比较判断.将最大平均值对最小的平均值的差与最小显著极差 DRk 进行比较;进而,计算最大的与第二最小的平均值之差与最小显著差异DRk-1进行比较,直到所有的平均值都与最大平均值比较过为止;第二大平均值与最小平均值之差与最小显著差异DRk-1 进行比较,重复过程。直到所有k(k-1)/2个配对被考虑为止。,已知:,Duncan法实例,查表:当自由度为20,a=0.05时,最小显著

16、极差:DRk分别:,(二)Tuckey(T 法),适用于被考察的因素,其实验条件下重复次数相等的场合,法检验的检验临界值为a,k被检验的因素水平个数,-误差平方和的自由度,m每个水平下的重复数,当 TIJTa时,差异显著,否则不显著,Tuckey法实例,(二)多重比较(Scheffe)S法,可用于比较处理均值之间的任意一个或所有可能的对照,S法检验的检验临界值为 ds,Ci:对照组 例如2与3比较,Scheffe法实例,两个总体均值之差的估计(例题分析),【例】为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排12个工人,每个工人组装一件产品所需的时间(分钟)下如表。假定两种方法组装产品的时间服从正态分布,且方差相等。试以95%的置信水平建立两种方法组装产品所需平均时间 是否存在显著差异?,解:,根据样本数据计算得 合并估计量为:,否定 H0 即认定两个小组组装产品的时间存在显著差异,本章结束,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号