《一元线性回归模型的Minitab实现课件.ppt》由会员分享,可在线阅读,更多相关《一元线性回归模型的Minitab实现课件.ppt(570页珍藏版)》请在三一办公上搜索。
1、Minitab统计分析,Minitab介绍,Minitab是众多统计软件当中比较简单易懂的软件之一;相对来讲,Minitab在质量管理方面的应用是比较适合的;Minitab的功能齐全,一般的数据分析和图形处理都可以应付自如。,Minitab与6 Sigma的关系,在上个世纪80年代Motolora开始在公司内推行6 Sigma,并开始借助Minitab使6 Sigma得以最大限度的发挥;6 Sigma的MAIC阶段中,很多分析和计算都可以都通过Minitab简单的完成;即使是对统计的知识不怎么熟悉,也同样可以运用Minitab很好的完成各项分析。,Minitab的功能,计算功能计算器功能生成数
2、据功能概率分布功能矩阵运算,Minitab的功能,数据分析功能基本统计回归分析方差分析实验设计分析控制图质量工具可靠度分析多变量分析,时间序列列联表非参数估计EDA概率与样本容量,Minitab的功能,图形分析直方图散布图时间序列图条形图箱图矩阵图轮廓图,三维图点图饼图边际图概率图茎叶图特征图,课程内容安排,由于时间有限,很多内容只是做简单的介绍;在两天的时间里,主要的课程内容安排如下:,Minitab界面和基本操作介绍,Minitab界面,Session Window:分析结果输出窗口,Data Window:输入数据的窗口每一列的名字可以写在最前面的列每一列的数据性质是一致的,主菜单,Mi
3、nitab界面,同一时间只能激活一个窗口.每一个窗口可以单独储存.,不同的要求选择不同的保存命令,打开文件,保存文件,打印窗口,之前之后命令,查找数据,查找下一个数据,取消,帮助,显示因子设计,当前数据窗口,session窗口,剪切,复制,粘贴,恢复,显示worksheets折叠,显示GRAPH折叠,状态向导,显示session窗口折叠,项目窗口,关闭所有图形窗口,重做,编辑最近对话框,历史记录,报告便栈,打开相关文件,项目管理窗口,插入单元格,插入行,插入列,移除列,工具栏的介绍,数据的生成(Make Random Data),例:生成一组男生身高的数据,要求:平均身高175cm,标准偏差5
4、cm,数据个数100.,Select:计算 随机数据 正态,数据的生成结果,生成有规律的数据,Select:计算 产生模板化数据 简单数集,结果输出,数据类型的转换(Change Data Type),Select:数据 更改数据类型 数字到文本,需要转换的列,转换后数据存放列,可以是原来的数据列,数据类型的转换结果,数据的堆栈(Stack&Unstack),Select:数据 堆叠 列,数据的堆栈结果,数据块的堆栈(Stack Blocks),Select:数据 堆叠 列的区组,数据块的堆栈结果,转置栏(Transpose Columns),Select:数据 转置列,输入需要转置的列,输入
5、新工作表的位置,可以输入注解列,转置结果,连接(Concatenate),Select:数据 合并,连接结果,编码(Code),Select:数据 编码数字到文本,编码结果,Minitab之常用图形,QC手法常用的图形如下:,特性要因图控制图(参见SPC部分)柏拉图散布图直方图时间序列图,特性要因图,练习,输入表中,Select:统计 质量工具 因果,注意输入格式,填好各项需要的参数,结果输出:,柏拉图,练习,输入数据,Select:统计 质量工具 Pareto 图,填好各项参数,结果输出,下表为STS冷轧工厂ZRM不良现状,试做分析,练习:,散布图,练习,输入数据,Select:图形 散点图
6、,输入参数,可以选择不同的输出表现形式,输出图形,可以用直接方式判定,有正相关的倾向。更详细的说明可以参见回归分析,直方图,练习,Select:图形 直方图,输入数据,例:右表为某零件重量的数据.试作(1)直方图(2)计算均值x和标准差s(3)该特性值的下限是60.2克,上限是62.6克,在直方图中加入规格线并加以讨论.,填入参数,可以选择不同的输出表现形式,输入上下规格界限,结果输出,请依照直方图分析方法来进行图形分析和判定更深入的分析可以参见制程能力分析部份。,时间序列图,练习,输入数据,Select:图形 时间序列图,填入参数,可以选择不同的输出表现形式,时间刻度设置,结果输出,依此状况
7、来判定未定的销售趋势。,Minitab的SPC使用,控制图,一.控制图原理,1.现代质量管理的一个观点-产品质量的统计观点,a.产品的质量具有变异性.,b.产品质量的变异具有统计规律性.,至工业革命以后,人们一开始误认为:产品是由机器造出来的,因此,生产出来的产品是一样的.随着测量理论与测量工具的进步,人们终于认识到:产品质量具有变异性,公差制度的建立是一个标志.,产品质量的变异也是有规律性的,但它不是通常的确定性现象的确定性规律,而是随机现象的统计规律.,控制图,一.控制图原理,2.控制图的原理,a.计量值产品特性的正态分布,如果我们对某一计量值产品的特性值(如:钢卷厚度等)进行连续测试,只
8、要样本量足够大,就可看到它们服从正态分布的规律.,控制图,一.控制图原理,b.3 控制方式下的产品特性值区间,3 控制方式下产品特性值落在-3,+3 范围内的概率为99.73%,其产品特性值落在此区间外的概率为1-99.73%=0.27%.,控制图,一.控制图原理,c.常规控制图的形成,控制图,一.控制图原理,d.控制图原理的解释,第一种解释:,1.若过程正常,即分布不变,则点子超过UCL的概率只 有1 左右.,2.若过程异常,值发生偏移,于是分布曲线上、下偏移,则点子超过UCL或LCL的概率大为增加.,结论:点出界就判异以后要把它当成一条规定来记住.,控制图,一.控制图原理,第二种解释:,1
9、.偶然因素引起偶然波动。偶然波动不可避免,但对质量的影响微小,通常服从正态分布,且其分布不随时间的变化而改变。,过程受控,控制图,一.控制图原理,2.异因引起异波。异波产生后,其分布会随时间的变化而发生变化。异波对质量影响大,但采取措施后不难消除。,第二种解释:,结论:控制图上的控制界限就是区分偶波与异波的科学 界限,休哈特控制图的实质是区分偶然因素与异常 因素两类因素.,过程失控,二.常规控制图及其用途,控制图,二.常规控制图及其用途,控制图,Minitab可提供的图形,计量型Xbar-RXbar-sI-MRI-MR-sZ-MR,计数型PNpCU,Xbar-R做法,Xbar-R是用于计量型判
10、稳准则:连续二十五点没有超出控制界限。判异准则:一点超出控制界限连续六点上升或下降或在同一侧不呈正态分布,大部份点子没有集中在中心线。,Xbar-R做法,Xbar-R练习,Select:统计 控制图 子组的变量控制图 Xbar-R,打开Data目录下的 凸轮轴.mtw,路径:Program FilesMinitabMinitab 16中文(简体)样本数据凸轮轴,输入参数,根据不同的输入方式选择不同的分析方法,决定测试要求,可以在这里选择判异准则,判 异 准 则,准则1:一点超出控制界限,准则2:连续9点在中心线的同侧,判 异 准 则,准则3:连续6点呈上升或下降趋势,判 异 准 则,准则4:连
11、续14点上下交替,判 异 准 则,准则5:连续3点中有2点落在中心线 同一侧的B区以外,判 异 准 则,准则6:连续5点中有4点在C区之外(同侧),判 异 准 则,准则7:连续15点在中心线附近的C区内,判 异 准 则,准则8:连续8点在中心线两侧而无一点在C区,判 异 准 则,决定标准差的估计方法,一般选择Rbar的标准差估计方式,决定选项,进行正态性转换,值将标准转换变量的标准偏差最小化,当0,转换结果为Y,如0,转换结果为LOGeY,决定选项(续),输入1,2,3StDEV控制限,图形输出:,判 图,请判定前图是否有异常请问本图为解析用图或是控制用图,Xbar-s做法,Xbar-s练习,
12、Select:统计控制图 子组的变量控制 Xbar-s,打开数据样本目录下的凸轮轴.mtw,输入参数,其他参数设置与Xbar-R图相同,图形输出:,判 图,请判定前图是否有异常请问本图为分析用图或是控制用图,I-MR图做法,I-MR练习,打开下列档案:Data目录下的涂层.MTWSelect:统计 控制图 单值的变量控制图 I-MR,输入参数,输入变量,图形输出,判 图,请判定前图是否有异常请问本图为解析用图或是控制用图,I-MR-R图做法,I-MR-R练习,打开Data目录下的凸轮轴.mtwSelect:统计 控制图 子组的变量控制图 I-MR-R,输入参数,输入变量和样本数,图形输出,判
13、图,请判定前图是否有异常请问本图为分析用图或是控制用图,Z-MR(标准化的单值移动极差)图做法,Z-MR练习,Select:统计 控制图 单值的变量控制图 Z-MR,打开 数据样本 目录下的质量控制示例.MTW,当过程数据少而无法很好 评估过程参数时使用,输入参数,输入变量,输入自变量,决定估计,选择标准差的估计方法,图形输出,P图做法,判定及采取措施,P图练习,P图只能适用在二项分布的质量特性性。在做p图时,要注意其样本数必须达到1/p5/p,如此之下的图才比较具有意义。,输入数据,打开数据文档,Select:统计控制图属性控制图P,将数据输入到Minitab表中,输入参数,输入变量,输入样
14、本数,决定判异准则,选择判异准则计数型的判异准则与计量型的不太一样,图形输出,NP图做法,NP图练习,np图只能适用在二项分布的质量特性性。在做np图时,要注意其样本数必须达到1/p5/p,如此之下的图才比较具有意义。,输入数据,打开数据文档,Select:统计控制图属性控制图NP,将数据输入到Minitab表中,图形输出,C图做法,C图练习,c图只能适用在泊松分布的质量特性上。在做c图时,要注意其样本数必须达到取样时至少包含一个缺陷以上,如此之下的图才比较具有意义。另外就是基本上c图的样本要一定才可以。如果样本数不一样,则应当使用u图。,输入数据,打开数据文档,将数据输入到 Minitab表
15、中,Select:统计 控制图 属性控制图C,输入参数,输入变量,决定判异准则,判异准则同P图一样,图形输出,U图做法,U图练习,u图只能适用在泊松分布的质量特性上。在做u图时,要注意其样本数必须达到取样时至少包含一个缺陷以上,如此之下的图才比较具有意义。,输入数据,打开数据文档,Select:统计 控制图 属性控制图U,将数据输入到 Minitab表中,输入参数,输入变量,输入样本量,图形输出,EWMA做法,EWMA的全称为Exponentially Weighted Moving Average,即指数加权移动平均控制图.EWMA图的特点:1、对过程位置的稍小变动十分敏感;2、图上每一点都
16、综合考虑了前面子组的信息;3、对过程位置的大幅度移动没有Xbar图敏感;4、可应用于单值,也可应用于子组容量大于1的场合.EWMA图的适用场合:可用于检测任意大小的过程位置变化,因此常用于监控已受控过程,以发现过程均值相对于目标值的漂移,EWMA练习,Select:统计 控制图 时间加权控制图 EWMA,输入参数,确定权重系数 的值,由所需的EWMA图对位置偏移检测灵敏度所决定,要求检测灵敏度越高,值越小.如需检测1的过程偏移,=0.2,如需检测2的过程偏移,=0.4.常取=0.2,12.,图形输出,CUSUM做法,CUSUM的全称为Cumulative Sum,即累积和控制图.CUSUM图的
17、特点:1、可以检测每个样本值偏离目标值的偏差的累积和;2、可应用于单值,也可应用于子组容量大于1的场合;3、要求每个子组的样本容量相等.CUSUM图的适用场合:CUSUM图适用于在过程受控时,检测过程实际值偏离目标的异常点,作用与EWMA图类似.,CUSUM练习,Select:统计 控制图 时间加权控制图 CUSUM,例:某机场每天离港、进港航班多达千架次,航班延误情况很是严重.航空公司在6管理中把航班延误作为重点解决的质量项目,规定航班起飞时间比时刻表晚5分钟为延误,其中不包括因恶劣天气等无法抗拒因数造成的延误.通过一段时间的治理,航班延误率从过去的10%降到现在的2%左右,公司决定采取过程
18、控制,把航班延误率控制在2%的较好水平.,输入参数,点击此选项,决策区间,过程允许偏移量,图形输出,MINITAB之制程能力分析,制程能力之分类,MINITAB 能力分析的选项(计量型),能力分析(正态)能力分析(组间/组内)能力分析(非正态)能力分析(多变量正态)能力分析(多变量非正态)能力分析(二项)能力分析(Poission)Capability Sixpack(正态)Capability Sixpack(组间/组内)Capability Sixpack(非正态),能力分析(正态),该命令会划出带理论正态曲线的直方图,这可直观评估数据的正态性。输出报告中还包含过程能力统计表,包括子组内和
19、总体能力统计。,能力分析(组间/组内),该命令会划出带理论正态曲线的直方图,可以直观评估数据的正态性。该命令适用于子组间存在较大变差的场合。输出报告中还包含过程能力统计表,包括子组间子组内和总体能力统计。,能力分析(非正态),该命会会划出带非正态曲线的直方图,这可直观评估数据是否服从其他分布。输出报告中还包含总体过程总能力统计,能力分析(多变量正态)能力分析(多变量非正态),-上述两个命令用于对多个变量进行分析,制程能力分析做法,STEP1决定Y特性,Y特性一般是指客户所关心所重 视的特性。Y要先能量化,尽量以定量数据 为主。Y要事先了解其规格界限,是单边 规格,还是双边规格。目标值是在中心,
20、或则不在中心测量系统的分析要先做好。,STEP2决定Y特性,在收集Y特性时要 注意层别和分组。各项的数据要按时间 顺序做好相应的整理,STEP3决定Y特性,将数据输入MINTAB中,或则在EXCEL中都可以。,STEP4决定Y特性,利用MINITAB统计质量工具 能力分析(正态),STEP5决定Y特性,利用MINITAB的各项图形 来进行结果说明,练习,输入数据,Select:统计 质量工具 能力分析(正态),注意输入方式,输入选项,根据不同的数据输入方式选择分析方法,输入上下规格界限,选择标准差的估计方法,一般选择复合的标准差估计方式,选项的输入,如果需要计算Cpm则需要输入目标值,选择是否
21、作正态型转换,过程能力表现形式的选择,以Cpk,Ppk结果的输出,Cpm是指样本数值相对于对于目标值的一个能力值,也就是样本是否靠近目标值的概率,样本数值超过分析规格界限的分布率,模拟曲线落在控制线以外的分布率,Cp:过程能力指数,又称为潜在过程能力指数,为容差的宽度与过程波动范围之比.,Cp=(USL-LSL)/6,Cpk:过程能力指数,又称为实际过程能力指数,为过程中心与两个规范限最近的距离 minUSL-,-LSL与3之比.,Cpk=minUSL-,-LSL/3,Cpm:过程能力指数,有时也称第二代过程力指数,质量特性偏离目标值造成的质量损失,Cpm=(USL-LSL)/6,其中:2=2
22、+(-m)2,Cpmk称为混合能力指数,Pp与Ppk:过程绩效指数,计算方法与计算Cp和Cpk类似,所不同的是,它们是规范限与过程总波动的比值过程总波动通常由标准差s来估计,过程能力与缺陷率的关系:1、假如过程中心位于规范中心M与上 规范限USL之间,即M USL时,p(d)=-3(2Cp-Cpk)+(-3Cpk),2、假如过程中心位于规范中心M与下 规范限LSL之间,即LSL M时,p(d)=-3(1+K)Cp+-3(1-K)Cp,以Zbench方式输出,ZUSL=(USL-)/ZLSL=(-LSL)/Z=(USL-LSL)/2 或 Z=3Cp 双侧规范下综合Sigma Level Zben
23、ch需通过总缺陷率进行折算使用Sigma Level Z来评价过程能力的 优点是:Z与过程的不合格率p(d)或DPMO是一一对应的.,结果说明,请打开Data目录下的 Camshaft.mtw,以 Zbench方式输出,练 习,填入参数,结果输出,通过DPMO求Sigma Level,Select:CalcProbability Distribution-Normal,Select:CalcCalculator,结果输出,合格率,Z值,Sigma Level,Capability Analysis(Between/Within),组间的,组内的,此处的PpkCpk,过程稳定系数d=StDev(
24、overall)-StDev(B/W),过程相对稳定系数dr=StDev(overall)-StDev(B/W)/StDev(overall),StDev(overall):长期标准差的估计值StDev(B/W):短期标准差的估计值,过程相对稳定系数的评价参考,Capability Analysis(Nonnormal),此项的分析是用在当制程不是呈现正态分布时所使用。因为如果制程不是正态分布硬用正态分布来分析时,容易产生误差,所以此时可以使用其他分布来进行分析,会更贴近真实现像。,练 习,请使用同前之数据来进行分析。上规格:103下规格:97规格中心:100,输入相关参数,Select:St
25、at Quality Tools Capabilty Analysis(Nonnormal),填入选项要求,威布尔分布的参数估计,结果图形,形状参数,正态分布适用性的判定,可以使用Statbasic statisticnormality test但数据要放到同一个column中,所以必须针对前面的数据进行一下处理,数据调整,填写选项,结果输出,结果输出(加标0.5概率),计量型制程能力分析总结,一般的正态分布使用Capability Analysis(Normal)如果是正态分布且其组内和组间差异较大时可用Capability Analysis(Between/Within)当非正态分布时则可
26、以使用Capability Analysis(Nonnormal),Capability Sixpack(Normal),复合了以下的六个图形XbarR原始数据分布(plot)直方图正态分布检定CPK,PPK,练习,请以前面的数据来进行相应的Capability Sixpack(Normal)练习Select:Stat Quality Tools Capabilty Sixpack(Normal),输入各项参数,输入规格,选定判异准则,选择判异准则,选择标准差估计方法,默认值是复合标准差计算公式,考虑可选择项,如果希望计算Cpm,则输入目标值,结果输出,Capability Sixpack(B
27、etween/Within),复合了以下的六个图形IndividualMoving RangeRange直方图正态分布检定CPK,PPK,同前练习及结果,Capability Sixpack(Nonnormal),复合了以下的六个图形XbarR原始数据分布直方图正态分布检定CPK,PPK,结果输出,形状参数,二项分布制程能力分析,二项分布只适合用在好,不好过,不过好,坏不可以用在0,1,2,3等二项以上的选择,此种状况必须使用泊松分布。,示例,数据在Data目录下 的Bpcapa.mtw中Select:Stat Quality Tools Capabilty Analysis Binomial
28、,填好各项的参数,选好控制图的判异准则,结果及输出,该线与P Chart中的P bar 是相同的,不良的比例(希望它是随机分布),累计不良率,泊松分布制程能力分析,泊松分布只适合用在计数型,有二个以上的选择时例如可以用在外观检验,但非关键项部份0,1,2,3等二项以上的选择,此种 状况必须使用泊松分布。,示例,数据在Data目录下 的Bpcapa.mtw中,Select:Stat Quality Tools Capabilty Analysis(Poisson),填好各项的参数,结果及输出,基础统计,描述性统计,Select:Stat Basic Statistics Display desc
29、riptive statistics,假设想对两组学生的身高进行描述性统计以便比较,数据如右:,填入参数,输出结果,输出结果(续1),输出结果(续2),Select:Stat Basic Statistics Graphical Summary,输出结果(续3),假设检验,广告宣传的虚假性,手机电池的使用寿命不是按年来计算的,而是按电池的充放电次数来计算的。镍氢电池一般可充放电200-300次,锂电池一般可充放电350-700次。某手机电池厂商宣称其一种改良产品能够充放电900次,为了验证厂商的说法,消费者协会对10件该产品进行了充放电试验。得到的次数分别为891,863,903,912,86
30、1,885,874,923,841,836。,广告宣传是虚假的吗,上述数据的均值为878.9,明显少于900。但是,到底均值落在什么范围内我们就认为广告宣传是虚假的呢?,假设检验的原理,假设检验的原理是逻辑上的反证法和 统计上的小概率原理反证法:当一件事情的发生只有两种可能A和B,如果能否定B,则等同于间接的肯定了A。小概率原理:发生概率很小的随机事件在一次实验中是几乎不可能发生的。,假设检验的原理(续),由于个体差异的存在,即使从同一总体中严格的随机抽样,X1、X2、X3、X4、,也不尽不同。它们的 不同有两种(只有两种)可能:(1)分别所代表的总体均值相同,由于抽样误差造成了样本均值的差别
31、。差别无显著性。(2)分别所代表的总体均值不同。差别有显著性。,假设检验的几个步骤,假设检验的一般步骤,即提出假设、确定检验统计量、计算检验统计量值、做出决策。,提出假设,构造统计量,做出统计 决策,计算统计量值 做出推断,提出假设,在决策分析过程中,人们常常需要证实自己通过样本数据对总体分布形式做出的某种推断的正确性(比如,总体的参数大于某个值0),这时就需要提出假设,假设包括零假设H0与备择假设H1。,零假设的选取,假设检验所使用的逻辑上的间接证明法决定了我们选取的零假设应当是与我们希望证实的推断相对立的一种逻辑判断,也就是我们希望否定的那种推断。,零假设的选取(续一),同时,作为零假设的
32、这个推断是不会轻易被推翻的,只有当样本数据提供的不利于零假设的证据足够充分,使得我们做出拒绝零假设的决策时错误的可能性非常小的时候,才能推翻零假设。,零假设的选取(续二),所以,一旦零假设被拒绝,它的对立面我们希望证实的推断就应被视为是可以接受的。,构造检验统计量,收集样本信息利用样本信息构造检验统计量,计算检验统计量值,把样本信息代入到检验统计量中,得到检验统计量的值。,做出决策,1、规定显著性水平,也就是决策中所面临的风险2、决定拒绝域(critical region)和判别值(critical value)3、判定检验统计量是否落在拒绝域内4、得出关于H0和关于H1的结论,显著性水平,显
33、著性水平是当原假设正确却被拒绝的概率通常人们取0.05或0.01这表明,当做出接受原假设的决定时,其正确的可能性(概率)为95%或99%,判定法则,1、如果检验统计量落入拒绝域中,则拒绝原假设2、如果检验统计量落入接受域中,则我们说不能拒绝原假设,注意:判定法则2的含义是指我们在这个置信水平下没有足够的证据推翻原假设;实际上,如果我们改变置信水平或样本数量就有可能得到与先前相反的结果。,零假设和备择假设,可能的零假设和备择假设的情况,单侧检验(one-tailed hypothesis),某种果汁的包装上标明其原汁含量至少为90%。假定我们想通过假设检验对这项说明进行检验。,检验的方向性,如果
34、要检验的问题带有方向性,如灯泡寿命、电池时效、头盔防冲击性等数值是越大越好;零件废品率、生产成本等数值则是越小越好,这类问题的检验就属于单侧检验。,单侧检验,拒绝域和临界值,单侧检验的例子,例1:一家食品公司广告说他的一种谷物一袋有24千克。消费者协会想要检验一下这个说法。他们当然不可能打开每袋谷物来检查,所以只能抽取一定数量的样品。取得这个样本的均值并将其与广告标称值作比较就能做出结论。请给出该消费者协会的零假设和备择假设。,单侧检验的例子(续一),解:(一)、首先找出总体参数,这里应该是总体的均值m,即谷物的平均重量,给出原假设和备择假设,即用公式表达两个相反的意义。H0:m 24(均值至
35、少为 24)Ha:m 24(均值少于24)(二)、确定概率分布和用来做检验的检验统计量。我们要检验抽取的样本均值是否达到广告宣称的数额,就可以用样本均值离标称值的标准离差个数的多少来判断。因此构造检验统计量,单侧检验的例子(续二),(三)、设定置信水平为95%。收集样本信息,假设选取了一个数目为40的样本,计算得计算检验统计量的值为(=0.2)(四)、查表可以得出临界值和拒绝域,也可用计算机输出p值。计算出的Z值落入拒绝域,所以拒绝H0,即意味着我们认为谷物的重量达不到厂商宣称的数值。,双侧检验,一些产品某一项指标必须满足在某一个范围内,如精密零件的尺寸和重量、保险丝适用的电流强度等等,这类问
36、题的检验属于双侧检验。,双侧检验,图例:拒绝域和临界值,两类错误,假设检验是基于样本信息做出的结论,而我们知道样本只是代表了总体的一部份信息,因此必须考虑发生误差的概率。H0为真时我们拒绝H0的错误称为第I类错误,犯这种错误的概率用来表示,简称为错误或弃真错误;当H0为伪时我们接受H0的错误称为第II类错误,犯这种错误的概率用来表示,简称为错误或取伪错误。,两类错误出现的场合,接受零假设,拒绝零假设,零假设为真,零假设为假,正确-无偏差,I类错误,II类错误,正确-无偏差,接受H0 拒绝H0,接受H1 H0为真 1(正确决策)(弃真错误)H0为伪(取伪错误)1(正确决策),两类错误发生的概率,
37、两类错误发生的概率如下表所示:,两类错误的关系,单样本Z检验(1-Sample Z),例:右表为测量9个工件所 得到的数据.假设工件 数据服从正态分布并 且总体的=0.2,需计算 总体均值是否等于5及 其在95%置信度下的 置信区间.,Select:Stat Basic Statistics 1-Sample Z,假设检验的Minitab实现:,填入参数,输出结果,单样本t检验(1-Sample t),Select:Stat Basic Statistics 1-Sample t,例:右表为测量9个工件所得到的数据.假设工件数据服从正态分布并且未知总体的,需计算总体均值是否等于5及其在95%置
38、信度下的置信区间.,填入参数,输出结果,双样本t检验(2-Sample t),Select:Stat Basic Statistics 2-Sample t,采用Data目录下的Furnace.mtw,填入参数,输出结果,成对样本t检验(Paired t),Select:Stat Basic Statistics Paired t,采用Data目录下的Exh_stat.mtw,填入参数,输出结果,单样本比例检验(1 Proportion),本案例采用总结数据形式,直接填入参数:,Select:Stat Basic Statistics 1 Proportion,输出结果:,双样本比例检验(2
39、Proportion),本案例采用总结数据形式,直接填入参数:,Select:Stat Basic Statistics 2 Proportion,输出结果,其它注意事项,选择假设检验方法要注意符合其应用条件;当不能拒绝H0时,即差异无显著性时,应考虑的因素:可能是样品数目不够;单侧检验与双侧检验的问题。,正态性检验(Normality test),本例采用Data目录下的Scores.MTW,Select:Stat Basic Statistics Normality test,填入参数,注:ECDF:(Experimental Cumulative Distribution Functio
40、n)实验室累计分布函数,基于ECDF检验的输出结果,基于相关分析检验的输出结果,基于相关卡方检验的输出结果,报纸报导某地汽油的价格是每加仑115美分,为了验证这种说法,一位学者开车随机选择了一些加油站,得到某年一月和二月的数据如下:一月:119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118二月:118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125,1)分别用两个月的数据验证这种说法的可
41、靠性;2)分别给出1月和2月汽油价格的置信区间;3)给出1月和2月汽油价格差的置信区间.,小组讨论与练习,方差分析,方差分析的引入 怎样得到F统计量 单因素方差分析的例子 检验方差假设 多因素方差分析 多变量图分析 小组讨论与练习,本 章 目 标,1.理解方差分析的概念2.知道方差分析解决什么样的问题3.掌握单因素和多因素方差分析的原理4.会利用Minitab对实际问题进行方差分析5.能够对方差分析的结果作出解释,方差分析的引入,假设检验讨论了检验两个总体均值是否相等的问题,但对于多个总体的均值比较,如果仍用假设检验,就会变得非常复杂。,总体,方差分析的引入(续一),方差分析(ANOVA:an
42、alysis of variance)能够解决多个均值是否相等的检验问题。,方差分析是要检验各个水平的均值是否相等,采用的方法是比较各水平的方差。,某汽车厂商要研究影响A品牌汽车销量的因素。该品牌汽车有四种颜色,分别是黑色、红色、黄色、银色,这四种颜色的配置、价格、款式等其他可能影响销售量的因素全部相同。从市场容量相仿的四个中等城市收集了一段时期内的销售数据,见下表。,方差分析的引入(续二),A品牌汽车在四个城市的销售情况,单位:辆,方差分析的引入(续三),方差分析实际上是用来辨别各水平间的差别是否超出了水平内正常误差的程度观察值之间的差异包括系统性差异和随机性差异。,方差分析的引入(续四),
43、观察值,期望值,差距,总离差,组内方差,组间方差,水平1,水平2,怎样得到F统计量,怎样得到F统计量,水平间(也称组间)方差和水平内(也称组内)方差之比是一个统计量。实践证明这个统计量遵从一个特定的分布,数理统计上把这个分布称为F分布。即,注意:组间方差(SSB)+组内方差(SSw)=总方差(SST),F=组间方差组内方差,F分布的特征,从F分布的式子看出,F分布的形状由分母和分子两个变量的自由度确定,因此F分布有两个参数。F分布的曲线为偏态形式,它的尾端以横轴为渐近线趋于无穷。,自由度(25,25),自由度(5,5),自由度(30,100),F分布的特征(续),从上图可以看出,随着分子分母自
44、由度的增加,分布图逐渐趋向正态分布的钟型曲线(但它的极限分布并不是正态分布),以前接触过的t分布、2分布的图像也有类似的性质,方差分析的前提,不同组样本的方差应相等或至少很接近,水平1组内方差远远超过两水平组间方差,我无法分离这两种差别!,单因素方差分析,例1:我们要研究一家有三个分支机构的公司各分支机构的员工素质有无显著差异,已邀请专业的人力评测单位对每一分支机构的员工进行了评测,结果以百分制的分数给出,每一机构抽取五位员工的结果如下表:,员工素质人力评测,检验方差是否一致,在方差分析之前,我们可利用Minitab对数据作方差一致性检验,Minitab能够读取的数据格式与上表给出的格式不同,
45、我们必须把数据转化为Minitab能够理解的形式,具体做法是:将所有变量值输入工作表的第一列,对因素进行编码,按照一定的顺序编为1、2、3.,输入后面几列。对本例:先将素质测评的得分输入工作表列一;三个分支分别编码为1、2、3,对应于变量值填入第二列;,数据,StatANOVATest for Equal Variance,菜单,方差一致性检验,方差一致性检验(续一),方差一致性检验(续二),给出假设,因素是方差分析研究的对象,在这个例子里,两个变量分别是分支机构位置和员工素质测评分数,这里分支机构的位置就是一个因素,因素中的内容就称为水平。该因素中有三个水平,即机构的不同位置。学过假设检验的
46、知识后,我们可以给出下面的假设:,若零假设为真,则可以认为只有一个抽样分布,此时三个样本均值比较接近。三个样本均值的均值与方差可用于估计该抽样分布的均值与方差。,零假设为真,零假设为真,总体均值的最优估计是三个样本均值的算术平均数,而抽样分布的方差的估计可以由三个样本均值的方差给出,这个估计就是 的组间估计,又由,得到,零假设为假,为了说明零假设为假时的情况,假定总体均值全不相同,由于三个样本分别来自不同均值的总体,则样本均值不会很接近,此时 将变大,使得 的组间估计变大。,零假设为假(续),每个样本方差都给出 的一个估计,这个估计只与每个样本内部方差有关,若样本量相同,各个样本方差的算术平均
47、值就是组内方差的估计值。,前面已经讨论过,当零假设为真时,的组间估计和组内估计应该很接近,即其比值应接近于1。而当零假设不成立时,的组间估计将偏大,从而两者的比值会大于1,因此我们构造形如,检验统计量,的检验统计量,在一定的置信水平下,将这个值和某个临界值作比较,就可以得出接受还是拒绝零假设的结论。,深入理解F统计量,F统计量实际上是用来比较组间差异与组内差异的大小,造成这种差别既有抽样的随机性,也可能包含系统因素的影响。组间差异是用各组均值减去总均值的离差的平方再乘以各组观察值的个数,最后加总组内差异则是各组内部观察值的离散程度,深入理解F统计量(续),上述组间差异与组内差异必须消除自由度不
48、同的影响对SSW,其自由度为n-g,因为对每一种水平,该水平下的自由度为观察值个数-1,共有g个水平,因此拥有自由度个数为对SSB,其自由度为g-1,g为水平的个数。,检验方差假设,检验步骤,对于k个总体均值是否相等的检验:,检验统计量为:,给定显著性水平的拒绝域:,其中,g-1,n-g分别是F统计量分子分母的自由度,计算结果,对上例,计算得F=组间方差/组内方差=125/44.8=2.79;查F分布表得到=0.05时临界值 Fcr(2,12)=3.89FFcr,所以不能拒绝零假设,即认为三个分支机构员工素质大体一致,不存在显著差异。,方差分析表,上面的计算结果可以很方便的用方差分析表来描述。
49、下面是用Minitab软件得到的输出结果,p值大于0.05,不能拒绝原假设.即认为三个分支机构员工素质评分无显著差异.,多因素方差分析,方差分析也可以同时分析两个或两个以上的因素,这就是多因素方差分析。有的实际问题需要我们同时考虑两个因素对实验结果的影响,例如在例1中,除了关心分支机构的差别外,我们还想了解不同薪酬水平是否和员工素质有关。同时对这两个因素进行分析,就属于双因素方差分析,通过分析,我们可以知道究竟哪一个因素在起作用,或者两个因素的影响都不显著。,不同配方的水泥硬化时间的分析,例 2:特殊环境如水下、高温环境中,建筑材料对水泥的硬化时间有严格的要求。现欲比较几种配方的水泥在不同温度
50、下的硬化时间,其他条件相同,试验结果如下表:,适用于正态分布的数据,适用于非正态分布的数据,方差一致性检验,用Minitab作双因素方差分析,输入数据,运行StatANOVA Two-way,用Minitab作双因素方差分析(续一),出现Two-way Analysis of Variance对话框后:,点选C2到Row factor框中,点选C3到Column factor框中,选择Fit additive model(可加模型),点选C1到Response框中,用Minitab作双因素方差分析(续二),红色方框部分为方差分析表,Minitab输出结果,结果的进一步解释,我们将Minitab