《西格玛教材40-7Unit-2定义24基本统计.ppt》由会员分享,可在线阅读,更多相关《西格玛教材40-7Unit-2定义24基本统计.ppt(62页珍藏版)》请在三一办公上搜索。
1、基本统计(Basic Statistics),Define,Measure,Analyze,Improve,Control,Step 4-确定项目Ys,Step 5-确认Y的现水准,Step 6-发掘潜在的原因 变量(X),基础统计学 Minitab简介 测量系统分析 Y的表现水平 及目标 确定改进目标,路径位置,使用统计的目的,确定工程是否稳定 如果工程不稳定,鉴别并祛除不稳定的要因 确定工程的平均值的位置-它在目标线上吗?如果不在,确定影响平均值的变量,并决定最优的设置以达到 目标值 估计总散布的幅度-与顾客的要求(规格限)比起来,是可接受的吗?如果不是,确定散布源,而后消除或减少他们对工
2、程的影响。我们现在就将回顾统计学以帮助我们的工程,Data的种类 统计的基础 流程的散布 Graphical Presentation 正态分布 统计量的陈述方法 Data Mining,目录,Data的种类,记数型数据(Attribute Data)(定性的)种类好/坏机器1,机器2,机器3班次记数事件(如文件中的错误数,装船的部品数,等)计量型数据(Variable Data)(定量的)-连续的数据(有意义的小数)时间(秒)压力(psi)传送带速度(ft/min)Rate(inches)等等.,Categorical Data(分类数据),Measurement Data(测量数据),No
3、minal(定性数据),Ordinal(顺序数据),Continuous(连续数据),Counting(计数数据),Discrete Data(离散数据),Data的种类,问题 判断下面的情况是计数型还是计量型?,1)不同地区顾客的平均消费,电话待机时间2)Zip drive 中发生的 S/W 故障次数3)雇员-Tom,Nancy,Howard.4)顾客别商品保证金5)没有误差发生的支出6)输入预定支出完了所用时间,Data的种类,Data的种类,记数型,计量型,计量型,记数型,输出,输入,Chi-square,散布分析,判别式分析Logistic regression,相关分析多重回归,统计
4、分析路径图,统计的基础,同样制作这样代表值是非常重要的.,本课程观察统计学者研究出的代表值.,在统计调查中可以基于概率论知识,通过观察被调查对象的一部分的结果对总体作以统计性的推测.我们不可能对所有事件(或现象)都进行调查,而且这样会消耗很多时间和费用.所以我们可以从母集团选择sample,并通过求出sample的代表值来推测母集团.,概率的了解,通过投骰子游戏了解概率 想象投两个骰子的实验.如果每次投两个骰子其和为 311时其结果“满足”的话 预测投骰子出现缺陷的概率?,统计的基础,概率的了解(投骰子),两个股子的和出现2的组合有多少?两个股子的和为12的组合是?总组合数是?,统计的基础,概
5、率的了解,即,出现缺陷的可能性是%?,统计的基础,概率的了解,用dice 1和2投500次,统计的基础,规格下限,规格上限,概率的了解,统计的基础,概率的了解,概率的了解 概率代表可能性,以个数 或分布开始计算.概率分布的定义 这样的概率的累积叫概率分布.问:前页的histogram图是计数型数据的概率分布图 那么如果采用计量型数据的话其图形将会是什么形态?,统计的基础,Data的中心值测定,平均:一组数据的算术平均 反映所有数据的影响 受极端值影响很大 中心值:反映50%等级-把一组数据由小到大排列后位于中央的值 在计算中不必要包括所有的数值 对极端数值很“稳定”,在工程改进的工作中,为什么
6、我们使用平均值,而不使用中值?,统计的基础,平均值可否经常作为代表值?ex)BMW和 SM3 价格平均不能代表所有车辆的价格.-正态分布 平均,-向一侧倾斜的分布-median,统计的基础,Data的扩展性测定,范围:一组数据中极限值间的距离(最高-最低)方差():每个数值点到平均值的平均偏差的平方 标准偏差():散布的平方根 和散布相比,范围对逃逸点“outlier”更敏感,对散布最常见且最有用的度量是标准偏差-为什么?,统计的基础,统计量 预测(推测)参数(母集团),s,=样本的标准偏差,X,=样本平均,母集团和样本统计量关系,统计的基础,计算公式,N:总体数n:样本数,总体平均,样本平均
7、,总体标准偏差,样本标准偏差,统计的基础,流程的散布,流程的稳定性(Stability)-在制造中可预测是很重要的.但前提是工程要稳定.图A:平均值不随时间的变化而变化,是可以预测散布的稳定的流程.(可以说是在“管理限以内”)图B:发生管理异常点,不可预测的不稳定的流程.-散布的大小直接影响工程的稳定性(Stability),A,B,散布(Variation)的种类,所有工序都有散布.有的工序体现正常的管理散布,有的工序体现非正常的管理散布.正常的管理散布(Controlled Variation:Noise)-随着时间的推移显示稳定的正常散布.-当这种散布与一般原因(Common cause
8、s)有关联时,为减少这样的散布,需要对工序进行根本性的改进.例)原材料,设备,作业标准等在允许范围内变动.非正常的管理散布(Uncontrolled Variation:Signal)-随着时间的推移散布发生变化,且不可测定.-与异常要因(Special causes)相关联,这需要通过工序管理,monitoring 等进行及时的改善.例)工程本身的问题即机械磨损,设备故障,原材不良,没有作业标准等原因导致的散步,必须加以消除.,流程的散布,分散(Variance)的 要素,一个工程输出变量的总的变化(方差)可以分割成各工程输入的变化,流程的散布,工程中散布的允许水准(Variability)
9、,Cost,LSL,USL,Nom,USL,可以容忍的水准,Cost,LSL,USL,Nom,老的观点,新的观点,旧的观点:下面的情况可以容忍.-工序的平均值位于目标值,与规格相比总散布要小,工序随时间的变化呈现稳定状态.新的观点:-即便是在管理规格内,随着远离目标所发生的费用将与远离目标的距离的平方成比例增长(Taguchi loss function),流程的散布,Cost,LSL,USL,Nom,Cost,LSL,USL,Nom,在目标线上;最小的散布,在目标线上;几乎不可接受的散布,流程的散布,Cost,LSL,USL,Nom,Cost,LSL,USL,Nom,脱离目标;最小的散布,脱
10、离目标;几乎不可接受的散布,流程的散布,Graphical Presentation 图表介绍,为了说明工序或系统的运营状态,需要记录同一变量的很多数据.-按不同的时间段测定数据-对所有产品测定数据-对不同设备测定数据.这样数据的累积可以认为是测定值的分布.这样的分布可用以下几种图表示-Histograms-Dot plot-Box plot,Graphical Presentation,柱状图,观察油漆比率(Rate)打开PUMPING.MPJ RATE 转换为变量.,Graphical Presentation 图表介绍,现在设想同样的数据,用次数分成“间隔”,每一个速率数点落在给定的间隔
11、内,决定间隔条的高度。,Minitab 结果,Graphical Presentation 图表介绍,产生具有正态曲线的柱状图,Graphical Presentation 图表介绍,正态 分布的 直方图,最后,我们把数据分布连成光滑的曲线。在这个例子中使用了“正态分布”的假设(我们将稍后讨论),如果我们收集了一组无限多的数据点,它将提供一个近似的数据分析结果。,Graphical Presentation 图表介绍,观察油漆比率(Rate)打开PUMPING.MPJ 文件RATE 作为变量.,点图,Graphical Presentation 图表介绍,Minitab 结果,设想一个泵的运转
12、,按设计被用来以 21 加仑/分 供应 溶剂。分150次测定了实际的泵抽速,作图如上。每一个点代表一个具有给定值输出的“事件”。随着点的积累,泵运转的实际表现的特性可被看作一个抽速数值的“分布”。,Graphical Presentation 图表介绍,箱线图,是各分布差异容易把握的数据调查方法.,让我们看一下上漆的速率 打开文件 PUMPING.MPJ用列RATE 作为变量,Graphical Presentation 图表介绍,Minitab 结果,箱线图可以体现数据扩散性及中心.注意!箱线图中的中心线不是 平均 而是 中央值.,Graphical Presentation 图表介绍,正态
13、分布,正态分布是有一贯性的数据的分布.1700年开始统计学者研究通过平均和标准偏差两个值来把握全部母集团的概念.收集这样的数据对理解重要的工序特性很有用.可以假设自然的或人为的工序大多呈正态分布,但完整的正态分布是不可能的.,分布曲线 1,分布曲线 2,分布曲线 3,这三个正态分布的差异是什么?,属性 1:通过下面两个值可以得出正态分布:数据平均,标准偏差,正态分布,4,3,2,1,0,-,1,-,2,-,3,-,4,40%,30%,20%,10%,0%,95%,标准值得概率,到平均的距离内可容纳的标准偏差的个数,99.73%,68%,两个值之间可以得到的累积概率,属性2:通过曲线下面的宽度可
14、以推测发生某种“事件”的概率.,正态分布,为标准偏差的经验规则 前面的累计概率的规则即使在数据不是完美的正态分布时也适用 让我们比较数值的理论正态分布(完美的)和经验正态分布(现实的)即,是否正态分布的 6075%的数据在1西格玛内.,标准偏差数,理论正态分布,经验正态分布,正态分布,正态概率图,利用正态概率图的数据样式可以判定是否符合“正态分布”分布曲线接近曲线时 正态概率图 将接近直线.Minitab 使 正态概率图 使用方便.利用Distskew.mtw 数据做练习.,正态分布,画 Normal Probability Plots,正态分布,参考事项-数据点如果分布在直线周围,则符合正态
15、分布.-Goodness of Fit(AD)值越小,说明数据越符合指定的概率分布.-P值大于0.05,则可以认为是正态分布.,此为增添图线,正态分布,打开文件 DISTRIBUTIONS.MPJ用前三列数据各作一个正态概率图-哪个看上去象正态的然后各作一个直方图-这显示了什么?给你5分钟,正态概率图练习-1,正态分布,正态分布,打开DISTRIBUTIONS.MPJ 文件.用C4中的神秘变量作正态概率图 你的结论是什么?它是正态分布吗?,画正态概率图练习(续),象这样有两个正态分布的例子-供应商提供两种品质的材料时,正态分布,正态分布,统计量的陈述方法,Descriptive statist
16、ics(陈述统计量),打开DISTRIBUTIONS.MPJ 文件.,描述性统计:Normal,Pos Skew,Neg Skew,Mystery 平均值变量 N N*平均值 标准误 标准差 最小值 下四分位数 中位数Normal 500 0 70.000 0.447 10.000 29.824 63.412 69.977Pos Skew 500 0 70.000 0.447 10.000 62.921 63.647 65.695Neg Skew 500 0 70.000 0.447 10.000 1.866 67.891 73.783Mystery 500 0 100.00 1.45 32.
17、38 41.77 68.69 104.20变量 上四分位数 最大值Normal 76.653 103.301Pos Skew 72.821 130.366Neg Skew 76.290 77.106Mystery 130.81 162.82MTB,从这些数据中我们能得出什么观察结果呢?着眼于中心,分散,和形状的指标,描述统计量,统计量的陈述方法,Graphical Descriptive Statistics,统计量的陈述方法,光看这些数据可能有些迷茫 让我们用数据绘图,然后把数字添加到图上,图形化汇总,统计量的陈述方法,Data Mining,核心战略基本前提-查找散布的原因并计量化,把这消
18、除或管理.通过 Data Mining 查找最大的变量.例题:刷漆工程的例-利用 PUMPING.MPJ 文件-Output:涂敷比率(Rate)观察输入:日期,班次(Shift),形态和喷嘴等Input中哪个 变量的散布影响 Output的散布,Data set 分析,工作表上的信息 列 数量 名称C1 150 DayC2 150 ShiftC3 150 Gear StyleC4 150 NozzleC5 150 RATE,Minitab 中的此项功能显示出数据集所包含的信息:日,班次,齿轮型号,喷嘴和泵抽速。每项有150个观测数据面临的挑战是决定哪个(些)输入导致了输出(抽速)的散布,如果
19、你点 MTB 提示下的 INFO 命令,你将看到,Data Mining,2.Pumping Rate的总散布调查,使用 图形直方图功能我们看泵速的分布。数值范围大约为14:30。,描述性统计:Rate 平均值变量 N N*平均值 标准误 标准差 最小值 下四分位数 中位数 上四分位数Rate 150 0 22.027 0.232 2.841 14.447 20.255 21.947 23.763变量 最大值Rate 28.763,Data Mining,3.查找有用的数据(Data Mining),让我们观察喷嘴对泵速散布的影响。我们可用显示描述性统计 中“按变量(可选)”的描述来选择变量并
20、观察不同喷嘴对泵速散布的影响。,Data Mining,描述性统计,这些结果显示,当喷嘴从1变化到10时,平均泵速从19.0 变到 25.2 如果我们把喷嘴置于5,泵速的sigma 将从2.8(总散布)减少到约1.1,描述性统计:Rate 平均值变量 Nozzle N N*平均值 标准误 标准差 最小值 下四分位数 中位数Rate 1 47 0 19.024 0.241 1.655 14.447 17.660 19.354 5 57 0 21.907 0.143 1.077 19.201 21.267 21.917 10 46 0 25.242 0.232 1.576 22.408 23.72
21、2 25.197变量 Nozzle 上四分位数 最大值Rate 1 20.362 22.536 5 22.578 24.277 10 26.575 28.763,Data Mining,4.利用推移图的 Data Mining,让我们用 点图来显示喷嘴对 泵速的影响,点图(按变量“喷嘴”),Data Mining,花5分钟时间用同样的方法调查日,班次,齿轮型号等对泵速的影响,然后准备发表结果。哪个是解释泵速散布的最强的输入,Data Mining,箱线图(按变量“喷嘴”),还有另一个方法可分析这个数据,通过它可以更容易地看到分布 中的差异 箱线图显示分散和数据的中心 要小心!-箱线图 的中心是
22、中值,不是平均值,Data Mining,我们也可以用一个变量来作箱线图,以分析由此变量导致的散布,Data Mining,非制造例,打开文件 INVOICES.MPJ这个文件包含了这样的数据例子:从定单被确认到给顾客开发票的时间(时间)变量包括-定单大小-本月中的日期-顾客等级你有10分钟决定哪些变量(如果有的话)影响时间散布,Data Mining,GOLF实习,目标:-收集数据样本-计算样本平均和总分布的标准偏差-作数据总分布的直方图-经验数据的正态性-作一些数据挖掘 程序:-设置弹射活动,让所有的条件固定得尽可能完好(操作者,晃动,等)-用所有的三种球,然后把数据输入数据库-做一些弹射实验以估计距离-用Minitab中已设定的格式记录30次弹射的距离-进行适当的分析,Data Mining,概 要,介绍形状,中心,和分布分散的概念 学习正态分布 为数据分析提供Minitab 和作图技术 数据挖掘初探,