《Minitab与统计基础.ppt》由会员分享,可在线阅读,更多相关《Minitab与统计基础.ppt(122页珍藏版)》请在三一办公上搜索。
1、,欢迎光临6SIGMA天地,Minitab与 统计基础联想集团有限公司 2004年5月,课程内容,Minitab 简介统计基础介绍,Minitab是什么?,是统计的软件包为数据分析提供统计工具进行 Six Sigma 活动时需要的统计工具,1.Minitab 介绍,Minitab 使用基础,Minitab 介绍Minitab Window作成及编辑Data sheet画图表Minitab 使用案例,Minitab 简介,什么是MINITAB?现国内使用的很多统计分析用软件SAS,SPSS,MINITAB等。MINITAB原来是为了方便基础统计学的学生1972年在美国的宾西法尼亚州立大学开发的。
2、但后来为了在工学,社会学,经营学等资料的分析在研究方面广泛使用。且GE在6-SIGMA活动中作为分析工具成功地进行6-SIGMA后最近成为6-SIGMA活动必需的分析工具。MINITAB的基本数据的输入,输出方式与EXCEL相似,因此将复杂的统计分析简单化,可容易理解统计意义。且MINITAB作成的所有图表与文字与EXCEL相似并可互换,可使用复制及粘贴功能,在制作PPT时也可灵活使用。,2.Minitab 界面,Session window,Worksheet,首先在 worksheet 上输入如下 data.,在Minitab menu中利用取出随机数据的功能在 worksheet的第一列
3、(column)命名为 x后,如下输入15个数据.,CalcRandom DataNormal,15个数据,保存的列(column)的名字,如下形成 worksheet,因为是随机数据有可能与下列数据不同,Data x是平均为 0 标准偏差为1的数据,画一个Graph,Menu中 GraphHistogram,双击,在这里输入列(column),如下画成 Histogram(因为是随机数据形状各异),Graph的意义将在分析阶段详细说明,为了看Minitab的 各个window 如下编辑 Window,Menu 中 WindowTile,Graphic Window,Data Window,S
4、ession Window,Minitab 基本要素,工具栏,菜单,数据WINDOW工具栏,打开PROJECT,PROJECT保存,打印WORKSHEET,剪切,复制,粘贴,恢复,以前brushed 行,下面 brushed行,过去对话框,SESSION WINDOW,现数据WORKSHEET,HELP,插入,插入行,插入列,列移动,删除,WORKSHEET管理,图表管理,关闭图表,取消,打印SESSION WINDOW,前命令语,后命令语,查找,查找下一个,SESSION WINDOW工具栏,图表WINDOW工具栏,打印图表,看的方式,编辑方式,Brush 方式,3.作成及编辑数据WORKS
5、HEET,打开空WORKSHEET后在数据WINDOW输入数据.WORKSHEET非电子数据表COLUMN题目在最上行Minitab只承认列(COLUMN)数据,行数据不承认数据如果在excel等其他软件时可复制数据后粘贴到Minitab 确认是否是COLUMN数据,才能将其它软件中的数据拷贝到Minitab数据WORKSHEET中如果COLUMN有题目时在WORKSHEET的最上行加入题目,Excel文件变为 Minitab worksheet,打开Excel file后复制打开Minitab file后 粘贴到这个位置,Project 保存,生成Minitab worksheet,保存Pr
6、oject时,File选择Save Project,选择文件夹输入File 名 按保存键,Worksheet 保存,保存Worksheet时,Menu中 FileSave Current Worksheet,选择文件夹 输入File名保存,利用Manip menu进行数据管理,1.Stacking:两个以上的列(column)变为一个列(column)时,选择需Stack 的 file确定Stack的 file 位置(C3)选择 Data Subscript(C4)后OK Click.,Stack 的 Data保存在 C3Subscript保存在 C4-TT表示文字数据,一个列(column)
7、data分为两个以上的列时使用Unstack并按照 Subscript分离,指定Unstack 的 column(C3)指定Unstack的 Subscript后指定生成的列的保存位置指定生成的列的名称,Menu中 ManipUnstack Columns,C3按照 subscript C4 分离后保存在C5,C6,数据类型转换及行列转换,我们有以下数据,可以用前粘贴方式将其粘贴到MINITAB中,我们在前面讲过,MINITAB只能对列数据进行分析,但现在是行数据,故我们进行行列转换,粘贴后如下;图,打开菜单:MANIPtranspose cilumns,选中含有数据的列,此例中为C2-C10
8、,点“SELECT”,然后将其存入一个新工作表中,结果如下图,我们看到,数据列C2标志为C2-T,即表示此列是文本,而不是数据,故我们需对数据格式进行转换,MANIP CHANGE DATA TYPETEXT TO NUMBER,要转化的列,保存列,出现*号表示没有转化成功,因此,我们在向MINITAB中粘贴数据时,避免百分数及逗号等(可在EXCEL中先转换再粘贴),如果粘贴过来后变成字符时,可用此方法转换,CAL菜单的用法,在EXCEL中可以计算各种公式,而MINITAB同样也可实现此功能,并且一些计算更专业化,CALCcalculator,我们要计算C1列加C2列的值,并将结果存入C3,此
9、处存入保存列C3,此处输入C1+C2,键入或先左框中列号及运算符均可,结果,此处还有其他运算,如求绝对值,求列方差等,计算C1的统计量,可以计算出所有的相关统计量,包括平均值、方差、最大值、最小值等,结果在SESSION窗口中,计算每一行的统计量,可以计算各行的统计量,并将结果存在指定列中,各行统计量结果,CALCULATOR中可以实现很多计算功能,大家在以后使用时多练习应用!,4.画图表,Minitab利用列数据(COLUMN)制作图表.图表可显示中心倾向,散布,趋势,PROCESS变化等信息内容.图表可提供与TEAM成员间易于沟通的方法,好的图胜过百句话!,Worksheet,FileOp
10、en Worksheet(Data file:Thickness.mtw),数据是两台机器生产的产品的厚度,从每个机器获得10个数据,利用这个数据进行画图分析练习,C1,C2 里各输入产品 的厚度数据,利用 stacking 将C1,C2的数据得到C3的数据.C1是机器1生产产品厚度,C2是机器2生产的产品厚度数据.,时间列Plot(Time series plot),Time series plot是以 x 轴为时间时可看出按时间数据是否有变化?,GraphTime Series plot,假定C3的厚度数据是按照时间连续测定的,时间以分(minute)为单位,时间轴,厚度随时间变化的趋势,
11、Graph 题目及趋势线追加,为了确认按照时间是否存在倾向或周期性在这里选择 Lowess.,输入题目点出这里(Annotation)后输入题目,Graph 题目,趋势线,Plot,Plot是表示X、Y相互关系的图表,GraphPlot,输入两个变数(x,y),可看出Thickness1 和Thickness2 间的相关关系.在这个图表上看不出明显的相关关系,使用Brush功能,Brush功能可以对图表中关心的数据进行标识,可容易看出数据所在的行号,Tool bar中选择这个符号,选择关心的数据,相应的行号显示在 Brushing box,柱状图(Histogram),表示数据的频率图表,让人
12、能一目了然看到数据的分布情况,输入数据,图表形态,图表编辑(Color),柱子的个数调整,Graph Histogram,Boxplot,Y里是厚度 x里是机器号,Graph Boxplot,机器1生产的产品厚度大,散布也大,Boxplot的参数意义,最大观测值3四分位以上(1.5*IQR)内,最小观测值1四分位以下(1.5*IQR)内,异常值,中央值,3四分位数,1四分位数,Inter-Quartile Range(IQR),1.5*IQR,*,1.5*IQR 下 1四分位数或 1.5*IQR 上 3四分位数,柏拉图,利用20/80法则,根据出现的频率找出主要问题时使用的图表.项目选定时决定
13、应该先解决什么问题是较常用.,打开Minitab data file 的 file:Exh_qc.mtw,Minitab munu 中 fileOpen Worksheet,Defect(缺陷)种类保存在一个column时,Minitab 中 StatQuality ToolsPareto Chart,指定 C1,输入题目,图表题目,累计缺陷,缺陷的个数,各自所占的比率,缺陷的种类与个数在不同的各个列时,选择这里,缺陷的种类,缺陷的个数,Cause and Effect Diagram(Fishbone),利用Minitab的 工具可画出 Fishbone diagram,使用于 Brains
14、torming,Worksheet 例:Exh_QC.mtw,按照列的形式在Man,Machine,输入相应的项目,StatQuality ToolsCause-and-Effect,输入Worksheet的 Column名,Diagram上输入要表示的名字,输入Effect,输入题目,Cause,Effect,5.使用Minitab的案例,项目:在某一大学研究室为了调查土壤对植物生长的影响进行了一个项目.项目实施的方法是在两种土壤(Type A,B)中栽培植物,三年后测定植物茎的直径(Diameter),高度(Height),重量(Weight).利用获得的数据分析两种土壤对植物栽培有什么影
15、响,分析直径、高度与重量有怎样的关系.,Step 1:打开Data worksheet,FileOpen WorksheetPoplar1.mtw,3个列中各保存了 15个Diameter,Height,Weight 数据,Step 2:利用键盘输入数据,已输入的数据之外如果还有五个数据时可利用键盘在五个行再输入追加的数据,输入追加的数据,Data 录入方法与一般的 电子数据表输入方法相同,Step 3:输入Patterned data,输入的data有一定的规律时可利用 minitab的工具生成数据.在这里前10个数据输入为type1,后10个数据为type2.首先c4命名为,指定输入的列,
16、开始值(这里是 1),终止值(这里是 2),步长(这里是 1),每个值的反复次数(这里是 10),对全体反复次数(这里是 1),CalcMake Patterned DataSimple Set of Numbers,Type 1反复10次,Type 2反复10次,总20个的 Diameter,Height,Weight 数据及分别对应的SITE表示为1,2,Step 4:Project 保存,Minitab中 Project进行应随时保存.,FileSave Project,Step 5:基础统计分析(Descriptive Statistics)计算,Minitab提供多种统计工具.在这里
17、首先将基础统计量显示为 table,然后通过 Boxplot进行简单的图表分析.,分析对如下基础统计量的结果 table 生成在 session window.N:data个数Mean:平均值Median:中间值TrMean:删除高、低5%后的数据平均StDev:标准偏差SE Mean:StDev/sqrt(N)Q1:25%Q3:75%Minimum:最小值 Maximum:最大值,StatBasic StatisticsDisplay Descriptive Statistics,输入变量(这里是 Diameter,Height,Weight),输入变量的标识(这里是 Site),选择Gra
18、ph后点击Boxplot,Site 1的 Diameter 统计量,Site 2的Weight 统计量,对Site1、Site2的Diameter,Height,weight的 Boxplot 比较,大体上可看出 site 2的中间值大于 site 1,Step 6:Minitab上的计算,Minitab提供计算功能.在这里将新的列命名为(D2H)时DIAMETER的平方*长度后得出的值输入到这里,CalcCalculator,输入计算式,计算结果,Step 7:图表分析,利用图表分析 可以找出 D2H和 weight间的相关关系,GraphPlot,这里输入 x,y,这个图表可看出 D2H与
19、 Weight间有强的相关关系.且发现有一个与相关关系相距较远的异常点.分析阶段将分析这种异常点的原因后再进行分析.,异常点,Step 8:数值分析,图表中显示的 D2H和Weight的关系有必要进行定量分析,在这里求显示相关关系的方程式.,StatRegressionRegression,为了知道相关关系在输出值(Response)输入Weight,在输入变量(Predictor)输入D2H后构成相关关系式.,从这个关系式可连续表示 Weight和 D2H的关系,对这里分析内容的说明将在 Analyze阶段详细进行,课程内容,Minitab 简介统计基础介绍,基础统计,统计学介绍概率分布-二
20、项分布-帕松分布-正态分布,母体-代表全部对象。一个母体中的元素数量用N来表示举例-2003年6月在北京厂生产的所有商用台式电脑 它构成一个我们感兴趣或关心的特定的集合。,在这个世界上,并不是每个人都如此!,母体与样本,抽样,观察少数.以估计总体,母体与样本,样本-代表母体的一个子集。样本的元素数量用n 来表示举例-2003年6月在北京厂生产的所有开天台式电脑,母体与样本,母体,样本,如果能够正确计算母体的特征时,计算母体特性;如果难于计算母体的情况下,用样本计算出的统计量推定母体特征。,母体的特性:母数 均值 方差 2 标准差,样本的特性:统计量 均值 x-bar 方差 S2 样本标准差 S
21、,分布的特性,统计分析是找出分布具有的特性,并将其特性用数字表示。分布的特性集中化倾向(Central Tendency)(算术平均,中值,最频数)-显示数据资料集中的位置.分散度(Scatter,Spreadness)(范围,分散,标准偏差)-数据资料以算术平均为中心分散的程度 非对称度(Shape)-数据资料向哪一方向倾斜?,集中化倾向,最频数(Mode)最频数是数据资料的分布中发生频率最多的值 中央值(Median)由数值形成的资料按大小顺序排序时在中间位置的值 1)数据个数为奇数时:中间的资料 2)数据个数为偶数时:(中间两个资料的和)/2 算术平均 母体的平均 标本的平均,=,X=,
22、分散度,范围(Range)数据资料中最大值和最小值的差异 分散(Variance)和标准偏差(Standard Deviation)母集团的分散 母集团的标准偏差 标本的分散 标本的标准偏差,特性值母数统计量个数 N n平均 X分散 2 s2标准偏差 s相关系数 r回归系数,a,b误差 e,母数(Parameter)和统计量的符号,2.概率分布,概率分布是事件发生的概率分布情况演变成数据模型,使之成为质量管理及 6 Sigma 活动开展的基本条件。,(1)二项分布(Binomial distribution),掷硬币时出现正面与反面的概率是相互独立的概率分布,二项分布需要满足下列条件贝鲁利实验
23、:实验的结果只存在两种可能性 如)良品,不良品.2)在同一条件下进行实验3)各个实验是相互独立的,即:前面试验结果不影响后面试验结果4)对每个实验结果的概率是相同的.,二项分布的案例,产线一天生 产1000台PC,平均不良率为1%。QC人员在每个小时随机地抽取50个样品选出不良品。此时发现一台以下不良品的概率是多少?,发现一台以下不良品的概率是发现一台不良PC的概率加上一台也没发现的概率首先求一台不良也发现不了的概率,CalcProbability DistributionsBinomial,先求一台不良也没有的概率,二项分布概率,累计概率,检查个数(这里是50),成功概率(这里不良率 1%)
24、,Data在WorkSheet内时,Data为常数时(这里是 0)不良台数为0时,在Session window 看结果,不良率为0.01时抽取50个标本时一台不良品也没有的概率为0.6050,求发现一台不良品的概率,这时为 1,结果是 0.3056,因此全体概率为:0.6050+3056=0.9106,这次看数据在 Worksheet 内时的方法,C1 列命名为 x,输入不良台数(0和1)C2命名为 p,准备得出答案,CalcProbability DistributionBinomial,输入不良台数所在列(x)输入记录概率的列(p)点击OK,得出不良台数为0时的概率和不良台数为1 时的概
25、率,两个概率相加为答案,求累计概率,选择这里,计算累计概率,对二项分布的理解,二项分布的概率密度函数 P(X=x)=nCxpx(1-p)n-x nCx=()=,n,x,二项分布的期望值,标准偏差,分散期望值:=E(X)=np分 散:2=Var(X)=np(1-p)=npq标准偏差:=np(1-p)=npq,(2)帕松分布(Poisson distribution),单位时间或单位空间发生特定事件的发生次数时-钢板,织物等连续物体上平均有 m个缺陷时,随机抽取一定单位检查缺陷时,出现 x个缺陷时出现的概率遵守帕松分布-单位时间到银行的顾客数,某一地区一天的交通事故数,帕松分布的密度函数,帕松分布
26、的特性-二项分布中 p5时,转换为正态分布,帕松分布的案例,钢铁厂生产钢带时缺陷可表示为帕松分布。此时缺陷率为4时,随机抽取一个单位检查时缺陷(defect)为2个以下的概率是?如二项分布求累计概率,minitab中选择帕松分布后求解。即:缺陷为2个,1个,0个的概率相加即可。,Minitab menu,FileNewMinitab Worksheet,生成新的worksheet,C1命名为x,C2为 p.X里输入缺陷的个数计算的值准备输入 p里,CalcProbability DistributionPoisson,选择累计概率输入平均缺陷选择Input column 输入x,pOK,缺陷为
27、0的概率 缺陷为0,1 的概率(累计)缺陷为0,1,2 的概率(累计),帕松分布的理解,1.帕松分布在质量管理表示单位面积,单位个数,单位时间内的缺陷数.例):一天发生的交通事故件数等也可表示为此分布2.特别是在 6 Sigma 管理时追求的是比不良(defective)更注重缺陷(defect),所以此分布会在今后经常用到3.此分布的平均和标准偏差在今后C阶段的管理图作为对 defect的 control chart理论根据,帕松分布和 RTY间的关系,帕松分布 观察帕松分布的概念,可发现与Unit内分布缺陷(Defect)是同一概念.即 事件的平均发生次数 m成为 dpu.RTY是最终工程
28、没有缺陷的概率,即帕松分布中 x=0的概率 即代入帕松分布式时成立下列式.RTY=e-dpu dpu=-ln(RTY),(3)正态分布(Normal distribution),正态分布是在统计应用领域最重要的分布并成为开展6 Sigma 的基本.正态分布也可如下表示,XN(),2,变量,正态分布,平均,标准偏差,即正态分布由平均和标准偏差来定义,正态分布的形态是?,以平均为轴对称(Symmetric)原点在一个位置(Unimodal)钟形(Bell-shaped),Sigma是?,第一个拐点(倾斜从减少到增加的位置,Deflection Point)与平均间的距离,正态分布的函数式,正态分布
29、的密度函数,-X+,:3.142 e:2.7183:分布的平均:分布的标准偏差,f(X)=,XN(),2,正态曲线(Normal curve),1,2,1 2,1,2,1,2,1,2,2,1,因和而异的正态分布形状,1 2,1=2,1=2,1 2,1 2,1 2,标准正态分布,平均(中心)为0,标准偏差为1的正态分布,X-利用 Z=将正态分布式进行座标转换,N(0,12),Minitab 中正态分布,CalcProbability distributionNormal,X,已知X,求累计概率(面积)时,已知累计概率,求 x时,Minitab中计算以 x的左边面积为累计概率,正态分布例 1,某制
30、程对一产品的拉长,我们对拉长的长度进行统计后知道:平均为40,标准偏差为2.即:N(40,22).购买此产品时顾客要求拉长长度在35以上.此制程生产的制品满足顾客 要求的概率为多少?,解,40,2,35,已知这个时,面积是多少?,N(40,22).,Minitab 中求面积的部分,check累计概率,平均是 40,标准偏差是2,X 值为35,CalcProbability DistributionNormal,我们想知道的面积(概率)是 1-0.0062=0.9938,正态分布例 2,假设某一工艺的质量特性遵守标准正态分布(平均=0,标准偏差=1)不良率为 1%时,z 值(Sigma leve
31、l)是多少?,已知累计概率时求Z值,在 minitab的 normal 分布中使用 inverse cumulative probability.,点击这里,输入1-0.01=0.99,CalcProbability DistributionNormal,Z 值为 2.33,例 3,XN(10,42)的正态分布中 X为8 X12的概率是?,=0.5,此时的概率为 0.6915,10,12,8,=-0.5 此时的概率为(1-0.6915),因此 0.6915-0.3085=0.3829,关于正态分布的附加说明,影响制造工程的平均值或分散的原因分为为1)偶然原因和2)异常原因.偶然原因指的是如现场的温度变化等不可管理的因素,异常要因指设备的异常,作业者的失误等因素.如果没有异常原因的影响,只有偶然原因作用时取出的数据必然遵守正态分布.在培训过程中大家也能感觉到利用连续概率分布函数的统计分析中最先观察的是是否正态.就是说正态分布是非常重要的.今后要接触到的 t-分布,F-分丰,2-分布等是人为制造的概率密度函数.但正态分布是说明自然现象的自然的分布.,谢谢大家!,