《西格玛数据分析技术.pps》由会员分享,可在线阅读,更多相关《西格玛数据分析技术.pps(347页珍藏版)》请在三一办公上搜索。
1、中国人民大学六西格玛质量管理研究中心,中国人民大学出版社中国人民大学音像出版社,中国人民大学六西格玛质量管理研究中心,中国人民大学六西格玛质量管理研究中心,六西格玛管理培训丛书,何晓群 主编,中国人民大学出版社,中国人民大学六西格玛质量管理研究中心,六西格玛管理培训丛书(5),何晓群 主编,六西格玛数据分析技术,何晓群 编著,光盘作者:陶 沙 苏晨辉,中 国 人 民 大 学 出 版 社,中国人民大学六西格玛质量管理研究中心,目 录,课程概要第1章 基本统计概念第2章 概率及其应用第3章 管理中常见的几个概率分布第4章 参数估计第5章 假设检验第6章 离散数据的卡方检验第7章 方差分析第8章 相
2、关分析与一元回归第9章 多元回归分析,退出放映,中国人民大学六西格玛质量管理研究中心,课程概要,课程要点培养对象欲达目的课时安排,返回目录,中国人民大学六西格玛质量管理研究中心,课程要点,数据收集与整理描述 概率及其在质量管理中的应用质量管理中常见的几个概率分布参数估计及其应用假设检验及其应用离散数据的卡方检验方差分析及其应用相关分析与一元回归多元回归及其应用,返回目录,中国人民大学六西格玛质量管理研究中心,培养对象,开展六西格玛管理项目的黑带及黑带大师候选人和掌握统计技术与方法应用的人。,返回目录,中国人民大学六西格玛质量管理研究中心,欲达目的,通过本课程的学习你将达到:理解统计数据分析主要
3、方法的基本理论树立起六西格玛管理的统计思想掌握了基本统计方法在管理中的应用能熟练运用Minitab软件实现数据分析建立起运用统计方法解决管理问题的能力,返回目录,中国人民大学六西格玛质量管理研究中心,课时安排(36课时),第1章 基本统计概念 4课时第2章 概率及其应用 4课时第3章 管理中常见的几个概率分布 4课时第4章 参数估计 4课时第5章 假设检验 4课时第6章 离散数据的卡方检验 4课时第7章 方差分析 4课时第8章 相关分析与一元回归 4课时第9章 多元回归分析 4课时,返回目录,中国人民大学六西格玛质量管理研究中心,第1章 基本统计概念,1.1 常用数据分析技术概述 1.2 总体
4、与样本1.3 数据的收集1.4 数据的类型1.5 数据集中趋势的测度1.6 数据离散程度的测度1.7 数据基本分析的软件实现小组讨论与练习,返回目录,中国人民大学六西格玛质量管理研究中心,本 章 目 标,理解数据分析在6管理中的重要意义理解几个常见的统计概念树立企业管理人员量化管理的统计意识掌握几种不同平均数的计算方法掌握标准差和变异系数的计算方法,返回目录,中国人民大学六西格玛质量管理研究中心,1.1 常用数据分析技术概述,界定Define,量测Measure,分析Analyze,改进Improve,控制Control,量测所得 各种数据Data,返回目录,中国人民大学六西格玛质量管理研究中
5、心,数据分析的意义,界定Define,量测Measure,分析Analyze,改进Improve,控制Control,6管理目标顾客满意,返回目录,中国人民大学六西格玛质量管理研究中心,可靠的数据及分析是解决问题的根本,管理中的问题,如何解决现在的问题,确认问题,设计量测指标,选择收集数据的方法,获得数据,分析数据,历史的,近期的,最新的,得到分析结果制定解决方案,决策及行动,返回目录,中国人民大学六西格玛质量管理研究中心,1.2 总体与样本,总体,这个企业员工的月平均收入是多少?,信息,由样本信息作为总体信息,估计值,从总体中,抽取一小部分,样本,返回目录,中国人民大学六西格玛质量管理研究中
6、心,总体、个体与样本、样品,总体(population):把研究的一类对象的全体称为总体。个体(individual,item):把构成总体的每一个成员称为个体。样本(sample):从总体中抽出的部分个体组成的集合称为样本。样品:样本中包含的个体成为样品。样本容量(sample size):样本中包含的个体的数量称为样本容量,通常用n表示。,返回目录,中国人民大学六西格玛质量管理研究中心,1.3 数据的收集,6管理是一种科学的量化管理没有数据就没有管理没有数据的统计分析就等于无米之炊数据资料的来源有两种:原始资料和二手资料抽样是企业管理中收集数据的最普遍方法宏观数据资料的获取主要依赖于各种统
7、计年鉴和咨询顾问公司,返回目录,中国人民大学六西格玛质量管理研究中心,关于抽样方法,概率抽样和非概率抽样 概率抽样(随机性原则)非概率抽样 配额抽样,简单随机抽样(simple random sampling)分层抽样(stratified sampling)整群抽样(cluster sampling)等距抽样。又称系统抽样(systematic sampling),返回目录,中国人民大学六西格玛质量管理研究中心,1.4 数据的类型,6管理中通常遇到两种类型的数据:,定性数据,定量数据,定类数据,定序数据,计量数据,计数数据,数据是决策的依据,返回目录,中国人民大学六西格玛质量管理研究中心,定
8、量数据,定量数据,计量数据,计数数据,返回目录,中国人民大学六西格玛质量管理研究中心,计量数据连续型数据,怎样获得计量数据,连续型数据,连续型数据,返回目录,中国人民大学六西格玛质量管理研究中心,计数数据离散型数据,计数或事件发生的频率:如,顾客满意度调查中不满意的 人数。需要较大的样本量,以更好地描述产品或服务的某种特性。,满意的和不满意的人数就是数出来的,瓷砖中的斑点数,返回目录,中国人民大学六西格玛质量管理研究中心,变量、参数和统计量,变量是说明和描述事物某种特征的指标 变量的种类,参数 统计量,变量的种类,分类变量,顺序变量,数值型变量,随机变量,连续型随机变量,离散型随机变量,返回目
9、录,中国人民大学六西格玛质量管理研究中心,1.5 数据集中趋势的测度,反映样本位置的统计量 样本均值 设有样本数据,就是样本均值,样本中位数:将样本数据按从小到大排序后,处于中间位置上的数就是中位数。,返回目录,中国人民大学六西格玛质量管理研究中心,加权算术平均数,加权算术平均数,其中 为 的权重(weight),表示 在数据集中所占的比重,而,当权重相同,即,时,加权算术平均数即为简单算术平均数。,返回目录,中国人民大学六西格玛质量管理研究中心,几何平均数,将所有n个数 连乘,然后开n次方,即,其中:代表几何平均数,为连乘符号当n2时,为了方便计算可采用对上式两边取对数的方法计算:,几何平均
10、数一般用于计算在一段时间内有复式增长的数据的均值,几何平均数(geometric mean),注意,返回目录,中国人民大学六西格玛质量管理研究中心,几何平均数(续),几何平均数适用于计算在一段时间内有复式增长的数据的均值情况。,这在企业中要经常用到。如企业成长10年来每年有个增长率,试计算这10年的平均增长率;1995年2004年每年有个国内生产总值GDP的增长率,求1995年到2004年的平均增长率。,例:某投资者于2000年、2001年、2002年及2003年的持有期回报(HPR)分别为1.2、1.3、1.4及0.8。试计算该投资者在这四年内的平均持有期回报。解:利用几何平均数计算持有期回
11、报:平均该投资者平均每年持有期回报为1.1497。如果该投资者在2000年初投资额为100,那么到2003年底,他的财富将成为。,返回目录,中国人民大学六西格玛质量管理研究中心,1.6 数据离散程度的测度,一批统计数据相对它的均值而言,这些数据的离散程度如何?数据波动的统计量通常有三种:,样本方差与样本标准差,数据波动的统计量,极差,变异系数,返回目录,中国人民大学六西格玛质量管理研究中心,极差(range),极差的计算简单,它是一种最简单的度量离散程度的方法。极差的缺点也很明显,因为它只考虑了极端值,丢失的数据信 息较多。现在的社会居民收入分配相差很大,这对社会稳定很不利。极差让我们可以更清
12、醒地认识到贫富差距。所以极差还是很有意义的一个统计量。,一组数据中的最大值与最小值之差称为极差,用R表示。极差的计算十分简单,如某企业中员工的最大月收入是 12000元,最低月收入是800元,则 R1200080011200(元),返回目录,中国人民大学六西格玛质量管理研究中心,方差与标准差,总体方差,总体标准差,样本方差,样本标准差,实际应用中常用样本标准差作为总体标准差的估计值。方差不能带量纲(单位),这样就得不到合理解释;只有标准差才能带单位。,返回目录,中国人民大学六西格玛质量管理研究中心,均值与标准差概念的直观理解,设有两组样本数据分别为:2、4、6、8、10 4、5、6、7、8 把
13、这两组数据分别标在下面的直线轴上,0,0,2,4,6,8,10,4,5,6,7,8,返回目录,中国人民大学六西格玛质量管理研究中心,均值与标准差概念的直观理解(续),第一组数据的,第二组数据的,由这两组数据的均值和标准差,结合上面的图形,我们可以直观地看到这两组数据均以6为中心,但前面5个数的离散程度要大于后面5个数的离散程度。第一组数的标准差是3.16,第二组数的标准差1.58。这个例子让我们更直观地体会到标准差以及均值的意义。,返回目录,中国人民大学六西格玛质量管理研究中心,变异系数,例13:设有甲、乙两个企业,他们职工月奖金的平均 数及标准差如下(单位:元),试问甲、乙两个企业哪个企业职
14、工的月平均奖金相差较大?,你怎么判断这个问题,你的答案是什么?,乙:,甲:,返回目录,中国人民大学六西格玛质量管理研究中心,1.7 数据基本分析的软件实现,Stat,Basic Statistics,Display Descriptive Statistics,Store Descriptive Statistics,返回目录,中国人民大学六西格玛质量管理研究中心,基本输出结果1,Display Descriptive Statistics 在绘图窗口的输出,分布图,箱形图,置信区间,返回目录,中国人民大学六西格玛质量管理研究中心,基本输出结果2,Display Descriptive Sta
15、tistics 程序输出窗口,Store Descriptive Statistics 在工作表中的结果输出,关于身高数据的统计量分析,返回目录,中国人民大学六西格玛质量管理研究中心,小组讨论与练习,1.试举本企业中关于总体、样本、个体和样品的例子。2.试举实际问题中哪些数是连续型数据,哪些数是离散型数据。3.某企业2000年到2003年的销售收入增长率分别是15、20、23、28,请问这四年的销售收入平均增长是多少?4.从某啤酒厂的一批瓶装啤酒中随机抽取了10瓶,测得装量分别为:(单位:ml)640、639、636、641、642、638、639、643、636、639 试计算样本均值与样本
16、标准差。5.从某厂生产的两种不同规格的车轴中,各随机抽取了20根,测 得它们的直径的均值与标准差分别为 甲产品 乙产品 试问哪种产品的质量波动大?,返回目录,中国人民大学六西格玛质量管理研究中心,第2章 概率及其应用,2.1 掷骰子的游戏2.2 概率及概率的计算2.3 概率的性质与运算法则2.4 条件概率2.5 独立性2.6 全概率公式2.7 贝叶斯公式2.8 概率树小组讨论与练习,返回目录,中国人民大学六西格玛质量管理研究中心,本 章 目 标,1.理解随机事件及其概率的基本思想2.掌握概率的性质与运算法则3.理解条件概率与事件的独立4.理解优质产品不是检验出来的理念5.掌握全概率公式和贝叶斯
17、公式的应用6.会运用概率树解决有关问题,返回目录,中国人民大学六西格玛质量管理研究中心,2.1 掷骰子的游戏,一枚骰子掷下去后点数为1、2、3、4、5、6各出现的可能性有多大?我们大家都知道一枚骰子掷下去后,各个点数出现的机会均等,每个点数出现的可能性都是1/6。,返回目录,中国人民大学六西格玛质量管理研究中心,一个顾客的期望,设有一对完全相同的骰子,把这一对骰子随机掷下,一对骰子两两组合的点数最多出现11种结果,这种结果的组合点数可能是2、3、4、5、6、7、8、9、10、11、12。,有位顾客,仅仅需要能两两组合成4、5、6、7、8、9、10、11的结果。请问能使这位顾客期望实现的概率有多
18、大?不能使这位顾客满意的风险是多大?,返回目录,中国人民大学六西格玛质量管理研究中心,一对骰子出现的全部组合有多少?,返回目录,中国人民大学六西格玛质量管理研究中心,一共有36个组合,每个组合出现的概率是1/36=0.0278,骰子1与骰子2分别出现任何给定值的概率都等于1/6任一给定组合发生的概率,返回目录,中国人民大学六西格玛质量管理研究中心,2.2 概率及概率的计算,古典概型 随机事件常用大写的英文字母A、B、C等表示。随机事件A的概率,用P(A)表示,统计概型,其中:n表示相同情况下试验的次数,m表示某事件A出现的次数,比值m/n称为事件A发生的频率。,返回目录,中国人民大学六西格玛质
19、量管理研究中心,计算组合点数出现的概率,返回目录,中国人民大学六西格玛质量管理研究中心,能使那位顾客满意的程度有多大?,返回目录,中国人民大学六西格玛质量管理研究中心,2.3 概率的性质与运算法则,概率的公理化定义 在研究随机现象中,把表示随机事件A发生的可能性大小的实数称为该事件的概率,用P(A)表示。前苏联的柯莫哥洛夫于1933年给出如下的概率公理化定义:1.非负性:对任一随机事件A,有 2.规范性:必然事件的概率为1,而不可能事件的概率为0,即 3.可加性:如果A与B是两个互不相容事件(互斥),则,返回目录,中国人民大学六西格玛质量管理研究中心,概率的性质与计算,由概率的公理化定义不难得
20、到概率的其它许多性质,如:,返回目录,中国人民大学六西格玛质量管理研究中心,2.4 条 件 概 率,在现实世界中,任何随机试验都是在一定条件下进行的。这里我们要讨论的条件概率,则是当试验结果的部分信息已知(即在原随机试验的条件下,再加上一些附加信息)。例如当某一事件B已经发生时,求事件A发生的概率,称这种概率为事件B发生条件下事件A发生的条件概率,记为 P(A|B)由于增加了新的条件(附加信息),一般来说,P(A|B)P(A)。,返回目录,中国人民大学六西格玛质量管理研究中心,乘 法 公 式,由前一页最后的结果,我们看到条件概率有如下的计算公式:,即条件概率可由两个无条件概率之商来计算。对上边
21、的公式变形,即得,此公式就是所谓的概率乘法公式。如果将A、B的位置对换,这时有 P(BA)=P(B|A)P(A),而P(AB)=P(BA),于是,公式(2)与(3)统称为概率的乘法公式。,返回目录,中国人民大学六西格玛质量管理研究中心,一 个 例 子,例24:设有1000件产品,其中850件是正品,150件是次品,从中依次抽取2件,2件都是次品的概率是多少?解:设A i表示“第i次抽到的是次品”,i=1,2,所求概率为P(A1A2)。因为,即抽到工件都是次品的概率是2.24%。,运用乘法公式可得,返回目录,中国人民大学六西格玛质量管理研究中心,2.5 独 立 性,在使用概率的乘法公式时,一般都
22、要计算概率,但是在事件A与B独立的情况下,乘法公式就会变得简单。什么是独立事件呢?一般认为,两个事件中不论哪一个事件发生与否并不影响另一个事件发生的概率,则称这两个事件相互独立。当两个事件相互独立时,其条件概率等于无条件概率,即,我们甚至可以用这一公式来判断A、B两个事件是否独立!,因此,当两个事件相互独立时,其乘法规则可以简化为:,返回目录,中国人民大学六西格玛质量管理研究中心,产出合格率的计算,某种产品的生产流程由两道主要工序组成。每一道工序的最终生产合格率都是99%,那么,整个生产过程的产品合格率是多少?,99%99%=98%因为两道工序是独立的,每件产品都要通过这两道工序加工,这符合乘
23、法原则。因此,生产过程的产品合格率是98%。,返回目录,中国人民大学六西格玛质量管理研究中心,优质产品的生产靠检验吗?,企业如何提高产品合格率和优等率?,例如生产家具的流程有制板、喷漆、安装三道工序,合格率和优等率如下表所示:,返回目录,中国人民大学六西格玛质量管理研究中心,每道工序都应严格检验吗?,可见,增加工序检验的效果只是提高了按成品合计的合格品率,付出的代价是:第一,按生产过程的合格率仍然很低,只有86%,浪费巨大,成本增高;第二,优等品率仍然只有73%,产品在市场上只能是质低价廉。,现在第一和第二道工序间及第二和第三道工序间增加检验,把不合格品剔除,得,返回目录,中国人民大学六西格玛
24、质量管理研究中心,提高流程能力才是根本!,,可见产品的质量是制造(设计)出来的,不是检验出来的!,如果提高过程能力,不设检验,返回目录,中国人民大学六西格玛质量管理研究中心,2.6 全 概 率 公 式,全概率公式主要用于计算较为复杂情形随机事件的概率。全概率公式实质上是加法公式和乘法公式的综合运用和推广。,例26:某车间用甲、乙、丙、三台机床进行生产,各台机床加工零件的次品率分别是5%,4%,2%,它们各自的零件分别占总产量的25%,35%,40%。三台机床生产的零件混在一起,求任取一个零件是次品的概率。,管接头镗孔机床,返回目录,中国人民大学六西格玛质量管理研究中心,例26 的求解,令A1表
25、示“零件来自甲台机床”,A2表示“零件来自乙台机床”,A3表示“零件来自丙台机床”,B表示“抽取到次品”。则事件发生当且仅当下列三种情形任意出现一种:1.是甲机床生产的零件且为次品(A1B);2.是乙机床生产的零件且为次品(A2B);3.是丙机床生产的零件且为次品(A3B)。显然,事件B是A1B,A2B,A3B这三个两两互不相容事件的和,用公式表示为:B=A1B+A2B+A3B,返回目录,中国人民大学六西格玛质量管理研究中心,例26 的求解(续),根据加法公式:P(B)=P(A1B)+P(A2B)+P(A3B)分别对P(AiB)(i=1,2,3)用乘法公式:P(AiB)=P(Ai)P(B|Ai
26、),i=1,2,3于是得:,代入已知数据:P(A1)=0.25,P(A2)=0.35,P(A3)=0.40 P(B|Ai)=0.05,P(B|Ai)=0.04,P(B|Ai)=0.02 P(B)=0.0345 即任取一件产品是次品的概率为0.0345。,返回目录,中国人民大学六西格玛质量管理研究中心,一般情形,设n个事件A1,A2,A3,An互不相容,P(Ai)0,i=1,2,n,事件B满足,B A1+A2+An,则 我们就称这个公式为全概率公式。,全概率公式的总结,全概率公式的直观意义是:某一事件B的发生有多种可能的原因Ai(i=1,2,n),如果B是由原因Ai所引起的,则B发生的概率是P(
27、AiB)(i=1,2,n)。每一事件Ai发生都可能导致B发生,相应的概率是P(B|Ai),故B发生的概率是:当直接计算P(B)较困难,而P(Ai),P(B|Ai)(i=1,2,n)的计算较简单时,就可以利用全概率公式计算P(B)。例26 就是这样计算的。,返回目录,中国人民大学六西格玛质量管理研究中心,设n个事件A1,A2,A3,An互不相容,P(Ai)0,i=1,2,n,事件B满足,B A1+A2+An,则,2.7 贝叶斯公式,这就是著名的贝叶斯公式,也称为逆概率公式。贝叶斯公式是英国统计学家贝叶斯(TBayes)给出,在其去世后的1763年才发表。该公式是在观察到事件B已发生的条件下,寻找
28、导致B发生的每个原因Ai的概率。P(Ai)和P(Ai|B)分别称为原因Ai的验前概率和验后概率。此公式在实际应用中,可帮助人们确定引起事件B发生的最可能原因。,返回目录,中国人民大学六西格玛质量管理研究中心,贝叶斯公式计算举例,例27:在上例中,如果抽到的一个零件是次品,分别求这一次品是由机床甲、乙、丙生产的概率。解:有关假设与例7相同。现已知事件B发生,求事件A1,A2,A3发生的概率。由贝叶斯公式,代入已知数据(见例7),计算得,类似有P(A2|B)=0.406,P(A3|B)=0.232。本例中的P(Ai)是事件(取到的一件是次品)发生之前事件Ai发生的概率,是由以往数据分析所得,故称验
29、前概率。P(Ai|B)是事件(取到的一件次品(B))发生后事件Ai发生的概率,它是获得新信息(即事件B发生)之后再重新加以修正的概率,故称P(Ai|B)为验后概率。,返回目录,中国人民大学六西格玛质量管理研究中心,2.8 概 率 树,企业的领导层在讨论竞争策略时,常常是众说纷纭,但当说完后,人们又一筹莫展,没有头绪;利用概率树可以帮助企业家理清思路,科学决策;概率树就是一种树形图,然后在树干和树枝上标上相应的概率。,我们用几个例子来说明这一决策方法的应用。例28:掷一对硬币,出现结果是两个正面的概率是多大?,返回目录,中国人民大学六西格玛质量管理研究中心,掷硬币的概率树,第一个硬币出现的可能结
30、果是正面(概率0.5)和反面(概率0.5),于是形成两个分支。可以用0.5+0.5=1来检查有无其它可能性被遗漏。对于这两种可能结果的每一种,对应第二枚硬币均加上相似的两个分支,于是由概率树及乘法法则,会看到出现两个正面的概率是0.25。,返回目录,中国人民大学六西格玛质量管理研究中心,一个例子,例29:某种产品由甲、乙、丙三台机床生产,每台机床的生产量不同,其中60%的产品来自机床甲,30%和10%的产品分别由乙和丙生产。甲、乙、丙三台机床产品的次品率分别是8%、12%和3%。从它们生产的一批产品中,随机抽取一件产品是次品的概率是多大?,方柱立钻,返回目录,中国人民大学六西格玛质量管理研究中
31、心,例29的概率树,由概率树中,我们看到所有次品的三个分枝,及在每一个枝上相应的概率。为计算随机抽取一件产品是次品的概率,我们利用乘法法则计算出每一台机床次品分枝出现的概率,在利用概率的加法法则计算出抽取一件产品是次品的概率为:(0.60.08)+(0.3 0.12)+(0.1 0.03)=0.087,返回目录,中国人民大学六西格玛质量管理研究中心,例210:开发新产品的决策例子,设A公司正在考虑是否研制一种新洗手液。目前A拥有30%的洗手液市场,而它的主要对手B公司拥有70%。最近A公司研究人员在配方上有所创新,有80%的把握研制出新的洗手液。如果成功,将形成新的竞争力量。在决策过程中,还需
32、认真研究B公司的反应。估计B公司将推出新产品相对抗的可能性为60%。如果这种情况发生,则A公司占有70%市场份额的可能性是0.30,占有50%的可能性是0.40,占有40%的可能性是0.30。决策者还估计,如果B公司未能研发出新产品,则A公司占有80%市场份额的可能性是0.80,而占有50%和40%的可能性都是0.10。如果A公司决定不开发新产品,则将仍保持现有30%的市场份额。这种问题摆在决策者面前显得很杂乱,无头绪。概率树法可帮其决策。,返回目录,中国人民大学六西格玛质量管理研究中心,开发新产品的决策概率树,决策者关心的是市场份额达到50%及以上的各种事件的组合,由概率树及概率的基本运算法
33、则,状态S1和S2符合要求。则组合A1B1S1,A1B1S2,A1B2S1及A1B2S2符合要求,由此可计算出市场份额达到和超过50%的概率是 p=0.144+0.192+0.256+0.032=0.624,返回目录,中国人民大学六西格玛质量管理研究中心,小组讨论与练习,1.两个骰子掷下后,它们的组合点数7出现的概率最大,但在某两次试验中组合点数7都没出现,你如何理解这种现象?,2.某种福利彩票每周开奖一次,每次一等奖的中奖机会只有十万分之一,你的朋友10年来坚持每周买一张彩票(每年52周),可从来未中过一等奖,为什么?你理解下面的计算公式吗?p=(1-10-5)520=0.9948,返回目录
34、,中国人民大学六西格玛质量管理研究中心,3.1 随机变量 3.2 随机变量的分布 3.3 随机变量的均值与方差 3.4 二项分布及其应用 3.5 泊松分布及其应用 3.6 正态分布及其应用 3.7 中心极限定理 3.8 各种概率分布计算的Minitab实现 小组讨论与练习,第3章 管理中常见的几个概率分布,返回目录,中国人民大学六西格玛质量管理研究中心,本 章 目 标,1.理解随机变量及随机变量分布的基本概念2.理解随机变量的均值及方差在管理中运用的思想3.理解二项分布的意义,掌握二项分布的应用4.掌握泊松分布的意义和应用理念5.理解正态分布与6的关系6.理解中心极限定理的意义7.掌握各种概率
35、分布的计算实现,返回目录,中国人民大学六西格玛质量管理研究中心,3.1 随机变量,日常生活中,生产实践中随机现象无处不在把随机现象的结果用变量来表示,就称为随机变量随机变量是随机现象表示的一种抽象,有了这种抽象,使得我们的研究更具普遍性。常用大写的字母X,Y,Z等表示随机变量,随机变量的取值常用小写字母x,y,z等表示。随机变量有离散型和连续型两大类,返回目录,中国人民大学六西格玛质量管理研究中心,离散型随机变量,定义:如果一个随机变量的取值是可数的,则称该随机变量是离散型随机变量。离散型随机变量是仅取数轴上有限个点或可列个点,x1,x2,x3,x4,x5,x6,x7,X,图1,公路上的汽车,
36、完好瓷砖的数目,返回目录,中国人民大学六西格玛质量管理研究中心,连续型随机变量,定义:如果一个随机变量可取数轴上某一区间内的任一值,则称该随机变量为连续型随机变量。连续型随机变量的取值可以是整个实数轴上的任一区间(a,b)(如图2)。,X,图2,返回目录,中国人民大学六西格玛质量管理研究中心,3.2 随机变量的分布,随机变量的取值的统计规律就是随机变量的分布。知道了一个随机变量的分布就掌握了它的关键。,离散型随机变量的分布。随机变量X可能取哪些值,X取这些值的概率各是多大?连续型随机变量的分布。随机变量X在哪个区间上取值,它在任意小区间取值的概率是多少?,返回目录,中国人民大学六西格玛质量管理
37、研究中心,离散型随机变量的分布,离散型随机变量的分布常用下面表格形式的分布列来表示:用数学表达式表示即为:P(X=xi)=pi,i=1,2,n离散型随机变量的分布应满足概率公理化定义的要求,即pi0,p1+p2+pn=1掷一枚骰子出现的点数及其概率就可用离散型随机变量的分布列表示:,返回目录,中国人民大学六西格玛质量管理研究中心,连续型随机变量的分布,连续型随机变量X,它可取某一区间内的所有值,但它的取值不能逐一列出。我们用函数f(x)表示随机变量X的密度函数。用概率密度函数f(x)来反映随机变量X在某一区间取值的统计规律性连续型随机变量取某一固定值的概率为零在6管理中用连续型随机变量X常常表
38、示产品的某种质量特性,譬如啤酒的装量、电子元件的灵敏度、电子产品的寿命等。,返回目录,中国人民大学六西格玛质量管理研究中心,质量特性与概率密度函数,在生产制造业的管理现场我们常常要抽取若干样品测定某种产品的质量特性X。如在啤酒厂今天生产的啤酒中随机抽取若干瓶量测它们的装量(ml),就可用直方图表示它们的质量特性。随着测定的数量越多,直方图就会演变成一条光滑曲线,这就是所谓的概率密度函数曲线,它就刻画出隐藏在质量特性X随机取值后面的统计规律性。这条光滑曲线f(x)告诉了我们什么信息?,返回目录,中国人民大学六西格玛质量管理研究中心,概率密度曲线的几种不同情形,在管理现场,不同产品的不同质量特性所
39、表现的概率密度曲线不同,这决定了形状不同,散布不同,位置不同。正是这些不同的曲线形式决定了质量特性的差别。,形状不同,散布不同,位置不同,返回目录,中国人民大学六西格玛质量管理研究中心,概率密度函数的性质,概率密度曲线的纵轴在做直方图时,它是“单位长度上的频率”,由于频率的稳定性,于是用概率代替了频率,从而纵轴就演变成为“单位长度上的概率”,这也是为什么把密度曲线称为概率密度曲线的缘由。连续型随机变量的密度函数f(x)具有如下性质:1.2.3.其中 表示质量特性值在区间(a,b)中的概率。这里涉及到积分概念,不必感到忧虑,因为积分计算不是重点。,返回目录,中国人民大学六西格玛质量管理研究中心,
40、3.3 随机变量的均值与方差,前面第1章中看到的具体数据可以用均值和方差来分别描述数据的集中趋势和离种趋势,随机变量也有均值和方差的概念,用它们分别表示分布的中心位置和分散程度。在掷骰子例子中,每次掷下后出现的点数不仅相同,平均出现的点数是多少?在啤酒的装量测定中,每瓶啤酒的装量严格来说都不一样,它们的平均装量是多少?这就是随机变量的均值问题。相对均值而言,每次掷骰子出现的结果都在它的左右,那么平均的偏差有多大?假如一批瓶装啤酒的平均装量是640ml,各瓶偏离640ml的多少都不一样,它们平均偏离是多少?这就是随机变量的方差及标准差问题。,返回目录,中国人民大学六西格玛质量管理研究中心,随机变
41、量均值与方差的理解,生产或服务过程中的差别是难以避免的。生产过程中由于种种随机因素的影响,使得我们无法避免变异的产生。在扔飞镖时,谁都想发发命中靶心,可遗憾的事常常发生!计算多次投标的平均结果就是求均值,计算相对均值的离散程度就是计算方差。,如何理解上面两图的结果,返回目录,中国人民大学六西格玛质量管理研究中心,如何理解直方图,直方图的上下公差限的总宽度是对生产能力的一个设计。在大部分时间里,生产运行的结果就在这一区间上发生。譬如,根据啤酒装量的抽检数据建立了如下的直方图,期望值640,返回目录,中国人民大学六西格玛质量管理研究中心,直方图的解释,图形纵轴表示在某一范围内量测到的数目,公差限以
42、内就是合格品,出了公差限就是废品。上图中的T值就是均值(640ml),也即数学期望。这是一个理想值,也就是说,设计人员期望每瓶啤酒的装量正好是640ml,然而由于种种说不清道不明的原因的影响,不可能,也不存在正好的640ml,于是只要在上下公差限之内的都是合格品,出了上下公差限的就是废品。假如总共抽检了300瓶啤酒,有10瓶低于下规格限LSL,15瓶超过了上规格限USL,因此,这批产品的废品率是 25/300=0.083 合格率是1-0.083=0.917,即合格率为91.7%,返回目录,中国人民大学六西格玛质量管理研究中心,实际与理想的差距,我们应该意识到,一个生产过程内在的精度不是由设计人
43、员及设计方案所规定的。就像我们扔飞镖每一发都想命中靶心,但往往事与愿违。提高质量的核心就是优化流程,减小变异,提高生产流程内在的精度。这是6管理的精髓。,返回目录,中国人民大学六西格玛质量管理研究中心,6管理的目标是缩小实际与理想的差距,T是目标值,期望值,设计值。然而常常在生产实际中,生产实际的中心值会发生变化,偏离目标值。这也说明实际生产结果的中心值 是独立于设计值规定的目标值(T)的。6管理的目的就在于优化流程,减小变异,使实际生产结果的中心值尽可能与设计的目标值重合。,LSL,USL,T,返回目录,中国人民大学六西格玛质量管理研究中心,均值的计算公式,离散型随机变量的数学期望(均值)连
44、续型随机变量的数学期望,返回目录,中国人民大学六西格玛质量管理研究中心,均值计算举例,例31.掷骰子试验中出现的点数用随机变量X表示,随机变量X的均值(数学期望)为 即掷骰子出现的结果很不一样,但它们的平均取值是3.5例32.电子产品首次发生故障(需要维修)的时间通常遵从指数分布。譬如某种品牌的手机首次发生故障的时间T(单位:小时)遵从指数分布 问计算这种品牌的手机首次需要维修的平均时间是多少小时。解:即这种品牌的手机首次需要维修的平均时间是10000小时。,返回目录,中国人民大学六西格玛质量管理研究中心,方差的计算公式,离散型随机变量的方差连续型随机变量的方差由于方差不能带单位,故用标准差来
45、刻画随机变量相对均值的离散程度,返回目录,中国人民大学六西格玛质量管理研究中心,方差计算举例,例33.掷骰子问题中,出现点数的平均值是3.5,每次取值相对于均值的离散程度是多大?解:即相对均值平均偏离1.71点。可以证明,指数分布的均值与标准差相等,即 例32中某种品牌的手机首次需要维修的平均时间是10000小时,即标准差也为10000小时。标准差如此之大有点不好理解。然而,凡是遵从指数分布的产品寿命问题就是这样,也即你的期望越高,标准差必然就大。实际中,也确有同一品牌的手机有的刚刚使用就遇到故障,而有的用了好几年也不需修理。,返回目录,中国人民大学六西格玛质量管理研究中心,3.4 二项分布及
46、其应用,二项分布的概率计算公式:其中 是从n个不同元素中取出x个的组合数,计算公式为:二项分布的概率计算公式中有两个重要的参数,一个是n,一个是p,故通常把二项分布记为B(n,p),返回目录,中国人民大学六西格玛质量管理研究中心,一个产品检验的例子,例34.已知某生产流程生产的产品中有10%是有缺陷的,而该生产流程生产的产品是否有缺陷完全是随机的,现在随机选取5个产品,求其中有2个产品有缺陷的概率是多大?解:这是一个符合二项分布情形的问题。设X为抽取的5个产品中有缺陷的产品的个数,则X是遵从二项分布B(5,0.1)的随机变量。某一产品有缺陷的概率为p=0.1,n=5。择所要求的概率为:类似可以
47、计算出在抽取的5件产品中有0、1、3、4、5个产品有缺陷的概率分别为,返回目录,中国人民大学六西格玛质量管理研究中心,二项分布的均值与标准差,可以证明,如果随机变量XB(n,p),它们的均值、方差、标准差分别为:在例34中,二项分布B(5,0.1)的均值、方差与标准差分别为:二项分布的计算在n很大时,像上面的那样的运算是很麻烦的,然而,通常可以通过查二项分布表直接解决这一问题,或通过Minitab软件计算。,返回目录,中国人民大学六西格玛质量管理研究中心,3.5 泊松分布及其应用,单位产品缺陷数的概念 在任何生产流程中,缺陷的出现难以避免缺陷的出现完全是随机的如果50件产品发现了50处缺陷,则
48、单位产品的缺陷数为1生产一件产品无缺陷的最大可能性是多少?一件产品保证不再返工或修理的最大可能性是多少?,返回目录,中国人民大学六西格玛质量管理研究中心,某一产品无缺陷的最大可能性是多大?,假设某种产品由10个零部件组成,返回目录,中国人民大学六西格玛质量管理研究中心,零件数和单位产品缺陷数(DPU),10,100,1000,10000,100000,.3480,.3500,.3520,.3540,.3560,.3580,.3600,.3620,.3640,.3660,.3680,0.9010=.34868,0.99100,0.9991000,0.999910000,0.99999100000
49、,零件数,产生合格率(以DPU=1为例),返回目录,中国人民大学六西格玛质量管理研究中心,对缺陷模型的泊松模拟(DPU=1),当零件数趋于无限时,我们可以注意到合格品率趋于:泊松公式:其中,d/U是单位产品缺陷数,r是缺 陷实际发生的数量。因此,当r=0时,就可得到单位产品无缺陷的概率。注意:它不同于传统意义上的产品合格 率。例如合格产品的数量比上所有被检 验产品的数量。,返回目录,中国人民大学六西格玛质量管理研究中心,泊松分布的更一般情形,泊松分布常用来描述在一指定时间、面积、体积之内某一事件出现的个数的分布。譬如:1.修一条铁路,每月出的伤亡事故数 2.在某一单位时间内,某种机器发生的故障
50、数 3.一辆汽车的表面上的斑痕数 4.你的手机每天接到的呼唤次数泊松分布的一般数学形式是:其中 为某种特定单位内的平均数。在研究产品缺陷问题中,返回目录,中国人民大学六西格玛质量管理研究中心,一个实际例子,例35.某一大型矿山每年发生工伤事故的平均次数为2.7,如果企业的安全条件没有质的改变,则下一年发生的工伤事故小于2的概率是多少?解:设X为下一年发生的工伤事故数,则X遵从 为2.7的泊松分布,于是X遵从的分布为 于是 可算得 即下一年发生工伤事故数小于2的概率为24.866%。可以证明泊松分布的均值与方差相等,且均为,即,返回目录,中国人民大学六西格玛质量管理研究中心,用泊松分布近似二项分