数学统计基础及数据处理.ppt

上传人:仙人指路1688 文档编号:2942611 上传时间:2023-03-05 格式:PPT 页数:33 大小:1.78MB
返回 下载 相关 举报
数学统计基础及数据处理.ppt_第1页
第1页 / 共33页
数学统计基础及数据处理.ppt_第2页
第2页 / 共33页
数学统计基础及数据处理.ppt_第3页
第3页 / 共33页
数学统计基础及数据处理.ppt_第4页
第4页 / 共33页
数学统计基础及数据处理.ppt_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《数学统计基础及数据处理.ppt》由会员分享,可在线阅读,更多相关《数学统计基础及数据处理.ppt(33页珍藏版)》请在三一办公上搜索。

1、学习目标,事件与概率随机变量及其分布几种常用分布统计基础知识,随机现象和随机事件,在一定条件下,并不总是出现相同结果的现象-随机现象(1)随机现象的结果至少有两个;(2)至于哪一个结果会出现,人们事先并不知道。随机现象一切可能发生的基本结果,称为样本点;随机现象一切可能样本点的全体,称为此随机现象的样本空间。随机现象是概率论和数理统计的基础。随机现象的某些样本点组成的集合称为随机事件,简称事件。如掷骰子时,“出现奇数点”为一个事件,它由1点,3点和5点共3个样本点组成。,随机事件的特征,1 任一事件A是相应样本空 间中的一个子集;2 事件A发生当且仅当A中 某一样本点发生;3 任一样本空间都有

2、一个 最大子集,即,它对 应的事件为必然事件;4 任一样本空间都有一个 最小子集,即,它对 应的事件为不可能事件;,A1,2,维恩(Venn)图,随机事件的关系,B,A,A,A,B,B,包含,互不相容,相等,随机事件的运算,A,A,A,A,B,B,B,A,对立事件,A与B的并,A与B的交,A与B的差,随机事件的概率,在一个随机现象中,用来表示任一随机事件的A发生可能性大小的实数-该事件的概率,记为P(A)。1)非负性:P(A)02)正则性:P()=13)可加性:A1,A2,An为互不相容事件,则有 P(A1 A2 An)=P(A1)+P(A2)+P(An)确定概率的古典方法(略)统计方法确定概

3、率的要点:1)与事件A有关的随机现象是允许大量重复试验的;2)在n次重复试验中,事件A发生An次,由A发生的频率为 Pn*(A)=Kn/n=事件A发生的次数重复试验次数3)Pn*(A)将会随重复试验次数不断增加而趋于稳定,此稳定值即为事件A的概率。,概率的性质,P(A)=1-P(A)P()=0 若AB,P(B-A)=P(B)-P(A)P(AB)=P(A)+P(B)P(AB)对任意两个事件A与B,有 P(AB)=P(A B)P(B)=P(B A)P(A)P(A B)指事件B已发生的条件下,事件A再发生的概率,称为条件概率。6 若两事件A与B相互独立,则A与B同时发生的概率为 P(AB)=P(A)

4、P(B)若两事件A与B相互独立,则在事件B发生的条件下,事件A的条件概率等于P(A)。独立事件:其中一个事件的发生不依赖另一个事件发生与否。,随机变量及其分布,用来表示随机现象结果的变量-随机变量,一般用X,Y,Z等表示,分为离散随机变量和连续随机变量。,X1 X2 X3 X4 X5,X,a b,X,离散随机变量的可能取值,连续随机变量的可能取值,随机变量的取值是随机的,但它有一定的规律性,这个规律性就是分布。分布包含两方面:(1)X可能取哪些值,或在哪个区间上取值;(2)X取这些值的概率各是多少,或X在任一区间上取值的概率是多少?,离散随机变量的分布,X,P,x1 x2 xn,p1 p2 p

5、n,连续随机变量的分布,分布的中心位置均值 xi pi X离散分布 E(X)=x p(x)在(a,b)区间的积分 X连续分布 分布的散布大小方差 xi-E(x)2 pi X离散分布 Var(x)xi-E(x)2 p(x)在(a,b)区间的积分 X连续分布,i,i,方差的开方即标准差!,方差比较,离均值E(X)近的值Xi发生的可能性大,远离均值E(X)的值Xi发生的可能性小,方差就小。,E(aX+b)=aE(x)+bVar(aX+b)=a2 Var(X)E(X1+X2)=E(X1)+E(X2)Var(X1X2)=E(X1)+E(X2),标准差不可以相加!,几种常用分布,二项分布,泊松分布,正态分

6、布,均匀分布,重复进行n次试验;n次试验间相互独立;每次试验仅有两个结果,如Pass/Fail,Go/NoGo,统称为成功/失败;每次试验中成功的概率均为p,失败的概率均为1-p;一般用于不合格品的统计。,E(X)=npVar(X)=np(1-p)(X)=np(1-p)的开方,制造过程中的不合格品率为0.1,从成品中随机取6个,恰有一个不合格品的概率是多少?不超过一个不合格品的概率是多少?,二项分布,二项分布的位置、散布和形状与样本数和不合格品率有关。,二项分布,泊松分布,泊松分布与计点过程相关,计点过程上在一定时间内或一定区域内或一特定单位内进行的。如出错率,缺陷率(DPO,DPU,DPMO

7、等),E(X)=Var(X)=(X)=的开方,表示某特定单位内的平均数;X表示某特定单位内出现的点数。,泊松分布,泊松分布的位置、散布和形状与均值有关。,p 0.1(10%)N足够大时泊松分布可看作是二项分布的近似,正态分布,很多自然现象和加工过程都服从正态或近似服从正态分布;例如加工零件的长度均值的变化是由于:温度飘移、湿度变化、振动、刀具角度变化、轴承磨损、刀具磨损、转动速度变化、夹具磨损、原材料改变等。如果这些变化很小且是独立的,正向和负向的变化趋势几乎相等,就可以近似看成正态分布。,为正态分布的均值,为正态分布的标准差.越大,分布越分散。,每个图中过程A和B有什么不同?,正态分布,U,

8、+,-,中值中位数众数,标准正态分布,正态分布的均值、中位数和众数相等,令Z=(X-)/N(0,1)得到标准正态分布(=0,=1),1.52,P(Z1.52)=(1.52)=0.9357,随机事件发生的概率!,P(Za)=1-(a)(-a)=1-(a)P(aZb)=(b)-(a)P(I ZI a)=2(a)-1,P(Xa)=1-(a-)/P(aXb)=(b-)/(a-)/,利用正态分布计算不合格品率,Point of Inflection,1s,+,-,68.27%,95.45%,99.73%,6的不合格品率,规格限 合格品率(%)不合格品率(DPPM)1 68.27 3173002 95.4

9、5 45500 3 99.73 27004 99.9937 635 99.999943 0.576 99.9999998 0.002,合格品率=P(I X-I k)=2(k)1不合格品率=P(I X-I k)=2 1-(k),中心极限定理,一个假设X1,X2,Xn为n个相互独立同分布的随机变量,即:X1,X2,Xn是n个相互独立的随机变量,如在生产线上随机取n个产品,它们的质量特性分别用X1,X2,Xn表示。X1,X2,Xn有相同的分布,且分布中所含的参数也都相同,如都为正态分布且都有相同的均值和相同方差2。,中心极限定理,设X1,X2,Xn为n个相互独立同分布的随机变量,假如其共同分布为正态

10、分布N(,2),则样本均值仍为正态分布,其均值不变仍为,而其方差缩小n倍,即Xbar的方差为2/n。设X1,X2,Xn为n个相互独立同分布的随机变量,其共同分布未知,但其均值和方差都存在,则在n较大时,其样本均值近似服从正态分布N(,2/n)。,平均值运算使人们从非正态分布获得正态分布!,统计基础知识,研究对象的全体总体构成总体的每个成员个体统计学的主要任务研究总体是什么分布?这个总体(即分布)的均值、方差是多少?,两正态分布混合而形成偏态总体!,要重视研究偏态分布产生的原因!,从总体中抽取部分个体所组成的集合样本;样本中的个体样品样品的个数样本量n样本应满足:1 随机性总体中每个个体均有机会

11、入样2 独立性从总体中抽取的每个样品对其他样本的抽取无任何影响,样本均值样本标准差,总体,样本,常用统计量,设x1,x2,xn 是从总体X中随机抽取的容量为n的样本,将它们的观测值从小到大排列,x1 x2 xn,即有序样本。,描述样本中心位置的统计量,均值 x=1/n xi,i=1,n,中位数 x=,x(n+1)/2 n 为偶数,x(n/2)+x(n+1)/2 n 为奇数,众数:数据中出现次数最多的数,可能不唯一,四分位数Q:有序样本约25%处的值为Q1,约75%处的值 为Q3,50%处的值Q2即中位数,均值与所有观测值相关,即所有值都会对均值产生影响;均值对极端值非常敏感,一个极端大的值会将

12、均值拉向自己一边;所有观测值与均值的差相加后为零!对分组数据而言,样本均值近似为 x=1/n fixi,其中k为分组数,xi是第i 组的组中值,fi是第i组的频数。中位数不受极大和极小值的影响!使用众数最典型的例子就是衬衫制造商使用S,M,L,XL等尺寸投放市场。当样本中有超过一个众数时,总体中也会有超过一个众数。,四分位数的计算,例:二十个数据按以下升序排列:204228252300324444624720816 912 1176 1296 1392 1488 1512 2520 2856 3192 3528 3710请确定Q1,Q2 和Q3。,描述样本分散程度的统计量,极差:R=xmax

13、xmin,方差:Var(x)=,标准差:,Inter-Quartile Range:IQR=Q3-Q1,对极值很敏感,对极值不敏感,n 1 为自由度,变异系数:Cv=s/x,测得上海至北京距离为1463Km,测量标准差为1Km,而测一张桌子的长度为1m,测量标准差为0.01m,谁的测量精度高?,几种抽样分布,正态样本均值Xbar的分布为正态分布N(,2/n),正态样本方差s2除以总体方差2的n-1倍的分布是自由度n-1的2分布,记为2(n-1),(n-1)s2/2=(xi-x)2/2 2(n-1),n,i=1,两个独立的正态样本方差之比的分布是F分布 1/(n-1)*(xi-x)2s12/s22=F(n-1,m-1)1/(m-1)*(yi-y)2,n,i=1,m,i=1,n-1 分子自由度,m-1 分母自由度,众数为(n-1)m/n(m+2),和F分布均为正半轴上的偏态分布,正态总体参数的无偏估计,正态均值的无偏估计:样本均值和样本中位数样本均值总比样本中位数更有效,因为n3时,Var()Var(),正态方差2的无偏估计:样本方差:,正态标准差的无偏估计:一个是对样本极差R进行修偏,另一个是对样本标准差进行修偏:R/d2=(Xmax-Xmin)/d2 SPC中极差图的应用 S/c4=/c4,S/c4比 R/d2更有效,无偏估计中最有效的!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号