统计学基础知识.ppt

上传人:李司机 文档编号:4104709 上传时间:2023-04-04 格式:PPT 页数:110 大小:9.05MB
返回 下载 相关 举报
统计学基础知识.ppt_第1页
第1页 / 共110页
统计学基础知识.ppt_第2页
第2页 / 共110页
统计学基础知识.ppt_第3页
第3页 / 共110页
统计学基础知识.ppt_第4页
第4页 / 共110页
统计学基础知识.ppt_第5页
第5页 / 共110页
点击查看更多>>
资源描述

《统计学基础知识.ppt》由会员分享,可在线阅读,更多相关《统计学基础知识.ppt(110页珍藏版)》请在三一办公上搜索。

1、第一章 概率统计基础知识(中级),第一节 概率基础知识,一、事件与概率,(一)随机现象,随机现象,在一定条件下,并不总是出现相同结果的现象。,特点,随机现象的结果至少有两个,至于哪一个出现,人们事先并不知道,样本点,认识一个随机现象,首要的是能罗列出它的一切可能发生的基本结果。这里的基本结果是今后的抽样单元即样本点。,样本空间:记为,随机现象可能样本点的全部称为这个随机现象的样本空间。,(二)随机事件,事件(随机事件):随机现象的某些样本点组 成的集合。用大写英文字 母A、B、C表示。,随机事件的特征,随机事件的关系,包含:AB或BA,在一个随机现象中有两个事件A与B,若事件A中任一个样本点必

2、在B中,则称A被包含在B中,或B包含A。,互不相容,在一个随机现象中有两个事件A与B,若事件A与B没有相同的样本点,则称A与B互不相容。,可推广到三个或更多个事件间的互不相容,相等:A=B即AB且BA,在一个随机现象中有两个事件A与B,若样本A与B含有相同的样本点,则称事件A与B相等。,例:A=(x,y):x+y=奇数,B=(x,y):x与y的奇偶性不同,则:,(三)事件的运算,事件运算,对立事件:A,在一个随机现象中,是样本空间,A为事件,则由在中而不在A中的样本点组成的事件称为A的对立事件,记。,事件A与B的并:AB,由事件A与B中所有样本点(相同的只计入一次)组成的新事件。称为A与B的并

3、,发生意味着“事件A与B至少一个发生”,事件A与B的交:A B或AB,由事件A与B中公共的样本点组成的新事件称为事件A与B的交。发生意味着“事件A与B同时发生”,事件的并和交可推广到更多个事件上去。,事件A对B的差:A-B,由在事件A中而不在B中的样本点组成的新事件,称为A对B的差。,(a)A-B,(b)A-B(),事件运算性质:,交换律:,,结合律:,分配律:,对偶律:,可用维恩图验证,可推广到三个或三个以上事件的运算。,(四)事件的概率,概率事件发生可能性大小的度量,在一个随机现象中,用来表示任一随机事件A发生可能性大小的实数称为该事件的概率,记为P(A)。,概率是一个介于0和1之间的数,

4、即0P(A)1;,必然事件的概率等于1,即P()=1;,不可能事件的概率等于0,即P()=0。,二、概率的古典定义与统计定义,(一)古典定义,所涉及的随机现象只有有限个样本点。如 共有n个样本点;每个样本点出现的可能性是相同的(等可 能性);假如被考察事件A含有K个样本点,则事件 A的概率定义为,(二)统计定义,与考察事件A有关的随机现象是可以大量 重复试验的;若在n次重复试验中,事件A发生Kn次,则 事件A发生的频率为:,fn(A)将会随着重复试验次数不断增加而趋 于稳定,这个频率的稳定值就是事件A的概 率。一般用重复次数n较大时的频率去近似 概率。,三、概率的性质及其运算法则,概率的性质:

5、(可由概率的定义看出),性质1:对任意事件A,有0P(A)1;,性质2:,性质3:若AB,则P(A-B)=P(A)-P(B),性质4:P(AB)=P(A)+P(B)-P(AB),若A与B互不相容P(AB)=P(A)+P(B),性质5:对于多个互不相容事件A1,A2,有P(A1A2A3)=P(A1)+P()+p(A3)+;,四、条件概率与概率的乘法法则,(1)条件概率,两个事件A与B,在事件B已发生的条件下,事件A再发生的概率称为条件概率,记P(A/B)。计算公式:,性质6:对任意二个事件A与B,有,(2)独立性和独立事件的概率,相互独立:,设有两个事件A与B,假如其中一个事件的发生不影响另一个

6、事件的发生与否,则称A事件与B事件相互独立。,性质7:,假如二个事件A与B相互独立,则A与B同时发生的概率为P(AB)=P(A)P(B),性质8:,假如二个事件A与B相互独立,则在事件B发生条件下,事件A的条件概率P(AB)等于事件A的(无条件)概率p(A),事件的相互独立可推广到三个或更多的事件 上去。,第二节 随机变量及其分布,一、随机变量,随机变量,用来表示随机现象结果的变量称为随机变量。常用大写字母X、Y、Z表示。,随机变量类型,离散随机变量,一个随机变量仅取数轴上有限个点或可列个点,则此随机变量为离散(型)随机变量。,连续随机变量,如一个随机变量的所有可能取值充满数轴上一个范围(a,

7、b)或整个数轴,则此随机变量为连续(型)随机变量。,二、随机变量的分布,随机变量的分布,随机变量取值的统计规律性。,随机变量X的分布内容:,X可能取哪些值或在哪个区间上取值,X取这些值的概率各是多少?或X在任一小区间上取值的概率是多少?,(一)离散随机变量的分布,离散随机变量的分布可用分布列表示(离散分布),分布列,或用数学式表达:,P(X=Xi)=pi i=1,2n(p1+pn=1),pi也称为分布的概率函数,(二)连续随机变量的分布,用概率密度函数表示(简称分布),条件:,p(x)0,概率密度函数p(x)的各种形式,位置不同,散布不同,形状不同,其中p(x)在x0点的值p(x)不是概率,是

8、高度。,注:纵轴原为“单位长度上的频率”,由频率的稳定性,可用概率代替频率,纵轴就成为“单位长度上的概率”即概率密度的概念,故最后形成的曲线称为概率密度曲线。,重要结论:,1X在区间(a,b)上取值的概率 p(aXb)为概率密度曲线以下区间(a,b)上的面积,即,P(ab)=,2.X在一点取值的概率为零,即,P(X=a)=0,故:P(axb)=P(axb),=P(aXb),=P(aXb),三、随机变量分布的均值、方差与标准差,均值:,用来表示分布的中心位置,用E(X)表示,方差:,用来表示分布的散布大小,用Var(x)表示,标准差:用表示,表示分布散布大小。,均值与方差的运算性质,对任意二个随

9、机变量X1和X2,有,E(X1+X2)=E(X1)+E(X2),设X为随机变量,a与b为任意常数,有,E(ax+b)=aE(x)+b,设X1与X2相互独立,(和的方差等于方差之和),这个性质可推广到三个或更多个相互独立 随机变量场合,方差的这个性质不能推广到标准差场合,对任意两个相互独立的随机变量X1与X2,(X1+X2)(X1)+(X2),而应为:,方差具有可加性,标准差不具有可加性。,四、常用分布,(一)常用的离散分布,二项分布,x=0,1,n,其中 表示从n个不同元素取出x个的组合数。,记为b(n,p),二项分布均值、方差和标准差,均值E(x)=np,方差:Var(x)=np(1-p),

10、标准差:,泊松分布:(常用于计点过程),x=0,1,2,,记为P(),其中e=2.71828,泊松分布均值、方差和标准差,均值:E(X)=,方差:,标准差:,超几何分布:(不放回抽样),x=1,2,r,式中r=min(n,M),M为N中所含不合格品数,n为样本量,记为h(n,N,M),超几何分布均值、方差、标准差,均值:,方差:,(二)连续型随机变量的分布,正态分布:能描述很多质量特性X随机取值 的统计规律性。,正态分布概率密度函数:,(-x+),正态分布含两个参数和,常记:N(,2)。其中为分布均值(即分布中心);2为分布方差;0为分布标准差。,正态分布概率密度函数图形分析,标准正态分布:=

11、0且=1的正态分布,称 为标准正态分布,记N(0,1),其变量记 为U,概率密度函数记为(u),标准正态分布表及其应用,标准正态分布表,可用于计算形如“Uu”随机事件发生的概率。,如:查附表得0.93575,标准正态分布N(0,1)的分位数,分位数(为01间实数),指它的左侧面积恰好为,右侧面积恰好为1-,即用概率表达,当=0.5时,称为中位数,N(0,1)分布中u0.50,0.5时,如=0.25则u0.25=-u0.75,查附表 u0.75=0.675,故u0.25=-0.675,正态分布的计算,性质1:设,则,性质2:设,则对任意实数a,b有,不合格品率,为产品质量特性X超出规范限(TL,

12、TU)的概率,X超出TU(上规范限)的概率记PU,pU=P(XTU),X超出TL(下规范限)的概率记PL,pL=P(XTL),X的不合格品率P=PU+PL,正态分布中心,计算不合格品率要知道两件事:,质量特性X的分布,在过程受控情况下,常为正态分布N(,2),产品规范限,是对产品质量特性所作的要求,这些要求可能是顾客要求;可能是标准;可能是企业规定的技术要求。,则:,其中 可查标准正态分布函数表,当正态分布中心=规范中心 时产品质量特性X超出规范3的不合格率,pL=P(x-3)=(-3)=1-(3),=1-0.99865=0.00135=1350PPm,pU=P(x+3)=1-(3),=0.0

13、0135=1350PPm,p=pL+pU=0.00135+0.00135=0.0027=2700PPm,(三)其他连续分布,均匀分布,在区间(a,b)上的均匀分布,记U(a、b),均值、方差、标准差,均值,方差,标准差,指数分布,记为,其中0。,均值,方差,标准差,对数正态分布(特点),随机变量都在正半轴(0,+)上取值,大量取值在左边,少量取值在右边,且很分散,这样的分布称之为右偏分布。(曲线的尾巴在右边),对数正态分布密度函数,正态分布的密度函数,最重要特征:,若随机变量X服从对数正态分布,则作对数变换 后,服从正态分布。,记正态分布的均值为,方差为,则相应的对数正态分布的均 与方差 分别

14、为,均值:,方差:,若X服从对数正态分布,则,五、中心极限定理,随机变量的独立性,随机变量X1与X2相互独立是指其中一个取什么值不影响另一个的取值,或者说是指两个随机变量独立的取值,互不影响。,随机变量的独立性可以推广到3个或更多个随机变量。,中心极限定理,在统计中,多个相互独立随机变量的平均值(仍然是一个随机变量)将服从或近似服从正态分布。,即n个相互独立同分布的随机变量X1,X2,Xn,均值和方差 都存在,则在n较大时,其样本均值 服从或近似服从正态分布N(,)。,第三节 统计基础知识,一、总体、个体与样本,(一)总体与个体,总体:在一个统计问题中,我们把研究对象的 全体成为总体。,当研究

15、产品某个特定的质量特性X时,也常把全体产品的特性看做为总体。,个体:构成总体的每个成员。,当研究产品的某个特定的质量特性X时,把一个具体产品的特性值x视为个体。,(二)随机样本,满足下面两个条件的样本称为简单随机样本,简称随机样本:,1.随机性。总体中每个个体都有相同的机会入样。,2.独立性。从总体中抽取的每个样品对其它 样本的的抽取无任何影响。,随机样本可看做n个相互独立的、同分布 的随机变量,其分布与总体分布相同。,下面所述的样本都是指满足这两个要求的 简单随机样本。,二、频数(频率)直方图,为了研究数据的变化规律,需要对数据进行一定的加工整理。直方图是为研究数据变化规律而对数据进行加工整

16、理的一种基本方法。,(一)直方图的作法,例1.3-3 食品厂用自动装罐机生产罐头食品,从一批罐头中随机抽取100个进行称量,获得罐头的净重数据如下:,为了解这组数据的分布规律,对数据做如下整理:,(1)找出这组数据中的最大值xmax及最小值xmin,计算它们的差R=xmax-xmin,R称为极差,也就是这组数据的取值范围。在本例中xmax=356,xmin=332,从而R=356-332=24。,(2)根据数据个数,即样本量n,决定分组数k及组距h。,一批数据究竟分多少组,通常根据n的多少而定,不过这也不是绝对的,教材中1.3-2是可以参考的分组数。,选择k的原则是要能显示出数据中所隐藏的规律

17、,组数不能过多,但也不能太少。,每一组的区间长度,称为组距。组距可以相等,也可以不相等。组距相等的情况用得比较多,不过也有不少情形在对应于数据最大及最小的一个或两个组,使用与其他组不相等的组距。对于完全相等的组距,通常取组距h为接近的某个整数值。,在本例中,n=100,取k=9,R/k=24/9=2.7,故取组距h=3。,(3)确定组限,即每个区间的端点及组中值。为了避免一个数据可能同时属于两个组,因此通常将各组的区间确定为左开右闭的:,通常要求 xmin,xmax。在等距分组时,而每一组的组中值,在本例中取=331.5,则每组的组限及组中值见表1.3-3。,(4)计算落在每组的数据的频数及频

18、率,确定分组后,统计每组的频数,即落在组中的数据个数以及频率,列出每组的频数、频率表,见表1.3-3。,频数、频率及累积频率表,表1.3-3,(5)作频数频率直方图,在横轴上标上每个组的组限,以每一组的区间为底,以频数(频率)为高画一个矩形,所得的图形称为频数(频率)直方图,如图1.3-4。在本例中频数直方图及频率直方图的形状是完全一致的。这是因为分组是等距的。,在分组不完全等距的情形,在作频率直方图时,应当用每一个组的频率与组距的比值/为高作矩形。此时以每个矩形的面积表示频率。,频数(频率)直方图,(二)直方图的观察与分析,a.对称型b.偏态型c.孤岛型d.锯齿型e.平顶型f.双峰型,三、统

19、计量与抽样分布,1统计量的概念,不含未知参数的样本函数,样本均值、样本中位数、样本极差、样本 方差、样本标准差及样本变异系数等都是 统计量,只有众数除外。,2抽样分布,统计量的分布称为抽样分布,(一)样本数据集中位置的统计量,(1)样本均值,(2)样本中位数Me(或),(3)众数(Mod),数据中出现频率最高的值。,(二)描述样本数据分散程度的统计量,(1)样本极差,(2)样本方差,因为n个离差()的总和为零,所以对于n个独立数据,独立的离差个数只有n-1个,称n-1为离差(或离差平方和)的自由度。故方差用离差平方和除以n-1。,简化计算公式:,或,(3)样本标准差,标准差的量纲与数据的量纲一

20、致,(4)样本变异系数,四、常用抽样分布,1 的分布,设X服从N(,),(x1,x2,xn)是由总体X中抽取的一个样本,则服从 N(,),(1)的精确分布,(2)的渐进分布,设X为任意分布,(x1,x2,xn)是由总体X中抽取一个样本,若,则当n时,近似服从 N(,)。,(3)分布,设X服从N(0,1),且设(x1,x2,xn)是由总体X中抽取的一个样本,则,服从自由度为n的 分布,记作(n)。,设X服从N(,),则,(3)t 分布,设随机变量X,Y相互独立,XN(0,1),Y(n)则 服从自由度为n的t分布记作tt(n),设XN(,),(x1,x2,xn)是由总体X中抽取的一个样本,则,设X

21、和Y相互独立,且XN(,),YN(,),(x1,x2,xn1)与(y1,y2,yn2)分别由总体X和Y中抽 取的样本,则,(4)F 分布,设X与Y相互独立,且X2(N1),Y2(N2)则 服从自由度为(N1,N2)的F 分布。记作 FF(N1,N2)。,设X和Y相互独立,X,Y,(x1,x2,xn)与(y1,y2,ym)分别由X 和Y中抽取的样本,则,F(n1,m1),当=时,则,正态分布,t 分布,分布,F分布,第四节 参数估计,一、点估计,1概念,设 是一个未知参数,由总体X中抽取的样本,则用 来估计,则称 为 的估计量(或称估计)。,2矩法估计,(1)用样本矩估计相应总体矩;,(2)用样

22、本矩的函数估计相应总体矩的函数。,例如用样本均值估计总体均值;用样本方差(标准差)来估计总体方差(标准差)。,3.点估计优劣的评选标准,(1)无偏性,设 是的一个估计量,若,则称 是的无偏估计。,(2)有效性,设 都是的无偏估计量,若对一切的可能取值有:,,且至少有一个,严格不等号成立,则 比 有效。,(3)正态总体参数的无偏估计,的无偏估计有两个,即 和。,的无偏估计常用的只有一个,即。,的无偏估计有两个,即 和,二、区间估计,(一)区间估计的概念,设是总体分布中的未知参数,其一切可能取值组成的参数空间为,从总体中抽取一个样本(x1,x2,xn),对给定的,确定两个统计量:与,对任意的 有,

23、则称L,u是的置信水平为 的置信区间。,1-置信区间的含义:,所构造的一个随机区间 能包含未知参数 的概率为1-。由于这个随机区间会随样本观察值的不同而不同,它有时包含了参数,有时没有包含,但是用这种方法作区间估计时,100次中大约有100(1-)个区间能包含未知参数。,(二)一个正态总体均值与方差的置信区间,(1)已知,求 的置信区间,的1-置信区间为:,(2)未知,求 的置信区间,(3)方差 的1-的置信区间(未知),(4)标准差 的1-的置信区间(未知),(三)比例p的置信区间(大样本场合),设总体,样本为x1,x2,xn,样本之和为K,样本均值为 则,(点估计),当n相当大时,故p的

24、置信区间。,其中 是标准正态分布的 分位数。,第五节 假设检验,基本思想,根据所获得的样本,运用统计分析的方法,对总体X的某种假设H0作出接受或拒绝的决定。,(二)基本步骤,1建立假设,H0称为原假设,H1称为备择假设,如关于均值 常用有三类假设:,H0:H1:,(3),(1),(2)称为单边假设检验,(3)称为双边假设检验,2寻找检验统计量T,确定拒绝域的形式 3给出显著性水平 4给出临界值,确定拒绝域 5根据样本观察值计算检验统计量的观察值,根据计算结果作出拒绝或接受H0的判断。,一个正态总体的假设检验,1.已知,检验H0:,H1:,(1)检验统计量,(2)给定,查标准正态分布函数值表定出

25、临界值,(3)由样本观察值计算出统计量u,(4)作出判定,当 接受H0,拒绝H0,接受H1,2.已知,检验H0:,H1:,(1)检验统计量,(2)给定,定出临界值,(3)由样本观察值计算出统计量,(4)判定,当 接受H0,拒绝H0,接收H1,3.已知,检验H0:,H1:,(1)检验统计量,(2)给定,定出临界值,(3)由样本观察值计算出统计量u,(4)判定,当 接受H0,拒绝H0,接受H1,4.未知,则用t检验法,把上述的统计量u换成t,即,对给定的,查t一分布表,确定临界值,然后作出接受或拒绝的判定。,5.未知,检验H0:,H1:,(1)检验统计量,(2)给定,查 分布表,定出临界值,和,(3)由样本观察值计算出统计量,当,接受H0,否则拒绝H0,接受H1。,三、有关比例p的假设检验,设Xb(1,p),x1,x2,xn由总体X抽取的一个样本,当n较大时,根据中心极限定理,近似服从正态分布,则,近似服从N(0,1),则可获得p的近似u检验。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号