总体分布样本分布.ppt_三一办公31ppt.com

资源描述

《总体分布样本分布.ppt》由会员分享，可在线阅读，更多相关《总体分布样本分布.ppt（80页珍藏版）》请在三一办公上搜索。

1、管理统计学谢湘生广东工业大学管理学院,第5章总体分布、样本分布与参数估计,5.1 总体分布与样本分布,本章的总体(Population or Universe)是指研究对象的全体。并且先研究只有一个特征（指标或变量）的总体。这样表述总体特征的变量可以看成一个一维随机变量。,5.1.1 总体与总体分布,更准确地说，一维随机变量是指反映某总体特征取值，且具有如下特点的变量X：,（1）在同一条件下可以无限次重复取值；,（2）取值的结果可能有多个，但不确定；,（3）事先不知道取值结果(Outcome)。,因此，总体也可理解为一个随机变量取的值全体。,随机变量取值的概率分布，就称为总体分布。,一个随

2、机变量取给定值或属于一给定值集合的概率所确定的函数称为该随机变量的概率分布。概率分布反映的是随机变量所有可能取值的概率的分配方式。一旦与所有可能结果相联系的概率被确定，则概率分布完全确定。,X x1 x2 xn,P(X)p1 p2 pn,离散随机变量的概率分布。设X为取相异值x1,x2,xn,的离散随机变量，则函数,称为X的概率分布或概率分布函数(probability distribution function,PDF)，其中P(X=xi)为离散随机变量X取xi值的概率。,（1）离散随机变量的概率分布,例抛掷一个均匀的骰子，假设骰子的六个面分别标有数字1，2，3，4，5，6。用X标识骰子落

3、地后朝上一面的数字。则X是离散随机变量。其概率分布如下表所示,写成函数形式,（2）连续随机变量的概率密度函数,设X是连续随机变量，x是X取的值，若函数f(x)满足下列条件：,则称f(x)为X的概率密度函数(probability density function,PDF)，其中P(axb)表示X在区间(a,b取值的概率。有时也称下式定义的函数为X的概率分布函数：,连续型随机变量取给定值的概率为零。,（1）位于横轴的上方,（2）曲线与横轴围成的面积为1,（3）X在区间(a,b取值的概率等于该区间上的曲边梯形的面积,连续型随机变量在给定集合取值的概率分配方式由其概率密度完全确定。,5.1.2 随机

4、样本与样本观察值,从重复抽样的角度看“每次从某个总体X中随机抽取个体”可理解为一个随机实验。,随机样本：表征n次抽取个体的随机抽样的一组随机变量X1,X2,Xn.,样本观察值（样本数据）：n次随机抽样的结果：x1,x2,xn（称为随机变量X1,X2,Xn的样本观察值）。n称为样本容量。,注：x1,x2,xn也可以看成随机变量X的n次重复抽样的结果。,大写的英文字母：随机变量,小写的英文字母：随机变量的观察值,例抛掷一个均匀的骰子，假设骰子的六个面分别标有数字1，2，3，4，5，6。用X标识骰子落地后朝上一面的数字。则X是离散随机变量。,对该随机变量进行一次抽样，其实就是掷该骰子一次。,第i次

5、抽样，就是第i次掷骰子，其结果的表示：,易见，Xi其实就是X.当然这里要求各Xi是独立的.在理论上表述时常说成各Xi是iid的(即Independent Identically Distribution),5.1.3 样本分布函数,设x1,x2,xn是随机变量X的样本观察值，将它们按大小顺序排列，排序后为x1x2 xn,ki为小于xi+1的样本值出现的累积频次，n仍为样本容量，则可得到样本累积频率分布函数如下,样本累积频率分布函数又简称为样本（累积）分布函数，它是总体（累积）分布函数的近似，n越大，就越接近总体分布，如图。,对于有限总体，其累积概率分布函数不连续,是阶跃式的。样本的累积分布函数

6、也是阶跃式的。如图所示。,5.1.4 格利文科(Glivenko)定理（样本分布与总体分布的关系）,格利文科定理：当n趋于无穷大时，Fn(x)依概率1（关于x）均匀地收敛于总体分布F(x).,格利文科定理的数学表达如下：,格利文科定理是用样本特征推断总体特征的依据。,这表明当n充分大时，样本分布Fn(x)是总体分布F(x)的一个良好近似。,例如，利用格利文科定理可以证明：,5.1.5 随机样本的均值函数,对于随机样本X1,X2,Xn,定义样本的均值函数（简称为样本均值）为,由于式中Xi是随机样本（随机变量），因此作为随机样本函数的是随机变量,比较样本数据的均值,它可以看成是的观察值,5.1

7、.6 随机样本的方差函数,对于随机样本X1,X2,Xn,定义样本的方差函数（简称为样本方差）为,由于式中Xi是随机样本（随机变量），因此作为随机样本函数的S2是随机变量,比较样本数据的方差,它是S2的观察值,5.2 统计量与统计量的分布,统计量的定义,统计量是不含未知参数的、随机样本X1,X2,Xn的函数注意统计量是随机样本X1,X2,Xn的函数，因而也是随机变量,在上面定义的函数中将每个随机样本Xi用其观察值xi代替，计算的结果f(x1,x2,xn)称为统计量的值。也可以直接将f(x1,x2,xn)看成统计量的观察值。,5.2.2 由标准正态分布的随机样本所引出的几个重要统计量的分布,1.正

8、态分布与标准正态分布,设X服从均值为，方差为2正态分布，即 X N(,2)，则其分布密度函数为,特别地，当=0,2=1 时正态分布称为标准正态分布。,正态分布是一种最常见的分布。通常如果一个随机变量只受到大量小的独立因素的影响，则它服从正态分布。,正态分布有许多特点：例如它是对称的。正态变量大约有68%的可能性在离均值一个标准差的范围内取值；大约有95%的可能性在离均值1.96倍标准差的范围内取值。几乎不在离均值3倍标准差以外的地方取值。,68%,95%,99.7%,甲生考试成绩常常不及格，如果能够拿到一个60多分的成绩，都感到非常满意了。某日，老师发期中考卷，甲生拿到考卷后，看到成绩是80分

9、，喜出望外，心想这一次总算要扬眉吐气了，但是，只见老师在黑板上写下本次期中考试全班平均成绩是90分，标准差5分。见到这一结果，甲生还能高兴的起来吗？,对任何一个服从正态分布的随机变量X N(,2)，总可以将它变换为一个标准正态分布的随机变量，变换的方式为：,也就是，Z N(0,1)。,例如设XN(54,0.852),要计算P(X52)。则可以这样计算：,2.2(n)分布的构成,设X N(0,1),X1,X2,Xn是X的随机样本，则这些随机样本的平方和,服从自由度为n的2分布，即2 2(n),利用这一结果可以证明对于任何取自于均值为标准差为的正态分布的样本，其方差函数S2满足,2分布的均值为n

10、，方差为2n，其中n为自由度(df)。,3.t分布,自由度为n的t分布，记为t(n),是由标准正态分布N(0,1)和2(n)分布组成,其表达式为,其中X N(0,1),Y 2(n),且X与Y相互独立。,t分布的均值为0，方差为n/(n-2)。,3.F分布,F分布变量是由两个2变量之比组成的：,记为FF(n,m),其中U 2(n),V 2(m).对于 F(n,m)，n称为第一自由度（分子自由度），m称为第二自由度（分母自由度）。,5.2.3 由一般正态分布的随机样本所构成的若干重要统计量的分布,设随机变量X N(,2),X1,X2,Xn是X的随机样本，则,（1）,（2）,（3）,（4）,（5）,

11、其中是容量为n1的随机变量的样本方差；是容量为n2的随机变量的样本方差。,5.2.4 任意分布的随机样本均值函数的均值和方差,设随机变量X 的均值为,方差为2,而分布形式任意，X1,X2,Xn是X的随机样本，则,（1）,（2）,也就是任意随机变量的样本均值就等于总体均值；样本方差等于总体方差与样本容量的商,设X1,X2,Xn是X的随机样本，则它们之间相互独立，并且均值都为,方差都为2,于是,2.一个应用广泛的样本均值与方差：0-1分布的样本均值与方差,0-1分布反映总体中某类个体占的比例的随机变量X，可以简单地用0-1分布B(1,p)来表示，其中p就是总体中该类个体所占的比例。,例如

12、在某学生构成的总体中，少数民族占的比例是p,则从该总体中任选一个同学为少数民族的概率为p,而任选一个同学不是少数民族的概率为1-p。,0-1分布的均值为p，方差为p(1 p),从服从0-1分布的一个总体中随机地抽取n个样本X1,X2,Xn.记样本均值函数为则,5.2.5 大样本均值的分布：中心极限定理,设随机变量X 服从均值为,方差为2 的分布,X1,X2,Xn是X的随机样本，则有如下的中心极限定理。,中心极限定理(Central Limit Theorem)：当n充分大时，近似地有,一般地，当n30时，就可应用中心极限定理了。,或者近似地有,例一汽车蓄电池商声称其生产的电池具有均值为54

13、个月、标准差为6个月的寿命分布。现假设某消费者团体决定检验该厂的说法是否准确，为此购买了50个该厂的电池进行检验。,1）假定厂商的声称是正确的，试描述这50个电池平均寿命的抽样分布。,2）假定厂商声称正确，则50个样品组成的样本的平均寿命不超过52个月的寿命的概率是多少？,解 1）由中心极限定理，样本均值近似服从正态分布,即近似地,而,并且,故,2）按照上面得到的结果来计算这50个电池平均寿命不超过52个月的概率,这表明这50个电池平均寿命不超过52个月的概率非常小。因此这种情况应该不太可能出现。,如果出现该情况意味着什么？,前面已经计算得到P(X52)=0.0094,由于,所以,的证明,利用

14、上述结果与的结果能够得到,5.3 点估计,在解决实际问题时，常常需要用样本来推断总体分布的某些参数值，这就是所谓的参数估计。参数估计又分为点估计与区间估计。粗略地讲，点估计就是用样本的某一函数值，来估计总体分布中的未知参数。而区间估计就是（以一定概率）把总体分布的参数确定在由样本决定的某个区间内。,5.3.1 点估计的概念,设是总体分布中一个需要估计的参数。现在从总体中得到一个随机样本X1,X2,Xn，我们的目的是通过这一随机样本来估计参数。,的估计量通常是随机样本X1,X2,Xn的一个函数，记为,简记为,若能够得到一组样本观察值x1,x2,xn，则将它们代入上述函数，可以计算出的估计值,的估

15、计值也简记为。的点估计就是求的估计值,5.3.2 矩估计法,对总体而言，矩是指：,k阶原点矩,k阶中心矩（中心为）,对样本而言,一阶原点矩,二阶中心矩,矩估计法就是用样本矩来估计总体的相应矩。,例如通常,用来估计,用来估计,并且称这样得到的估计量为矩估计量。,5.3.3 极大似然估计法,引例设甲乙两个盒子外形完全相同，甲盒中装有90个白球10个黑球，乙盒中装有90个黑球10个白球。今随机地抽取一个盒子并从中抽取一球，结果抽到白球，问这球是从哪个盒子中抽取的？,从甲盒中抽取一球是白球的概率p1=9/10,从乙盒中抽取一球是白球的概率p2=1/10,p1远大于p2，因此我们推断这球是从甲盒中

16、取出。,这个推断我们依据的是所谓极大似然原理：如果进行一次随机实验，结果是若干个可能后果中的某一个出现了，则可以认为实验的条件有利于该后果的出现，即该后果出现的概率最大。,更一般地，如果用一个参数来表示不同的盒子，即,现在随机抽取一个盒子，然后随机独立有放回地抽取5次，每次抽取一个球。如果结果是黑、白、白、白、黑。问等于0还是等于1？,对于甲盒，得到这样结果的概率,对于乙盒，得到这样结果的概率,由于p1大于p2，因此我们推断=0。,也就是，是使联合概率达到最大的数。,将上述问题抽象化。设X是一个随机变量，其概率密度函数为。又设X1,X2,Xn是X的随机样本，则记联合密度函数为,称为的极大似然函

17、数。,若得到一组样本观察值x1,x2,xn，则代入L后得到一个关于的函数。如果存在使函数L取最大值。则称该为的极大似然估计值。而称,为的极大似然估计量。,5.3.4 示例,例5.3.1 设随机变量X 服从均值为,方差为2 的正态分布,X1,X2,Xn是X的随机样本，求和2的极大似然估计量。,首先由前面的讨论可知极大似然函数为,对L取极大值等价于对L的对数取极大值，而,因此在L取对数后，再分别计算关于和2的偏导数，并令偏导数为零，解得和2的估计量（极大似然估计量）分别为,2的极大似然估计量要小于其矩估计量,一个实例：EAI管理人员,Electronics Associates公司（EAI）的

18、人事主管正在制定一项公司2500名管理人员的简报。其中包括管理人员的平均年薪和公司中已完成公司管理培训项目的管理人员所占比例。,总体：EAI的2500名管理人员,实际上可以根据公司档案获得有关总体参数：,总体年薪的均值与标准差：=51800，=4000,完成培训的管理人员所占比例：p=0.6,现在考虑如果不用总体全部2500人的数据,而是使用一个样本可以节约时间和成本，人事主管应该如何估计总体的有关参数,假定管理人员抽取了一个有名管理人员构成的随机样本有关数据如下表,由样本估计的年薪的均值与方差,由样本估计的参加培训人员的比例,5.4 判断点估计量的优劣标准,5.4.1 无偏估计量,设为的估

19、计量。如果则称为的无偏估计量。,无偏的分布,有偏的分布,对于正态总体，可以证明,总体均值的样本矩估计量（同时也是极大似然估计量）是无偏的。,总体方差的样本矩估计量S2是无偏的，但是极大似然估计量是有偏的。,5.4.2 最小方差性,在获得的参数估计量中,人们总是希望估计量的方差尽可能小.这样估计误差的分布范围才比较小,的分布函数,的分布函数,在对两个估计量进行比较时，若一个估计量的方差小于另一个估计量的方差，我们也常说，前者更有效。,5.4.3 有效估计量,设X是一均值为，方差为2的随机变量，并且X1,X2,Xn是来自于X的随机样本，试比较如下两个估计量的有效性：,（1）（2）,解首先易知

20、,并且,利用初等不等式,可得,故比有效.,5.4.4 渐近无偏估计量,5.4.5 一致估计量,一致估计量的另一种等价的定义是：,（1）是渐近无偏的；,（2）,其中（2）中的极限采用下式计算,极限符号后面的称为渐近方差，而通常计算方差时，直接用下面的表达,5.4.6 渐近有效性,渐近有效性的定义：一个估计量是渐近有效的，如果（1）这个估计量是一致估计量（2）这个估计量有着比“其他方法得到的估计量”有更小的渐近方差,通常判别点估计量优劣的准则,小样本准则无偏性有效性大样本准则一致性,可以证明下列估计量是具有较好统计性质的估计量,总体均值的矩估计量,总体方差2的矩估计量,总体方差2的极大似然估计

21、量,总体比例p的估计量样本比例,总体构成比例的估计,常常可能会关注总体中某一类特定对象占的比例p。对于这样的问题，可以采用如下的方式处理。,在总体中任取一个个体，用一个变量X来描述所抽取的对象是否属于所关注的对象这一事件，即,X=,1，若抽得的是所关注的对象,0，若抽得的不是所关注的对象,于是，该总体可以用服从0-1分布的随机变量X B(1,p)描述，其中p表示所关注的对象在总体中占的比例。,对于0-1分布B(1,p)，其数学期望值与方差分别为：,p,p(1 p),设X1,X2,Xn是来自于总体X的一个随机样本，并且在这一样本中我们所关注的对象恰好出现了n1次。那么,即样本的均值恰好等于样本的

22、比例。由此可见，可用样本比例来估计总体比例p。此外，由中心极限定理，当样本容量充分大时，样本的均值函数近似地服从正态分布，也就是近似地有：,5.5 区间估计,5.5.1 置信区间,若总体分布含一个未知参数,如果找出了2个依赖样本X1,X2,Xn的估计量：,使得,其中0 1，则称随机区间为的(1)（或100(1)%)的置信区间；1（或百分数100(1)%）称为置信度或置信水平；称为显著性水平，通常取为0.05或0.01。,5.5.2 已知总体方差求总体均值的置信区间,例设总体X服从N(,0.09),抽取了4个样本观察值x1,x2,x3,x4,求总体均值的95%的置信区间。,首先,因此,注意

23、到N(0,1)是一个对称分布。现在来确定k，使得,2.5%的面积,95%的面积,k,利用书末的附表一，可以查得k=z0.025=1.96。于是下面的不等式成立的概率为0.95,这等价于,将z0.025=1.96代入上式，即得到所需要的置信区间,一般地，已知总体方差时均值置信区间的表达式,5.5.3 未知总体方差求总体均值的置信区间,设，抽取了一组样本观察值x1,x2,xn,求总体均值的1-置信区间。这里总体的方差2是未知的。,首先由有,记是自由度为n-1 的t分布对应着显著性水平的临界值。则,从而可得置信区间为,例为检查北京市中学生的身体状况，抽取了由16名男高中生的构成一个随机样本。设计

24、算出样本的平均身高为174cm，标准差为5cm。求北京市男高中生平均身高的95%的置信区间。,解首先可以算出,再根据/2=(1 0.95)/2=0.025,以及自由度n 1=15查p376的t分布表得,代入置信区间的计算公式得,即所求置信区间为(171.3356,176.6644)。换言之根据样本我们有95%的把握说北京市男高中生的平均身高在171.3356cm176.6644cm之间。,点估计中用无偏性与有效性来评价估计量的好坏，在区间估计中是用置信度和精度来衡量估计量的优劣。以的置信区间为例，公式,样本容量的确定,表示一个以为中心，以为半径的区间。通过t/2可知当置信度（1-）增大

25、，t/2增大，区间长度增大（精度降低）。当样本容量n增大，缩小，区间长度缩小（精度提高）。可见追求置信度和精度是矛盾的。,通常作法是，在控制一定的置信度条件下，用加大n的办法提高精度。由于n的加大会直接导致人力、物力、财力的支出加大，所以实际工作中只取满足精度的那个尽可能小的样本容量即可。这里称置信区间半径为允许误差限（极限误差），整理之后得,但是上式并不适合作为样本容量的估计（为什么？）所以常常先估计出总体的方差，然后再应用已知总体方差置信区间表达式得到如下的样本容量的相应表达式,例：某地区有40,000农户，想通过抽样方法了解一下，每户农民春小麦的平均播种面积，从历史资料看=8.5亩比较

26、合适。若给定（1-）=0.95，若给定所求平均播种面积的允许误差不超出0.5亩，求抽样时样本容量应选多大？,样本容量不应小于1 111户,注意：当n为小数时，应进位向上取整数。,5.5.4 未知总体均值求总体方差的置信区间,对正态分布，在未知总体均值的情况下，要求总体方差置信水平为1-的置信区间。,首先注意到,因此对给定的置信水平1-，可以求临界值,使得,从而可求得总体方差置信水平为1-的置信区间为,其中,分别是截断分布左右两边面积各为/2的临界值。,于是,用样本比例估计总体比例，,总体比例的区间估计(补充),设总体比例为 p，,则当 np 和 n(1-p)都大于10时，,样本比例近似服从均值为 p，,方差为 p(1-p)/n 的正态,分布。,从而,对给定的置信度1-，,由,可得总体比例 p 的置信度,为 1-的置信区间为,案例思考题,国外民意调查机构在进行民意调查时，通常要求在95%的置信度下将调查的允许误差(极限误差，即置信区间的 d 值)控制在3%以内。问为满足该调查精度要求，至少需要多大的样本？如果要求置信度达到99%，调查误差仍为3%，此时至少需要多大的样本？,案例思考题解答(1),本案例中，,故需要的样本容量至少为,案例思考题解答(2),如果要求置信度达到99%，则Z/2=Z0.005=2.575，,5.6 SPSS在参数估计中的应用,见教材和课堂演示,

展开阅读全文