《区间估计在抽样调查中的应用.docx》由会员分享,可在线阅读,更多相关《区间估计在抽样调查中的应用.docx(20页珍藏版)》请在三一办公上搜索。
1、区间估计在抽样调查中的应用区间估计在抽样调查中的应用 摘要:区间估计是抽样推断中一种非常重要的方法,通过对“区间估计在抽样调查中的应用”的研究,可使我们更加熟练的掌握“区间估计”的应用方法。本文在解释了区间估计与抽样调查概念,提出了提高区间估计精确性的方法和措施,并结合实例分析了区间估计在抽样调查中的应用规律及变化特点。 关键词:抽样调查 区间估计 应用 区间估计是抽样推断中一种非常重要的方法,并广泛用于抽样调查之中。如何科学的运用“区间估计”,“区间估计”的规律和特点是什么,如何提高“区间估计”的精确度和置信度等等问题都需要我们来研究和分析。从而能在抽样推断中更加科学规范的应用置信区间,进一
2、步提高抽样推断的科学性和准确性。 一、 预备知识及基本概念 抽样调查: 抽样调查是一种非全面调查,它是从全部调查研究对象中,按照随机的原则抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法。抽样调查区别于其他各种类型的非全面性调查,一是抽样原则是随机性原则:二是要以样本信息对总体信息进行估计推断。凡进行统计推断就一定会产生抽样误差,这种误差是不可避免的,但是是可以计算和控制的。 抽样推断: 抽样推断是在抽样调查的基础上根据所得到样本的实际资料计算样本指标值,并根据研究对象的样本指标对总体指标作出估计和推断的一种统计方法。 抽样推断包括两部分内容,即参数估计和假设检验,
3、而参数估计又包含两个方面,即点估计与区间估计。区间估计是实际生活中用途较为广泛的一种抽样估计的方法。 区间估计: 区间估计就是在一定概率的保证下,用样本指标来推断总体的未知参数,在考虑抽样误差的前提下将总体的未知参数限制在某一范围内的方法。具体来说他表现=q(x,x,x)及了这样一种思想:对于参数q,如果有两个统计量q1112n=qqq)=1-a,则称(x,x,x),对于给定的a(0,1),满足条件p(qq212212n,q是q的置信概率为1-a的区间估计。其中q,q称为q的1-a置信区间,q12121-a称为置信区间的置信水平。 置信区间:若反复抽样多次,每一组样本值确定一个区间(q1,q2
4、),每个这样的区间要么包含q的真值,要么不包含q的真值。在这么多的区间中,包含q真值的约占100(1-a)%,不包含q真值的约仅占100a%。 置信区间的长度表示估计结果的精确性,而置信水平表示估计结果的可靠性。 抽样分布: c2分布:设统计量X1,X2,Xn相互独立且同服从于标准正态分布N(0,1),则称统计量 2 c2=X12+X22 1 +Xn所服从的分布为自由度为n的c2分布,记作c2c2(n),这里自由度n表示11中独立变量的个数。 t分布:设XN(0,1),Yc2(n),且X与Y相互独立,则称统计量 T=X Y/n服从自由度为n的t分布,记Tt(n)。 F分布:设Xc2(n1),Y
5、c2(n2),且X与Y相互独立,则称统计量 F=X/n1 Y/n2服从自由度为n1,n2的F分布,记为FF(n1,n2),其中n1称为第一自由度,n2称为第二自由度。 二、正态总体下区间估计的理论应用 1、对m的区间估计 s2已知时,m的置信区间 我们知道X是m的无偏估计,且有统计量上的a分位点的定义,有 X-mN(0,1) 。由标准正态分布s/nX-mPza/2=1-a s/n即 PX-snza/2mX+sza/2=1-a n这样,我们就得到了m的一个置信水平为1-a的置信区间 ssX-z,X+z a/2a/2 nn而置信区间通常可以写成 sza/2 Xn例1. 从某厂生产的滚珠中随机抽取1
6、0个,测得滚珠的直径如下: 14.6 15.0 14.7 15.1 14.9 14.8 15.0 15.1 15.2 14.8 若滚珠直径服从正态分布N(m,s2),并且已知s=0.16,求滚珠直径均值m的置信水平为95%的置信区间。 解 计算样本均值x=14.92,置信水平1-a=0.95,a=0.05,查表得za/2=z区间为 0.025=1.96。由此得m的置信水平为95%的置信s0.16za/2=14.921.96 Xn10即 (14.92-0.099, 14.92+0.099)=(14.821, 15.019) 从中我们可以看出,在置信水平为95%的保证下,该厂所生产的滚珠的直径处于
7、(14.821, 15.019)之间,他们都基本围绕在样本均值x=14.92mm的左右。在一定的误差可行域内可认为他们都是合格的。 例2.某乡农民在联产承包责任制前,人均纯收入XN(m,s2),s=25。推行联产承包责任制后,在该乡抽取n=16的样本,算得x=325元,求m的95%的置信区间。 解由样本数据算得x=21.4,置信水平1-a=0.95,a=0.05,查表得za/2=z0.025。由此得m的置信水平为95%的置信区间为 =1.96s25za/2=3251.96 Xn16即 (325-12.25, 325+12.25)=(312.75, 337.25) 从中我们可以看出,在置信水平为
8、95%的保证下,该乡农民的收入基本介于(元)之间。 s2未知时,m的置信区间 sXz此时不能使用因为其中包a/2,n含了未知参数s。将上述区间中的s换成S=S2。我们已知统计量得 X-mt(n-1),可S/nX-mP-ta/2(n-1)ta/2(n-1)=1-a S/n即 SSPX-ta/2(n-1)mX+ta/2(n-1)=1-a nn于是得到m的一个置信水平为1-a的置信区间 Sta/2(n-1) Xn例3. 从某厂生产的滚珠中随机抽取10个,测得滚珠的直径如下:14.6 15.0 14.7 15.1 14.9 14.8 15.0 15.1 15.2 14.8 若滚珠直径服从正态分布N(m
9、,s2),求滚珠直径均值m的置信水平为95%的置信区间。 解 计算样本均值x=14.92,样本标准差s=0.193;置信水平1-a=0.95,a=0.05,自由度n-1=10-1=9,查表得ta/2(n-1)=t0.025(9)=2.26。 由此得m的置信水平为95%的置信区间为 XS0.193ta/2(n-1)=14.922.26 n10即 (14.92-0.138,14.92+0.138)=(14.782,15.058) 从中我们可以看出,在置信水平为95%的保证下,该厂所生产的滚珠的直径处于(14.782,15.058)之间,但是他的精确性和例1是不一样的。 例4. 从某中学高一男生中抽
10、取9人,其身高(m)如下: 1.70 1.63 1.78 1.55 1.59 1.74 1.72 1.64 1.60 若身高X服从正态分布N(m,s2),试估计该校高一男生平均身高的范围。(a=0.05) 19a解:由样本数据算得x=xi=1.66,S=0.073,自由度f=8及=0.025可29i=1以查得ta=2.306,于是a的95%的置信区间为 2(1.6622.3062.073)=(1.60,1.72) 8从中我们可以看出,在置信水平为95%的保证下,该中学高一男生的身高基本处于之间。 2. 对s2的区间估计 m已知时,s2的置信区间 已知1s2(Xi=1ni-m)2c2(n) 但是
11、c2分布的概率密度图形不是对称的,对于已给的置信水平1-a,要想找到最短的置信区间是困难的。因此,习惯上仍然取对称2的分位点c12-a/2和ca/2可得 1n222 Pc1-a/2(n)2(Xi-m)ca/2(n)=1-a si=1即 n(Xi-m)2 Pi=12s2ca/2(n)2(X-m)ii=1=1-a 2c1-a/2(n)n于是得到方差s2的一个置信水平为1-a的置信区间 n2(Xi-m) i=12, c(n)a/22(X-m)ii=1 2c1-a/2(n)n例5. 从某厂生产的滚珠中随机抽取10个,测得滚珠的直径如下: 14.6 15.0 14.7 15.1 14.9 14.8 15
12、.0 15.1 15.2 14.8 若滚珠直径服从正态分布N(m,s2),若已知m=14.9,求滚珠直径方差s2的置信水平为95%的置信区间。 解 已知m=14.9,置信水平1-a=0.95,a=0.05,自由度n=10,查表得2222ca/2(n)=c0.025(10)=20.5,c1-a/2(n)=c0.975(10)=3.25。 则方差s2的置信水平为95%的置信区间为 nn2(Xi-m)2(Xi-m) i=12, i=12c1-a/2(n)ca/2(n)10102(xi-14.9)2(xi-14.9)=i=1, i=120.53.25即 0.340.34 , =(0.0166, 0.1
13、046) 20.53.25由于方差反应的是数据的离散程度,该题反应方差在95%的置信水平保证下处于(0.0166, 0.1046)之间。 例6.从某中学教师中随机抽取9人,得知他们的工资如下: 1.8 2.6 2.0 2.1 1.8 2.3 2.1 2.2 2.5 若教师工资服从正态分布N(m,s2),若已知m=2.2,求教师工资方差s2的置信水平为95%的置信区间。 解 已知m=2.2,置信水平1-a=0.95,a=0.05,自由度n=9,查表得2222ca/2(n)=c0.025(10)=19,c1-a/2(n)=c0.975(10)=2.7。 则方差s2的置信水平为95%的置信区间为 n
14、10n102222(X-m)(X-m)(x-2.2)(x-2.2)iiiii=1i=1i=1i=1=即 , , 22c1-a/2(n)192.7ca/2(n)0.510.51 , =(0.0268, 0.1889) 192.7m未知时,s2的置信区间 s2的无偏估计为S2,且统计量(n-1S2)2c12-a/2和cac2n(-。1选取分位点)/2则可以s2得到: 2(n-1)S22Pc1-a/2(n-1)ca/2(n-1)=1-a 2s即 2(n-1)S2(n-1)S2s2 P2=1-a c1-a/2(n-1)ca/2(n-1)于是得到方差s2的一个置信水平为1-a的置信区间 (n-1)S2(
15、n-1)S2, 2 2 ca/2(n-1)c1-a/2(n-1)由此,我们还可以得到标准差s的一个置信水平为1-a的置信区间 (n-1)S2(n-1)S(n-1)S2(n-1)S , 2, = 222ca/2(n-1)c1-a/2(n-1)c1-a/2(n-1)ca/2(n-1)在实际问题中,对s2做估计的时候,一般均是m未知的情况。因此,我们重点掌握m未知条件下求s2的置信区间问题。 例7. 从某厂生产的滚珠中随机抽取10个,测得滚珠的直径如下: 14.6 15.0 14.7 15.1 14.9 14.8 15.0 15.1 15.2 14.8 若滚珠直径服从正态分布N(m,s2),求滚珠直
16、径方差s2的置信水平为95%的置信区间。 解 m未知,计算样本方差s2=0.0373,置信水平1-a=0.95,a=0.05,自由2222度n-1=9,查表可得ca/2(n-1)=c0.025(9)=19.0,c1-a/2(n-1)=c0.975(9)=2.70。 则方差s2的置信水平为95%的置信区间为 (n-1)S2(n-1)S290.037390.0373, 2, 2= 2.70ca/2(n-1)c1-a/2(n-1)19.0即 (0.0177,0.1243) 例8.某厂生产的零件重量XN(m,s2),今从这批零件中随机抽取9个,测得其重量为 21.1 21.3 21.4 21.5 21
17、.3 21.7 21.4 21.3 21.6 试在置信度0.95下,求s的置信区间。 1n 解:计算样本方差S=(xi-x)2=0.0289,置信水平1-a=0.95,n-1i=12a=0.05,自由度n-1=8,查表可得c1-a/2=2.18,ca/2=17.535,故s2的0.95的置信区间为 nn2(xi-x)2(xi-x) i=1, i=122caca1-22220.26010.2601=, 17.5352.18即 (0.0148,0.1193) 则s的0.95的置信区间为 即 三、区间估计在抽样调查中应用的变化特点: 例9. 已知灯泡寿命的标准差s=50小时,抽出25个灯泡检验的平均
18、寿命x=1500小时,试以95%可靠性对灯泡的平均寿命进行区间估计。 解 因为x=1500,置信水平1-a=0.95,a=0.05,查表得za/2=z0.025=1.96。置信水平为95%的置信区间为 s50Xz=15001.96 a/2 n25即 (1500-19.6, 1500+19.6)=(1480.4, 1519.6) 例10. 对于题例9,如果我们以90%的可靠性对灯泡的平均寿命进行区间估计结果又会如何呢? 解 因为x=1500,置信水平1-a=0.9,a=0.1,查表得za/2=z0.05=1.645。置信水平为90%的置信区间为 Xs50za/2=15001.645 n25即 (
19、1500-16.45, 1500+16.45)=(1483.55, 1516.45) 那我们从上面两个题的对比中我们可以发现。由于置信区间的长度表示估计结果的精确性,而置信水平表示估计结果的可靠性。对于置信水平为1-a的置信区间(q1,q2),置信水平1-a越大,得到灯泡寿命的可靠性越高,但是得到灯泡寿命的精确性就要降低。而置信区间(q1,q2)的长度越小,即估计的精确性越好的时候,得到灯泡寿命的可靠性就会降低。所以说这两方面通常是矛盾的,提高可靠性通常会使精确性下降,而提高精确性通常会使可靠性下降。 例11. 对于题例9,如果我们抽取49个灯泡检验,那么对灯泡的平均寿命进行区间估计结果又会如
20、何呢? 解 因为x=1500,置信水平1-a=0.95,a=0.05,查表得za/2=z0.025=1.96。置信水平为95%的置信区间为 (Xsnza/2)=(1500501.96) 49即 我们通过对于例9和例11的比较可以发现,随着抽样样本数目的增加,计算得到的置信区间越小,即精确度越大。我们知道精确度和可靠性是相互矛盾的,但是这里可靠性并没有跟随着精确度的增大而减小。那么说明,增加抽样样本的容量可以增强区间估计的精确度。 四、结束语 本文通过对“区间估计在抽样调查中的应用”的研究,使我对区间估计有了很好的认识并更加熟练的掌握了区间估计的有关知识。特别是本文涉及了抽样推断理论,从而使我对
21、抽样调查、抽样推断及区间估计之间的关系有了深刻的认识。 通过对区间估计的研究我们可以发现,影响区间估计的因素有精确度和可靠度,由于置信区间的长度表示估计结果的精确性,而置信水平表示估计结果的可靠性,而影响精确度和可靠度的因素较多,我只对他们之间的相互影响及抽样样本容量对他们的影响做了分析。通过对比研究我们发现要增加区间估计的精确度可以通过减小区间的长度来获得,但是减小区间的长度却降低了区间估计的可靠性,而增加抽样的样本容量同样可以提高区间估计的精确度却不影响可靠度。所以在抽样调查时应尽可能的增加抽样的个体数目以提高区间估计的可靠性。 总述 区间估计是抽样推断中一种非常重要的方法,并广泛用于抽样
22、调查之中。通过对“区间估计在抽样调查中的应用”的研究,可使我们更加熟练的掌握“区间估计”的应用方法,更进一步的理解和把握“区间估计”的规律和特点,更加有效的提高抽样推断的科学性和准确性。该论文主要从区间估计的一般理论出发,具体描述了区间估计在现实中的应用,最后从影响区间估计的几个因素出发,提出了增加区间估计可靠度和精确度的措施。 通过对该论文的研究,使我学会了论文研究的基本方法与具体步骤,给我在以后的论文写作打下了很好的基础。对我以后的工作及生活有着深远影响。 参考文献 1刘新平 贺瑞缠.概率论与数理统计.西北大学出版社M,2006 2龚玉荣.应用统计学.中国铁道出版社M,2000 3袁卫 庞
23、皓 曾伍一.统计学.高等教育出版社M,2000 4李洁明 祁新娥.统计学原理.复旦大学出版M,2003 5刘新平.概率论.西北大学出版社M,2001 6胡细宝.王丽霞.概率论与数理统计.北京邮电大学出版社M,2004 Application of Interval estimation to the sampling survey Gao Gongdong Abstract: Interval estimation is a very important method in the Sampling inference,through studythe Application of Inter
24、val estimation to the sampling survey , we will acquire more skilled about the application method of interval estimation. This paper explaine the concept of interval estimation and sample survey, and put forward methods and measures to improve the accuracy of interval estimation,and combine the examples to analysis the application laws and the change characteristics about the interval estimation in sampling survey. Keywords: Sampling survey Interval estimation Application