抽样推断.docx_三一办公31ppt.com

资源描述

《抽样推断.docx》由会员分享，可在线阅读，更多相关《抽样推断.docx（19页珍藏版）》请在三一办公上搜索。

1、抽样推断第八章抽样推断通过本章的教学使学生了解抽样推断的概念及特点、作用；了解统计误差产生的原因；理解抽样误差的概念；熟念掌握在不同的抽样组织方式下抽样平均误差的计算方法；学会利用样本数据对总体参数进行点估计和区间估计；掌握必要抽样数目的确定方法。为将来走上工作岗位进行抽样调查和推断打下基础。重点：区间估计难点：抽样平均误差的计算某省*部门欲了解全省农民收入的平均水平。该省幅员辽阔，人口众多，如果采用普查则工作量及调查费用将异常庞大。一个可行的方法是在全省抽取部分农户进行调查，根据这部分调查所得收入数据资料去推断全省农民收入的平均水平。某地为加强环境保护，加强水质监测，考察河水中某

2、种污染物质是否超标。显然对河水全部检验是不可能的，只能从河水中按照一定地点定时取样检验，根据检验结果推断河水中污染物是否超标。某水泥厂加强产品质量控制和管理，需考察水泥标号是否达到规定标准，其方法是将水泥做成试块进行耐压试验。由于这种试验是一种破坏性试验，显然不能把全部水泥都做成试块，只能从全部水泥中抽取部分进行试验。从上面例子可以看出，在很多统计问题中，或者由于人力、物力、财力或时间限制，或者由于取得全部数据是不可能的，或者虽然能够取得全面数据但数据收集本身带有破坏性，我们不能收集全面数据，只能从中收集部分数据，依据这部分数据对所研究对象的数量特征或数量规律性进行推断。这种依据部分观测

3、取得的数据对整体的数量特征或数量规律性进行的推断称为统计推断。第一节抽样推断中的基本概念一、抽样推断及其特点抽样推断按照随机原则从总体中抽取部分单位进行观察，利用样本中的实际资料计算样本指标，并据以计算总体相应数量特征的一种统计分析方法。包括统计调查，即对个体单位进行观察与搜集资料的方法，还包括统计分析，即对总体进行统计估计和分析的方法。某企业生产的5000个零件中，按照10%的比例，抽取500件进行检查，发现25件是废品，则废品率为100%=5%，采用抽样调查的结果，废品率是5%，来推算5000个零件的废品率，该方法即是抽样推断，抽取的500个零件就是样本。抽样推断的特点 1.

4、按照随机原则抽取样本：总体中的各个单位是否入选样本，不受主观因素影响，保证总体中的每一单位都有相同的中选机会，剔除了人为主观因素，提高样本代表性。 2. 由样本数据推断总体特征：通过逻辑上的归纳推算实现了从特殊到一般，从部分到总体的认识，由获得的样本的实际数据，计算样本指标，推算总体指标。 3. 抽样误差可以估计：样本指标推断总体指标存在误差，这种误差可以事先估计，并能够控制这个误差范围。抽样推断根据事先给定的误差允许范围设计，具有一定概率保证的估计和判断。抽样推断的作用 1. 对不可能进行全面调查的又要了解的全面情况，用抽样方法，例如：灯泡寿命检查、人体验血、子弹质量检查等。 2. 不必

5、要进行全面调查的对象，用抽样方法。例如：全国大学生的心理状况调查、全国城乡居民收入调查等。 3. 应用抽样法可以对全面调查的结果加以补充或修正，例如：对普查的结果进行登记质量的抽样调查，修正结果等。 4. 用于生产过程中产品质量的检查与控制，例如：质量控制时一旦发现异常情况，可以及时采取措施，防止废品大量产生。二、抽样推断中的基本概念总体和样本 1. 总体总体亦称全及总体，指所要认识的研究对象全体，它是由所研究范围内具有某种共同属性的全体单位所组成的集合体。通常用N表示，N是很大的数。 2. 样本样本又称子样，也称样本总体，它是全及总体中随机抽取出来的，作为代表这一总体的那部分单位组成

6、的集合体。样本中所包含的单位数称为样本容量，通常用n表示，相对于N来讲n是很小的数。总体和样本，一个是整体，一个是部分，全及总体是我们的研究内容的对象，因此它是唯一的，确定的；而样本则是建立在随机基础上抽取出来的，所以每一次选样，都会选出不同的结果，所以它是变动的，不确定的。总体参数和统计量 1. 总体参数根据总体各单位的标志值或标志属性计算出来的对于总体中的数量标志，常用的总体参数有总体标准差d和总体平均数X，其计算公式如下： d=(X-X)N2=(X-X)F2FXX=XF/F N对于总体中的质量标志，常用的总体参数有总体成数和总体成数标准差来表示，总体成数某种性质的单位数在总体全部单

7、位数中所占的比重。即 p=(n1/n)，则总体中不具有某种性质的单位数在总体中所占的比重为：q=1-p 如果品质标志有是非两种标志，将是定义为“1”；非定义为“0”。成数的标准差的计算公式为： d=P(1-P) 2. 样本统计量根据样本各单位标志值或标志属性计算出来的，也称样本统计量样本统计量有：样本平均数x，样本标准差，样本成数p，样本成数标准差。样本统计量是用来估计总体参数的，内容和计算方式是与总体参数一致的，但本质不同，总体参数是直接总体的实际数据是唯一的，确定的，固定的。而统计量则是随着抽样的变化，样本的变化，其指标值也是处于不断的变化之中的。抽样误差的概念 1. 统计误差统

8、计工作的调查结果与实际情况的差别，抽样过程中，通常会产生两类误差：登记性误差与代表性误差。 2. 登记性误差在调查过程中，由于测量、登记、计算上的差错引起的误差，这类误差可以避免。 3. 代表性误差因样本的代表性不足所引起的误差，具备两种情况：抽样过程中，没有按照随机原则取样，存在人为的主观因素，破坏了随机原则所造成的误差，称为系统性误差，可以避免。抽样过程中严格按照随机原则取样，由于样本指标代替总体指标所引起的误差，无法避免，是按照随机原则产生的，成为随机误差。通常抽样误差就是随机误差。抽样误差由于随机抽样的偶然因素所引起的，样本指标与总体指标之间的绝对离差即：平均指标的抽样误

9、差为：x-X 成数指标的抽样误差为： p -P 第二节抽样组织方式、方法和抽样误差的计算一、抽样的组织方式根据统计研究的目的和研究对象的特点，抽样调查可以采用不同的组织方式，在统计实践中，抽样调查的组织方式主要有以下四种，实际调查所用的方法通常可以是这四种方法的各种形式的组合。简单随机抽样简单随机抽样也称为单纯随机抽样。从包含N个抽样单元的总体中抽取容量为n的简单随机样本，可以是从总体中逐个不放回地抽取n次，每次都是在尚未入样的单元中等概率抽取的，也可以是从总体中一次取得全部n个单元，只要保证全部可能的样本每个被抽到的概率都相等即可。简单随机抽样是其他抽样方法的基础，因为它在理论上

10、最容易处理，并且当总体包含的抽样单元数N不太大时实施并不困难。但是当N很大时实施就很困难，主要是编制一个包含全部N个抽样单元的抽样框通常很不容易。另外当N很大时所抽到的样本单元往往很分散，使调查极不方便。因此在大规模的抽样调查中很少单独采用简单随机抽样。类型抽样类型抽样又成为分层抽样，将总体按照某一标志进行分组，在各组中按照随机原则抽取样本单位的组织方式。通过分类，把总体中标志值比较接近的单位归为一组，使各组单位之间的差异程度缩小，分布比较均匀。在各组中都要抽取样本单位，这样使样本分布更加接近于总体分布，提高样本的代表性，当总体各个单位差异较大时，采用类型抽样可以大大提高估计的精度。类

11、型抽样将总体按照某一标志进行分组，各组的单位数一般是不相同的，样本单位数在各组之间的分配一般有两种方法： 1. 按照比例抽取样本数目，不考虑各组标志变异程度的大小，按各组的单位数占总体的的比重抽取样本数目。 2. 各组抽取的样本数目，按照各组标志变异程度来确定，变异程度大多抽一点，变异程度小少抽一点。等距抽样等距抽样又称机械抽样，它先将总体各单位按某一标志排队，然后以相等的间隔抽取样本单位的一种组织方式。整群抽样整群抽样是将总体各个单位划分为若干群，然后以群为单位从中随机抽取一些群，对选中群所有单位进行全面调查的抽样组织方式，整群抽样采用不重复抽样。二、抽样方法 1. 重复抽样抽出一

12、个单位，登记结果，又重新放回，参加下一次抽选，抽取的样本可能值为N n 2. 不重复抽样每次抽取一个单位就不再放回参加下一次抽选，其抽取的全部可能的样本个数为pNn 三、抽样误差的分类及计算影响抽样误差的因素 1.样本的单位数：其他条件不变的情况下，样本数越多，抽样误差越小，反之，抽样误差越大。 2.总体各单位标志值的差异程度：差异程度越大，抽样误差越大，反之，越小。 3.抽样方法：重复抽样误差大于不重复抽样的抽样误差。 4.抽样调查组织形式：相对而言，类型抽样和等距抽样误差小一些。抽样平均误差反映抽样误差一般水平的指标，通常用抽样平均数的标准差或抽样成数的标准差来作为衡量误差一般水平的

13、尺度 1. 抽样平均数的平均误差在重复抽样条件下，抽样平均数的平均误差，即： ux=dn(2) 在不重复条件下，平均误差为：ux=2. 抽样成数的平均误差重复抽样条件下 up=dnN-nN-1dnp(1-p)=nN-n(2)不重复抽样条件下up=dnN-1 ( d=p(1-p) ) 3. 重复抽样和不重复抽样条件下抽样平均误差的区别。从上面的计算公式可看到，在其他条件相同的情况下，重复抽样和不重复抽样仅差一个修正因子的平方根抽样极限误差样本指标与总体指标之间可允许的误差最大范围称为极限误差，或者说，是统计量与参数离差的最大范围，即： Dx= x-X D p = p -P 可以变形为：

14、x-XDxx-DxXx+Dx Dpp-DpPp+Dp p-P公式中，总体平均数和总体成数是未知的，需要我们用样本指标去估计，抽样极限误差的实际意义在于期望总体平均数X落在范围内，总体成数P落在范围内。抽样误差的概率度与置信度 1. 概率度概率度是以抽样平均误差为标准单位来衡量抽样极限误差而的到的相对数。用极限误差除以平均误差所得到的反映相对误差程度的相对数t，称为抽样误差的概率度。即： Dxt=u t=Dpxup Dx=tuxDp=tup t的含义：表示误差范围为抽样平均误差的t倍，t是测量估计可靠程度的一个参数。 2. 置信度抽样误差是一个随机变量，随机变量的取值总是与一定的概率P相联

15、系，抽样估计时，我们可以设置一个误差可能范围，但要使抽样调查结果一定符合误差在这个极限误差范围内，却并非能够实现。所以要保证误差不超过这个范围的，只能给一定程度的概率保证程度。抽样估计置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度，称之为置信概率或置信度，是一个关于概率度t的函数。一般在其它条件不变情况下，概率P与极限误差D关系如下：规定的D越大，抽样的把握程度越大；反之，规定的D越小，抽样的把握程度越小；即 P与D之间是正方向变化。以某县几个村的小麦产量来估计全县的小麦产量，如果设误差最大值D1=100斤，D2=50斤，得、两个区间。第一个区间的可能程度应大于第

16、二区间的可能程度，因为它实际上包括了第二个区间的可能性。由于D=tu，所以P与D之间的函数关系也就是P与t、u之间的函数关系，根据样本资料，u作为平均误差，可以计算出来，是一个常数，这样，P的值就依赖于t数值的确定了，由此可以得到P=F即抽样的置信度可以表示成抽样误差概率度的一个函数，也就是说，P与t值可以互相确定，知道t值就可以求出P值，反之亦然。根据查正态分布概率分布表 t=1 F(t)=P=68.27% t=2 F(t)=F(2)=P=95.45% t=3 F(t)=F(3)=P=99.73% t=1.64 F(t)=90% t=1.96 F(t)=95% 四、抽样估计方法总体参数

17、的估计就是用样本指标来估计总体指标，通常用样本平均数估计总体平均数，用样本成数估计总体成数，两种基本方法：点估计与区间估计点估计点估计又称定值估计，直接用样本指标来估计总体指标的方法。用样本平均数x作为总体平均数X的估计值，用样本成数p作为总体成数P的估计值。即：x=X区间估计 1.含义 p = P 总体参数的区间估计，利用实际抽样资料，根据要求给出一个区间，用这个区间表明总体参数可能存在的范围，并同时指出这个估计的可靠程度，其中该区间称为总体参数的置信区间，可靠程度称为置信度用F(t)表示。总体平均数的置信区间：x-DxXx+Dx 总体成数的置信区间：p-Dp P p+Dp 总体参数

18、的区间估计必须具备三个基本要素：估计值：x p 误差范围：Dx Dp 概率保证程度：F 抽样极限误差决定估计的精确性，置信概率决定估计的可靠性。 2. 区间估计的一般步骤：置信概率来计算抽样误差范围进而估计总体指标的范围检查即：已知F，求区间 x、p根据样本资料，求求ux、up步骤:F(t)已知，则可知t值利用D=tu,求出D作区间估计某学校进行了一次英语测验，为了了解学生情况，随机抽选部分学生进行调查，所得资料如下：考试成绩 60以下 6070 7080 8090 90100 学生人数 10 20 22 40 8 x 55 65 75 85 95 xf 550 1300 1650

19、3400 760 (x-x)f 24665.6 2691.2 56.32 2822.4 2708.48 100 7660 12944 试以95.45%的可靠性估计该校学生英语考试的平均成绩的范围，以及该校学生成绩在80分以上的学生所占比重范围：解：该校学生考试的平均成绩的范围： x=合计 xff=76601002=76.6 d=(x-x)fdn=f=12944100=11.377 ux=11.377100=1.1377 F=95.45% t=2 Dx=tux=21.1377=2.2754 该校学生考试的平均成绩区间范围是： x-DxXx+Dx 76.6-2.2754X76.6+2.2754

20、74.32X78.88 该校学生成绩在80分以上的学生所占比重范围： p=n1n2=48100=48% up=p(1-p)n=0.48(1-0.48)100=0.04996 Dp=tup=20.04996=0.09992 全校80分以上的学生所占的比重范围为：下限=p-Dp=0.48-0.09992=0.3801 上限=p+Dp=0.48+0.9992=0.5799 所以在95.45%概率保证程度下，该校学生成绩在80分以上的比重范围在38.01%57.99%之间。给定的抽样误差范围计算置信概率，并进行区间估计即：已知D，求F x、p根据样本资料，求求ux、up步骤： D,求出t，求出F

21、据t=u并求出参数的区间范围某乡水道总面积2000亩，从中随机抽取40亩，每亩产量资料如下：每亩产量亩数 400450 450500 500550 550600 600650 650700 700750 750800 合计 10 20 50 110 100 60 30 20 400 x 425 475 525 575 625 675 725 775 xf 4250 9500 26250 63250 62500 40500 21750 15500 (x-x)2f 338560 359120 352800 127160 25600 261360 403680 551120 243500 241

22、9400 要求：极限误差不超过8斤，试估计全乡水稻单产和总产量，并指出到达这一要求的概率保证程度。解：计算样本平均数和标准差 x=xff=243500=609 4002 d=(x-x)fdnf=2419400400=77.77(斤) 计算抽样平均误差 ux=3.894(斤) Dx=8 t=2 F(t)=F(2)=95.45% 进行区间估计下限x-Dx=609-8=601 上限x+Dx=609+8=617 故以95.45%概率保证，该乡水稻平均亩产在601617斤之间，总产量在120.2万斤123.4万斤之间第三节样本单位数的确定一、确定样本单位数应考虑的因素确定抽样数目的必要性 1

23、. 认识允许有一定误差，在一定的允许误差的条件下，只需抽取一定的样本单位。抽取数过多，会造成浪费，抽取数过少，会使误差增大。 2. 抽样数目是影响抽样误差的重要因素。通过增加或减少抽样数目的方法可以控制抽样误差的大小。影响抽样数目的因素 1. 标志变异程度：变异程度较大，考虑多抽取一些，反之，少抽一些。 2. 抽样极限误差的大小：抽样极限误差小时，抽样单位数增多，反之，可少些。 3. 概率度的大小：概率度增加时要求可靠程度增高，抽样数要增多，反之，可少些。 4. 抽样组织方式和抽样方法：一般情况下，类型抽样与等距抽样比简单随机抽样和整群抽样检查的样本单位数少；不重复抽样比重复抽样少。二、样

24、本单位数的计算根据平均数抽样极限误差确定样本单位数重复抽样下：n=td222Dx 不重复抽样下：n=Ntd22222NDx+td根据成数抽样极限误差确定样本单位数重复抽样下： n=ma/2P(1-P)Dpma/2P(1-P)(Dp)N+ma/2P(1-P)22222不重复抽样下： n= U = t 从某年级学生中按简单随机抽样方式抽取40名学生，对公共理论课的考试成绩进行检查，得知其平均分数为78.75分，样本标准差为12.13分。试以95.45%的概率保证程度推断全年级学生考试成绩的区间范围。如果其它条件不变，将允许误差缩小一半，应抽取多少名学生。解：据题意知：n=40 x=78.75 d=12.13 F(t)=95.45% t=2 (1)ux=dn=12.1340=1.92 Dx=tux=21.92=3.84 全年级学生考试成绩的区间范围为： x-DxXx+Dx 78.75-3.84X78.75+3.84 74.91X82.59 将误差缩小一半，则应抽取的学生数为 n=td(Dx222=)22(12.13)(3.842)222=160(人)

展开阅读全文