项目九抽样推断总体的区间估计和样本容量的确定.ppt

资源描述

《项目九抽样推断总体的区间估计和样本容量的确定.ppt》由会员分享，可在线阅读，更多相关《项目九抽样推断总体的区间估计和样本容量的确定.ppt（75页珍藏版）》请在三一办公上搜索。

1、,项目九抽样推断总体的区间估计和样本容量的确定,统计学课件,教学目的与要求,通过本项目学习，了解抽样推断的概念、特点和作用；掌握抽样误差和样本容量的计算；熟练掌握区间估计；能够确定必要的样本容量。,教学重点与难点,本项目主要任务,抽样推断的一般问题,1,抽样误差,2,抽样估计,3,必要样本容量的确定,4,获取总体指标数值的两种途径,总体指标数值,全面调查,抽样调查,导例啤酒质量的判断,啤酒是人们的主要饮品，那么啤酒质量如何？为维护消费者权益并引导其选购，质检部门必须对啤酒进行质量评价。这种检查可有两种方法：一是对每一瓶啤酒进行全面检查；二是抽样推断，即随机抽取若干瓶进行检查，以此来推断啤酒质

2、量情况。,全面调查可以准确反映研究对象的数值特征，但需投入大量人财物和时间；而现实中还有许多事物不能或不适合进行全面调查，如瓶装啤酒及包装食品等的质量检查，带有破坏性。有些即使没有破坏性也不适合全面调查，如居民收入及支出调查、体检（抽血）等。,推断人类的智慧,推断是对事物认识、科学试验、社会调查中常用的方法，目的是通过局部推断整体。,吕氏春秋察今说:“有道之士,贵以近知远,以今知古,以所见知所不见。故审堂下之阴,而知日月之行,阴阳之变;见瓶水之冰,而知天下之寒,鱼鳖之藏也;尝一脔肉,而知一镬之味,一鼎之调。”,尝一脔肉,当知一鼎之调;观一落叶,应晓秋之将至,琳琅满目的包装食品饮料的质量

3、检查？,任务一理解抽样推断的概念特点了解抽样推断的基本形式,抽样推断是以概率论和数理统计为理论基础，按照随机原则从调查对象总体中抽取部分单位形成样本，用样本指标对总体指标进行推断的一种统计方法。,一、抽样推断的概念,抽样推断基本流程图,研究总体,随机原则,样本,计算样本平均数样本成数抽样误差,在一定可靠程度下对总体指标进行区间估计,二、抽样推断的特点,为什么要遵守随机原则？,1.随机原则要求总体中各个单位具有同等可能的抽中机会，这样样本分布与总体分布就比较一致。从而保证被抽中的样本对总体具有良好的代表性；,2.排除了人的主观意志的影响。避免系统性误差（偏差）产生的可能性；,3.只有遵守随

4、机原则，才能运用数理统计原理计算抽样误差、确定估计推断的可靠性。,三、抽样推断的作用,降低调查成本，比全面调查节约人财物和时间；对无法进行全面调查或没必要进行全面调查的现象可采用抽样推断；抽样推断可对普查结果进行检查和修正；抽样推断可以用于工业生产过程的质量控制；利用抽样推断可以对某些总体的假设进行检验。,四.抽样推断中的基本概念,（一）总体和样本总体(全及总体)是指要推断的研究对象全部单位组成的整体。总体单位数用N 表示。样本(抽样总体)是指从总体中随机抽取的那部分单位的集合体。样本单位数（样本容量）用 n 表示。n30为大样本，n30为小样本。注意：在研究目的确定的情况下，总体是唯一确

5、定的。样本是随机的。,总体的唯一性和样本的随机性,总体N,样本1,样本2,样本3,样本4,样本,（二）总体指标和样本指标,总体指标（总体参数、估计量）是反映总体数量特征的指标。总体指标的数值是唯一确定的，但却是未知的。样本指标(统计量)是根据样本各单位标志表现计算的，用于推断总体指标。样本指标的数值不是唯一确定的，它是一个随机变量。其数值随样本的不同而不同。,总体指标,样本指标,（三）抽样方法,1.重置抽样（重复抽样）从总体中每次抽取一个单位进行观察，登记后再放回总体中参加下一次抽样，直至抽取n 个单位。重置抽样的特点:n次抽取相互独立，互不影响；每次抽取总体单位数保持不变；总体单位在

6、各次抽样中被抽中的概率相同；总体单位有被重复抽中的可能。,（三）抽样方法（续1）,2.不重置抽样（不重复抽样）从总体中每次抽取一个单位进行观察，登记后不再放回总体中，依此直至抽取n 个单位。不重置抽样的特点：n次抽取实质上等于一次同时抽取n个单位；n次抽取相互不独立；总体单位在各次被抽中的概率不同；总体单位不会被重复抽中。,（三）抽样方法（续2）,重置抽样和不重置抽样，二者造成误差大小是不一样的。但当样本单位数只占总体单位数的一个很小比例时，二者事实上差别不大。因此，此时重置（复）抽样结果可当不重置（复）抽样结果。对带有破坏性的推断不适合重置抽样。,五、抽样推断的组织形式,纯随机抽样简单随机抽

7、样纯随机抽样是对总体所有单位，在抽取样本前不进行任何的分组、排队，完全按纯随机原则抽取一定的单位进行调查，别无其它限制性措施存在。抽样推断原理就是以纯随机抽样为基础阐述的，它是最简单、最基本的抽样组织形式。纯随机抽样适用于均匀总体且单位数较少的情况。,纯随机抽样简单随机抽样,纯随机抽样的具体做法主要有摇号法、抽签法和随机数表法。最初人们是先把个体编号。做这件事是用一个封闭的容器，其中有大小质地一样的分别标有09的10个球，使用的是这种机械装置。现在，一般计算机上都配有产生这种“随机数”的程序，可以在瞬间完成这个抽样过程。在日常应用中也可以使用随机数表来进行。在实践中，根据情况和目的不同，对简单

8、随机抽样方式常常会做些变更。,类型抽样分层抽样,类型抽样是先将总体按某个主要标志进行分组，再从各组中按纯随机抽样方式抽取样本单位。,类型抽样分层抽样（续1）,类型抽样适用总体内部差异较大的抽样。能使样本结构趋于总体结构，提高样本代表性，从而改善抽样效果。实施类型抽样的前提：能找到正确的分类依据，则分类确能够提高样本代表性。若分类依据选择不当，则分类对提高样本代表性无益。分类抽样的思想实质：分类的目的是控制偶然性的影响以提高样本的代表性。,类型抽样分层抽样（续2）,等数分配：当各组规模相当时分配相同单位数。等比例分配：按照各类型组的单位数占总体单位数的比例来确定从各类中抽取的样本单位数。不等

9、比例分配（最优分配比例抽样）：在划分的各类型差异较大时用该法决定在各类型中抽取的样本单位数。单位数多、差异大的组，多抽；单位数少、差异小的组，少抽。采用这种方法从各类中抽取的样本单位数为：,整群抽样集团抽样,简单随机化抽样方法，从统计学的观点来看是一个健全的方法，但在具体工作中，要严格按此实行，则比较困难。尤其是在规模很大的问题中，困难倒不在于如何实行这个抽样程序，而是在于总体中个体可能很分散，因而抽出的样本也可能很分散，这样，在以后对抽出的个体进行调查时，就会带来很大的工作量。因此，在实际工作中，往往不能不在基本遵循随机原则的考虑下，做适当变通。其中一种常用的变通方法是整群抽样又称集团抽样

10、。,整群抽样集团抽样（续1）,整群抽样是先将总体(N)分为若干(R)群，再按随机抽样方法抽取一部分(r)群，对抽中群的所有单位(M)进行全面调查。,整群抽样集团抽样（续2）,整群抽样中“群”的划分要满足两个条件：一是不重，群与群之间没有单位重叠；二是不漏，每个单位都必须属于某一个群。整群抽样的特点是易于组织和较节省费用，但调查的单位过于集中在少数样本群中，样本代表性较低。这是为方便工作而付出的代价。整群抽样的抽样误差只受群间方差而不受群内方差影响，因此群的划分，要尽量缩小群间差异，加大群内差异。整群抽样目的不是为了改善样本的代表性，相反，其与简单随机抽样相比，样本代表性还要差些。可通过扩大样本

11、群数目来弥补缺点。,等距抽样机械抽样,等距抽样是先将总体单位按某一标志顺序排队，再按固定顺序和相等距离(间隔k)抽取样本单位。按无关标志排序，抽样的随机性与纯随机抽样基本相同（如学号，门牌号等）。按有关标志排序，类似于类型抽样，只不过分类更细、组数更多，每个组（段）内只抽取一个样本单位而已。（如职称从高到低排列之后进行抽样）。等距抽样可使样本单位均匀分布于总体，抽样误差较小。其随机性主要体现在第一个单位的确定上。,任务二理解抽样误差的概念掌握抽样误差的计算,主要内容,抽样平均误差,抽样极限误差,一、抽样误差的概念,抽样误差是指样本指标与总体指标的偏差。即使排除人为因素造成的误差，因采用抽样

12、仍不可避免的误差。用抽样指标来估计总体指标，总要发生误差，两者完全相等的情况几乎不可能，问题是对这个误差要有一个科学的判断。抽样误差的计算就成为是抽样推断的关键问题。,二、抽样平均误差,抽样平均误差(续1）,抽样平均误差是指所有可能样本的样本指标与总体指标的平均离差。由于标准差是反映平均离差程度的重要指标。因此，通常用抽样平均数的标准差或抽样成数的标准差作为衡量其抽样误差一般水平的尺度。其理论公式为：,抽样平均误差(续2）,1.重复抽样条件下,2.不重复抽样条件下,抽样平均误差(续3）,1.重复抽样条件下,2.不重复抽样条件下,抽样（平均）误差的影响因素,总体方差,样本容量n,抽样方法,抽样

13、组织形式,影响因素,抽样平均误差(续4）,若抽样比很小时，则修正系数(1-n/N)接近于1。在不重复抽样时，可采用重复抽样的计算公式，对平均误差影响不大。实际工作中，即使采用不重复抽样方法也往往采用重复抽样公式计算抽样平均误差。抽样平均误差的基本公式可概括为：,三、抽样极限误差,抽样误差是个随机变量，不能期望总体平均数（或成数）落在一定区间内是个必然事件。因此，在抽样估计时，不但要考虑抽样误差的可能范围有多大，还必须考虑落在这个范围的概率有多大，前者是估计的精确度问题，后者是估计的可靠性问题，两者紧密联系不可分开。样本指标与总体指标之间的最大可能误差有多大，总体指标落在这个范围的可能性又

14、有多大？理论证明，直接用抽样平均误差对总体指标推断的可靠性只有68.27%，可靠性既低又不能满足不同研究对象对不同可靠程度的要求。这就需要研究与抽样可靠程度紧密联系的极限误差问题。,抽样极限误差（续1）,抽样极限误差是在一定的概率保证程度下，用样本指标对总体指标进行估计时的最大可能误差。,抽样极限误差的计算公式,抽样极限误差以抽样平均误差为标准来衡量。它是t倍的抽样平均误差。t为概率度，表示抽样极限误差为抽样平均误差的若干倍，其对应的概率即为总体指标落在一定区间的可能性。其计算公式为：,常用概率度与置信概率,正态分布概率表（摘录),F(t)表明样本指标与总体指标之间最大误差不超过的概率。,

15、样本指标置信概率示意图,置信度、精确性与概率度的关系,置信概率（可靠性或把握程度）、精确性与概率度有关。三者的关系是:可靠性概率度t 极限误差精确度大大大小小小小大可靠性与精确性是一对矛盾，二者不可兼得。在实际处理时要二者兼顾。,【课堂思考】,对某个学生年龄做三种推断。请对这三种推断进行评价？第一种推断 20岁（可靠程度为30%）第二种推断 10-30岁之间（可靠程度为100%）第三种推断 19-21岁之间（可靠程度为95%）第一种是不带误差的推断，精确性达到100%，但可靠性很低，此种推断只顾及精确性而忽视了可靠性；第二种正好相反，可靠性达了100%，但误差太大，精确性太

16、低，此种推断只顾及可靠性而忽视了精确性；第三种推断，该推断的可靠性只有95%，既没第三种推断可靠，也没第一种推断精确，但兼顾了精确性和可靠性要求。,区域大小与目标点位的关系图,抽样极限误差的计算方法,1.平均数的抽样极限误差,2.成数的抽样极限误差,抽样极限误差的计算实例,【例】某保险公司从10000名投保人中纯随机抽取了200名，得知平均年龄为36.5岁，年龄标准差为8.2岁。若要求推断的可靠程度为99.73%，则推断全部投保人平均年龄时的最大允许误差为多少？,抽样极限误差的计算实例（续）,1.重复抽样时：,2.不重复抽样时：,任务三了解抽样估计的类型掌握区间估计的方法,抽样估计的特点,

17、抽样估计的优良标准,抽样估计的方法,一.抽样估计的特点,抽样估计(参数估计)：用样本指标推断总体指标。,抽样估计的特点：在逻辑上运用归纳推理而不用演绎推理。在方法上运用概率估计法而不用数学分析法。估计的结论有一定的抽样误差，误差大小与概率保证程度有关。,抽样估计的基本指标,1,2,3,二、抽样估计的优良标准,抽样估计的优良标准有以下三个：无偏性。样本指标的平均数应等于总体指标值。即样本平均数（或成数）的平均数等于总体平均数（或成数）,一致性。当样本单位数充分大时，抽样指标应充分靠近总体指标。有效性。优良估计量的方差应比其它估计量的方差小。,三、抽样估计的方法,（一）点估计点估计是直接用样

18、本指标代替总体指标。若样本数据有足够代表性，则根据样本资料计算样本指标值，可以作为总体指标的估计值。该法简便易行，原理直观，也是有科学依据的。它适用于要求不高，不考虑抽样误差也能满足需要的判断和分析。,二、区间估计概率估计,区间估计是在一定的把握程度要求下，用样本指标推断总体指标所在的区间范围（或置信区间）。区间估计三要素：估计值、误差范围和置信度.,总体平均数的估计区间,总体成数估计区间,区间估计之总量指标的估计,在总体平均数的区间估计或总体成数的区间估计的基础上，用区间的上限和下限分别乘以总体单位数即可得到总体总量指标的区间范围。,区间估计基本步骤,区间估计之计算实例,某市城调队组织专

19、项调查以了解该市职工的月收入状况，采用简单随机重复抽样方法，从本市20万名职工中随机抽取100名调查其月收入情况，要求在95.45%的概率保证程度下：对全市职工月人均收入进行区间估计；对全市职工月收入总额进行区间估计；对全市职工人均月收入在3000元以上人数所占比重进行区间估计；估计该市月收入3000元以上职工总人数范围。,区间估计之计算实例（续1）,某市职工月收入样本资料及计算表,区间估计之计算实例（续2）,解：1.样本平均数,2.职工月人均收入的样本方差,3.人均收入在3000元以上职工所占比重,4.抽样极限误差,区间估计之计算实例（续3）,5.区间估计,职工平均月收入的置信区间,

20、职工总的月收入额的置信区间,3008.4200000 M3511.6200000 即601680000M702320000,人均收入在3000元以上职工人数所占比重的置信区间,52%-9.9%P52%+9.9%即 42.1%P61.9%,人均收入在3000元以上的职工人数的置信区间,42.1%200000T61.9%200000 即 84200T138000,区间估计-课堂训练,现从某班200名学生中抽取10名同学，得知其英语成绩分别为58分、62分、70分、72分、75分、76分、80分、81分、86分和90分。要求以95.45%的可靠程度估计：（1）该班英语平均成绩的区间范围；（2）该班英

21、语及格率的区间范围。,任务四理解样本容量的涵义掌握样本容量的确定,必要样本容量问题的出现,依据样本指标对总体进行区间估计是在这样的前提下进行的：我们先确定了样本，并提出了估计的可靠性要求，而估计的精确性如何，误差有多大，却只有通过计算才能知道。如果误差很大，精确性很低，我们能否接受呢？在实践中，有的抽样推断既有可靠性的要求，同时又提出精确性的要求，也就是误差的最大范围不能超过多少。此时所涉及到的就是样本容量的确定问题了。,必要样本容量问题的出现（续1）,抽样推断提出可靠性和精确性要求，n是否越大越好？事实上，抽样调查是在费用限制下进行的。抽样推断的优越性也在于它根据很少的样本单位资

22、料对总体指标进行推断，抽样单位多则失去其特点，少则不能满足推断质量要求。此时，确定样本容量就是关键。,必要样本容量问题的出现（续2）,最大允许误差(精确性),概率度(可靠性),总体方差确定,请先看下面公式：,n应该多大？(必要样本容量),一、必要样本容量的概念,必要样本容量是指在一定可靠程度和最大允许误差的要求下，至少应该从总体中抽取的样本单位数。确定必要样本容量的原则是在满足要求的前提下尽量少抽取样本单位数目，做到既不浪费人力、物力和财力，又能取得较好的抽样推断效果。在抽样推断前，调查者一般要根据调查对象的特点和研究目的，提出两个要求：（1）最大允许误差（2）推断的可靠程度,二、必要样本容

23、量的计算公式,必要样本容量的计算公式，可由抽样极限误差的算式和抽样平均误差的算式推出。,（1）重复抽样时,（2）不重复抽样时,三、必要样本容量的主要影响因素,最大允许误差,推断的可靠性 F(t),抽样的组织形式,总体方差,抽样方法,必要样本容量的主要影响因素,四、确定样本容量时需注意的问题,（1）总体方差问题用历史资料替代，选大不选小。用样本方差替代（在无历史资料时）（2）平均数和成数估计时n不等问题若同时对平均数和成数的推断提出要求时，则选大不选小。（3）样本容量应为整数（小数只入不舍）,四、必要样本容量的计算实例,某电视机厂采用纯随机重复抽样的方法对一批电视机的平均寿命和合格率进行检

24、验，根据以往的数据，电视机使用寿命的标准差为1500小时，合格率在70%80%之间，若要求抽样推断的可靠程度为95%，平均寿命的抽样误差不超过120小时，合格率的误差不超过5%，试问应抽取多少台电视机进行检查？,解：当推断平均使用寿命时，应抽取的电视机台数为：,当推断产品合格率时，应抽取的电视机台数为：,抽样推断知识结构图,抽样推断,抽样误差,抽样推断一般问题,抽样估计方法,必要样本容量的确定,抽样推断概念特点作用抽样推断中的基本概念抽样组织形式,抽样误差的概念、影响因素抽样平均误差的概念及计算抽样极限误差的概念及计算,必要样本容量的确定样本容量的影响因素,抽样估计概念及特点点估计区间估计,

展开阅读全文