第4章等概率整群抽样和多阶段抽样课件.ppt

资源描述

《第4章等概率整群抽样和多阶段抽样课件.ppt》由会员分享，可在线阅读，更多相关《第4章等概率整群抽样和多阶段抽样课件.ppt（53页珍藏版）》请在三一办公上搜索。

1、第4章等概率整群抽样和多阶段抽样,由若干有联系的基本单元所组成的集合称为群。抽样时抽取群，并对入选群的所有基本单元进行调查，这种方法就是整群抽样。当群规模比较大时，由于群内单元通常具有相似性，对群内单元进行再抽样，这就是两阶段抽样，其中的群也称为初级抽样单元，群内再抽样的单元称为二级抽样单元。,4.1.1 定义,2022/12/11,3,整群抽样（cluster sampling）是将总体划分为若干群，然后以群（cluster）为抽样单元，从总体中随机抽取一部分群，对被选群内的所有单元进行调查的一种抽样技术。,例,2022/12/11,4,欲估计某高校大学生拥有手机数量，大学共有40000名

2、学生，10000个宿舍（每个宿舍4名学生）。方案1（简单随机抽样）：采用简单随机抽样方法抽取400个学生；方案2（整群抽样）：根据学生宿舍名录抽取100个宿舍，并调查被抽宿舍的每一个学生；方案3（两阶段抽样）：先随机抽取400个宿舍，再在每个被抽中的宿舍中随机抽取1个学生。,4.1.2 整群抽样的特点,（1）抽样框编制得以简化（2）实施调查便利，节省费用（3）对某些特殊结构的总体却有好的估计效果（4）抽样误差较大(可通过增大样本量的方法弥补抽样精度的损失)。,大致可分为两类根据行政或地域形成的群体调查人员人为确定的分群的原则可用方差分析原理说明：群内差异尽可能大，群间差异尽可能小,4.1.3

3、群的划分,群的规模大，估计的精度差但费用省；群的规模小，估计的精度可以提高但费用增大；群规模不宜过大对于规模很大的群，通常需要采用多阶段抽样。有群规模相等与不相等两种情况,4.1.4 群的规模,4.1.5 符号说明,表 4.1,4.2 等概率整群抽样,4.2.1 群规模相等时的估计群规模相同，均为M，则的估计量为：,定理 4.1：是的无偏估计，即,定理 4.2：的方差为：,定理 4.3：的样本估计为：,总体总值的估计量及其方差,【例4.1】,在一次对某中学在校零花钱的调查中，以宿舍作为群进行整群抽样。每个宿舍都有M=6名学生。用简单随机抽样在全部N=315间宿舍中抽取n=8个宿舍。

4、全部48个学生上周每人的零花钱及相关计算数据如表4-2所示。试估计该学校学生平均每周的零花钱，并给出其95%的置信区间。,整群抽样的效率分析,群内相关系数表达式为：上式中的分子为：,上式中的分母为：,故又可写为：,用简单随机抽样方法抽取n个群，每个群内的M个单元全部进入样本，则等群抽样均值估计量的方差可用群内相关系数近似表示,简单随机抽样的方差公式为由此可计算出等群抽样的设计效应为,整群抽样的估计效率，与群内相关系数的关系密切。当时，deffM 当时，deff1 当为负时，deff1 的取值范围是,群内方差为,群内方差与总体方差相等,群间方差为,群内相关系数也可由样本统计量

5、估计【例4.2】,4.2.2 群规模不等时的估计,当群规模Mi不等时，有不同的抽取方法和估计方法。（1）等概抽样，无偏估计,思路：以群规模Mi为权数，乘以各群均值，得到群观察值总值yi，再将样本中n个群的群总和平均，求得群总和均值，再除以群平均规模,估计公式为：若未知，可用样本群平均规模代替,总体总值Y的估计为总量估计的另一公式为,估计量的方差为它的无偏估计为均值估计的方差为,（2）等概抽样，比率估计总体均值估计为这里辅助变量不是Xi而是群规模Mi总体总量估计为,估计量的方差分别是,与的样本估计分别是,若未知，可用样本群平均规模代替,【例4.3】某县有33个乡，726个村，该

6、年度某种作物总种植面积30525亩，现采用等概抽样随机抽出10个乡，要求估计全县总产量，计算抽样误差。调查资料如下：,样本乡编号,村庄数 Mi,作物总产量（乡） yi（万公斤）,种植面积（乡） xi（亩）,12345678910,15182614202821193117,22.022.830.221.725.331.226.020.533.823.6,800780100070088011008508001200830,1.46671.26671.16151.551.2651.11431.23811.0791.09031.3882,合计 209 257.1 8940 ,分别采用几种方法估计（1

7、）等概抽样，无偏估计,评价：虽是无偏估计量，但方差估计与之间的差异有关，适合于之间差异不大的整群抽样。,（2 ）等概抽样，比率估计,评价：比率估计量将作为辅助变量引入估计，其估计方差取决于群均值的差异。的差异比的差异要稳定，所以比率估计比前一种方法获得更好的估计效果。但比率估计量是有偏的，适合n比较大的情形。,（3）以种植面积为辅助变量的比率估计已知：种植面积X30525（亩）用种植面积为辅助变量评价：和相比，更小，因而有更好的估计效果。,4.3 等概率两阶段抽样,什么是多阶段抽样？分多个阶段抽到最终接受调查的样本。初级单元（PSU）-Primary Samplin

8、g Unit 二级单元 (SSU)-Second-stage Sampling Unit 三级单元（TSU）-Third-stage Sampling Unit 最终单元 (USU)-Ultimate Sampling Unit,在整群抽样中，被抽中群中的SSU全部进入样本。但在很多情况下，群中单元具有相似性，尤其在群比较大时，显然没有必要调查PSU中的所有SSU，而是在每个被抽中PSU中对SSU再抽取子样本，这就是两阶段抽样。同样的道理，还可以有三阶段抽样、四阶段抽样等，我们统称为多阶段抽样。,多阶段抽样特点,便于调查，节省费用避免了对小单元的过多调查造成的浪费；不需要编制所有小单元的抽样框

9、,多阶段抽样每一个阶段的抽样可以相同，也可以不同，它通常与分层抽样、整群抽样、系统抽样结合使用。,式中，，表示在固定初级单元时对第二阶段抽样求均值和方差；，表示对第一阶段抽样求均值和方差。,4.3.2 多阶段抽样估计量的均值和方差,定理4.4 对于两阶段抽样，有,证明：,4.3.3 等概率两阶段抽样的符号说明,表4-5,4.3.4 初级单元（PSU）规模相等的两阶段抽样,定理4.5 对于初级单元规模相等的两阶段抽样，如果两个阶段都是简单随机抽样，且对每个初级单元，第二阶抽样是相互独立进行的，则对总体均值的无偏估计为：其方差为：,【例4.1】欲调查4月份100家企业的某项指标，首先从

10、100家企业中抽取了一个含有5家样本企业的简单随机样本，由于填报一个月的数据需要每天填写流水帐，为了减轻样本企业的负担，调查人员对这5家企业分别在调查月内随机抽取3天作为调查日，要求样本企业只填写这3天的流水帐。调查的结果如表4-7（见下图）：,要求根据这些数据推算100家企业该指标的总值，并给出估计的95%置信区间。,解：,置信区间：,方差估计式中，第一项是主要的，第二项要小得多，这是因为第二项的分母是第一项的m倍，而且它还要乘以小于1的f1。如果第一阶的抽样比f1可以忽略，则方差估计式可以简单为如下的结果：这个结果在实际工作中非常有用，因为第二阶抽样采用等距抽样或某些复杂抽样时，方差的无偏

11、估计很难得到，当f1可以忽略时，只需要初级单元的均值就可以得到方差的估计。从另一方面看， f1可以忽略意味着总体中初级单元N很大而选出的n很小，结果势必增大抽样误差。,4.3.5 初级单元规模不等的两阶段抽样,几种处理方法 * 先分层，再抽样 * 不等概抽样,简单估计量,（此估计量是无偏的）,自加权条件：第二阶段抽样比为一个常数,比率估计量,样本估计为：,4.4 等概率两阶段抽样设计,考虑一下四个问题：（1）大体需要多高的精度？（2）PSU的规模应该多大？（3）在每个入杨的PSU中应该抽取多少SSU？（4）应该抽取多少个PSU？,对于初级单元大小相等的二阶抽样，如何设计两个阶段的样本量，即如何确定最优的n和m？考虑费用函数为线性函数：,m 的最优值是：,m 确定之后，就可以根据总费用函数确定n,从而确定最优抽样比和。,end,

展开阅读全文