《第四章(整群抽样)ppt课件.ppt》由会员分享,可在线阅读,更多相关《第四章(整群抽样)ppt课件.ppt(49页珍藏版)》请在三一办公上搜索。
1、1,抽样调查课-整群抽样,单位:浙江财经学院数统学院课程:抽样调查课教师:张锐,2,整群抽样,一、整群抽样的基本概念二、群规模相等条件下的估计三、群规模不相等条件下的估计,3,一、整群抽样的基本概念,问题的提出整群抽样的定义整群抽样的特点群的划分群规模简介,4,一个新建的居民区由近百幢居民楼组成,其中住户总数达数千户。欲用抽样调查方法估计该居民区现有的电话拥有率。,a.一种是用简单随机抽样,抽取一定样本量的住户,譬如说共抽取n=250户进行调查,然后用简单估计方法对全居民区的电话拥有率进行估计。,b.另一种方法是按一定方法抽取一定数量的居民楼,譬如说15幢或20幢楼,然后对这些楼中的每个住户都
2、进行调查,根据调查结果来估计整个居民区的电话拥有率。,实际问题的提出:,5,这两种方法的根本差别是:抽样单元不同。前者以住户为抽样单元,后者则以居民楼为抽样单元。后一种抽样方法称为整群抽样。,6,Def.1 一般地说,如果总体中所有较小的基本单元可以以某种形式组成数量较少但规模较大的单元;或反过来说,每个“大”单元都由若干“小”单元组成,称这些“大”单元为初级(抽样)单元(primary sampling unit),“小”单元为次级(抽样)单元(secondary sampling unit).,Def.2 在总体中,按一定方式抽取n个初级单元,调查每个被抽中的初级单元中所包含的全部次级单元
3、,这种抽样方法称为整群抽样(cluster sampling),也称集团抽样。,7,定义:整群抽样是将总体划分为若干群,然后以群为抽样单元,从样本中随机抽取一部分群,对选中的群的所有基本单元进行调查的一种抽样技术。,这里的群(cluster)就是指初级单元,整群抽样就是指将总体中的小单元整群整群地进行抽群。在前面的例子中,居民楼就是群(初级单元),而住户则是次级单元,对居民楼的抽样就是一种对住户的整群抽样。,整群抽样的定义,8,整群抽样的特点,1)抽样框的编制简单,2)实施便利,节省费用,3)抽样误差相对比较大些,发挥整群抽样的优势,因为其省时省力,每个单元的平均调查费用比较少,故可通过增大样
4、本量的方法弥补精度的损失。,9,划分群的标准,总体方差=群间方差+群内方差,群内方差,群间方差,此消彼长,整群抽样是对被抽中的群的群内的每个单元进行抽样,因此群内方差的影响很小,主要的误差是由群间方差影响的。,分群的标准:使同一群内各单元之间的差异大一些即群内方差大些,群与群的差异尽可能的小些,即群间方差小些。,10,群的规模,群的规模指组成群的单元的数量。,群的规模比较灵活,可大可小,规模大些,估计的精度差些,但是费用省。规模小的,估计的精度可以提高但是费用大。,费用与精度根据实际需要而定。,11,群规模相等的整群抽样,一、群规模相等简介 二、符号说明三、总体均值的估计及性质四、估计量方差的
5、估计五、设计效应,12,总体中的N个初级单元即群的大小(群内次级单元数)都相等的情形。也就是,若总体有N个群时,每个群中所包含的单元数为M相等时,则称群规模相等,在实际问题中,只要群的规模接近时,也称为群规模相等。这时,对群的抽取一般采用简单随机抽样(无放回)。,一、群规模相等简介,13,二、符号说明,14,总 体,样 本,15,三、总体均值的估计及性质,总体平均值 的估计为:,性质,1)的无偏估计,建立如下盒子模型,证明:,16,在这个新的盒子中有N个小盒子,每个小盒子中含元素(Yij,j=1,2,M),它们的平均数是,,而全体 的平均数恰好构成盒子的平均数。,17,我们的模型是从这N个小盒
6、子中随机无放回地抽取n个,这n个小盒子相应的平均数为,而这n个的平均数 恰好构成样本平均数,,总体均值,样本均值,故样本均值 是总体均值 的无偏估计。(为什么?),18,四、估计量方差的估计,19,根据,的一个无偏估计是:,在实际问题中,具有某种特性的次级单元在总体中所占的比例P的估计常用整群抽样,不仅方便而且效率高,在各群大小相等的情况下,利用前面对 的讨论,推导出对P的估计量及其方差。,20,五、设计效应,我们已经研究了简单随机抽样和较复杂的分层抽样、不等概率抽样、整群抽样,抽样方法的不同会引起估计量精度的不同。之所以采用比较复杂的抽样手段,目的无非是提高估计的效果。因此,看一个抽样方案的
7、效果究竟如何,一个比较好的办法是将它与简单随机抽样在相同的样本容量之下对精度作比较这就是基什(Kish)在1965年提出的设计效应(design effect,简记为deff):,Deff=(所考虑抽样设计估计量的方差)/(相同样 本量下简单随机抽样估计量的方差),21,设计效应值愈大,表明它的效率愈低。若deff1,表明所考虑的抽样设计的效率不如简单随机抽样;若deff1,表明该抽样设计的效率比简单随机抽样高。,在整群抽样中,我们在前面已经指出:如何划分群以及群的大小如何控制对于估计的精度都有影响,这就涉及到设计效应。根据设计效应的定义,考察在拥有NM个次级单元的总体中抽取容量为nM的简单随
8、机样本,样本均值 的方差为:,22,因此,群大小相等的整群抽样的设计效应为:,上面结果意味着:按同样的样本量(以次级单元计)整群抽样的方差约为简单随机抽样的方差的 倍。换句话说,为了获得同样的精度,整群抽样的样本量必须是简单随机抽样的样本量的 倍。,23,群内相关系数,24,例6.1 在一次对某寄宿中学在校生零花钱的调查中,以宿舍为群进行整群抽样。每个宿舍有8名学生。用简单随机抽样在全部510间宿舍中抽取n=12间宿舍。全部96个学生上周每人零花钱及相关数据如下。1)试估计生平均零花钱,并 给出其95%的置信区间;2)试估计群内相关系数与设计效应。3)如果是简单随机抽样,需要多少样本?,25,
9、i,240,187,162,185,206,197,154,173 188.00 27.19 210,192,184,148,186,175,169,180 180.50 17.98 149,168,145,130,170,144,125,167 149.75 17.32 202,187,166,232,205,263,198,210 207.88 29.17 210,285,308,198,264,275,183,231 244.25 45.20 394,256,192,280,267,334,216,289 278.50 63.87 192,121,172,165,152,224,195,
10、241 182.75 38.77 230,205,187,176,212,253,189,240 211.50 27.48 274,208,195,307,264,258,210,309 253.13 44.52 232,187,150,182,175,212,169,222 191.13 28.29 342,294,267,309,258,198,244,286 274.75 43.70 228,294,182,312,267,254,232,298 258.38 43.52,26,(1)解:已知N510,n12,M8,fn/N=0.0235故,27,于是 的置信度为95的置信区间为也即,2
11、8,(2)计算群内相关系数与设计效应解:由前已算出样本群间方差 而群内方差为,29,30,(3)若 令为简单随机抽样的样本量则即可达到整群抽样96户样本量相同的估计精度,31,群规模不相等的整群抽样,一、等概抽样,简单估计 二、等概抽样,加权估计三、等概抽样,比率估计四、例子,32,对总体均值 的估计为可以看出,的方差估计为,等概抽样,简单估计,33,此法特点估计量 是有偏的操作简便,易于掌握和使用适用条件,群之间的规模差异不大时,34,思路:以群规模Mi为权数,得到群总和yi,进而求得群总和均值,再除以群 平均规模,等概抽样,加权估计,35,估计公式为:若 未知,可用样本群平均规模代替,36
12、,总体总量Y的估计为总量估计的另一公式为,37,估计量的方差为它的无偏估计为均值估计 的方差为,38,总体均值估计为这里辅助变量不是Xi而是群规模Mi总体总量估计为,等概抽样,比率估计,39,估计量的方差分别是,40,与 的样本估计分别是,41,42,背景:某县有33个乡,726个村,该年度某种作物总种植面积30525亩,现采用等概抽样随机抽出10个乡,要求估计全县总产量,计算抽样误差。调查资料如下:,案例分析,43,样本乡编号,村庄数 Mi,作物总产(乡)yi(万公斤),种植面积(乡)xi(亩),12345678910,15182614202821193117,22.022.830.221.
13、725.331.226.020.533.823.6,800780100070088011008508001200830,1.46671.26671.16151.551.2651.11431.23811.0791.09031.3882,合计 209 257.1 8940,44,分别采用几种方法估计1、等概抽样,简单估计,45,评价:方法虽简单,却是有偏估计,46,2、等概抽样,加权估计,47,评价:虽是无偏估计量,但方差估计没有改观,48,3、等概抽样,比率估计,评价:有偏,n较大时比较理想,49,其它辅助变量的估计 已知:种植面积X30525(亩)用种植面积为辅助变量评价:和 相比,更小,因而有 更好的估计效果。选择关系密切的辅助变量,