《抽样调查第6章整群抽样与系统抽样课件.ppt》由会员分享,可在线阅读,更多相关《抽样调查第6章整群抽样与系统抽样课件.ppt(26页珍藏版)》请在三一办公上搜索。
1、.,第六章 整群抽样与系统抽样,6.1 整群抽样,6.2 群内相关系数,6.3 系统抽样,6.4 个体指标具有特殊结构时的系统抽样,6.5 系统抽样估计量方差的估计,.,整群抽样的提法,目标量的估计,6.1 整群抽样,.,整群抽样的提法,整群抽样的提法与特点,在多阶抽样中,当某一单元被抽中,对该单元包含的下一级抽样单元不再抽样,而是进行普查,抽样框要求简单,样本相对集中,方便调查,特定场合具有较高精度,因为样本集中,可增大样本量弥补精度上的损失,群内次级单元差异很大反映总体分布时,其精度不见得低,.,整群抽样的提法,整群抽样的适用场合,表6.1 可能适合整群抽样的实例,某个城市,住户特征,住宅
2、,街区,某个城市,某项消费,城市居民,住宅区,某机场,旅游信息,离开的旅客,某大学,就业计划,学生,班级,某 乡,社会态度,成年村民,村,城市土地所有者档案,税务信息,土地所有者,分类台帐页,航班,.,目标量的估计,将整群抽样看作二阶抽样的特例,定理6.1 对简单随机抽样的整群抽样,总体总数Y的估计有,.,目标量的估计,定理6.2 对有放回PPS整群抽样,总体总数Y的估计有,也可将整群抽样看作单阶抽样,同样可以得到上述两个定理,.,目标量的估计,例1 在一次针对某城市大学生月生活费支出的调查中,以小组为群进行整群抽样。每个小组有8名大学生,采用简单随机抽样在510个组中抽取12个小组,全部96
3、个样本大学生月生活费支出数据如表.试估计该城市大学生人均月生活费及其95%的置信区间.,例2 调查一片荒地上蝗蝻数量,以一平方米为单位。N=5000,K=500,N0=10,k=20,作简单随机的整群抽样,估计整块荒地蝗蝻数.数据如表,.,群内相关系数的概念,6.2 群内相关系数,整群抽样的设计效应,.,群内相关系数的概念,群内相关系数,群内相关系数是衡量群内单元同质性的一个指标,.,整群抽样的设计效应,.,整群抽样的设计效应,.,目标量的估计,例3 某县有33个乡,共726个村,某一年度农作物总种植面积为30525亩。先采用等概抽样随机抽出10个乡进行该种作物的产量调查,要求利用无偏估计量和
4、比率估计量(以群规模为辅助变量,以种植面积为辅助变量)分别估计全县总产量,并计算估计量的标准差。数据如表.,.,系统抽样的提法,系统抽样的估值法,6.3 系统抽样,系统抽样的效率,.,系统抽样的提法,直至N为止,然后对号码1,2,K作随机抽样,若i入样,则K+i,2K+i,皆入样,组成一个系统样本,若将同一列个体看做一个群,系统抽样可视为整群抽样,N不是K整数倍的处理方法,1.N/K较大(50)可忽略每群个体差,2.将个体单元首位衔接循环取样,一般假定N=KN0,并且只从1K中抽选一个样本单元,系统抽样的优点是抽样非常方便,.,系统抽样的估值法,将系统抽样看作整群抽样抽取一个一级单元,有,由这
5、个思路无法给出其均方偏差的估计量,.,系统抽样的效率,与简单随机抽样的比较,.,系统抽样的效率,与分层抽样的比较,.,系统抽样的效率,例 假设总体有表中的30个单元,欲取5个构成系统样本,与简单随机抽样和分层抽样同样本量的结果进行比较(两种排列方式).,.,个体指标与其次序有线性关系,6.4 个体指标具有特殊结构时的系统抽样,个体指标与其次序有某种周期关系,个体的次序随机排列,.,个体指标与其次序有线性关系,系统抽样,简单随机抽样,分层抽样,此时分层抽样精度最高,系统抽样次之,简单随机抽样精度最低,.,与次序有某种周期关系,此时系统抽样估值的精度与K的选取有很大关系,应避免K=t,实际呈现精确
6、周期排列的资料是没有的,而具有一定周期性的资料很多,例如季节资料、月度资料、星期资料等,对周期资料选择合适K进行系统抽样,可得到比较理想的精度,.,个体的次序随机排列,对总体的某种排列次序,系统抽样精度可能优于简单随机抽样也可能劣于简单随机抽样,但对N个个体的所有N!种排列而言,系统抽样的平均精度与简单随机抽样相等,当个体指标具有某种特殊结构时,常对取样方法进行人为调整,有点典型抽样的味道,非完全概率抽样,.,看作简单随机抽样,看作分层抽样,6.5 系统抽样估计量方差的估计,.,看作简单随机抽样,来估计,其中,当个体单元并非完全随机排列时这个估计会产生偏量:群内相关系数小,会高估均方偏差;群内相关系数大,会低估均方偏差。,.,看作分层抽样,v2,v3有很广适用范围,特别是v3为许多实际工作者所采用。,将两行个体看作一个层,每层有两个样本单元。两个样本单元构造一个该层的方差估计,再按分层抽样汇总出一个均方偏差的估计,.,看作分层抽样,例 调查某单位员工档案工资外的收入情况,该单位有员工660人,备有以出生年月为顺序的花名册。以花名册作为抽样框,拟抽取30个样本单元,故取K=22作系统抽样。从1,2,22中随机取出一数为R=7,入样的单元号码为7,29,623,645。对花名册对应号码的员工进行调查,得当月各人收入资料如表(单位:元),估计每人平均收入及估计量的均方偏差.,