《抽样调查 第9章 二重抽样ppt课件.ppt》由会员分享,可在线阅读,更多相关《抽样调查 第9章 二重抽样ppt课件.ppt(34页珍藏版)》请在三一办公上搜索。
1、9.1 引言,一、二重抽样的定义,二重抽样(double sampling),也称二相抽样,是指分两步抽取样本。先从总体N中抽样一个较大的样本 ,称为第一重样本,对其进行调查以获取总体的某些信息,为下一步的抽样估计提供条件;然后在第一重样本中再进行第二次抽样。这种抽样方法称为二重抽样。,二、二重抽样与两阶段抽样的区别,1.两阶段抽样是先从总体N个单元中抽出n个样本单元,却并不对n个样本都进行调查,而是从中再抽出若干个二级单元进行调查。,2。两阶段抽样的第二阶段抽样单元与第一阶段抽样单元往往是不同的。而二重抽样的第二重样本往往是第一重样本的子样本。,三、二重抽样的作用,(一)有利于筛选主调查对象
2、(二)节约调查费用(三)提高抽样效率(四)可用于研究样本轮换中的某些问题(五)降低无回答偏倚,9.2 为分层的二重抽样,分层抽样是一种应用广泛的抽样方程,但进行分层抽样有一个前提,即需要将总体N个单元划分为L个互不重叠的层,而且需要知道各层的权重。如果事先无法知道总体的层权,可以采用二重抽样方法。,一、符号说明,用下标h表示层数,,总体第h层的单元数:,总体单元数:,第一重样本第h层的单元数:,第一重样本单元数:,第二重样本第h层的单元数:,第二重样本单元数:,总体单元第h层的权重:,第一重样本第h层的权重:,第二重样本第h层的抽样比:,第二重样本第h层j单元的观测值:,第二重样本第h层样本单
3、元的平均数:,总体方差:,第h层的总体方差:,第一重样本第h层方差:,第二重样本第h层方差:,二、抽样方法,第一步: 利用简单随机抽样,从总体的N个单元中随机抽取第一重样本,样本单元数为 ;根据已知的分层标志将第一重样本分层,令 ,则 是总体层权 的无偏估计。,第二步:利用分层随机抽样,从第一重样本中抽取出第二重样本,样本单元数为n ,第h层样本单元数为,三、估计量及其性质,(一)均值估计量,采用二重分层抽样,对总体均值 的估计量为:,(二)均值估计量 的性质,性质1 估计量 是 的无偏估计。即,因为,所以有,性质2 的方差为:,式中, 为总体方差; 为第h层的总体方差; 为第二重样本第h层的
4、抽样比。,性质3 的样本估计量为:,式中, 为 的近似无偏估计; 为第二重样本第h层方差。,【例9.1】某银行要调查其客户的资产情况,已知该银行的客户数为8000,针对客户规模差异较大的特点,拟采用分层抽样。但由于缺乏现有的分层资料,决定采用二重分层抽样方法。第一重样本量 =1000,根据其自报的资产情况可分为4层:第一层为300万元以下;第二层为300万元1000万元;第三层为1000万元件2000万元;第四层为2000万元以上。然后在第一重样本分层的基础上,在各层分别抽取第二重样本。第二重样本量为,,对这200个客户进行详细的调查,取,得有关数据如下表,试估计该银行所有客户的资产总额及其抽
5、样标准误差。,解 根据上表可计算各层的权重:,该银行客户的平均资产额估计为:,(百万元),该银行共有8000个客户,故全部客户资产总额为:,(百万元),的方差估计为:,因此,,该银行客户资产总额的抽样标准误的估计:,(百万元),四、二重分层抽样样本量的最优分配,二重分层抽样中有两次抽样,这两次抽样的样本量 即 和 ,直接影响估计的精度。第一重抽样 越大,对分层信息的了解和估计就越精确,从而可以减少估计量的误差;同样,第二重抽样 越大,估计量的方差越小。调查的经费是有限的,因此,需要在给定费用的条件下,选择 和 ,使得估计量的方差 最小。,假设第一重抽样的单元平均调查费用为 ,第二重抽样第 h
6、层的单元平均费用为 。忽略其他费用,则费用函数可以表示为:,由于 是随机变量,所以选择 和 的期望费用 为:,而总体均值估计量的方差为:,要在一定的费用约束下使估计方差最小化,则有,由,在实际应用中,要确定最优的 和 ,需要对总体事先有一定的了解,例如对 有一些粗略的估计。,9.3 为比率估计的二重抽样,一、二重抽样比率估计的抽样方法,第一步 从总体的N个单元中随机抽取第一重样本,样本单元数为 ;对于第一重样本,仅观测辅助变量信息,用辅助变量的样本均值 估计总体均值 。,第二步 从第一重样本中随机抽取出第二重样本,样本单元数为 ;对于第二重样本,观测目标变量与辅助变量,并用获得的 和 ,计算
7、,构造比率估计。,二、二重抽样的比率估计及其性质,二重抽样对总体均值 的比率估计:,式中, 分别为第二重样本目标变量与辅助变量的样本平均数; 为第一重样本辅助变量的平均数。,性质4 与简单随机抽样下的比例估计一样, 是个有偏估计,其偏倚随着样本量的增加而缩小。当第二重样本的样本量 足够大时, 是近似无偏的。即,因此, 是 的近似无偏估计。,性质5 二重抽样比率估计的方差为:,通常 可忽略,因此,式中, 分别为Y和X的总体方差和总体协方差,,性质6 二重抽样比率估计方差的样本估计:,【例9.2】 某住宅小区共有200个住户,现估计小区住户家庭月平均收入的平均水平。家庭收入的数据不易调查,而家庭支
8、出的资料相对容易获取,而且家庭月平均收入与家庭月平均支出之间强相关,因此拟采用二重抽样比率估计方法。先从住户中随机抽取100个住户作为第一重样本,调查家庭月平均支出,结果家庭月平均支出的样本均值为1500元,然后从这100个住户中随机抽选 10户作为第二重样本,调查家庭月平均收入和家庭月平均支出,资料见下表。试估计该小区家庭月平均收入,并计算估计量标准差。,某小区住户家庭收支的样本数据,解: 由题知 ,从上表计算得,该小区住户的平均家庭月收入估计为:,的方差估计为:,的标准差的估计为:,三、二重抽样比率估计时样本量的最优分配,问题:在给定的费用条件下,选择第一重样本量和第二重样本量 ,(其中
9、为抽样比),使得估计量的方差 最小。,费用函数:,其中, 为第一重抽样的单元平均调查费用; 为第二重抽样的单元平均调查费用。,求最优值:,因总体均值估计量的方差为,由 及 得,9.4 为回归估计的二重抽样,一、二重抽样回归估计的抽样方法,第一步: 从总体的N个单元中随机抽取第一重样本,样本单元数为 ;对于第一重样本,仅观测辅助变量信息 ,用辅助变量的样本均值 估计其总体均值,第二步: 从第一重样本中随机抽取出第二重样本,样本单元数为 ;对于第二重样本,观测目标变量 与辅助变量 ,并计算 和回归系数 ,构造回归估计。,二、二重抽样的回归估计及其性质,(一)二重抽样的回归估计,二重抽样对总体均值
10、的回归估计:,式中 和 分别为第一重样本和第二重样本中辅助变量的平均值; 为根据第二重样本计算的目标变量的样本平均数, 为根据第二重样本计算的 对 的回归系数。,(二)二重抽样回归估计的性质,性质7 是个有偏估计,其偏倚随着样本量的增大而縮小。当第二重样本的样本量 n 足够大时,,是近似无偏的。即,证明:,性质8 二重抽样回归估计的方差为:,式中,,因此,性质9 二重抽样回归估计方差的样本估计:,式中是用第二重样本的方差 估计 ,用相关系数 估计 。,【例9.3】以例9。2的数据,用二重抽样进行回归估计。试估计该小区家庭月平均收入,并计算估计量的标准差。,解:由题知 由表可计算出,该小区家庭月
11、平均收入估计为:,的方差估计为:,的标准差的估计:,在实际应用中,二重抽样容量n较大条件下,才能有效消除用样本回归系数进行回归估计可能产生的偏倚。,三、二重抽样回归估计时样本量的最优分配,在给定的费用条件下,选择第一重样本量 和第二重样本量 , 其中 为抽样比,使得估计量的方差 最小。,假设第一重抽样的单元平均调查费用为 ,第二重抽样的单元平均调查费用为,费用函数为:,总体均值估计量的方差为:,要在一定的费用约束下令估计方差最小化,则有,由 及 得,本章小结(1)二重抽样的主要特点是分两步进行抽样,每步都抽取一个样本.(2)二重抽样有多个用途:为了分层;为了比率估计;为了回归估计.(3)两次抽样的样本量将直接影响估计的精度.,本章作业,(1)熟悉本章附录的证明;(2)思考书后习题1,习题2;(3)在作业本上完成书后习题3,习题5。,(第九章结束),