抽样调查教案-6系统抽样.docx

上传人:小飞机 文档编号:1688872 上传时间:2022-12-14 格式:DOCX 页数:16 大小:446.92KB
返回 下载 相关 举报
抽样调查教案-6系统抽样.docx_第1页
第1页 / 共16页
抽样调查教案-6系统抽样.docx_第2页
第2页 / 共16页
抽样调查教案-6系统抽样.docx_第3页
第3页 / 共16页
抽样调查教案-6系统抽样.docx_第4页
第4页 / 共16页
抽样调查教案-6系统抽样.docx_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《抽样调查教案-6系统抽样.docx》由会员分享,可在线阅读,更多相关《抽样调查教案-6系统抽样.docx(16页珍藏版)》请在三一办公上搜索。

1、第6章 系统抽样6.1 引言6.1.1定义定义6.1 /6.2系统抽样(systematic sampling)又称为等距抽样、机械抽样。按照这种抽样方法,从总体中抽取第一个样本点(随机起点),然后按某种固定的顺序和规律依次抽取其余的样本点,最终构成样本。这种抽样被称为系统抽样是因为这种抽样的第一个样本点虽然随机,但其余样本点的抽取看起来好像不再随机,因而是系统的。“牵一发而动全身”。比如要对居民用户抽样,可按户口册每隔多少户抽一户;工厂为检查产品质量,在连续的生产线上每隔20分钟抽选一个或若干个样品进行检查;农业上为估计农作物产量或病虫危害,对一大片农田每隔一定距离抽取一块进行实际测量或调查

2、,等等。 本章只作简单方法介绍。更多内容参见文献2、文献3。 6.1.2系统抽样的一般方法定义6.3 直线等距抽样 假设总体单元数为,样本容量为,为的整数倍。把总体单元排列成一直线。先计算出系统抽样间隔,(当不是的整数倍时,可令k等于最接近的整数)。然后在第一阶段1k个单元中随机抽取一个单元,假设为r,然后每隔k个单元抽取一个单元,即分别为:r+k,r+2k,.,直至抽取了n个单元。抽取的样本编号为:r+(j-1)k (j=1,2,n)。 1 2 r k k+1 k+2 k+r 2k 2k+1 2k+2 2k+r 3k k k k k+r 2k+r (n-1)k+rrk(k为抽取间隔)例如某学

3、院有200个学生,要抽取10个学生作为样本。首先计算20,然后在120中随机抽取一个数字,假设抽中排列中第3位的学生,则其它入样单元依次为23,43,63,83,103,123,143,163,183。定义6.4 圆形等距抽样(Lahiri) 这种方法主要适用于不为整数时。因为当k 不为整数,取其最接近的整数时,实际样本容量可能与n相差1,而且每个单元入样的概率不等,这时用直线等距抽样可能产生偏倚。例:设总体N10,其标志值分别为,总体均值为。若要求样本容量为n3,采用直线等距抽样,验证样本均值是否为总体均值的无偏估计?解:先计算间距10/33.33.,取k3,在13中取一个随机起点,然后每隔

4、3个单元抽取1个单元可得下列的可能样本:三个可能的系统抽样样本均值分别为: ,所有,因此样本均值不是总体均值的无偏估计。在这种情况下,样本均值将不等于总体均值,因而估计不是无偏的。为了使得样本均值是总体均值无偏估计,将个总体单元排成首尾相接的一个圆。抽样间距k 取最接近的整数,从1中随机抽取一个随机起点作为起始单元,然后每隔k 个抽取一个,直到抽取n 个为止。如果序号大于时,将其减去得到的在1中的号码入选。正是因为排列为圆形而非直线且随机起点在1N中而非在1k(或k+1)中,导致了该抽样下的每个样本严格等概率地被抽中,因而估计是无偏的。 若是圆形等距抽样,则在110中抽取一个随机起点,假设为7

5、,然后每隔3个单元取一个,它们的序号是7、10、13。事实上是、入样。 考虑到实际问题中,n通常比较大(大于等与50),多一个少一个并无关宏旨,因此可以不必考虑N/n不是整数的影响,故通常我们都假定N是n的整数倍。3 不等概率抽样法 不等概率抽样中每个单元入样的概率不相等。最简单也是最常用的是系统抽样,即入样的概率与单元规模大小成比例的系统抽样。令表示所有单元规模大小总和,则(包含概率,见不放回不等概率抽样)。 在实际中,不等概率的实施常采用代码法。如下所示: 先将单元规模(不失一般性,设其为整数)值累加,欲从总体中抽取容量为n的样本,取最接近的整数k为抽样间距,从1,k中随机抽取一个整数r作

6、为起点,则代码r,r+k,r+(n-1)k 所对应的单元入样。例7.1 设总体由10个行政村组成,N10,每个行政村人数为,见表7.1。利用系统抽样抽取n3个行政村样本。表7.1 用系统抽样抽取行政村行政村编号人数累计人数抽中号码12345678910合计103432962468473205168146317187010353563187796110341239140715531870100 *723 *1346 *,从1623中抽取一整数,例如是,则,所对应的行政村入样,其序号分别为1、4、8。这种方法,当所有单元规模时,每个单元不可能重复,是一种不重复抽样;当时(超过抽样间隔),第i个单元

7、为必然被抽中单元,且有可能重复抽中;当,第i个单元为必然被重复抽中。实际中应尽量避免这种重复抽中现象。一种简单的方法就是把这种大规模单元作为必然调查单元,不再列入抽样总体,另一种方法是将大规模单元划分为几个小规模单元。6.1.3总体单元排序 1 按无关标志排序,如调查学生视力,按学号排列,显然视力与学号没有关系 2 按有关标志排序 调查身高时,按入校体检的身高顺序排列 3 介于以上两者之间 6.1.4系统抽样的优缺点 优点:系统抽样是实际中常用的一种抽样方法,1其简单易行,只要确定起点和间距,便于推广2便于利用已知信息,系统抽样的误差大小与总体单元的排列顺序有关,因此当对总体的结构有一定的认识

8、了解,并有相关的标志可以利用时,可以运用已知的信息先对总体单元进行排列,再采用系统抽样,就能提高系统抽样的效率。但缺点也很明显: 1 方差复杂,难以估计 2 如果单元排列存在周期性,而抽样者缺乏对此了解,则很容易抽取出的样本代表性很差。例如,要调查70路每天的客流量,采用系统抽样,每周取一天,即每隔7天抽取一次。不管取了星期一到星期五,还是星期六到星期日中的哪天作为起点,样本代表性都很差。6.1.5系统抽样与整群抽样和分层抽样的关系 系统抽样可以看作特殊的整群抽样和分层抽样表6-1 系统抽样的总体单元1 2 3 j n行平均123rk列平均 见下表6-1,如果将每一行单元视为一个群,则总体由k

9、个群组成,每个群规模大小都为n。系统抽样从,中任选一个,被选中的单元所在行的所有单元就构成系统抽样的样本。显然每个群都是可能的样本。因此系统抽样可以看成从k个群中随机抽取1个群的整群抽样。 同样将每一列视为一层,则总体由n个层组成,每个层大小都为k。系统抽样可以看作从每个层中抽取一个单元的分层抽样,但由于样本单元在各层位置相同,因此系统抽样不同与分层抽样。表6-2系统抽样总体单元重新编号1 2 j n群平均12rk层平均 6.2 等概率系统抽样估计量为讨论方便,今后总是设。6.2.1符号说明 第r行第j列单元指标,对照表6-2换个排序方式有 总体单元数N;样本单元数n 总体方差 总体(群)均值

10、,(每行均值) 样本(群)均值, 系统样本均值, 总体层均值,或,(每列均值)6.2.2 估计量 假设起始点为r,则相应的系统样本的平均值为, (6.1)(群内普查)取系统样本平均值作为总体均值的估计量,即: (6.2) (由于群内普查)定理6.1 当,有k个可能样本 ,因此是无偏估计。 (6.9)(方差定义)定理6.2 用系统样本(群)内方差 表示为系统样本(群)内方差 (类似整群抽样中的定义)因为系统抽样相当于抽取一个群的整群抽样,因此群内的单元差异大小,也即系统样本内的差异大小会直接影响系统抽样的效果,故定义了系统样本(群)内方差,它反映了所有k个可能系统样本内的方差大小。因此可以想象,

11、和整群抽样一样,系统样本内方差愈大,抽样效率愈高。注意此习惯叙述,(大写)本该表示总体,由于群内普查,这里的特殊性在于所谓的“系统样本”实际是表6-2中行表示的总体群。 (6.10)证明: (交叉项为0) 两边同除以,根据方差定义和定义,得到 如果直接用简单随机抽样,则 ,作差: ,于是 对于固定总体,总体方差是唯一固定的,因此系统样本内方差越大,系统抽样精度越高。故为了提高系统抽样的精度,总体单元的排列应尽可能增大样本(群)内方差,使得群内基本单元样本差异比较大。定理6.3系统抽样可以看作特殊整群抽样,其方差可用样本(群)内相关系数表示 其中系统样本(群)内相关系数(系统样本内各单位两两之间

12、的相关系数)为 (类似4.9)证明:总体单元数群内单元数总体群数样本群数总体均值估计量群内相关系数系统抽样整群抽样NNMnMkN1n、由整群抽样,(P141,4.11)。由定理6.3看出,系统样本(群)内正相关性越大,即样本(群)内单元越相似,则估计量方差越大,系统抽样精度越差,这与定理6.2结论一致。定理6.4 系统抽样可看成特殊的分层抽样,其方差可以用层内方差和表示定义:总体层内方差总体(层)内相关系数:同一系统样本内对层均值离差的相关系数,系统样本内各单元两两之间分别与各自层的平均数相比较而计算的相关系数。对于固定的群,两个不同单元离差乘积共有个组合,所以总体这样的离差乘积有个,因此上式

13、分子为 分母应为对个基本单元的对所在层的层均值离差平方求平均,因此可以表示为,于是 证明:由表6.2可以看出,系统抽样可以看作一种特殊的分层抽样,共n层,每层均为k个单元(规模相等),从每层固定同一位置各取1个单元作为样本。,而根据(6.9),两边同乘以,有+,因此公式成立。 比较系统抽样方差与比例分配的分层随机抽样方差(即),作商:,因此,。 从前面的系统抽样排列的方阵看出,如果按有关标志排列后采用直线等距抽样,系统样本中的单位往往会同时大于所在各层的均值,或同时小于所在各层的均值,造成;因而需考虑适当的改进抽样方式,使得尽可能满足。例 设某个模拟总体有N32个单元,总体单元排列显然有稳定上

14、升趋势。我们要抽取一个容量为4的等距样本。将总体单元排列如下表7.4,k8,n4。每一列是一个等距样本,共有8个等距样本。表层等距样本编号层均值3.7511.521.87532.25层内方差1234567817172718182838203031120314122434514243461625367162738群均值1313.7515.2416.2515.519.2520.752214.34375可以看出,层内正相关,前四个样本对各层均值离差均小于0,后4个样本与各层均值离差均大于0,所以(同一层内两不同单元离差乘积,累积),因此系统抽样精度要低于分层抽样。有: 2.516 例利用上例,将第二

15、层和第四层观察值调换,见表表层等距样本编号层均值3.7511.521.87532.25层内方差1234567811617381161836314203431220344112431582430682528772727群均值1817.7517.7517.2517.516.7516.756814.34375可以看出,等距样本内数据对各层均值离差有正有负。造成,因此系统抽样精度要高于分层随机抽样。此时,没有影响、。但等距抽样均值的方差。可见系统抽样的效率很大程度上取决于总体的特征。例6.3/6.4 P200 见PPT6.3 不同特征总体的系统抽样6.3.1 随机次序排列第总体系统抽样的方差决定于单元

16、的排列顺序,它是不稳定的,因为不同的排列顺序会使系统样本内的方差发生变动,得到不同的抽样方差可能大于相应简单随机抽样的方差,也可能小于相应当简单随机抽样的方差。例如,若总体共有N个基本单元,则总体共有种排列方式,其中任何一种固定的排列方式对应的系统抽样其抽样方差可能大于也可能小于简单随机抽样。但从平均意义上讲,系统抽样方差与简单随机抽样方差相等。即,详见文献:杜子芳抽样技术及其应用,P390。因此,可以用简单随机抽样的方差作为系统抽样的方差估计: , 比如总体按照无关标志排列,可以看作随机排列的,因此系统样本内方差和总体方差相差不大,系统抽样的方差也就接近简单抽样的方差。 对于很多客观总体,并

17、不存在或很难找到与目标变量相关的辅助变量作为排列依据,于是只能借助原来的自然顺序或按无关变量进行排列,这时就是所谓的随机次序排列。例:某乡村公路两旁种植了20000棵小树,一年后检查小树的成活率。采用系统抽样的方法,先在1100棵树之间随机地抽取一棵树作为起点,然后每隔100棵抽选1棵,一共抽取了200棵树作为样本,发现其中成活174棵,估计成活率的95的置信区间。解:,方差用简单估计量的方差估计 0.00056266,82.691.74。6.3.2线性趋势的总体1线性趋势总体 若总体单元按指标从小到大顺序排列或按某个与其有线性关系的辅助变量的大小顺序排列,此时指标值与单元序号也是线性相关。一

18、般地,对于线性趋势总体,系统抽样优于简单随机抽样,但比分层抽样差。为了说明问题,我们不妨假设其指标变量为简单线性函数。 ()。做变化得到,所以:,从而:;因为每层含有k个单元,每个单元相差1,有n个层,因此方差相同,即有:,每层抽1个单元,等同于按比例分配样本的分层抽样, ;最后,比较三者关系有, 在实际问题中,当然不可能完全按指标值的大小顺序排列,只能找到一些与指标值相关的变量进行排序,当然也不可能是完全线性的趋势,但是系统抽样的效率总会高于简单随机抽样。因此如果采用简单随机抽样的误差公式,这将是一个比较保守的估计。也就是说,实际误差应该没有估计那么大,因此统计学家们提出了一些改进估计方差的

19、公式。见后文。 2 对线性趋势总体的系统抽样的改进 抽样方法的改进 中心位置法 当总体单元的排列呈现线性趋势,起始单元的位置偏高或偏低会直接影响整个样本的代表性,为提高抽样效率,麦多(Madow,1953)提出中心位置法,即初始样本不是随机抽选,而是直接取第一阶段的k个单元处于中间位置的单元。当为奇数时,中点取;当为偶数时,中点取或。此种抽样法虽然可以提高精度,但对于一定顺序排列的总体,样本是确定的,失去了随机性。尤其对同样问题进行连续性调查,样本老化,会带来较大不利影响。例如某学院共有200个学生,要抽取10个学生作样本,抽样间距为。如果采取中心抽样法,起始样本就是第10个学生,其余样本单元

20、依次为第30,50,70,90,110,130,150,170,190位学生。对称系统抽样(1)塞蒂(Sethi,1965)对称系统抽样这时一种分组对称方法。 当,为偶数时,将总体分为组,每组含有个单元,在各段内随机抽取与两端等距地两个单元作为样本,一端靠近低端,一端靠近高端。假设起始随机数为,入样的单元为::, 当为奇数,仍按上述步骤进行,但到后,增加靠近终端的一个单元,。 仍是从200个学生中抽取10个作为样本,将总体分为段,140,4180,81120,121160,161200。假设随机起点为3,则样本单元依次为第3,38;43,78;83,118;123,158;163,198位学生

21、。(2)辛(Singn,1968)对称系统抽样 这种方法是每次选取与总体的两端相对称的单元。假当,为偶数时,设起始随机数为,入样的单元为:: ,。当为奇数,仍按上述步骤进行,但到后,增加靠近中间的一个单元。假设从300位学生中抽取15个作为样本,则,抽样间距为。假设随机起点为3,则样本单元依次为第3,298;23,278;43,258;63,238;83,218;103,198;123,178;143。3 估计量改进首尾校正法(Yates,1948;Bellhouse & Rao ,1975) 针对情形,假设随机起点样本单元编号为,则首样本单元的权重为 尾样本单元的权重为 其它样本权重为 首尾

22、校正法修正后的估计量为 针对情形,假设随机起点样本单元编号为, 如果满足,则所有个样本单元都不经过单元,相应权重如下:首样本单元的权重为 (6.21)尾样本单元的权重为 (6.22)其它样本权重为 如果满足,则有样本单元都越过单元,假设越过单元的样本有个,相应权重如下:首样本单元的权重为 (6.23)尾样本单元的权重为 (6.24)其它样本权重为 例7.4 总体有个单元,拟抽取个样本,则,取与之最接近的整数。然后在总体中随机抽取一个起点,假设,样本单元的顺序编号分别为:19,1,6,11,16。首样本单元,尾样本单元。求相应单元的权重。 解:由于 首样本单元的权重为0.1222 尾样本单元的权

23、重为0.2778 其它三个样本单元的权重为0.26.3.3、周期波动的总体 周期波动是指总体单元指标按其顺序呈现周期变化。例如,商店的日销售量一般以7为周期变化,城市交通以24小时为周期变化。等等。 对周期变化的总体,使用系统抽样要特别注意。抽样的间距尽量不要等于周期,一般取半周期。通常采用交叉法,即在同一个总体中独立地取多个样本,再将几个样本合并计算估计量及方差。6.4 系统抽样的方差估计 系统抽样很难得到方差的无偏估计。本节针对不同的总体模型简单地给出几个近似估计。6.4.1等概率系统抽样 考虑估计均值的方差1随机排列 如上节所提到,可采用简单估计的方法估计量 (6.12)2系统样本分层随

24、机抽取 1) 把系统抽样看成每层抽取一个单位的分层抽样,因此可以近似应用分层的方差估计公式。但是分层抽样要求每层必须有两个以上样本单元才能估计层内方差,而系统抽样只能每层抽取一个单元。为此一种方法是把临近的两层合并,变成为层,每层有2k个单元,从中抽取2个单元作为样本的分层抽样。这样层内的方差可以从每层的2个单元中获取信息。第组两个样本观察值的方差为,将个这样的值加以平均,用来估计层内方差,从而得到系统抽样的方差估计为: (6.16)2) 另外一个方法就是利用样本单元之间的连续差的信息来估计方差,即每个单元与下一个单元组成一组,这样个样本单元就有个组,第相邻组的方差为,然后将这组平均,这样得到

25、 (6.15)3 线性总体(假定N=nk) 根据前述基本假定:,是相互独立的随机干扰。即可认为总体:,换成整群抽样的写法: 进行首尾校正: )得到? 抽样方差的估计为: (6.14)4 样本量为n的系统样本分成m个子样本独立抽取 样本量为n的系统样本分成m个子样本独立抽取,每个子样本仍采用系统样本法,样本量为,抽样间距。每个样本的随机起点独立抽取。记第个子样本的均值为,则总体均值估计量为:,方差为 以上种种误差估计式,各自使用不同的总体。一般情况下,对随机排列总体,以上各式效果都不错。但简单随机抽样的方差估计最简单,故为最佳选择。对线性趋势总体,、的效果较好,相对更适合较小的样本量。对周期波动的总体,以上效果都不是特别好。如果不了解背景,建议采用、,相对各种特征总体效果均不错。二、不等概率抽样方差的估计略137njnuliqicai

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号