《《分层抽样》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《分层抽样》PPT课件.ppt(83页珍藏版)》请在三一办公上搜索。
1、第四章 分层抽样,本章要点,本章主要是对分层抽样理论包括抽样方式、估计量及其性质、样本量的确定及分配、分层抽样设计效果等进行系统全面地介绍。具体要求:正确理解层、分层抽样以及分层随机抽样的涵义,分层抽样的特点及作用;掌握分层抽样的参数估计量及其性质;掌握分层抽样样本量的确定方法;了解分层抽样的设计效果;了解分层抽样其他有关理论问题,包括层权偏差、最优分配偏差、事后分层等。,第一节 抽样方式 第二节 简单估计量及其性质第三节 样本量的分配第四节 样本量的确定第五节 分层抽样设计效果分析第六节 进一步讨论的问题,一、分层抽样与分层随机抽样 在抽样之前,先将总体N个单元划分成L个互不重复的子总体,每
2、个子总体称为层,它们的大小分别为,这L个层构成整个总体()。然后,在每个层中分别独立地进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。如果每层都是简单随机抽样,则称为分层随机抽样,所得到的样本称为分层随机样本。,第一节 抽样方式,二、分层抽样的特点及作用(一)分层抽样可以提高参数估计的精度。(二)分层抽样不仅能对总体参数进行估计,而且能对各层(子总体)参数进行估计。(三)便于依托行政管理机构进行组织和实施,同时还可以根据各层的不同特点采用不同的抽样方式。(四)分层抽样样本在总体中分布更加均匀。,第一节 抽样方式,三、层的划分原则(一)层内单元具有相同性质,通常按调查对象的不同类型进行
3、划分。这时,分层抽样能够对每一类的目标量进行估计。(二)尽可能使层内单元的标志值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的。(三)既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。(四)为了抽样组织实施的方便,通常按行政管理机构设置进行分层。,第一节 抽样方式,四、符号说明 设总体分为L层,下标h表示层号(h=1,2,L)。则关于第h层的记号如下:第h层总体单元数:(通常已知),且 第h层样本单元数:,且 第h层总体和样本第i个单元标志值(观察值):,第一节 抽样方式,第一节 抽样方式,层权:第h层抽样比:第h层总体均值:第h层样本
4、均值 第h层总体总值:,第一节 抽样方式,第h层样本总值:第h层总体方差 第h层样本方差:,第二节 简单估计量及其性质,一、总体均值的估计(一)简单估计量的定义 在分层抽样中,对总体均值 的估计是通过对各层的 的估计,按层权 加权平均得到的。公式为:,如果得到的是分层随机样本,则总体均值 的简单估计为:,第二节 简单估计量及其性质,(二)估计量的性质性质l 对于一般的分层抽样,如果 是 的无偏估计(h=1,2,,L),则 是 的无偏估计。的方差为:,值得强调的是,在分层抽样中只要对各层估计是无偏的,则对总体的估计也是无偏的。因此,各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体的
5、推算也是无偏的。,第二节 简单估计量及其性质,性质2 对于分层随机抽样,是 的无偏估计,的方差为:,性质3 对于分层随机抽样,的一个无偏估计为:,第二节 简单估计量及其性质,二、总体总量的估计(一)简单估计量的定义总体总量Y的估计为:,如果得到的是分层随机样本,则总体总量Y的简单估计为:,第二节 简单估计量及其性质,(二)估计量的性质 性质4 对于一般的分层抽样,如果 是 的无偏估计,则 是Y的无偏估计。的方差为:,第二节 简单估计量及其性质,性质 5 对于分层随机抽样,的方差为:,性质 6 对于分层随机抽样,的一个无偏估计为:,第二节 简单估计量及其性质,【例4.1】为调查某地区住户的平均家
6、庭成员数,将该地区分成城市和乡村2层,每层按简单随机抽样抽取10户,调查所获得的数据如表4-1。请估计该地区住户的平均家庭成员数及其95%的置信区间。,95%的置信区间为,其中。经计算可得:平均家庭成员数的95%的置信区间为:(3.24,4.24),第二节 简单估计量及其性质,第二节 简单估计量及其性质,三、总体比例的估计(一)简单估计量的含义 记层比例为,层样本比例,其中 与 是第h层总体及样本中具有所考虑特征的单元数,则总体比例P的估计为:,第二节 简单估计量及其性质,(二)估计量的性质 如果定义,则对总体比例的估计类似对总体均值的估计,这时 具有同样的性质。,第二节 简单估计量及其性质,
7、性质7 对于一般的分层抽样,如果 是 的无偏估计(h=1,2,,L),则 是P的无偏估计。的方差为:,性质8 对于分层随机抽样,是P的无偏估计,则:,的方差为:,第二节 简单估计量及其性质,第二节 简单估计量及其性质,性质 9 对于分层随机抽样,的一个无偏估计为:,第二节 简单估计量及其性质,【例4.2】对某地区的居民拥有家庭电脑的情况进行调查,以居民户为抽样单元,根据收入水平将居民户划分为四层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:台),如表4-3。估计该地区居民拥有家庭电脑的比例计估计的标准差。,第二节 简单估计量及其性质,解:由上表可得:,第二节 简单估计量及其性质,因此
8、,该地区居民拥有家庭电脑比例的估计为:,估计量的方差为:,第二节 简单估计量及其性质,估计量的标准差为:,第三节 样本量的分配,在分层抽样抽样中,若总样本量n一定时,还需研究各层应该分配多少样本量的问题,因为对总体参数进行估计时,估计量的方差不仅与各层的方差有关,还与各层所分配的样本量有关。实际工作中有不同的分配方法,既可以按各层单元数占总体单元数的比例分配,也可以采用使估计量总方差达到最小等几种方法进行样本量的分配。,第三节 样本量的分配,一、比例分配,比例分配指的是按各层单元数占总体单元数的比例,也就是按各层的层权进行分配,即:,这时:,第三节 样本量的分配,总体比例P的估计是:,对于分层
9、随机抽样,这时总体均值的估计值是:,第三节 样本量的分配,的方差为:,总体中的任一个单元,不管它在哪一层,都以同样的概率入样,因此按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。,第三节 样本量的分配,的方差为:,第三节 样本量的分配,二、最优分配(一)最优分配 最优分配是指在分层随机抽样中,如何将样本量分配到各层,使得在总费用给定的条件下,估计量的方差达到最小;或在给定估计量方差的条件下,使总费用最小,能满足这个条件的样本量分配就是最优分配。如果我们考虑简单线性费用函数,总费用,第三节 样本量的分配,则这时的最优分配是:,由此得出下面的行为准则,如果某一层单元数较
10、多,内部差异较大,费用比较省,则对这一层的样本量要多分配一些。,第三节 样本量的分配,(二)Neyman(内曼)分配,对于分层随机样本,作为特例,如果每层抽样的费用相同,即 时,最优分配可简化为:,这种分配称为Neyman分配。这时,达到最小。,第三节 样本量的分配,【例4.3】对某地区的居民豆制品年消费支出进行调查,以居民户为抽样单元,根据收入水平将居民户划分为四层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),如表4-4。样本量为n=40,则按比例分配和Neyman分配时,各层的样本量应为多少?,第三节 样本量的分配,解:由上表,,各层的层权及抽样比为:,第三节 样本量的分配
11、,各层样本均值及方差为:,同理可得:,按比例分配时,各层的样本量为:,第三节 样本量的分配,即各层的样本量分别为3,6,11,22,对于Neyman分配,根据前面对 及 的计算结果,得到:,第三节 样本量的分配,因此,按Neyman分配时,各层应分配的样本量为:,第三节 样本量的分配,即各层的样本量分别为3,7,23,7。,(三)某些层要求大于100%抽样时的修正 按最优分配时,有时抽样比 较大,某个层的 又比较大,则可能出现按最优分配计算的这个层的样本量 超过 的情况。实际工作中,如果第k层出现这种情况,最优分配是对这个层进行100%抽样,即取,然后,将剩下的样本量 按最优分配各层。,第三节
12、 样本量的分配,一、一般公式 令,其中 已经选定,于是当方差V给定时,,第四节 样本量的确定,得到确定样本量的一般公式为:,如果估计精度是以误差限的形式给出,则,,第四节 样本量的确定,当按比例分配时,,第四节 样本量的确定,实际工作中,n的计算可以分为两步,先计算,然后进行修正:,当按Neyman分配时,,【例4.4】(续例4.3)如果要求在95%置信度下,相对误差不超过10%,则按比例分配和Neyman分配时,总样本量分别为多少?解:当按比例分配时,由前面的计算结果,可以得到各层的,第四节 样本量的确定,在95%值信度时,对应的t=1.96。又,第四节 样本量的确定,因此得到:,由此可以得
13、到:,对 进行修正,得到修正后的n:,第四节 样本量的确定,当按Neyman分配时:,综合上述,按比例分配时,样本量至少应为179,按Neyman分配时,样本量至少应为110。,当方差V给定时,得到样本量为:,第四节 样本量的确定,二、最优分配需要考虑费用时 在最优分配时,如果考虑费用为简单线性费用函数:,则:,而当总费用C是给定时,有:,第四节 样本量的确定,则:,第四节 样本量的确定,对其求和得到样本量为:,第四节 样本量的确定,三、总体参数为P的情形 当方差V给定时,如果 都比较大,使得,则总样本量为:,或:,第四节 样本量的确定,(二)Neyman分配,计算样本量之前,需要对 作预估计
14、。,第四节 样本量的确定,【例4.5】(续例4.2)如果要求在95%置信度下,绝对误差不超过5%,则按比例分配和Neyman分配时,总样本量分别为多少?,解:在置信度95%时,对应的t=1.96,而绝对误差d=5%,因此,第四节 样本量的确定,按比例分配时:可以得到,第四节 样本量的确定,调整后的样本量为:,Neyman 分配时:,所以,按比例分配和按Neyman分配所需的样本量分别为206和196。,第五节 分层抽样设计效果分析,一、分层随机抽样与简单随机抽样的比较 本节我们将从理论上将分层随机抽样与简单随机抽样进行效果比较,也即在相同样本量下,比较其估计量的方差大小。为比较分层随机抽样于简
15、单随机抽样的精度,我们拟在样本量为比例分配的形式下讨论。,记简单随机抽样(对均值估计量)的方差为:,比例分配的分层随机抽样相应估计量的方差为:,第五节 分层抽样设计效果分析,根据总体单元指标的平方和分解可得:,如果各层 都比较大,则:,因而:,第五节 分层抽样设计效果分析,上式右边第二项是层间平方和,为非负,因此有:,方差差值为:,这表明层平均数的差异愈大,分层的效果就愈好,若层平均数都相等,则分层与不分层效果相同。,第五节 分层抽样设计效果分析,二、分层随机抽样各种样本量分配方法之间的比较 主要针对比例分配与最优分配抽样效果进行比较分析。为此考虑比例分配方差 与 最优分配方差之差。,其中:,
16、第五节 分层抽样设计效果分析,结论:如果各层均值差异越大,则采用按比例分配的方式较好,而当各层的标准差相差很大时,则最优分配更好。实际工作中,除非各层的标准差相差很大,人们通常还是喜欢采用按比例分配的方式,这主要是因为最优分配只是针对某个指标(或变量)而言的。实际调查项目中,目标变量通常不止一个,这时,针对某个变量的最优分配,对其他变量可能就是很不合适的,因此,在调查多个目标变量时,按比例分配的分层抽样可能更好些。,第六节 进一步讨论的问题,一、层权误差对估计量的影响 在分层抽样中,我们总是假定层权(或每层的大小)是已知的。如果未知且不能精确地估计时,将对估计量带来十分严重的影响。,设估计的权
17、重为,因此实际采用的对总体均值的估计是:,对于分层随机抽样,仍是 的无偏估计,但:,第六节 进一步讨论的问题,因此,不是 的无偏估计,且偏倚B为:,该偏倚只依赖于 的偏差,而与样本量n无关。因此当考虑 的均方误差时,当n增加时,前一项虽然逐渐减少,但第二项保持不变,它不随着n的增大而减少,因而 不再是一个可用的估计量。当n超过一定量时,分层估计量 的均方误差就可能超过简单随机抽样的方差。由于分层获得的精度上的得益会完全丧失。,第六节 进一步讨论的问题,二、最优分配偏差对方差的影响,令 是理论最优分配的样本量,而实际分配为,,根据指定分配及最优分配,估计量 的方差分别为:,第六节 进一步讨论的问
18、题,因此由于实际分配 偏离了理论最优分配 引起的方差增加为:,根据最优(奈曼)分配公式可解得,第六节 进一步讨论的问题,即有:,第六节 进一步讨论的问题,如果忽略有限总体修正系数fpc,因此,估计量方差的相对增加为:,由于,因此上式右边即是 的加权平均,它的上限是最大相对偏离值的平方。如果最大相对偏离g=50%,则方差最多增加25%;若最大相对偏离g=20%,则方差最多增加4%。所以在一般情形,由于最优分配偏差引起的方差增大是相当有限的。,第六节 进一步讨论的问题,三、层数确定,有时,分层是为了提高抽样效率,这时就要考虑如何进行分层。按调查目标量 进行分层当然是最好的,但我们在调查之前并不知道
19、 的值,因此分层只能是通过与 高度相关的辅助指标 来进行。常用的一种方法是确定层界的快速近似法,它是由戴伦纽斯(Dalenius)与霍捷斯(Hodges)提出的。其做法是将分层变量(例如xi)分布的累积平方根进行等分来获得最优分层,因此这种方法也称为累积平方根法。,第六节 进一步讨论的问题,当分层是按自然层或单元类型划分时,层数是自然的,但当遇到运用累积平方根法进行分层时,就存在确定层数的问题。在实际工作中,因为要保证每个层有样本单元,因此层数不能超过样本量,如果要给出估计量方差的无偏估计,则每层至少2个样本单元,那么层数不能超过。,通过对分层抽样与简单随机抽样的比较,我们知道前者比后者的精度
20、高。因此人们设想是否对总体尽可能多地进行划分,使得层内差异降低,这时就要涉及层数增加时估计量方差的下降速度。,第六节 进一步讨论的问题,首先考虑以目标量本身作为分层指标。以最简单的情形为例,Y是区间d上的均匀分布,则总体方差,样本量为n的简单随机抽样简单估计量的方差为。将总体分成大小相同的L层,并按比例分配样本量,即 则,第六节 进一步讨论的问题,但在工作中,本身未知,只能通过与 高度相关的辅助指标 来进行。这时估计量的方差可以分为两部分,一部分与层数有关,另一部分与层数无关,用模型表示即,其中 是方差中受层数影响的部分,是不受层数影响的部分。因此,当层数增加到一定的时候,在精度上的收益将非常
21、小。根据研究,除非Y与X的相关系数,层数一般不超过6为宜。,第六节 进一步讨论的问题,四、多目标分层的样本量的确定,本节从最优分配角度来考虑多指标情形样本量的分配方法。本质上这些方法都是对不同指标最优分配结果的折衷。(一)最优分配平均法 在所考虑的所有目标中,选取最重要的k个,对每个指标j,计算最优分配的层样本量,然后计算它们的平均值:,第六节 进一步讨论的问题,(二)查特吉(Chatterjee)法,考虑实际分配的样本量 对每个目标偏离其最优分配 引起的方差相对增加RVj:,取极小化RVj的平均值 的,结果为,第六节 进一步讨论的问题,(三)耶茨(Yates)法,将每个目标估计量的方差看作损
22、失,考虑总的损失函数:,第六节 进一步讨论的问题,若非用函数仍是简单的线性形式,耶茨法的目标是极小化,根据柯西-许瓦兹不等式,极小值当且仅当,时达到。若令,第六节 进一步讨论的问题,则最优分配为:,从而:,第六节 进一步讨论的问题,五、事后分层 对于分层抽样,我们一般在抽样之前将总体中的所有单元分好层,但在实际工作中,有时没有层的抽样框,或总体特别大来不及事先分层,或者几个变量都适合于分层,要进行事先的交叉分层比较困难,并且我们并不需要交叉分层后每个子层的估计,如需要按年龄分层的结果,还需要按受教育程度分层的结果,但并不需要这两个指标的交叉结果。这时如果想利用分层抽样的优点,可以采用对样本的事
23、后分层方法。,第六节 进一步讨论的问题,要采用事后分层技术,要求我们可以通过某种途径知道各层的层大小 或层权。,如果利用事后分层提高估计精度,而层权与实际情况相差很大,则事后分层技术不能达到提高估计精度的目的。,事后分层方法还可以用于Yz值存在离群值(特别大或特别小)的情况,这时要考虑将总体的离群单元分解,进行事后分层。,第六节 进一步讨论的问题,最简单的事后分层是先抽取一个样本量为咒的简单随机样本,然后将样本按某个特征进行分层,落到第h层的单元数为:,则用估计量,来替代样本均值。,当固定且都大于零的条件下,落到各层的样本可以看成是独立地从各层中抽取的简单随机样本。这时,事后分层估计量 的方差
24、为:,式中:,第六节 进一步讨论的问题,理论上,只要n充分大,事后分层估计量是无偏估计,且它的方差有如下性质:,第六节 进一步讨论的问题,【例3.7】某高校欲了解在校学生用于课外进修(如各种考证辅导班、外语辅导班等)的开支,在全校8 000名学生中抽出了一个200人的简单随机样本。根据学生科的统计,本科生人数为全校学生的70%,调查最近一个学期课外进修支出(单位:元)的结果如表4.4。试估计全校学生用于课外进修的平均开支。,第六节 进一步讨论的问题,解:全校学生用于课外进修的平均开支为:,估计的方差为:,第六节 进一步讨论的问题,估计的标准差为:,如果采用简单估计,则估计的方差为:,估计的标准差为:,编号为奇数的习题答案,4.1(略)4.3解:,(1),(2)按比例分配,(3)Neyman分配,4.5,置信区间(60.63,90.95)元。4.7(1)错;(2)错;(3)错;(4)对;(5)样本量足够大时是对的。,