《分层抽样》PPT课件.ppt_三一办公31ppt.com

资源描述

《《分层抽样》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《分层抽样》PPT课件.ppt（83页珍藏版）》请在三一办公上搜索。

1、第四章分层抽样,本章要点,本章主要是对分层抽样理论包括抽样方式、估计量及其性质、样本量的确定及分配、分层抽样设计效果等进行系统全面地介绍。具体要求：正确理解层、分层抽样以及分层随机抽样的涵义，分层抽样的特点及作用；掌握分层抽样的参数估计量及其性质；掌握分层抽样样本量的确定方法；了解分层抽样的设计效果；了解分层抽样其他有关理论问题，包括层权偏差、最优分配偏差、事后分层等。,第一节抽样方式第二节简单估计量及其性质第三节样本量的分配第四节样本量的确定第五节分层抽样设计效果分析第六节进一步讨论的问题,一、分层抽样与分层随机抽样在抽样之前，先将总体N个单元划分成L个互不重复的子总体，每

2、个子总体称为层，它们的大小分别为，这L个层构成整个总体（）。然后，在每个层中分别独立地进行抽样，这种抽样就是分层抽样，所得到的样本称为分层样本。如果每层都是简单随机抽样，则称为分层随机抽样，所得到的样本称为分层随机样本。,第一节抽样方式,二、分层抽样的特点及作用（一）分层抽样可以提高参数估计的精度。（二）分层抽样不仅能对总体参数进行估计，而且能对各层（子总体）参数进行估计。（三）便于依托行政管理机构进行组织和实施，同时还可以根据各层的不同特点采用不同的抽样方式。（四）分层抽样样本在总体中分布更加均匀。,第一节抽样方式,三、层的划分原则（一）层内单元具有相同性质，通常按调查对象的不同类型进行

3、划分。这时，分层抽样能够对每一类的目标量进行估计。（二）尽可能使层内单元的标志值相近，层间单元的差异尽可能大，从而达到提高抽样估计精度的目的。（三）既按类型又按层内单元标志值相近的原则进行多重分层，同时达到实现估计类值以及提高估计精度的目的。（四）为了抽样组织实施的方便，通常按行政管理机构设置进行分层。,第一节抽样方式,四、符号说明设总体分为L层，下标h表示层号(h=1，2，L)。则关于第h层的记号如下：第h层总体单元数：（通常已知），且第h层样本单元数：，且第h层总体和样本第i个单元标志值(观察值)：,第一节抽样方式,第一节抽样方式,层权：第h层抽样比：第h层总体均值：第h层样本

4、均值第h层总体总值：,第一节抽样方式,第h层样本总值：第h层总体方差第h层样本方差：,第二节简单估计量及其性质,一、总体均值的估计(一)简单估计量的定义在分层抽样中，对总体均值的估计是通过对各层的的估计，按层权加权平均得到的。公式为：,如果得到的是分层随机样本，则总体均值的简单估计为：,第二节简单估计量及其性质,(二)估计量的性质性质l 对于一般的分层抽样，如果是的无偏估计(h=1,2,，L)，则是的无偏估计。的方差为：,值得强调的是，在分层抽样中只要对各层估计是无偏的，则对总体的估计也是无偏的。因此，各层可以采用不同的抽样方法，只要相应的估计量是无偏的，则对总体的

5、推算也是无偏的。,第二节简单估计量及其性质,性质2 对于分层随机抽样，是的无偏估计，的方差为：,性质3 对于分层随机抽样，的一个无偏估计为：,第二节简单估计量及其性质,二、总体总量的估计(一)简单估计量的定义总体总量Y的估计为：,如果得到的是分层随机样本，则总体总量Y的简单估计为:,第二节简单估计量及其性质,（二）估计量的性质性质4 对于一般的分层抽样，如果是的无偏估计，则是Y的无偏估计。的方差为：,第二节简单估计量及其性质,性质 5 对于分层随机抽样，的方差为：,性质 6 对于分层随机抽样，的一个无偏估计为：,第二节简单估计量及其性质,【例4.1】为调查某地区住户的平均家

6、庭成员数，将该地区分成城市和乡村2层，每层按简单随机抽样抽取10户，调查所获得的数据如表4-1。请估计该地区住户的平均家庭成员数及其95%的置信区间。,95%的置信区间为，其中。经计算可得：平均家庭成员数的95%的置信区间为：（3.24,4.24）,第二节简单估计量及其性质,第二节简单估计量及其性质,三、总体比例的估计（一）简单估计量的含义记层比例为，层样本比例，其中与是第h层总体及样本中具有所考虑特征的单元数，则总体比例P的估计为：,第二节简单估计量及其性质,（二）估计量的性质如果定义,则对总体比例的估计类似对总体均值的估计，这时具有同样的性质。,第二节简单估计量及其性质,

7、性质7 对于一般的分层抽样，如果是的无偏估计（h=1,2,，L），则是P的无偏估计。的方差为：,性质8 对于分层随机抽样，是P的无偏估计，则：,的方差为：,第二节简单估计量及其性质,第二节简单估计量及其性质,性质 9 对于分层随机抽样，的一个无偏估计为：,第二节简单估计量及其性质,【例4.2】对某地区的居民拥有家庭电脑的情况进行调查，以居民户为抽样单元，根据收入水平将居民户划分为四层，每层按简单随机抽样抽取10户，调查获得如下数据（单位：台），如表4-3。估计该地区居民拥有家庭电脑的比例计估计的标准差。,第二节简单估计量及其性质,解：由上表可得:,第二节简单估计量及其性质,因此

8、，该地区居民拥有家庭电脑比例的估计为：,估计量的方差为：,第二节简单估计量及其性质,估计量的标准差为：,第三节样本量的分配,在分层抽样抽样中，若总样本量n一定时，还需研究各层应该分配多少样本量的问题，因为对总体参数进行估计时，估计量的方差不仅与各层的方差有关，还与各层所分配的样本量有关。实际工作中有不同的分配方法，既可以按各层单元数占总体单元数的比例分配，也可以采用使估计量总方差达到最小等几种方法进行样本量的分配。,第三节样本量的分配,一、比例分配,比例分配指的是按各层单元数占总体单元数的比例，也就是按各层的层权进行分配，即：,这时：,第三节样本量的分配,总体比例P的估计是：,对于分层

9、随机抽样，这时总体均值的估计值是：,第三节样本量的分配,的方差为：,总体中的任一个单元，不管它在哪一层，都以同样的概率入样，因此按比例分配的分层随机样本，估计量的形式特别简单。这种样本也称为自加权的样本。,第三节样本量的分配,的方差为：,第三节样本量的分配,二、最优分配（一）最优分配最优分配是指在分层随机抽样中，如何将样本量分配到各层，使得在总费用给定的条件下，估计量的方差达到最小；或在给定估计量方差的条件下，使总费用最小，能满足这个条件的样本量分配就是最优分配。如果我们考虑简单线性费用函数，总费用,第三节样本量的分配,则这时的最优分配是：,由此得出下面的行为准则，如果某一层单元数较

10、多，内部差异较大，费用比较省，则对这一层的样本量要多分配一些。,第三节样本量的分配,（二）Neyman（内曼）分配,对于分层随机样本，作为特例，如果每层抽样的费用相同，即时，最优分配可简化为：,这种分配称为Neyman分配。这时，达到最小。,第三节样本量的分配,【例4.3】对某地区的居民豆制品年消费支出进行调查，以居民户为抽样单元，根据收入水平将居民户划分为四层，每层按简单随机抽样抽取10户，调查获得如下数据（单位：元），如表4-4。样本量为n=40，则按比例分配和Neyman分配时，各层的样本量应为多少？,第三节样本量的分配,解：由上表，,各层的层权及抽样比为：,第三节样本量的分配

11、,各层样本均值及方差为：,同理可得：,按比例分配时，各层的样本量为：,第三节样本量的分配,即各层的样本量分别为3，6，11，22,对于Neyman分配，根据前面对及的计算结果，得到：,第三节样本量的分配,因此，按Neyman分配时，各层应分配的样本量为：,第三节样本量的分配,即各层的样本量分别为3，7，23，7。,（三）某些层要求大于100%抽样时的修正按最优分配时，有时抽样比较大，某个层的又比较大，则可能出现按最优分配计算的这个层的样本量超过的情况。实际工作中，如果第k层出现这种情况，最优分配是对这个层进行100%抽样，即取，然后，将剩下的样本量按最优分配各层。,第三节

12、样本量的分配,一、一般公式令，其中已经选定，于是当方差V给定时，,第四节样本量的确定,得到确定样本量的一般公式为：,如果估计精度是以误差限的形式给出，则，,第四节样本量的确定,当按比例分配时，,第四节样本量的确定,实际工作中，n的计算可以分为两步，先计算,然后进行修正：,当按Neyman分配时，,【例4.4】（续例4.3）如果要求在95%置信度下，相对误差不超过10%，则按比例分配和Neyman分配时，总样本量分别为多少？解：当按比例分配时，由前面的计算结果，可以得到各层的,第四节样本量的确定,在95%值信度时，对应的t=1.96。又,第四节样本量的确定,因此得到：,由此可以得

13、到：,对进行修正，得到修正后的n：,第四节样本量的确定,当按Neyman分配时：,综合上述，按比例分配时，样本量至少应为179，按Neyman分配时，样本量至少应为110。,当方差V给定时，得到样本量为：,第四节样本量的确定,二、最优分配需要考虑费用时在最优分配时，如果考虑费用为简单线性费用函数：,则：,而当总费用C是给定时，有：,第四节样本量的确定,则：,第四节样本量的确定,对其求和得到样本量为：,第四节样本量的确定,三、总体参数为P的情形当方差V给定时，如果都比较大，使得,则总样本量为：,或：,第四节样本量的确定,（二）Neyman分配,计算样本量之前，需要对作预估计

14、。,第四节样本量的确定,【例4.5】（续例4.2）如果要求在95%置信度下，绝对误差不超过5%，则按比例分配和Neyman分配时，总样本量分别为多少？,解：在置信度95%时，对应的t=1.96，而绝对误差d=5%，因此,第四节样本量的确定,按比例分配时：可以得到,第四节样本量的确定,调整后的样本量为：,Neyman 分配时：,所以，按比例分配和按Neyman分配所需的样本量分别为206和196。,第五节分层抽样设计效果分析,一、分层随机抽样与简单随机抽样的比较本节我们将从理论上将分层随机抽样与简单随机抽样进行效果比较，也即在相同样本量下，比较其估计量的方差大小。为比较分层随机抽样于简

15、单随机抽样的精度，我们拟在样本量为比例分配的形式下讨论。,记简单随机抽样（对均值估计量）的方差为：,比例分配的分层随机抽样相应估计量的方差为：,第五节分层抽样设计效果分析,根据总体单元指标的平方和分解可得：,如果各层都比较大，则：,因而：,第五节分层抽样设计效果分析,上式右边第二项是层间平方和，为非负，因此有：,方差差值为：,这表明层平均数的差异愈大，分层的效果就愈好，若层平均数都相等，则分层与不分层效果相同。,第五节分层抽样设计效果分析,二、分层随机抽样各种样本量分配方法之间的比较主要针对比例分配与最优分配抽样效果进行比较分析。为此考虑比例分配方差与最优分配方差之差。,其中：,

16、第五节分层抽样设计效果分析,结论：如果各层均值差异越大，则采用按比例分配的方式较好，而当各层的标准差相差很大时，则最优分配更好。实际工作中，除非各层的标准差相差很大，人们通常还是喜欢采用按比例分配的方式，这主要是因为最优分配只是针对某个指标(或变量)而言的。实际调查项目中，目标变量通常不止一个，这时，针对某个变量的最优分配，对其他变量可能就是很不合适的，因此，在调查多个目标变量时，按比例分配的分层抽样可能更好些。,第六节进一步讨论的问题,一、层权误差对估计量的影响在分层抽样中，我们总是假定层权（或每层的大小）是已知的。如果未知且不能精确地估计时，将对估计量带来十分严重的影响。,设估计的权

17、重为，因此实际采用的对总体均值的估计是：,对于分层随机抽样，仍是的无偏估计，但：,第六节进一步讨论的问题,因此，不是的无偏估计，且偏倚B为：,该偏倚只依赖于的偏差，而与样本量n无关。因此当考虑的均方误差时,当n增加时，前一项虽然逐渐减少，但第二项保持不变，它不随着n的增大而减少，因而不再是一个可用的估计量。当n超过一定量时，分层估计量的均方误差就可能超过简单随机抽样的方差。由于分层获得的精度上的得益会完全丧失。,第六节进一步讨论的问题,二、最优分配偏差对方差的影响,令是理论最优分配的样本量，而实际分配为，,根据指定分配及最优分配，估计量的方差分别为：,第六节进一步讨论的问

18、题,因此由于实际分配偏离了理论最优分配引起的方差增加为：,根据最优（奈曼）分配公式可解得,第六节进一步讨论的问题,即有：,第六节进一步讨论的问题,如果忽略有限总体修正系数fpc,因此，估计量方差的相对增加为：,由于，因此上式右边即是的加权平均，它的上限是最大相对偏离值的平方。如果最大相对偏离g=50%，则方差最多增加25%；若最大相对偏离g=20%，则方差最多增加4%。所以在一般情形，由于最优分配偏差引起的方差增大是相当有限的。,第六节进一步讨论的问题,三、层数确定,有时，分层是为了提高抽样效率，这时就要考虑如何进行分层。按调查目标量进行分层当然是最好的，但我们在调查之前并不知道

19、的值，因此分层只能是通过与高度相关的辅助指标来进行。常用的一种方法是确定层界的快速近似法，它是由戴伦纽斯(Dalenius)与霍捷斯(Hodges)提出的。其做法是将分层变量(例如xi)分布的累积平方根进行等分来获得最优分层，因此这种方法也称为累积平方根法。,第六节进一步讨论的问题,当分层是按自然层或单元类型划分时，层数是自然的，但当遇到运用累积平方根法进行分层时，就存在确定层数的问题。在实际工作中，因为要保证每个层有样本单元，因此层数不能超过样本量，如果要给出估计量方差的无偏估计，则每层至少2个样本单元，那么层数不能超过。,通过对分层抽样与简单随机抽样的比较，我们知道前者比后者的精度

20、高。因此人们设想是否对总体尽可能多地进行划分，使得层内差异降低，这时就要涉及层数增加时估计量方差的下降速度。,第六节进一步讨论的问题,首先考虑以目标量本身作为分层指标。以最简单的情形为例，Y是区间d上的均匀分布，则总体方差，样本量为n的简单随机抽样简单估计量的方差为。将总体分成大小相同的L层，并按比例分配样本量，即则,第六节进一步讨论的问题,但在工作中，本身未知，只能通过与高度相关的辅助指标来进行。这时估计量的方差可以分为两部分，一部分与层数有关，另一部分与层数无关，用模型表示即，其中是方差中受层数影响的部分，是不受层数影响的部分。因此，当层数增加到一定的时候，在精度上的收益将非常

21、小。根据研究，除非Y与X的相关系数，层数一般不超过6为宜。,第六节进一步讨论的问题,四、多目标分层的样本量的确定,本节从最优分配角度来考虑多指标情形样本量的分配方法。本质上这些方法都是对不同指标最优分配结果的折衷。（一）最优分配平均法在所考虑的所有目标中，选取最重要的k个，对每个指标j，计算最优分配的层样本量，然后计算它们的平均值：,第六节进一步讨论的问题,(二)查特吉(Chatterjee)法,考虑实际分配的样本量对每个目标偏离其最优分配引起的方差相对增加RVj：,取极小化RVj的平均值的，结果为,第六节进一步讨论的问题,（三）耶茨（Yates）法,将每个目标估计量的方差看作损

22、失，考虑总的损失函数：,第六节进一步讨论的问题,若非用函数仍是简单的线性形式,耶茨法的目标是极小化,根据柯西-许瓦兹不等式，极小值当且仅当,时达到。若令,第六节进一步讨论的问题,则最优分配为：,从而：,第六节进一步讨论的问题,五、事后分层对于分层抽样，我们一般在抽样之前将总体中的所有单元分好层，但在实际工作中，有时没有层的抽样框，或总体特别大来不及事先分层，或者几个变量都适合于分层，要进行事先的交叉分层比较困难，并且我们并不需要交叉分层后每个子层的估计，如需要按年龄分层的结果，还需要按受教育程度分层的结果，但并不需要这两个指标的交叉结果。这时如果想利用分层抽样的优点，可以采用对样本的事

23、后分层方法。,第六节进一步讨论的问题,要采用事后分层技术，要求我们可以通过某种途径知道各层的层大小或层权。,如果利用事后分层提高估计精度，而层权与实际情况相差很大，则事后分层技术不能达到提高估计精度的目的。,事后分层方法还可以用于Yz值存在离群值(特别大或特别小)的情况，这时要考虑将总体的离群单元分解，进行事后分层。,第六节进一步讨论的问题,最简单的事后分层是先抽取一个样本量为咒的简单随机样本，然后将样本按某个特征进行分层，落到第h层的单元数为：,则用估计量,来替代样本均值。,当固定且都大于零的条件下，落到各层的样本可以看成是独立地从各层中抽取的简单随机样本。这时，事后分层估计量的方差

24、为：,式中：,第六节进一步讨论的问题,理论上，只要n充分大，事后分层估计量是无偏估计，且它的方差有如下性质：,第六节进一步讨论的问题,【例3.7】某高校欲了解在校学生用于课外进修(如各种考证辅导班、外语辅导班等)的开支，在全校8 000名学生中抽出了一个200人的简单随机样本。根据学生科的统计，本科生人数为全校学生的70%，调查最近一个学期课外进修支出(单位：元)的结果如表4.4。试估计全校学生用于课外进修的平均开支。,第六节进一步讨论的问题,解：全校学生用于课外进修的平均开支为：,估计的方差为：,第六节进一步讨论的问题,估计的标准差为：,如果采用简单估计，则估计的方差为：,估计的标准差为：,编号为奇数的习题答案,4.1（略）4.3解：,（1），（2）按比例分配，（3）Neyman分配，4.5，置信区间（60.63，90.95）元。4.7（1）错；（2）错；（3）错；（4）对；（5）样本量足够大时是对的。,

展开阅读全文