《抽样技术 概念.docx》由会员分享,可在线阅读,更多相关《抽样技术 概念.docx(41页珍藏版)》请在三一办公上搜索。
1、目录第一章预备知识第二章基本概念第三章简单随机抽样 第四章分层随机抽样 第五章不等概率抽样 第六章多阶段抽样 第七章整群抽样第八章系统抽样 第九章非概率抽样第一章预备知识作为抽样技术的基础知识或预备知识,本章简要地介绍调查原理、排列组合、概率统计等方面的有关 知识。一、调查概论调查的重要性:有利于制定政策、投资决策、科学研究、机构管理以及司法实践等;与此同时,许多学科 的进步和发展也同样离不开调查。(一)(一)调查本质上是一种测量活动测量活动具有6个要素:测量主体、测量客体、测量对象、测量法则、测量工具、测量结果(数字符号)。测量得到的数据大体分为三种类型:分类型数据、顺序型数据以及数值型数据
2、。测量的方法分为:直接测量和间接测量。(二)(二)真值、测量值与误差误差公理:任何调查结果都可能具有误差,而且误差始终存在于一切科学试验和调查过程中。根据误差的来源分类:调查主体误差、调查客体误差、调查工具误差、调查法则误差、调查环境误差。误差公理:任何调查结果都可能具有误差,而且误差始终存在于一切科学试验和调查过程中。根据误差的来源分类:调查主体误差、调查客体误差、调查工具误差、调查法则误差、调查环境误差。根据误差的性质分类:系统误差、随机误差和粗大误差。根据误差的计量尺度分类:绝对误差和相对误差。绝对误差5、(调查)估计值x以及真实值u之间的关系:5=x-u。相对误差r、绝对误差5以及真实
3、值u之间的关系:r=5/u。实际常用的真值分类:理论真值、约定真值以及相对真值。实际常用的测量值分类:单次测量值、算术平均值、加权平均值、中位数和众数。(三)(三)信度、效度与精度信度表示测量结果中的随机误差大小的程度。信度的表示方法:测量值的方差(或标准差)或者样本平均数的方差(或标准差)。衡量信度的三种方法:再测信度、复本信度和折半信度。衡量信度的三种方法;再测信度、复本信度和折半信度。效度表示测量结果中的系统误差大小的程度,是测量结果的有效性”的反映。效度分类:内容效度、准则效度和结构效度。效度含义:(1)测量的特征即为研究的目标特征;(2)该特征被准确地测量。效度的表示方法:B(歹)=
4、I无-ul或者B(E无)=I E无-u|o精度是信度与效度的综合,但它还与信度与效度之外的因素有关。精度的表示方法:均方误差MSE(元)=V(无)+ B2(战_)效度的表示方法:B(x) = X f I或者B(Ex)= E:x 。精度表示信度与效度的综合,但它还与信度与效度之外的因素有关。精度的表示方法:均方误差MSE (元)=7 (无)+ B 2( E)信度、效度与精度之间的关系:对于测量或调查来说,信度高的效度未必高,反过来效度高的信度未必高,但精度高的信度和效度肯定高。二、排列组合(一)(一)两条基本原理加法原理和乘法原理。(二)(二)排列排列的分类:选排列与全排列、允许重复的排列。选排
5、列与全排列之间的关系:全排列是选排列的一种特殊情形(尸=)。选排列与全排列中的元素是互不相同的。允许重复的排列中的元素可能重复出现多次。(三)(三)组合组合与排列的差异:组合只与元素有关,而与元素的顺序无关;排列不仅与元素有关,而且与元素的顺序有关。组合的性质:(1)(n :=n :n ;=-1 +n 1,侦JLn -r);(2)Lr Jr 1Lr LJr rJ三、概率统计中的一些基本问题(一)(一)大数定律大数定律的重要作用:奠定了用样本来估计总体的理论基础。几种大数定律:契比雪夫大数定律、贝努里大数定律以及辛钦大数定律。契比雪夫大数定律证明了当n无限增加时,n个随机变量的算术平均将会几乎变
6、成一个常数。贝努里大数定律证明了随着试验次数n无限增大,事件发生的频率可以无限接近它发生的概率。贝 努里大数定律是辛钦大数定律的特殊情况。辛钦大数定律证明了在n无限增大时,样本均值会无限接近总体的数学期望。(二)(二)中心极限定理中心极限定理的重要作用:奠定了用样本估计量对总体参数进行区间估计的理论基础。中心极限定理的思想:不论总体服从何种分布,只要方差有限,在观察值足够多时,许多估计量的抽 样分布,就趋向正态分布。根据限制条件的不同可以分成:列维一林德伯格中心极限定理和李雅普诺夫定理。列维一林德伯格中心极限定理要求随机变量I,X 2,Xn,独立且同分布;李雅普诺夫定理仅要求随机变量X1,2,
7、% 相互独立,但无需服从同一分布。(三)(三)参数估计原理参数估计分为:点估计和区间估计。A r * 、A v y、c点估计思想:构造一个适当的统计量U ( X I,.” Xn ),用它的观察值巳,Xn 来估计未知参数。构造点估计量的方法:矩估计法和极大似然估计法。衡量估计量优劣的标准:无偏性、有效性和一致性。区间估计的思想:对于未知参数,除了求出它的点估计外,同时还估计出一个范围,并给出 此区间包含参数真值的可信程度。第二章基本概念基本内容在学习各种抽样方法之前,先了解一下抽样调查中所涉及到的基本概念。一、抽样调查与非抽样调查调查分类:(1)(1) 根据“调查是否针对总体的所有单元”进行分类
8、:全面调查和非全面调查。(2)(2) 根据“单元是否按照一定的概率入样”进行分类:概率抽样调查和非概率抽样调查。非全面调查相对于全面调查的优点:(1)时间短速度快;(2)费用少成本低;(3)调查结果比较准确;(4)应用范围广泛。概率抽样的分类:(1)(1) 根据“单元的入样概率是否相等”进行分类:等概率抽样和不等概率抽样。(2)根据“具体的抽样方式”进行分类:简单随机抽样、分层抽样、整群抽样、系统抽样、 多阶段抽样等等。概率抽样的优点:(1)(1) 能够保证样本的代表性,避免人为因素的干扰;(2) (2) 用概率抽样取得的样本去估计总体特征时,可以对由抽样产生的抽样误差进行估计。 非概率抽样的
9、分类:(1)按照“具体的抽样方式”进行分类:判断抽样、便利抽样、自愿样本、滚雪球抽样、配额抽样等。(2)判断抽样包括典型调查和重点调查这两种取样方式。非概率抽样的缺点:(1)(1) 难以评价样本的代表性。(2)(2) 无法估计抽样误差。(3)(3) 偏倚往往较大。二、总体与样本(一)(一)总体总体分为:目标总体和实际总体。目标总体是研究目标所针对的总体;实际总体是实际调查 时所针对的有限的、具体的总体。总体与个体:总体是个体的集合,个体是构成对应总体的单元。一切构成总体的个体或子总 体泛称为总体单元,其中个体称为基本单元。基本单元是总体里最小的、不可再分的单元。(二)(二)抽样框与抽样单元包含
10、所有抽样单元的总体称为抽样框,构成抽样框的单元称为抽样单元。抽样框的形式:名单、手册、地图、数据包等等。抽样框的要求:(1)抽样框必须是有序的,即抽样单元必须编号,且根据某种顺序进行了排列。(2)抽样框中包含的抽样单元务必要“不重不漏二否则将出现抽样框误差。抽样单元分级:初级单元一次级单元一三级单元一四级单元一基本抽样单元。(三)(三)抽样与样本样本是抽样的结果一从总体全部单元中选出的部分单元,其全体称为样本总体,简称样本。样本由样本点(抽样单元)构成。根据样本抽取方法的不同,可以将抽样分为全样本抽取和逐个抽取。全样本抽取和逐个无放回抽取是等价的。三、总体特征与估计量(一)(一)总体特征总体特
11、征与总体的关系:总体是调查的客体,而总体特征是总体某个特征或属性的数量表现通常的总体特征有4种:(1 )总体总值Y ; (2)总体均值Y ; (3)总体比例P ; (4)总体比率R。总体总值、总体均值、总体比例三者是统一的,它们都可以用总体均值Y来表示。(二)(二)估计量和估计方法估计量是从样本的n个单元计算出的对总体特征的估计。估计量是随机变量。估计方法:最常见的估计方法是简单线性估计,除此之外,还可以借助于辅助变量。辅助变量必须满足的两个条件:(1)与要估计的变量高度相关;(2)其总体信息已知。(三)(三)抽样分布抽样分布:对一个固定的总体,在确定的样本设计和样本量的条件下,估计量的所有可
12、能取值及其出现概率的序列就是该估计量的抽样分布。抽取的样本越多,所得到的频率分布图就越接近于估计量的真实分布一抽样分布。抽样分布的渐进正态性:当从一个比较大的总体N中抽取一个中等容量(30以上)的样本时,无论总体是何种分布,其样本均值的抽样分布都近似于正态分布。样本量愈大,其愈接 近正态。四、误差与精度抽样调查中的误差有两类:抽样误差和非抽样误差。抽样误差可以进行数量上的估计,是本节研究重点。控制非抽样误差的方法:严格调查程序、规范调查步骤、加强人员的培训和管理、合理地设 计问题和答卷、改进测量方法和工具。(一)(一)均方误差和偏倚均方误差是估计量误差平方的期望MSE ( ) = E(0-0
13、”。偏倚是估计量的期望与参数真值之间的差异:B(0) - E(0)0。均方误差、方差及偏倚之间的关系:MSE(0)=y(0)+B2(0)。(二)(二)置信区间与误差限置信区间:设a/2为标准正态分布的双侧以分位数,则置信水平为1a的近似置信区间可以写成:0 a/2 .S O0 + a/2 .S,其中S 0为的标准差,需要利用样本数据进行估计。误差限可以分为:绝对误差限d和相对误差限尸。_ d绝对误差限和相对误差限之间的转换关系:0。(三)(三)费用与效率调查的费用是一个与样本量有关的函数,最简单的是线性费用函数。增大样本量可以提高估计量的精度,但与此同时调查的费用也加大了。效率是指以最小的费用
14、达到要求的精度或者在给定费用的情况下达到最大的精度。五、几种基本的抽样方法简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样分别适用于不同的场合以及不 同的精度要求。在本书后面会有详细介绍。六、抽样调查的具体实施步骤实施步骤:(1)调查目标确定;(2)抽样框选择;(3)抽样设计;(4)问卷设计;(5)数据收集;(6)数据编码和录入;(7)审核与插补;(8)参数估计;(9)数据分析和 调查结果的表述;(10)数据发布;(11)文档。第三章简单随机抽样基本内容随机抽样分为四种情形:放回有序、放回无序、不放回有序、不放回无序。简单随机抽样分为:不放回简单随机抽样(SRSWOR)和放回简单随机抽样
15、(SRSWR)。一、简单随机抽样理论简单随机抽样有三个表述不同但却等价的定义(定义3.1至定义3.3)。简单随机抽样的抽取原则:(1)按随机原则取样;(2)每个抽样单元被抽中的概率都是已知的或事先 确定的;(3)每个抽样单元被抽中的概率都是相等的。主要相关符号:记号NnfYiyiYyYy代表的含义总体中的单位总数样本量抽样比第.个总体单元取值第.个样本单元取值总体均值样本均值总体总量样本总量二、参数估计量及其性质常见的四个总体特征:(1)总体均值;(2)总体总值;(3)总体比例;(4)总体比率。(一)(一)简单估计量简单随机样本的方差,2是总体方差S 2的无偏估计;简单随机样本的协方差工是总体
16、协方差哗的无偏估计。(1)总体均值衫简单估计量:4 一 1尸=,且研)=亍(无偏性)。V(y)的无偏估计量:(2)总体总量Y简单估计量:且 E (Y) = Y(无偏性)。y (Y) = v(nY) = N2 上打 s2n估计量Y方差V(Y):V(Y)的无偏估计量:(3) 总体比例P若总体中第,个单元具有所研究的特征;1若总体中第i个单元不具有所研究的特征P = p = - = - Ey. = y = Y n n l i=1_A令Yi=简单估计量:,且有E(P) - P (无偏性)。1 f 1估计量P 的方差V(P):V(P)=Tn1NP(1P)V( Pv (p) = ( p (1 p)V (P
17、)的无偏估计量:n 1。(4)总体比率RR = r = y简单估计量:x,且n较大时,E(R) = E(r) a R (渐进无偏性)。V (R) a 估计量R的方差V(R):当n较大时,y/ (RR ) a 上V(R)的估计量:当n较大时,n1f . E(Y RX )2 nX 2 N 1 i ii=1土 E (y-R x )2 n 1 i i ii=1(二) (二)比率估计量辅助变量特点:(a)必须与主要变量高度相关;(b)与主要变量之间的相关关系整体上相当稳定;(c) 辅助变量的信息质量更好,帮忙而不添乱;(d)辅助变量的总体总值必须是已知的,或更容易获得的。(1) 总体均值Yy = y =
18、 Xy =xR比率估计量:R R x N ,且n较大时,E(R)a XR = Y (渐进无偏性)。1f 1 E,、估计量y的方差V(y )护由 V(yR)a EE(Yi -RXi)2/ : n较大时,i=1V顷R)的估计量: (2)总体总量YV ( y ) a f ( s 2 2 R - s + R 2 s 2 ) r n yyxxy 一 c比率估计量:yr =叫=Xx = XR,且n较大时,e(Yr)aNXR=Y (渐进无偏性)。V(Y ) a N2 -i-E(Y RX )2 估计量Yr的方差V(Yr) : n较大时,R N -1 i=1 i iV (Y )V (Y ) a N 21f (s
19、 2 2 R - s + R 2 s 2)V (Yr 的估计量:Rn y yx x(三) (三)回归估计量辅助变量的特点与比率估计完全相同。B = R =y- -简单估计量与比率估计量都是回归估计量的特例:当P= 0时,% = y ;当 x时,儿=%。回归估计量:匕广E(X x)1 (S 2 + P 2 S 2 - 2 P S )若P为常数(记为P0),则E(0 = y,匕的方差V(4)n y x -y ov(y ) = N(S2 + P 252 - 2 P s )V (常的估计量为lr n y 0 x 0 xy oS /、P B SXy P苛 v (y)= f s2(1 -p2)使V (yi
20、r)达到最小的x x, min lr n yo1 f 、_- v(y )牝 MSE(y )牝 f S2(1 -p 2)对于简单随机抽样,n足够大时,E(yr “Y ,lr* n , o倘若待估参数为总体总量、总体比例或总体比率,可以根据上面总体均值估计量的结论推导出相关性 质。三、不同估计量的精度比较当n足够大时,由于P 1d 2 =1样本容量n的确定公式:n N %?2样本容量n的确定步骤:第一步:确定估计的精度水平;第二步:按照保守(即让样本容量宁大勿小)原则,对总体方差S2进行预估;第三步:计算简单随机抽样在回答率为100%的条件下所需的初始样本量n ;第四步:确定抽样方式,并根据不同抽
21、样方式的设计效应d曲对样本容量进行调整;第五步:判定有效回答率,并根据有效回答率对样本容量进行再调整;第六步:在需要得到分组数据并对这些分组数据的精度有事先约定或要求时,应分别计算各组所需样 本量,然后经各组累计加总得到总体所需样本量;第七步:仔细权衡费用、时间、调查机构拥有或可动用的各种资源方面的限制,进而确定最终的样本 量。预估S 2的方法:(1) 利用先前的调查结果和经验;(2) 利用预调查或试调查的结果;(3) 利用同类或相似或有关的二手数据的结果;非负,所以回归估计的结果一般好于简单估计。当n不够大时,比率估计和回归估计先天不足,此时不能认为它们一定好于简单估计。四、样本量的确定影响
22、样本容量n的因素:总体规模N,(目标)抽样误差,(y)以及总体方差S2等等。-V (y) =土抽样误差V(亍)通常用置信度1-a和绝对误差限度y - H - d 替代: %2 o(4)利用某些理论上的结论;(5)利用富有经验的专家之判断。五、简单随机抽样的实施简单随机抽样的实施办法:抽签法、使用统计软件直接抽取法以及随机数法。产生随机数的几种方式:(1)使用计算器;(2)使用计算机;(3)使用随机数表;(4)使用随机数骰子;(5)使用电子随机数抽样器。第四章分层随机抽样基本内容引入分层随机抽样的原因:简单随机抽样不太适合总体单元数比较大或者总体单元之间差异较大的 情形。一、分层随机抽样理论相关
23、概念:层、分层抽样以及分层随机抽样。分层随机抽样的适用场合:“层内差异小,层间差异大”。分层随机抽样相对于简单随机抽样的优点:(1)(1) 可同时对子总体(层)进行参数估计;(2) (2) 便于依托行政管理机构进行组织和实施,同时还可以根据各层的不同特点采用不同的 抽样方式;(3) (3) 样本在总体中分布更加均匀;(4) (4) 可以提高参数估计的精度。主要相关符号:WhfhYhiy hiY hyhYhy h第h层的第h层的第h层第第h层第第h层的第h层的第h层的第h层的个总体单元个样本单元层权抽样比的取值取值总体均值样本均值总体总量样本总量记号代表的含义二、参数估计量及其性质常见的总体特征
24、:(1)总体均值;(2)总体总值;(3)总体比例。注:下面凡是标注“* ”号的公式不需记忆,但要求能够识别出来。(一)(一)简单估计量各层的样本方差七是该层总体方差Sh的无偏估计; 各层的样本协方差侦是该层总体协方差的无偏估计。(1)总体均值FY = y =lWy = lN y _-(无偏性)。简单估计量:h=i N h=1”,且E(叮=Y估计量七的方差7(孔)V(y ) = W2dS2sth n hV (y ) = w 2(1fs 2sth n hh=1h(2)总体总量Y简单估计量:Y=点st= Nyst,且E (Yst) = Y (无偏性)。估计量Yst的方差V气) V/、S 2V(Y )
25、 = 2N (N-n )-hsth h h nV(Yst)的无偏估计量:v(Y ) = n (N -n )s2fnsth h h h hh=1(3)总体比例P简单估计量:p =W W ph=1且E(Pst) = P (无偏性)。s 、1 顶 v N -n PQ估计量PSt的方差V(Pst ) :(*)V (p )=乙 N hh .hh=1hhV(P ) = j (N . p qV(Ps)的无偏估计量:st N2 h=1(nh -1) hh(二) (二)比率估计量(1)总体均值Y分别比估计:y =Ew hX_分别比估计量:Rh=1 hXh h,各层的nh都较大时,E ( RS ) A Y (渐进
26、无偏性)。rW;(1- f (S2 + R2S2 -2R P S S )V(y ) V(y )nyh h xh h h yh xh估计量】RS的方差V/R5 :V/R5h=1h(*)_V (y ) rW;(1 - f? (s 2 + R 2 s 2 - 2Rrs s )V (y )V (y ) RSnyhh xhh h y xhRS的估计量 RS :h=1h()联合比估计:y =。. X 冬 RX_联合比估计量:眼 次stC ,总样本量n较大时,E(yRC) A Y (渐进无偏性)。_ rw:(1- f (S2 + R2S2 -2RP S S )量y 的方差V(y ) V顷) n yh xh
27、h yh xh (*) 估计量 RC的力左RC :RCh=1h()V ( yRC )的估计量V(人V(y ) RCh=1W2(1- f (s 2 + R 2 s 2 2 Rrs s ) c h yh xhyh c xh(*)(2)总体总量Y分别比估计:分别比估计量:人Y = NyRS RS估计量Y的方差V(Yrs)一人.人.V(Yrs)的估计量V(Yrs)联合比估计:联合比估计量:E(YRS ) Y (渐进无偏性)。各层的nh都较大时,v (Y) N(- f (S 2 + R 2 S 2 2 R P S S )RSnyh h xh h h yh xhh=1hV (Y) “;(i_ 也(s 2
28、+ R 2 s 2 2 R rs s )yh h xh h h yh xhRSh=1(*)(*)人Y = NyRCRCmV(Y )估计量 RC 的方差RCV(Yrc)的估计量V(Yrc)E(YRC ) Y (渐进无偏性)。总样本量n较大时、N2(1- f (S2 + R2S2 2RP S S )V(Y )nyh xh h yh xhRCh=1hV (Y ) N2(1- f (s2 + R2s2 2Rrs s )RCnyh c xh c h yh xhh=1h(*)(*)分别比估计与联合比估计比较:当每层的 与Xhi是经过原点的线性关系时,V (亍RC ) - V顷RS ) - 0通常情况下,当
29、比率估计有效时,除非R = Rh,否则有V顷RC)- V (yRS)。】选择分别比估计还是联合比估计的原则:如果各层都较大,同时各层的比率Rh之间差异较大,则分别比估计优于联合比估计;如果各层nh不够大,或者各层的比率Rh之间差异较小则联合比估计优于分别比估计。(三)(三)回归估计量(1)总体均值Y分别回归估计:分别回归估计量:*s h=1气”各层的回归系数p h事先给定时:=Wh I yh+p h(h)h=1E(睨。=Y (无偏性)。估计量孔的方差V ( yirs )一, 二, 、V ( yQ的估计量V%v(y ) = W:(1- f (s2 +p2s2 2p s ) nyh h xh h
30、xyhh=1hV (y ) = _ (s 2 + p 2 s 2 2 p s )nyh h xhh xyhhlrslrsh=1(*)(*)S、&h = St = B,(h = 1,2,七)、Vmin(y )充牛h) . S 2h G-P 2 ) h=1hlrs各层的回归系数P,不能事先设定时: (y - y )(x - x )人 bhi h hi hh3 h的估计值:Y(X. - X)2 i=1当各层的都较大时E( ylr)Y (渐进无偏性)。当各层的都较大时_V(y).S2 (1p 2)lrs的方差近似为:lrsh= 1nhyhV ( irs )的估计量人.V (ylrsV(y ) = 咛1
31、- f - (n - 1)s2 (1 - r2) n (n 2) hyhhlrs(*)联合回归估计:联合回归估计量:3事先给定时:ylrcstst(无偏性)。估计量Xrc的方差VSrc )V ( *c )的估计量V( yQV (y ) = W(1- f (S 2 +3 2S 2 - 2 3 S nyhxhh=1hV(y ) = flrclrch=1xyh)(*)(s 2 + 3 2 s 2 - 2 3 s )h(*) W 2(1 - f )S / nhh xyh h3 = h=1(W2(1 - f )S2 /nhh=1xhVmin(y )=lrch=1W(1- f (S2 - B;S2h)yh
32、3不能事先设定时:3的估计值:Wg (y - y )(x n (n 1) hi h hi5 (丁 气)2h=1 h hi=1气)(*)当样本量n较大时E ( yirc )牝Y (渐进无偏性)。当样本量n较大时V (y )空咛1- f (S 2 - b 2 S 2)ylrc的方差近似为:lrc h=1 n yh c xhV ( yirc )的估计量:V(y ) = v(y )=理4h = 1lrclrcn(s 2h+ 也 s2h -)h(*)(2)总体总量Y分别回归估计:分别回归估计量:Ylrs - %s 各层的回归系数P h事先给定时:.人.E(Y7 ) = Ylrs(无偏性)。估计量Yrs.
33、人.的方 (Ys)V(Y ) = N2(1- f (S2 +P2S2 - 2P S )一nyh h xh h xyh (*)V(Y)=N2(1 一 fh=1lrslrs(s2 + P2 s2 2 P s )nyh h xh h xyh *)各层的回归系数P h不能事先设定时:一%)P h的估计值: (X. - X)2 i=1当各层的h都较大时.人E(Ylrs)Y (渐进无偏性)。当各层的h都较大时KV (Y7 ) N:(- f) S 2 G-p 2 )yhlrs的方差近似为:8h=1nhVYlrs)的估计量VYV7(Y7 ) = N2(-f. (n - 1)s2( - r2) h nh (nh
34、 - 2) hyhhlrs(*)联合回归估计: 联合回归估计量:Ylrc - Nyirc P事先给定时:,人 、(Y )=Y (无偏性)。lrc估计量Lrc.人 的方差V (Yc)7V(Ylrc)的估计量V(Y )lrc)= N2(1-f)(S2 +P2S2 -2PSh 1nyhxhV7(Y ) = 件(1- f (s2h + P 2$2. - 2Ps)h=1h人V (Ylrclrcxyhxyh(*)(*)P不能事先设定时:Wgz(y -y )(x-x)n (n 1)hi h hi hP的估计值:(*)5 气-X A h=1 h hi=1当样本量较大时7E(Ylrc ) Y (渐进无偏性)。.
35、v (Y)归 N(- f(S 2 - B 2 S 2 )当样本量n较大时,Ylrc的方差近似为:况h=n 仍c展。.I?(Y )二W (s2 + b2s2 2b s )V(Ylrc)的估计量:lrch=nh yh C Xh CXyh(*)分别回归估计与联合回归估计比较:最小方差之间的关系:匕nin(y/rc tiD0,即当h和3均取最优值时,分别回归估计优于联 合回归估计。选择分别回归估计还是联合回归估计的原则:如果各层的样本量不太小,而且各层的回归系数之间的差异较大,采用分别回归估计较为适宜;如果各层的样本量不大,而且各层的回归系数大致相同,采用联合回归估计较为适宜;如果各层的回归系数差别不
36、是太大,而且并不是每层的样本量h都相当大,联合回归估计可能更保险 一些。三、各层样本量的分配各层样本量的分配方式:比例分配、最优分配和奈曼分配。(一)(一)比例分配n n各层样本量的计算公式:Nh N估计量: “prop -y (自加权)估计量方差:Vprop (=、才 WhS2h-(二)(二)最优分配(费用函数为:WS /-hhW*/ &h-各层样本量的计算公式:st估计量:估计量方差: Wy hhhv (ytt)nh n C c +2c nh-)JTn s / 据-h -hhEn*/汉h- W 优). &件)-N h-WS 2h hhh(三)(三)奈曼分配各层样本量的计算公式:nWSh h
37、_hnlW Shh hN Sh h、Shh 估计量:st=Fh=1V 顷)=-(WS )2 - -ILws2估计量方差:min st nh h Nh h四、总样本量的确定根据不同的精度要求以及不同的样本量分配方式(nh =n h )来确定总样本量n。工 W 2 S 2 h h h n =精度要求为方差上限V时:N h=1对于不同的样本量分配方式,只需对h做相应的改变即可。不同精度要求之间的转换关系:V = 2/(a 2)2 H , F f 2)2。五、分层随机抽样精度研究最优分配、比例分配的分层随机抽样与相同样本量的简单随机抽样的精度之间的关系:opt prop srs下标srs代表简单随机抽
38、样;下标prop代表比例分配的分层随机抽样;下标opt代表奈曼最优分配的 分层随机抽样。结论:当各层均值之间的差异愈大,则一般的分层(以比例分配为代表)的效益就愈高;当各层的标准差相差较大时,最优分配又会比比例分配有更高的效益;当各层的标准差之间的差别不大时,最优分配的效果不会比比例分配的效果好很多。六、分层随机抽样的实施由于分层随机抽样在各层内采取的是简单随机抽样,因此各层内样本的抽取方法可以参见简单随机抽 样的相关内容。进一步的问题是层的划分及层数的确定。层的划分:在实际项目当中,层的划分通常是按照单元的某个特征或标识进行的。关于分层界限的确 定方法,读者可以参考有关抽样技术的教材。层数的
39、确定:一些理论和实际研究表明,层数L以不超过6为宜。第五章不等概率抽样基本内容等概率抽样的特点:将总体(或层)中的每个单元都看作是平等的,不“偏向”也不“疏远”某些特 定的单元。等概率抽样的适用场合:总体单元之间的差异不是很大。不等概率抽样的特点:将总体中每个单元的入样概率与其“规模”大小联系起来,使得“大单元”被 抽到的概率大,“小单元”被抽到的概率小。不等概率抽样的适用场合:总体单元之间的差异较大。不等概率抽样的优点:能够大大提高抽样精度,减少抽样误差。不等概率抽样的局限性:必须具有能够说明单元规模大小的辅助变量来确定各个单元的入样概率或包 含概率。不等概率抽样分类:放回的不等概率抽样(P
40、PS抽样)和不放回的不等概率抽样(兀PS抽样)。一、放回的不等概率抽样(PPS抽样)PPS抽样是放回的与规模大小成比例的概率抽样(气=MM0)。放回的不等概率抽样的缺点:乃个样本里可能会有某个单元被多次抽中。基本符号:符号MiM0ZiY HH第,个单总体中所有单元每次抽到第,个总体总量Y的含义元的规模的“大小”之和单元的概率汉森一赫维茨估计量(一)(一)样本抽取方法多项抽样是最简单的不等概率抽样,其实施方法有两种:代码法和拉希里(Lahili)法。(1)(1)代码法云 M + 1,云 M + 2,习 M + M* k=1k=1k=1/ ;实施程序(适合于N不太大的情形): 对总体的第个单元赋予
41、Mi个代码 在R M 0 之间产生一个随机整数m,如果m落在第j个单元所包含的代码数里,则第j个单元入 样; 如此进行n次抽取,就构成了 PPS抽样的样本。(2)(2)拉希里(Lahili)法实施程序(适合于N比较大的情形): 令 M * = max m 分别产生两个随机数,一个随机数产生于中,另一个随机数m产生于I1,M *中; 如果Mi - m,则第,个单元被抽中;如果Mi m,则重新抽取(i,m); 反复进行和两项操作,直至抽满n个样本为止。(二)(二)汉森一赫维茨(HansenHurwitz)估计量及其性质Y - 1 lby人Y衬总体总量Y的汉森一赫维茨(HansenHurwitz)估计量YHh :皿 n i=i Zi=M.212PPS抽样Y的汉森一赫维茨(HansenHurwitz)估计量Yhh :皿 n i=1 m 人Y ,一一HH的性质:7(1)无偏性:E(Yhh ) = Y ;.hh)=nZiZ/(2) 方差:i =1 I i );v(Y )= 1工 f孔-y 2、 一 hhn( n 1)z hh(3)