教学课件：第五章-比估计与回归估计.ppt

资源描述

《教学课件：第五章-比估计与回归估计.ppt》由会员分享，可在线阅读，更多相关《教学课件：第五章-比估计与回归估计.ppt（36页珍藏版）》请在三一办公上搜索。

1、第五章比估计与回归估计,第一节比估计的一般形式第二节分层比估计第三节回归估计的一般形式第四节分层回归估计,第一节比估计的一般形式,一、比估计综述比估计是依据调查变量与辅助变量间的比率来对总体有关参数进行估计和推断。通常简称比估计。同简单估计相比，比估计具有以下特点：(1)在比估计中，除调查变量外，还需要了解与调查变量有关的辅助变量，并且要求辅助变量的总体均值或总体总和必须事先已知。充分利用辅助变量带来的信息估计总体参数，比单纯用调查变量资料会有更好的效果。,(2)比估计方法，对抽样调查单元是有条件的，通常是用组成总体的最基层单位为调查单元。(3)比估计只适用于有限总体，因为只有有限

2、总体才可能计算出为比估计所需要的辅助变量的总体总和与总体均值。(4)当每个单元的调查变量与辅助变量的比例(一般要求为正比例)十分稳定，且变异很小时，比估计就具有十分精确的估计效果，只要抽取少量的样本单元，就可得到满意的结论。(5)在比估计时，出于估计精度方面的要求，选择辅助变量时，须与调查变量的关系愈密切愈好，至少要求相关系数在1/2以上。,比估计中，辅助变量可以是上次普查或调查时与调查变量相应的数据(即调查变量的前期或历史资料)；也可以是对调查变量的粗略估计；或者是表示单元规模的某个量。为了充分发挥比估计的优越性，在应用比估计时应考虑两条：一是选与调查变量有较密切的正相关关系的变量作为辅助变

3、量。因为如果辅助变量与调查变量的关系不密切，各自独立变化，则对比估计起不了应有的辅助作用。二是样本容量要比较大。因为比估计是有偏倚的，只有当样本容量n比较大时，其偏倚才能比较小，比估计才更加有效。,二、总体比率的估计,设总体有N个单元，对每个单元考虑两个指标Y（调查指标）和X（辅助变量）。抽取容量为n的简单随机样本，则总体比率R的估计量为：(样本比率)总体比率为比率估计是有偏的，但当样本量增大时，偏倚逐渐趋于零。其方差为：,比率估计的近似方差的证明当足够大时，将其代入上式分母，得于是因此，当足够大时，。这时注意到是的样本均值，且的总体均值因此,证明：由方差相关系数,当总体方差未知

4、时，可用样本方差替代，以估计方差。此时：或（未知时）其中,三、总体均值和总和的比估计当调查变量和辅助变量具有正相关关系时，为了利用辅助变量的信息，可以构造总体均值或总和的比估计量。在简单随机抽样中，总体均值和总体总和的比估计量分别为：其中或必须已知。当n充分大时即与分别是与的近似无偏估计。其方差为：,其方差估计量为：,四、比估计量与简单估计量的比较,对简单随机抽样，若n足够大，则当时，有：其中：分别为总体中x与y的变异系数。证明：n足够大时，对比估计量有：,又对简单估计量，有：当 1/2，比估计量就比简单估计量更为精确。结论：利用比估计提高抽样效果的条件是1/2。,五、样本容量

5、的确定,估计总体比率时如果允许的最大方差为V，当n充分大时，由得,估计总体均值时，如果允许的最大方差为V，由于所以：估计总体总和时，如果允许的最大方差为，将代入上式，则得：,第二节分层比估计,分层随机抽样中的比估计量有两种形式：先构造各层比估计，再加权平均各层分别比估计；先加权平均，再构造比估计联合比估计。一、各层分别比估计各层分别比估计是先对各层分别进行比估计，然后按层权加权平均，以得出总体参数的估计，即：（已知）（已知）,在分层随机抽样中，若每层的样本量都较大，则为Y的近似无偏估计。其方差为：当各层的总体方差未知时，方差的估计量：Y的估计量的方差(或方差估计量)乘以即可

6、得出的估计量的方差(或方差估计量)。二、联合比估计联合比估计是先按分层随机抽样公式估计Y和X：,然后用这两个量的比及已知的X对Y作估计：其中：联合比估计只需要已知X，而无需已知每层的。此时：分层随机抽样中，若总样本量n是较大的，则与分别为Y与的近似无偏估计，其方差为：,其方差估计量为：三、各层分别比估计量与联合比估计量的比较从偏倚的角度看，各层分别比估计量的偏倚较大，从方差的角度看，除了各层比率均相等时，外，一般只要各层的样本量均较大时，各层比估计更加有效。即有：因此,当均大时,用分别比估计量。否则用联合比估计量较好,第三节回归估计的一般形式,一、回归估计概述回归估计就是根据

7、样本各单元调查变量与辅助变量间的关系构造回归方程，并据回归系数对总体有关参数进行估计。如果在回归估计中只有一个辅助变量，则所进行的估计称为一元回归估计，若同时采用多个辅助变量综合进行估计，则称为多元回归估计。多元回归估计比一元回归估计效果更好，但更复杂。这里只介绍一元回归中的线性回归估计。回归估计的主要特点有：(1)回归估计充分利用了有关的辅助变量资料以有效地提高估计的精度；(2)回归估计中要求辅助变量的总体均值或总和事先已知；(3)回归估计一般只适用于有限总体，因为只有有限总体才可能计算出辅助变量的总体均值和总和；,(4)回归估计量一般优于比估计量和简单估计量。特别地当回归系数等于总体比率(

8、即总体回归直线通过原点)时，回归估计量与比估计量的效果相同，当调查变量与辅助变量间的相关系数=0时，回归估计与简单估计的效果相同。但是，回归估计量的优越性只有在大样本的情形下才能得到较好的发挥，而在小样本时，它的性质就不大好，因而使用回归估计量，样本量一定要大，一般情况n30时，回归估计量较比估计量和简单估计量有较优的估计效果，但它的意义不如后两法简单明了，计算方法也较为复杂，特别是多元线性回归估计或非线性回归估计时更是如此。不过随着电子计算机的广泛应用，再复杂的计算也可通过计算机进行。回归估计中辅助变量可以是一个，也可以是两个或多个；辅助变量应与调查变量存在一定的联系(不一定是密切关系)。,

9、二、回归估计量的一般形式对于简单随机抽样，总体均值与总和Y的线性回归估计量定义为：1、为设定的常数(如=B)时的情形回归估计量则为：,在简单随机抽样中，是的无偏估计量。其方差为：为的无偏估计量。,当时，的方差达到极小，且证明：要使为极小值，则必使对B的偏导数等于零，即则：代入可得证毕。,2、需从样本计算时的情形当需从样本计算时，受前面确定B的最佳值的思路的启发，的一个有效估计应是总体回归系数B的最小二乘估计，也即取为样本回归系数。此时，总体均值的回归估计量为：这时的回归估计量与B时不同，不再是无偏估计量，而是近似无偏的，因为样本回归系数本身是一个随机变量，它是总体回归系数

10、的估计量。,在简单随机抽样中，当充分大时，有方差的估计量为：,三、回归估计量与简单估计量及比估计量的比较当很大时，由以前的讨论，有由于1，故(时，取等号)。而,因此(B=R时，取等号)可见,在大样本时，回归估计量的精度要好于简单估计量和比估计量。,第四节分层回归估计,设x为与y对应的辅助变量，为已知。与比估计量情形一样，在分层随机抽样中，也可考虑两种形式的回归估计。一、各层分别回归估计先对每层分别进行回归估计（已知)然后按层权加权平均，得总体平均数的估计量当各层的理论回归系数之间有较大差异时，考虑用此法。,当为设定的常数(如=)时，是的无偏估计量，且在(h=1、2、L)时达到极小值：

11、,当回归系数需从样本估计时，令为的最小二乘估计。当每层的都较大时其估计量为,二、联合回归估计先按分层随机抽样公式估计和，即得到估计量和，然后用这两个估计量构造的回归估计量(已知)当事先设定(如=)时，也是的无偏估计,且当时方差达到极小值,式中即是各层回归系数的加权平均值。由所以对于最优的的选择，除非各层的，否则，分别估计优于联合估计。,当回归系数需从样本估计时，令作为的样本估计。若是按比例分配的，用代替-1，则上式简化为,此时其估计量为总结：若确信每层中的回归线性很好,又不大，的变化也不大，则应采用；而当回归是线性的，但的变化很大，都比较大时，应采用；若回归的线性不好，除非都相当大，否则还是用比较保险。,

展开阅读全文