《东北林业大学《抽样技术》第二章抽样调查基本原理.ppt》由会员分享,可在线阅读,更多相关《东北林业大学《抽样技术》第二章抽样调查基本原理.ppt(32页珍藏版)》请在三一办公上搜索。
1、第二章 抽样调查基本原理,目 录 第一节 有关基本概念 第二节 样本统计量的抽样分布第三节 抽样误差第四节 抽样估计,第一节 有关基本概念,一、总体总体也叫母体,它是所要认识对象的全体,是具有同一性质的许多单位的集合。组成总体的每个个体叫做单位。目标总体是所需研究说明的全体单位的集合,它是抽样推断的目标,各项推论信息的主体。作业总体是按某一标志排列的全体单位组合,并以一定形式可供从中抽取样本单位,所以,它是抽样调查的依据。作业总体与目标总体的关系具体表现在这两种总体单位的联系上。它们的关系在实践中主要有下列几种形式:,(1)作业总体单位与目标总体单位是一一对应的。这是最常见的形式。例如,要调查
2、某地区的住户总体,以该地区的住户名册为抽样框,那么,从抽样框中抽中的住户即作为估计总体的单位。(2)多个作业总体单位对应着一个目标总体单位。例如,要调查某学校学生家庭情况,以该学校学生名单为抽样框,而在这份学生名单中可能有二个或更多个学生同属于一个家庭。(3)一个作业总体单位对应着多个目标总体单位。例如,人口调查中以各居(村)民委员会的顺序排列表为抽样框,这时,所抽中的每个居(村)民委员会内就包含许多人口。,确定抽样框必须着重考虑的问题:第一,要能反映出作业总体与目标总体的关系,表明这二个总体单位属于哪种对应形式。第二,要能达到对目标总体进行有效的抽样估计的目的。这一方面要求抽样框应尽可能地包
3、括被用于估计目标总体的单位,另一方面要求在抽样框单位中能获得估计总体的信息。第三,设计和编制抽样框要有利于实施抽样调查和节省各项费用开支。,在抽样调查实践中,表现作业总体的抽样框通常可为下列几种形式:(抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。)(1)名单抽样框。这是以名单一览表形式列出总体的所有单位。例如,居民住户调查中按住户地址编码的顺序列出全部住户的名单表;再如,我国目前的农产量抽样中,按粮食平均亩产量的大小顺序列出总体单位(县、乡、村)。,(2)区域抽样框。这是按自然地理区域划分并排
4、列出总体的所有单位。例如森林资源调查中按航测图或地理区域图,将该片森林划分为若干区域单位。(3)时间表抽样框。这是按时间先后顺序排列总体单位,它通常适用于与时间有关的调查,如流水线生产的产品检验,交通运输流量的抽样调查等。作为抽样推断的总体是目标总体。进行抽样调查其目的在于调查观测总体中部分单位,从而对总体的某些数量特征作出推断估计。这些总体数量特征又称为总体的参数,包括总体总数、总体平均数、总体成数、总体方差和标准差,等等。,总体参数:总体总值:总体均值:总体方差:总体标准差:总体比例。如全部产品中合格品所占比例,赞成某项政策的人所占比例等。数学表达式为:当第 单元具有某个特定的特征时,否则
5、 总体比率。它是两个总体总量或总体均值之比。如固定资产利用率,人均可支配收入变动率等。数学表达式为:,二、样本样本是由从总体中所抽选出来的若干个抽样单元组成的集合体。抽样前,样本是一个n维随机变量,属样本空间;抽样后,样本是一个n元数组,是样本空间的一个点。影响样本代表性的因素有以下几个方面:(1)总体标志值分布的离散程度。(2)抽样单元数的多少(或称样本容量的大小)。(3)抽样方法。,从总体中抽取样本有许多不同的形式,从而构成许多不同的抽样方法。样本中的 个单位可以从总体中逐个抽取,也可以一次抽取 个单位,后者称为全样本方法。在逐个抽取中,每次被抽中的单位,即入样单位可以放回总体中去,也可以
6、不放回总体中去,前者称为放回抽样(sampling with replacement)或回置抽样;后者称为不放回抽样(sampling without replacement)或不回置抽样。在放回抽样中,一个单位有可能被抽到两次或两次以上,故有人也称它为重复抽样。而在不放回抽样中,一个单位至多只能被抽到一次,不可能重复被抽到。全样本抽样也是一种不放回抽样。在样本抽取过程中,总体(有时也指子总体)中的每个单位被抽中的概率即入样概率可能相等也可能不相等,前者称为等概率抽样(sampling with equal probabilities),后者称为不等概率抽样(sampling with une
7、qual probabilities)。,一般将反映样本数量特征的综合指标称之为统计量。统计量是n元样本的一个实值函数,是一个随机变量,统计量的一个具体取值即为统计值。主要的样本统计量有:样本总和y 样本均值样本方差样本标准差样本比率r 样本比例,三、必要样本容量和样本可能数目样本中包含的抽样单元个数称为样本容量,又称样本含量或样本大小。样本可能数目则是在容量为N的总体中抽取容量为n的样本时,所有可能被抽中的不同样本的个数。用A表示。当N和n一定时,A的多少与抽样方法有关,其计算方法列表如下:,第二节 样本统计量的抽样分布,一、正态分布如果总体各个体的标志值以总体平均数为中心,形成钟型对称分布
8、,其分布曲线向两侧扩展,逐渐向横轴逼近,无限延伸出去,但不接触横轴,则这种分布就叫做正态分布,或高斯分布、常态分布。服从正态分布的总体称为正态总体。,如果一个随机变量X服从正态分布,则其分布的密度函数(分布曲线方程)为:,当=0,=1时,称该分布为标准正态分布。标准正态分布的密度函数为:,,,任何正态分布,它的样本落在任意区间(a,b)内的概率等于直线x=a,x=b,横坐标和曲线f(x)所夹的面积(可由正态分布概率积分表查得)。经计算,正态总体的样本落在:(-,+)概率是68.27;(-2,+2)概率是95.45;(-3,+3)概率是99.73;(-1.96,+1.96)概率是95;,二、抽样
9、分布,抽样分布是根据所有可能样本计算出来的某一统计量的数值分布。抽样分布有极限分布和精确分布两类。极限分布也叫做大样本分布,它只有正态分布一种形式;精确分布又叫做小样本分布,其前提是总体服从正态分布,它是正态分布的导出分布,包括有t分布、F分布和 分布等形式。,2,一般地,可以证明如果总体服从正态分布,且总体均值和方差均为已知,即,YN(,2),则不论样本量大小如何,样本均值均围绕总体均值而服从正态分布,并且其抽样分布的方差等于总体方差的n分之一,即,N(,2/n),而对于非正态总体,若均值和2有限,则根据中心极限定理,当样本量n充分大时,样本均值仍然围绕着总体均值而近似地服从正态分布,即,N
10、(,2/n),(一)样本统计量的极限分布,例:总体N=5,Y=40,50,60,70,80,则其次数分布图为,若取n=2,用放回抽样,可抽25个简单随机样本,整理后,即可得出关于样本均值的次数分布情况为:,用图形表示,则为:,如果总体容量较大,则当样本容量逐步扩大时,样本平均数的分布趋于正态分布的趋势更加明显。,(二)样本统计量的精确分布,1、2分布,设随机变量YiN(0,1)(i=1,2,,n),且相互独立,则Y=服从自由度为n的2分布,记作Y2(n)。,2分布的概率密度函数为,主要性质有:f(y)恒为正;2分布呈右偏形态;2分布随n的不断增大而逐渐趋于正态分布。,2分布2(n)的数学期望和
11、方差分别为EY=n,DY=2n.,2、t分布,若XN(0,1),Y2(n),且X与Y相互独立,则称随机变量,服从自由度为n的t分布,记作:Tt(n)。,推论:若XN(,2),2未知,则,服从自由度为n-1的t分布,记作:Tt(n-1),t分布t(n)的概率密度函数为,t分布具有如下性质:t分布对称于纵轴,与N(0,1)相似;在n30(小样本)时,t分布的方差大于N(0,1)的方差;在n30(大样本)时,t分布随n的增大而趋于N(0,1)。,t分布t(n)的数学期望与方差分别为ET=0,DT=n/(n-2).(n2),若X2(n1),Y2(n2),且X与Y相互独立,则称随机变量,3、F分布,服从
12、第一自由度为n1,第二自由度为n2的F分布,记作:FF(n1,n2)。,其概率密度函数为,F分布的主要性质有:F分布呈右偏态;f(x)恒为正;,在,随n1,n2的不断增大,F分布的右偏程度逐渐减弱,但不会趋向正态;具有倒数性质,即若XF(n1,n2),则1/XF(n2,n1);若tt(n),则(n)F(1,n)。,处取最大值(n12,f01);,其数学期望和方差分别为,第三节 抽样误差,一、抽样调查中的误差来源误差就是调查结果与现象的实际结果之间的偏差,它几乎在所有的统计调查中都或大或小的存在着。在抽样调查中,按照形成原因的不同,一般可将误差分成抽样误差和非抽样误差两大类。抽样误差是用样本统计
13、量推断总体参数时的误差,它属于一种代表性误差。在抽样调查中抽样误差是不可避免的。但同非抽样误差不同的是,抽样误差可以计算,并且可以被控制在任意小的范围内,影响抽样误差的因素:1.抽样误差通常会随样本量的大小而增减。2.所研究现象总体变异程度的大小。3.抽样的方式方法。非抽样误差不是由于抽样引起的。它又包括:调查误差;无回答误差;抽样框误差;登记性误差。同抽样误差相反,非抽样误差是随着样本量的增加而增大的。由于抽样调查的访问和资料整理都比普查更便于进行,因此非抽样误差也远远小于普查。有时,普查中的非抽样误差甚至大于抽样调查中抽样误差与非抽样误差的总和。,二、均方误差、方差与偏差抽样误差的计算,是
14、建立在误差分布理论基础上,从统计平均意义角度来考虑的。抽样误差用所有可能的实际误差的均方误差表示设总体某个待估计的参数为,用样本数据计算的一个统计量 作为 的估计,也称为 的一个估计量(estimator),简称估计。用 估计 的实际误差是-,由于 是未知的,因此-也是未知的,这说明根据一个样本,实际误差是不可知的。现在我们考虑按一种抽样方法所能得到的所有可能样本,对每个样本计算一个估计值,计算这些估计值的平均实际误差,也即实际误差-的均值即期望E(-),则由于误差的正负抵消也不能反映误差的大小。因此我们转而考虑平均平方误差,即实际误差平方的均值:,式中:第一项是估计量,的方差,记作,第二项是
15、估计量,的偏倚,的平方。,无偏估计时,的方差就等于它的均方误差。,MSE()称为均方误差(mean square error)。由于未知,在通常情况下,它仍然是未知的。但均方误差可以分解成以下两个部分:,说明:上面所给出的估计量方差公式,仍然属于一个理论公式,实际中是依据调查变量的总体方差 进行计算的,当 未知时,一般用样本方差 代替以对估计量的方差做出估计。有偏的估计并非都是不可用的,有时有偏估计量在某些方面反而比无偏估计量更好。有研究认为,在实践中当偏倚小于标准误的十分之一时,偏倚对估计量准确度的影响可以忽略不计。,第四节 抽样估计,一、抽样估计的特点第一,抽样估计在逻辑上运用的是归纳推理
16、而不是演绎推理。第二,抽样估计在方法上运用不确定的概率估计法而不是运用确定的数学分析法。第三,抽样估计的结论存在着一定程度的抽样误差。二、抽样估计的方法抽样估计的方法多种多样。如果以估计中所依据的资料不同来区分,一般可以有简单估计、比估计和回归估计等三种方法。简单估计是单纯依靠样本调查变量的资料估计总体参数,其估计结果称为简单估计量;比估计和回归估计是同时依据样本调查变量以及已知的有关辅助变量的资料来对总体参数做出估计,其结果分别称为比估计量和回归估计量。如果以估计结果的表示方式来区分,则抽样估计可以有两种形式,即定值估计和区间估计。,三、置信区间,一般地说,若估计量,是无偏的,且呈正态分布,则参数,当调查变量的总体方差2已知时,上述置信区间可表示为:,的置信度为1-的置信区间可以写成:,当调查变量的总体方差2未知时,则用相应的样本方差s2代替。然而,这时有可能会使误差产生一个增量,特别是当样本较小时,更容易影响估计的精度。因此,为了保持1-的置信度,就应该适当加宽置信区间,即用较大的t/2值来代替Z/2。此时,置信区间就可以表示成:,四、估计量的优良标准,1、无偏性,2、一致性,3、有效性,