简单随机抽样课件.ppt

上传人:小飞机 文档编号:1474579 上传时间:2022-11-29 格式:PPT 页数:57 大小:784KB
返回 下载 相关 举报
简单随机抽样课件.ppt_第1页
第1页 / 共57页
简单随机抽样课件.ppt_第2页
第2页 / 共57页
简单随机抽样课件.ppt_第3页
第3页 / 共57页
简单随机抽样课件.ppt_第4页
第4页 / 共57页
简单随机抽样课件.ppt_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《简单随机抽样课件.ppt》由会员分享,可在线阅读,更多相关《简单随机抽样课件.ppt(57页珍藏版)》请在三一办公上搜索。

1、1,第三章 简单随机抽样(SRS),第一节 概述 第二节 估计量及其误差第三节 样本量的确定,2,第一节 概述,一、定义二、抽取方法三、方法评估四、两个试验,3,一、定义 所有概率抽样的出发点和理论基础都是简单随机抽样。简单随机抽样是一种一步抽样法,它保证样本量为n的每个可能的样本都有相同的被抽中的概率p=n/N。 简单随机抽样有两个相互等价的定义。,4,随机样本的优点: 1.随机选择可以消除“偏心”;也就是说随机抽样把偏差给消灭了。 2.如果我们从同一个总体,重复抽取许多大小一样的随机样本,所有样本的变异状况就会遵循某种可预测的形态 (pattern)。从这个可预测的形态可以得知,由较大样本

2、所得结果的变异会小于小样本结果的变异。,5,二、抽取方法 抽样可以是放回的,也可以是不放回的。如果抽样比非常小,则放回抽样与不放回抽样实际上是差不多的。一般情况下,不放回抽样的结果更精确,实际操作也更方便些。在本课程中,除非特别指明,抽样都是指不放回的。 简单随机抽样一般有抽签法和随机数法两种实施方法。,6,三、方法评估 简单随机抽样被用作评估其他抽样策略的效率的基准,这里抽样策略是指抽样方法与所用估计量的结合。一个估计量就是一个用来计算估计值的公式。估计量的抽样误差是通过其抽样方差来测量的,而抽样方差定义为对采用这种抽样设计的所有可能样本,估计值距其平均值的差(称为离差)平方的平均。,7,如

3、果一种抽样策略的抽样方差比另一种抽样策略的抽样方差小,我们就称这种抽样策略更有效率(这种效率也称统计效率)。一个有较小抽样方差的估计量具有较高的精度。 基什提出用设计效果(Deff)来衡量一种抽样策略的效率。,8,与其他抽样技术相比,简单随机抽样有以下优点: 是最简单的抽样技术; 抽样框不需要其他(辅助)信息,唯一需要的只是一个关于调查总体所有单元的一个完全的清单和与其如何联系的信息; 关于样本量的确定、总体估计与方差估计都有现成的标准公式可以利用,因此技术发展已经成熟。,9,简单随机抽样的缺点是: 抽样框中即使有现成的辅助信息也不加利用,使得估计的统计效率较其他利用辅助信息的样本设计低; 由

4、于样本在总体中的地理分布范围比较广,如果采用面访,费用较高; 有可能抽到一个“差的”样本。原因是这种方法不对抽中哪一个样本进行控制,所有样本量为n的样本都有相同的被抽中的机会,因此抽出来的样本有可能分布不好,不能很好地代表总体; 如果不用计算机,而用随机数表抽一个大样本将十分单调劳神。,10,四、两个试验 也许有人会认为,在抽样时不用随机数表,而采取随意抽选的办法也可以达到预期的抽样效果。表面上看,这种想法似乎有一定道理,但实际试验的结果证明随意抽样不等于随机抽样。以下是两个有名的试验:,11,试验一:随意数试验,让六个人写下100个自己随意想到的三位数,将这些数内的0、1、2、9数字列成次数

5、分布表如下:,12,可以看出,六个人都对数字存在偏好,如第一个人更加偏好数字4、3、0;第二个人则偏好数字1、8、4;等等。这种由于数字偏好所引起的偏估类型可称之为数字偏误。,13,试验二:着色试验,让四个人将1010方格的纸板着色,可供选择的颜色有蓝、绿、红、白和黄色五种,对每一个四分象限来说,规定每种颜色只能在每行和每列出现一次。每个方格以其所在的列号与行号表示,如(4,6)代表第四列第六行的方格。请四个人对这100个方格随意选择行列号,而对其着色。将这些由这四个人着色所得到的资料形成次数分布表如下:,14,15,可见四个人都对颜色存在偏好,如第一个人偏爱绿色,第二个人偏爱蓝色等。这种由于

6、对颜色偏好所引起的偏估类型,可称之为颜色偏误。,16,从上述两个试验可以发现,利用人为的随意抽样方法都会产生偏差。每个试验者均有较为喜欢的数字和颜色,因此,使得样本变成非随机的,进而给抽样估计带来困难。,17,第二节 估计量及其误差,一、数据类型二、估计量的性质 三、在简单随机抽样条件下的其他估计量 四、抽样误差的其它度量,18,一、数据类型,几乎每项调查都需要计算诸如比例、均值、总量这样的简单描述统计量,当然也会用到一些更为复杂的统计量和分析方法。大多数调查都要求收集很多个指标,这些指标也称作变量。变量既可以是定性的(或称分类的),也可以是定量的(或称计量的)。,19,样本单元可以按某些指标

7、划分成不同的类别,所得的数据就称为分类数据或定性数据。这些变量中,如性别或婚姻状况,通常只有几个可能的取值。民意调查中,通常用量表的形式收集所需的数据也是定性数据,例如很赞成,赞成,既不赞成也不反对,不赞成,很不赞成。必须注意的是,这种情况下每个单元属于而且只属于其中一个类别。,20,如果度量的单位是诸如米或年这种数量形式,就称这样的数据为定量数据。定量数据一般是对“多少”、“多大”这样的问题所作的回答,例如年龄、孩子的数量、工作的小时数、支出与收入、血压等等。 对于不同类型的变量,需要使用不同类型的估计。通常,对定性变量,我们计算比例与总数;对定量变量,我们计算平均数与总量。,21,在估计时

8、,需要考虑的另一个问题是,估计针对的是总体的什么范围。估计既可以针对整个调查总体,也可以针对特定的子总体或特定的域。例如,除需要计算全国估计值外,可能还需要省及地市的估计值。同时,还可能需要诸如分性别、年龄、受教育水平等这样的域估计值。,22,对下述问题的回答将有助于决定如何计算估计值: 需要估计什么类型的参数?是比例,均值,还是总量? 数据是什么类型的?是定性数据,还是定量数据? 采用怎样的权数?是自加权设计吗? 需要估计的是什么样的域?,23,二、估计量的性质,不同的样本将得到不同的估计值。 一个估计量的抽样分布,是指使用相同的抽样设计,从同一个总体抽取的所有可能样本的估计值的分布。 显然

9、,这样的抽样分布依赖于估计量的形式和所采用的抽样设计(例如简单随机抽样、系统抽样、分层抽样、多阶抽样等)。,24,要想知道抽样分布,就必须知道样本是怎么抽取的。在概率抽样的情况下,我们知道样本是如何抽取的,因此可以确定其抽样分布。对非概率抽样,由于无法得知各个不同样本的入选概率,从而不能计算抽样分布。抽样分布对确定估计量的一些重要性质,例如偏倚及抽样方差等非常重要。,25,如果一个估计量对于所有可能样本计算的估计值的平均数等于参数的真值,称这个估计量是无偏的。 另一个所需要的估计量的性质是它的抽样分布应与其平均数尽可能地靠拢。对这种性质的一个度量指标是抽样方差。 我们通常希望估计量具有一些好的

10、性质:其中的一个性质就是估计量应是无偏的或近似无偏的,另一个是抽样方差较小的估计量被认为是精确的:抽样方差越小,估计的精度越高。,26,对于简单随机抽样,总体均值的估计量为: 其中,n是样本量,yi是样本中第i个单元的值, 对应某特定样本的值即是估计值。也就是说,将样本中所有yi的值加起来再除以样本量就得到了总体平均数的估计值。,27,在简单随机抽样中, 既是总体均值的一致估计,也是总体均值 的无偏估计。,28,估计量 的方差为: 可以用下式估计 :,29,项n/N称为抽样比,用f表示。从这个公式我们可以看出,随着样本量n的增加,均值估计的抽样方差将减少。当进行普查即n=N时,均值估计就完全没

11、有抽样方差。当抽样比很小即样本量相对于总体很小时,因子(1-n/N)可以忽略。 Cochran(1977)说过,当抽样比不超过5,甚至在很多情况下高达10时,这个因子都可以被忽略。另外,应注意上述公式仅应用于当回答率为100,且没有使用任何辅助信息对样本权数进行调整的情形。,30,对于估计量 的选取,我们通常使用样本方差 。 可以证明: 是总体方差 的无偏估计量。,31,三、其他估计量,当总体为正态分布时,用Me(中位数)来估计 。 可以证明:,32,在有放回简单随机抽样时,样本中有重复单元,去掉重复单元,用其中d个不同单元的信息来估计,即可以证明, 。方差介于放回与无放回之间:,33,总体N

12、个单元的值Y1,YN,已知Y1很小,YN很大,用估计量 可以证明: ,且当 时, 。,34,关于子总体(域)的估计,实际中常需要对大总体中的一部分(即子总体)进行估计。 在简单随机抽样条件下,无论是定量数据还是定性数据,对于感兴趣第j子总体(域)的大小都可以用下式估计:,35,对定量数据,域总值的估计值为: 对定量数据,域均值的估计值为:,36,对定性和定量数据,域比例估计值为 : 可以证明,上述几个估计是无偏的。,37,四、抽样误差的其它度量,有多种方式可以用来表示估计量的抽样误差的大小,除方差外,下列的一些度量也会经常用到: 标准差(指估计量的标准差,也称标准误); 变异系数; 误差限;

13、置信区间。,第三节 样本量的确定,一、引言二、精度与样本量三、费用与样本量四、精度与费用间的协调,1.为什么要确定样本量? 由于样本量直接影响到样本的代表性、调查的费用、完成调查所需要的时间、所需调查人员的数量以及其他一些现场操作的限制条件。 2.影响样本量的因素 估计量的精度要求;提供的经费能支持多大的样本;调查的时间要求;需要和能招聘到的合格调查员数量等。,一、引言,3.必要样本量和可能样本量 必要样本量是由精度要求出发所确定的样本量,是能满足精度要求的最少样本量; 可能样本量是由费用约束条件出发所确定的样本量,是在一定费用预算下最多所能调查的样本量。,(一)精度的表示方法 1.用抽样方差

14、或抽样误差 来表示,方差越小精度越高; 2.用置信度和误差限来表示,以 表示一个任意的估计量, 为估计标准误,一定置信度的误差限为 ,z值与置信度相对应。,二、精度与样本量,3、一定置信度下用相对误差表示精度,其中:1为置信度或可靠性 称做估计精度,(二)确定精度需要考虑的因素 1.可接受(允许)多大的误差限? 如果调查结果将用于进行一项有重大影响或有较大风险的决策,那么,客户对估计值就需要较高的精度;如果他们只是简单地希望取得对所研究总体某个指标的感性认识,那么,低一点的精度就可以满足要求了。 2.是否需对子总体进行估计? 如果需要估计子总体,则应该确定各子总体合适的精度,不同的子总体对精度

15、的要求可能不同。,3.与调查估计值有关的抽样方差有多大? 在确定调查估计值所需的精度时,统计调查机构应该考虑当达到某个既定精度时可能的最小估计值。如果最小的估计值是5%,那么统计调查机构(和客户)要求的误差限就应该小于5%。,4.精度要求的实际含义是什么? 为得到最小的误差限而选择最大可能的样本并不总是最佳的解决办法。有时,我们可以在有效利用现有资源的基础上,获得相对精确的估计结果,接受一个较大的误差限。采用一个较小的样本而不是一个较大样本,节省下来的费用,可用来调整其它影响调查结果精度的因素,例如减少无回答率,这样做也许更有效。 (表1),(三)影响精度的因素 1.总体的变异程度 (1)随着

16、调查总体中所研究指标的实际变异程度的增加,样本量也必须随之增大; (2)若总体指标变异性很大,或具有所研究特征的单元数量很少,对这样的总体,要求精确估计是很困难的,需要较大的样本量; (3)为确保达到调查要求的精度,在计算样本量时,建议对某一指标的总体变异程度采用较为保守的估计。 (表2),2、总体大小 在样本量确定过程中,总体所起的作用因它的大小而有所差异。对于小规模总体,它起着重要作用;对于中等规模的总体,其作用中等;而大总体对样本量的影响很小。,3、样本设计和估计量 设计效应是对于相等的样本量,给定样本设计估计量的抽样方差对简单随机抽样估计量的抽样方差的比率。对于简单随机抽样设计,设计效

17、应等于1;对于分层抽样设计,设计效应一般小于等于1;对于整群抽样设计,设计效应一般大于等于1。 4、调查的回答率 为了达到调查估计值要求的精度,常根据预计的回答率确定一个较大的样本才可能达到精度要求。,(四)必要样本量的确定 1给定均值估计的精度(100回答) 简单随机抽样下,通常使用误差限和估计量的标准差来确定所需的样本量。例如,在不放回简单随机抽样情况下,当允许的误差限为e时,样本量为:,2给定比例估计的精度(100%回答) 这种情况下,用误差限表示所需的精度,可通过总体比例P来表示。当精度要求为e时,由于比例的方差,于是计算样本量的公式变为:,3.回答率小于100%时的调整 设r为预计回

18、答率,则根据回答率调整确定的必要样本量的步骤为:第一步,确定初始样本量,第二步,确定必要样本量,(五)总体方差的事先确定 运用精度要求来确定样本容量时,必须事先知道总体的方差。确定方法有: 1.两步抽样法 2.试点调查法 3.历史数据估计法 4.数学模型法 5.经验估计法,(六)多目标时的协调 首先在众多的目标中挑选出最重要的K个目标,根据这些目标的估计精度要求,求出每个目标所必需的样本量。 若各目标的必要样本量很接近,其中最大的是可行的,则选最大者为n。 若各目标的必要样本量相差太大,选其中最大者为n,则费用不允许或使总的精度大大高于原来的标准,没有必要,这时,可降低某些项目的精度要求,甚至取消一些项目。,1.建立费用函数 在简单随机抽样条件下,一个最简单的费用函数可表示为以下形式,三、费用与样本量,2.确定可能样本量 当总费用一定,且固定费用和平均每调查一个单元的费用也大致确定时,就可推算出可能样本量,四、精度与费用间的协调,结束语 确定样本量是为控制抽样误差,而不是对非抽样误差进行控制。 样本量的确定,既没有什么神秘的办法,也没有什么完美的处方,它是在精度、费用、时间、访问员等多种约束条件下不断进行折衷的过程。,本章内容讲授结束,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号