[PPT模板]四 抽样.ppt

上传人:sccc 文档编号:4595108 上传时间:2023-04-29 格式:PPT 页数:51 大小:309KB
返回 下载 相关 举报
[PPT模板]四 抽样.ppt_第1页
第1页 / 共51页
[PPT模板]四 抽样.ppt_第2页
第2页 / 共51页
[PPT模板]四 抽样.ppt_第3页
第3页 / 共51页
[PPT模板]四 抽样.ppt_第4页
第4页 / 共51页
[PPT模板]四 抽样.ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《[PPT模板]四 抽样.ppt》由会员分享,可在线阅读,更多相关《[PPT模板]四 抽样.ppt(51页珍藏版)》请在三一办公上搜索。

1、抽 样,抽样(Sampling):从总体中按一定方式抽取样本的过程。,一、抽样的基本概念,二、抽样的作用,向人们提供一种实现“由部分认识总体”这一目标的途径和手段。抽样主要解决的是调查对象的选取问题,即如何从总体中选出一部分对象作为总体的代表的问题。抽样方法是架构在研究者十分有限的人力、财力和时间与庞杂、广阔、纷繁、多变的社会现象之间的一座桥梁。,三、抽样的一般程序,(1)界定总体:在具体抽样前,首先对抽取样本的总体范围与界限做出明确界定。抽样调查的目的所决定;部分认识总体 达到良好抽样效果前提。(2)制定抽样框:抽集全部抽样单位的名单。并统一编号,建立起供抽样使用的抽样框。当抽样分几个阶段、

2、在几个不同的抽样层次上进行时,则要分别建立起几个不同的抽样框。,(3)决定抽样方案:确定抽样方法、样本规模及主要目标量的精确程度。(4)实际抽取样本:先抽好、后调查,边抽边调。(5)评估样本质量:对样本进行初步检验和衡量。如样本的质量、代表性、偏差等。防止偏差过大导致失误。基本方法:将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标的资料进行对比。若二者有差别很小,则可认为样本的质量较高,代表性较大;反之,若二者之间的差别十分明显,那么代表性不高。,四、概率抽样方法,1、简单随机抽样2、系统抽样3、分层抽样4、整群抽样5、多段抽样6、PPS抽样7、户内抽样,一阶段抽样,多阶段抽样

3、,1、简单随机抽样(Simple Random Sampling)也称作纯随机抽样,它是概率抽样中最基本的一种抽样方法。按等概率原则直接从含有个元素的总体中抽取n个元素组成样本(n)()抽签法:总体大时工作量大()随机数法:随机数表、随机数扫子、计算机产生的伪随机数,由均匀材料制成的正面体,每一面上分别标有的数字各个。使用时可根据总体规划的位数,决定使用几枚子,同时规定不同的颜色代表的位数计算机产生随机数由统计软件产生的是伪随机数,在通常情况下有循环周期故一般无法保证其随机性,随机数表法:,第一步:先取得一份调查总体所有元素的名单(即抽样框);第二步:将总体中所有元素都按顺序编号;第三步:根据

4、编号的最大数确定选出的随机数的位数;第四步:决定从位数组中选择哪几位数字;第五步:确定在表中选择数字的顺序;第六步:确定开始选择的位数组起点;第七步:处理大于总体规模或重复的随机数,随机数表是由范围在0000199999内的五位数的随机数,按行和列排序构成的允许从一个规模小于万的总体中抽取简单随机样本例子:假设要从一个3000人的总体中,用简单随机抽样方法抽取一个100人样本,首先要得到一份总体成员的名单,然后对总体中的每一个人从1到3000进行编号,再根据总体的规模,确定从5位数一组的随机数表中,选择4位数。具体的选法既可以是后4位,也可以是前4位。选择的起点可以任意指定。即可以从表中任意一

5、行任意一列开始。顺序可以从左到右,有可以从右到左。既可以从上到下,也可以从下到上,然后以3000为标准对随机数表中的数码进行取舍。凡小于或等于3000的数码就选出来,凡大于3000的数码以及已经选出的数码则不要,直到选够100个号为止。最后按照所抽取的号码,从总体名单中找到它们对所对应的100成员。这100个成员就构成一个调查的样本。,随机数表应用实例(以后4位数码进行取舍),随机数表 中的数码,选用的数码,不选用的原因,90906,73020,10041,22507,04310,66042,12683,82507,51176,2683,0906,2507,0041,1176,后面4位数大于3

6、000,后面4位数大于3000,后面4位数大于3000,与所选的第三个数码重复,提醒:,只有在名单很短而且事先已将所有单位编号,或用电脑处理过,便于编号的情况下,才会使用随机抽样,否则抽样工作量太大。没有实际操作意义。,2、系统抽样(Systematic Sampling),又称等距抽样或机械抽样。即将N个总体按一定顺序排列,然后先随机抽取一个单位作为起始单位,再按某种确定的规则(固定的间隔)抽取其他n-1个样本单位。是独立于简单随机抽样的另一种办法,效果与简单随机抽样相近,但操作起来却容易的多。由于抽样使用的是抽样间距,而不是随机数,故等距抽样是一种准随机抽样方法。,(一)整数抽样间距,当是

7、n的整数倍,即抽样间距k=N/n是整数,可使用直线等距抽样即在算出抽样间距后,先在范围内抽取一个随机数r作为起点,然后每隔个单位抽出一个单位,直到抽出n个单位,抽中单位的号码分别为:r,r,r(n),实质:直线等距抽样实际上是将个单位排列成n行列的矩阵,再从列之间随机产生一个随机数r,则取第r列的全体单位做样本。这时,每一列被选中的概率是相等的,因此总体中每个单位入样的概率也是相等的。,一个例子,将总体中的每一个元素都按顺序编上号码:110000;计算出抽样间距K:已知总体规模N=10000,样本规模n=100,那么抽样间距K=N/n=10000/100=100;在最前面的100户中,采用简单

8、随机抽样的方法抽取1户,记下这户的编号。假设所抽取的这户的编号是57;在抽样框中,自57开始,每隔100就抽1户,即所抽取的家庭编号分别为:57,157,257,357,9957;将这100户组合起来,就构成了本次调查总体的一个样本。,(二)非整数抽样间距,当不是n的整数倍,即抽样间距 n不是整数时,不难看出,这时上述矩阵有些列有N个单位,有些列不足n个单位,若再利用直线等距抽样就无法保证每个总体单位以相等的概率入样。补充:循环等距抽样,循环等距抽样:先将个总体单位首尾相接排成一个封闭圆,抽样间距取最接近 n的整数,再从中随机抽取一个随机起点作为起始单位,然后每隔抽取一个单位,直到抽满n个单位

9、为止。这是由于随机起点是中的任意一个,因此每个总体单位入样的概率是相等的。,总体单位线性趋势排列:总体名单中,个体的排列具有某种次序上的先后、等级上的高低的情况。(总体单位按某个辅助变量的大小顺序排列,而这个辅助变量与所研究的指标值线性相关。如调查家庭消费情况,而家庭是按总收入多少排列的。,总体单位的排列,如从总体为2000户家庭的社区中,抽出一个50户家庭的样本进行消费状况调查,而2000家庭是按照每个家庭的总收入的多少,由高到低顺序排列的。比较两种抽样:,,补救:打乱其原来的顺序,重新编制总体名单,或者改用其他抽样方法。,总体单位周期排列,即总体单位指标按其顺序呈周期性变化。也即总体名单中

10、,个体的排列上有与抽样间隔相对应的周期性分布的情况。当抽样间距等于周期倍数时,抽到的任意一个样本单位都有相同的取值,相当于从总体中随机抽取了一个单位,这时样本的代表性最差。如按教学班排列,每班正好个学生,并且每班的名单都是按学习成绩高低或按班干部、一般学生、较差学生的顺序排列,那么抽的靠前的和靠后的完全不一样。,3、分层抽样(类型抽样)(Stratified Sampling),它是先将总体个单位,按某种特征划分成若干个子总体称为层,然后在每个层中分别独立地进行抽样,最后将抽出的子样本合起来构成总体的样本。基本目的:把异质性较强的总体分成一个个同质性较强的子总体。分层的指标:要对研究的变量有很

11、大影响的因素作为分层变量-使各层内部保持一致,层间差异大;实用性原则 如对社区建设公共用地的绿化看法:收入分层 而不是性别,分层抽样方法有两个优点。其一是降低总体异质性,在不增加样本的规模的前提下降低抽样误差,提高抽样的精度;其二就是非常便于了解总体内不同类型和层次的情况。便于对各层指标进行推算,也有利于抽样工作的组织。,4、整群抽样(集体抽样或群体抽样)(Cluster Sampling),先将总体划分成若干个群(视为初级单位),每个群包含若干个次级单位,然后以一定方式从总体中抽取一部分群,并由中选群中的所有次级单位构成总体的样本.例子:某大学共有100个班级,每班都是30名学生,共3000

12、名学生.现要抽300名学生作为样本单位进行调查.采用整群抽样方式是从全校100个班级中,采取简单随机抽样的方法(其他方法)抽取10个班级,然后由这10个班级的全部学生构成调查的总体.,它区别于其它抽样方法的最大特点在于它的抽样单位不是单个的个体,而是成群的个体。整群抽样中对小群体的抽取可采用简单随机抽样、系统抽样或分层抽样的方法。,优点在于它不仅可以简化抽样的过程,而且更重要的是可以降低调查的费用。同时还能相对地扩大抽样的应用范围.进行简单随机抽样需要包括所有总体单位的抽样框,这在实际抽样中由于缺乏足够的信息资料,往往是难以实现的.有时即使有可能找到相关资料,编制这种抽样框的工作量也大得难以接

13、受.而整群抽样时候编制抽样框很简单.而在大范围调查中,抽取群也使调查单位的分布相对集中.缺点就是其样本的分布面不大、样本对总体的代表性相对较差。其误差大于简单随机抽样.,整群抽样与分层抽样区别运用:,一般情况下,当某个总体由若干个存在着自然界限和区分的子群(或类型、层次)所组成,同时,不同子群相互之间差别不大、而每个子群内部的异质性较大时,则适合于采用整群抽样的方法;反之,当不同子群相互之间差别很大、而每个子群内部的差异不大时,则特别适合于采用分层抽样的方法。异质的群,同质的层,不同抽样方法比较(例子),调查的总体是全国所有城市的集合,要抽取一个规模为40个城市的样本。简单随机抽样或系统抽样:

14、先弄到一份全国城市的名单,然后根据随机数表或通过计算抽样间距直接从抽样框中抽取城市分层抽样:按城市的规模将总体分为特大城市、大城市、中等城市、小城市。然后分别从每一类中抽取若干城市,并将这些城市和起来构成样本。整群抽样:可以以省(自治区、直辖市)为抽样单位,从全国30个省(自治区、直辖市)中随机抽取3-5个省(自治区、直辖市),再以所抽中的这些省(自治区、直辖市)中所包含的全部城市的集合作为调查的样本。,5、多段抽样(多级抽样或分段抽样)(Multistage Sampling),它是按总体中元素的层次关系,把抽样过程分成两个或两个以上的阶段进行。(1)把调查总体按一定标准分成第一级单位、第二

15、级单位、第三级单位、第四级单位(2)采用简单随机抽样、系统抽样、分层抽样或整群抽样的方法,抽出若干第一级单位样本、第二级单位样本、第三级单位样本、第四级单位样本,直至抽出最后的调查样本。,街道、乡镇,区、县,居委会、村委会,常驻家庭,个人,6、户内抽样(Sampling within Household),在调查研究中,不仅需要抽出家庭户的样本,同时还要进行户内抽样从所抽中的每户家庭中抽取一个成年人,以构成访谈对象的样本。Kish选择法,(1)Kish选择法(家庭抽样),研究者首选将调查表分为(编号为)A、B1、B2、C、D、E1、E2、F,每种表的数目分别占调查表总数的1/6、1/12、1/

16、12、1/6、1/6、1/12、1/12、1/6。调查员首先要对每户家庭中成年人进行排序和编号,排序的方法是男性在前,女性在后;年纪大的在前,年纪小的在后。然后根据调查表上的编号,选用“选择表”,确定最后人选。,家庭内成年人的排序,Kish方法的好处是,它不仅可以使研究者收集到样本家庭的资料,同时也可以收集到这些被访者所构成的个人样本的资料,可以用来描述这一地区所有成年人所构成的总体。访问时间会影响到调查对象,容易选择男性.因此,用这种方法晚上去比较好,7、PPS抽样概率与元素的规模大小成比例的抽样(Sampling with Probability Proportional to Size)

17、,在PPS抽样中,第一阶段抽样即抽取PSU的阶段,要先放弃等概率抽样的方法,即赋予规模不等的群与其规模(或辅助变量)成比例的入样概率;这样一来,规模大的群以大概率入样,规模小的群以小概率入样。由于抽取PSU的过程是不等概率抽样,因此,如果要保证总抽样比不变,就需要以一个固定的样本规模从抽样的PSU内抽取样本单位。因为如果抽取的单位规模对每个PSU都一样,那单位入样的概率就会与群的规模成反比,这样大概率抽取群,小概率抽取样本单位,一大一小相互抵消,就保证了总体单位的等概率性。与此同时,由于不论PSU大小,都抽取固定规模的样本单位,于是也控制了样本规模的变动。,假设从南昌大学10个不同规模院系(共

18、10000名大学生)中,抽取200名大学生进行调查。方案:先抽取5个院系,从每个抽中院系中抽 取40人共200人构成调查样本。问题:第一阶段没问题;第二阶段从每个抽中 院系中抽取大学生时有问题。,PPS抽样方法,五、非概率抽样方法,不是按照概率原则,而是根据人们的主观经验或其他条件来抽取样本。样本的代表性成问题,误差无法估计。正式调查中很少使用非概率抽样,常常是在探索性研究中采用。,主要的非概率抽样方法:,1、偶遇抽样2、判断抽样3、定额抽样4、雪球抽样,2、影响样本规模的因素,(1)经费(3)抽样精度:公式计算,、总体性质:总体规模与总体异质性总体规模:当总体规模增大时,必需的样本容量并不同

19、它保持同样的增长速度。对一组已知的条件(总体可信度、方差、误差界限等)来说,当总体规模达到足够大时,样本的必需量相对于总体来说,只是受到较小影响,实际上规模在以上的总体,样本必需量是相当接近的。因此,所要调查的总体规模越大,使用抽样调查越经济越合算。总体异质性:在给定抽样精度后,总体异质性程度越小,所需样本规模也越小,反之亦然。这是因为异质性越小,总体参数的分布越集中,波动性越小,大小相同的样本的代表性就越好。异质性越高,参数分布越分散,波动性越大,大小相同的样本的代表性就越差。,(3)总体的规模。在一定程度上,总体越大时,则样本也要越大。,总体规模,样本规模,10000,20000,3000

20、0,40000,200,400,600,注:当总体规模大到一定程度(例如100万)时,样本规模的增加对抽样误差的影响就微乎其微了。由此:样本规模越大越好只是误解。,(4)、分析要求与样本容量许多社会研究,其目的不只是了解总体特征,而且还想了解总体中某些部分的特征。或者想了解各种变量间的真实关系,这时如果样本过小,则某些类别的子样本就可能由于调查对象太少而无法进行分析。因此在确定样本大小时,应当估计一下在分析时样本需作哪些分类,并保证每个类别有一个能够统计分析的子样本。相关分析和其后的检验方法要求每一小类的子样本容量不得小于。,(5)、在一般的社会调查研究中,实际上并不要求很高的精确度,调查人员一般是凭经验确定样本容量大致范围。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教育教学 > 成人教育


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号