《社会调查第5章抽样调查.ppt》由会员分享,可在线阅读,更多相关《社会调查第5章抽样调查.ppt(63页珍藏版)》请在三一办公上搜索。
1、社會調查理論與方法教學幻燈片,1,2023/10/17,社會調查理論與方法教學幻燈片,2,2023/10/17,5抽样调查,抽样调查是指从全体被研究对象中,按照一定的方法抽取一部分对象作为代表进行调查分析,以此推论全体被研究对象状况的一种调查方式。总体(population)总体通常与构成它的元素(element)共同定义;总体是构成它的所有元素的集合,而元素则是构成总体的最基本单位。样本(Sample)样本就是从总体中按一定方式抽取出的一部分元素的集合。抽样(Sampling)抽样是从总体中按一定方式选择或抽取样本的过程。,社會調查理論與方法教學幻燈片,3,2023/10/17,抽样单位(S
2、ampling Unit)抽样单位就是一次直接的抽样所使用的基本单位抽样框(Sampling Frame)抽样框也叫抽样范围是指一次抽样时总体中所有抽样单位的名单。调查对象和调查总体 调查对象是调查过程中获取社会信息的最基层单位。调查总体是全部调查对象的集合体。参数值和统计值抽样误差 是指样本统计量和总体参与之间的差异。随机抽样与非随机抽样,社會調查理論與方法教學幻燈片,4,2023/10/17,抽样调查的特点,它以足够数量的调查单位组成的“样本”来代表和说明总体。一般按随机原则抽取调查单位。以样本推断总体的误差可以事先计算并加以控制。节省人力、物力和时间。,社會調查理論與方法教學幻燈片,5,
3、2023/10/17,抽样调查的应用,总体范围较大,调查对象较多。实际工作中,不可能进行全面调查,而又需要了解其全面情况的调查。虽可以但没有必要进行全面调查的事物。对普查统计资料的质量进行检验、修正。,大数定律也称大数法则,是指在大量观察或多次试验的情况下,随机现象的偶然离差趋向于互相抵消,总体呈现出稳定的统计规律性。,抽样调查的方法 概率抽样,简单随机抽样等距随机抽样分层随机抽样整群随机抽样多阶段随机抽样,常用的方法:A、总体元素较少时,直接抽样法 B、总体元素较少时,类似于抽签或抓阄方法 C、总体元素较多时,随机数表法基本原理:从N中抽取n 练习 1:我系共有学生300人,系学生会打算采用
4、简单随机抽样的办法,从中抽取60人进行调查。,1.简单随机抽样,具体方法(总体元素少时):,先编制一个抽样框,把总体各单位编上号码写在纸片上搓成纸团,作成签和阄(给每个学生编号,从001到300,并写在纸片上);然后,把签和阄放在一个盒子内搅拌均匀;最后,随机从盒子内抽取签和阄,被抽中的签和阄上的号码所代表的单位就是样本,直到抽满规定的样本为止(从300张纸条里抽取60张,并找相关同学)。特点:总体单位很多时,写号码的工作量就很大,搅拌均匀也不容易,因而此法经常在总体规模较小的时候使用,随机数表,总体元素多时,采用随机数表,利用随机数表进行抽样的具体步骤:,先取得一份总体所有元素的名单(即抽样
5、框)将总体中所有元素一一按顺序编号 根据总体规模是几位数来确定合适的随机数表以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍 根据样本规模的要求选择出足够的数码个数 依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素,练习 2对照随机数表,练习随机抽样。要从3000个人(或其他分析单位)的总体中用简单随机抽样的方法选取100个人作为样本进行调查。,步 骤,首先,将总体中所有的人编码:本例中编码为1-3000。接下来的问题是从随机数表中随机选取100个数字。这100个数字所对应的人就是样本。接下来是确定所选择的随机数需要几位数。需要有四位数字才能保证所有人都有被选中的机会。(
6、如果总数为21654的话,需要选择五位数的随机数)。因此,我们要从0001到9999的数字中抽取100个随机数。,我们可以随意确定表格中选取数字的顺序:依纵列的方向向下选取,也可以依纵列的方向往上选取,由左到右或者由右到左,也可以依对角线的方式选取。什么方式并不重要,关键是从头到尾贯彻使用这种方法。这里我们为了方便选择从纵列方向,当一列到了末端时,可以从下一列最顶端选起,当一页选完以后,可以从下一页的第一纵列继续选取。现在,我们决定从那里开始。可以闭着眼睛随便戳一个数字。也可以随意想一个行号和列号,譬如第五行第三列作为开始。,假设我们从第五行第三列的数字作为起点,会看到这个数字是0906,那么
7、第一个样本就为0906,由第三列往下,我们选择0041,2507,2683,然后从下一列开始。依次进行,选足100个随机数。样本的编码就为0906等。,随机数表抽样例,是把总体的单位进行编号排序后,在计算出来某种间隔,然后按照这一固定的间隔抽取个体的号码来组成样本的方法。练习1:在某大学总共3000名学生中,抽取一个容量为100的大学生样本。,2.等距随机抽样,具体步骤,给总体中的每一个个体按顺序编号,即制定出抽样框 计算出抽样间距。计算方法是用总体的规模除以样本的规模:K,在最前面的K个个体中,采用简单随机抽样的方法抽取一个个体,记下这个个体的编号(假设所抽取的这个个体的编号为A),它称做随
8、机的起点 e.g.如果K=10,就从01-10号中抽签决定一个号码作为起点,假定为05在抽样框中,自A开始,每隔K个个体抽取一个个体,即所抽取个体的编号分别为A,A十K,A十2K,A十(n一1)K 将这n个个体合起来,就构成了该总体的一个样本,随机起始的等距随机抽样,如果我们要从某城市电话号码簿中产生一个容量为300的样本,已知该市电话号码簿共900页(或921页),每页有2栏号码,每栏有60行(个)号码,请问如何用等距随机抽样抽取样本?,练习2,值得注意的是,等距随机抽样的一个十分重要的前提条件,是总体中个体的排列,相对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。否则
9、,等距随机抽样的结果将会产生极大的偏差。因此,我们在使用等距随机抽样方法时,一定要注意抽样框的编制方法。,注意:,总体名单中,个体的排列具有某种次序上的先后、等级上的高低的情况 例如:我们从2000户家庭的社区,抽取50户进行消费状况的调查,而2000户家庭的名单是按照家庭收入的多少按照由高到低排列的。抽样间距=2000/50=40 如果两个人选择样本,一个人选择初始号码为3,另一个人选择初始号码为38,那么肯定前者家庭平均收入远远高于后者。解决措施:重新编排总体名单;改用其他抽样方法。,总体名单中,个体的排列上有与抽样间隔相对应的周期性分布的情况 例如:某大学总共3000名学生,抽取100人
10、,抽样间隔为30。但是如果总体名单按教学班排列、每班刚好30人左右,而且各班的名单按照成绩高低排列,如果样本的初始号为2号,那么样本全是好学生;如果样本初始号为25 号,样本全部为差学生。,3.分层随机抽样,是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分为若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或等矩随机抽样的方法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。,分类,随机抽样,总体,子群,样本,分类随机抽样示意图,例:800家私营企业,抽取100家。,(譬如:我们调查的主题是看各种不同类型企业为国家创税情况)步骤:(1)800家企业按产业分为
11、3个类型,第一产业80个,第二产业320个,第三产业400个。(2)第一产业10%,100*10%应该抽取10个 第二产业40%,100*40%应该抽取40个 第三产业50%,100*50%应该抽取50个(3)按照简单随机抽样或等距随机抽样抽取样本。,优点,当一个总体其内部分层明显时,分层随机抽样能够克服简单随机抽样的缺点。采用分层随机抽样的最基本目的,正是在于把异质性较强的总体分成一个个同质性较强的子总体,以便提高抽样的效率,达到更好的抽样效果。分层随机抽样可以提高总体参数估计值的精确度 有些研究不仅要了解总体的情形,而且还要了解某些类别的情形,分层随机抽样可以同时满足这两个要求,因为我们可
12、以将每一类(层)看作一个总体。此外,对总体的不同部分还可以采用不同的抽样方法。,分层的标准问题(分层原则):以调查所要分析和研究的主要变量或相关的变量作为分层的标准。以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。以那些已有明显层次区分的变量作为分层变量。,分层的比例问题:按比例分层:指的是按照各种类型或层次中的单位数目同总体单位数目间的比例来抽取子样本的方法。不按比例分层:便于对不同层次的子总体进行专门研究或进行相互比较。,4.整群随机抽样,整群随机抽样:又称为聚类随机抽样或者集体随机抽样),它是从总体中随机抽取一些小的群体,然后由所抽出的若干小群体(家庭、学校
13、中的班级、工厂的车间、城市中的居委会)内的所有元素构成抽样调查的样本。,最大特点是:抽样单位不是单个的个体,而是成群的个体。从总体中随机抽取一些小的群体,所抽取的若干小群体内的所有元素构成调查的样本。整群随机抽样中对小群体的抽取可采用简单随机抽样、等矩随机抽样或分层随机抽样的方法。,具体步骤,A、先将总体各单位按一定的标准分成许多群体,并将每一个群体看做一个抽样单位。B、利用简单随机抽样、等矩随机抽样或分类随机抽样从这些群体中抽取若干作为样本。C、对样本群体中每一个单位逐个进行调查。例如:某中学共有100个班级,每班都是30名学生,总共有3000名学生,现在要抽300名学生作为样本进行体检。,
14、整群抽样示意图,优点:简便易行节省费用缺点:样本分布面不广样本对总体的代表性相对较差,作业:,假设我们的总体是全国所有城市的集合(600个城市),我们要抽取一个规模为40个城市的样本。请分别用简单随机抽样、等矩随机抽样、分类随机抽样和整群随机抽样方法进行抽样,并比较彼此之间的异同。,5.多阶段随机抽样,又称为多级随机抽样或分段随机抽样是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行 e.g.大学院系班级学生,具体操作,例如:多段整群随机抽样,从总体中随机抽取若干大群,从大群中抽取小群,一层层抽,抽到最基本的抽样元素为止。,例 1:调查某市青年工人的状况,以企业为单位抽样,即以全市所
15、有企业为抽样框,从中随机抽取一部分企业 在抽中的企业里,以车间为抽样单位抽样,即从全部车间中抽取若干个车间 再在抽中的车间内抽取青年工人,某县20个乡镇,每个乡镇有10个行政村,每个行政村有10个自然村,每个自然村有50户。这样,全县就共有200个行政村,2000个自然村,10万户。现在决定采用多段抽样方法对该县计划生育状况按5/1000的比例进行抽样调查,共抽取500户,如何抽?,例2,步 骤,首先,确定抽样单位。根据该县社会组织的4个层次,即乡镇、行政村、自然村和户,采取4段抽样抽取样本。乡镇为1级单位,行政村为2级单位,自然村为3级单位,户为4级单位。(4级单位也可以是企业、车间、班组、
16、工人;学校、年级、班组、学生。),采用不同的方法,分4段逐步抽取样本:一段抽样,从县抽到乡镇。适宜用分层随机抽样(由于该县乡镇之间经济发展状况差异较大)具体做法 首先,编制抽样框。假定以经济发展状况为标准,将该县的20个乡镇分为经济发展状况较好的、一般的和较差的3类,分别为4个、12 个、4个。其次,确定样本的数量。假定在一级单位中抽取25%的单位即5个乡镇作为样本。再次,按照随机抽样和上述比例,在经济状况较好的4个乡镇中抽取1个乡镇,一般的12个乡镇中抽3个乡镇,较差的4个乡镇中抽1个乡镇作为样本。,具体做法:首先,编制抽样框。就是把第1级样本中的5个乡镇的50个行政村(2级单位),按一定的
17、标准(如按空间分布)确定他们的编号1-50。其次,计算抽样间隔。假定从第2级单位中抽取20%的单位即10个行政村作为第2级样本,其间隔就是50/10=5。再次,抽取第一个样本,我们随机抽取第3个行政村作为样本。这样我们就抽到了第3、8、13、18、23、28、33、38、43、48这些行政村作为样本。,二段抽样,从乡镇抽到行政村,采用等距随机抽样,三段抽样,从行政村抽到自然村,为了便于集中调查,节约人财物力和时间,我们采用整群抽样。具体做法:首先,划分群体,将2级样本10个行政村所属的100个自然村,按照地理位置把每两个相近的自然村划分为一个群体,共50个群体。其次,抽取第3级样本,即按照随机
18、抽样的原则从50个群体中抽出10个群体作为第3级样本。四段抽样,从自然村到户。(为了简便,选用简单随机抽样),社會調查理論與方法教學幻燈片,45,2023/10/17,抽样调查的基本方法,随机抽样方法对比表,社會調查理論與方法教學幻燈片,47,2023/10/17,非随机抽样方法,偶遇抽样(Accidental or Convenience Sampling)判断抽样(Judgmental or Purposive Sampling)定额抽样(Quota Sampling)滚雪球抽样(Snowball Sampling),1.偶遇抽样(accidental sampling),又称作方便抽样或
19、便利抽样是研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象区别简单随机抽样,2.判断抽样(judgmental sampling),又叫立意抽样(purposive sampling)调查者根据研究的目标和自己主观的分析来选择和确定调查对象的方法,难点:确定抽样标准优点:发挥研究者主观能动性缺点:无法判断样本代表性,3.配额抽样(quota sampling),又称作定额抽样研究者尽可能地依据那些有可能影响研究变量的各种因素来对总体分层,并找出具有各种不同特征的成员在总体中所占的比例然后依据依据这种划分以及各类成员的比例选
20、择调查对象,例:,假设某高校有4000名学生,其中男生占60,女生占40;文科学生和理科学生各占50;一年级学生占40、二年级、三年级、四年级学生分别占30、20和l0。现在要用定额抽样方法依上述三个变数抽取一个规模为100人的样本。,依据总体的构成和样本规模,我们得到的定额表,特点:按事先规定的条件,有目的地寻找。区别分层随机抽样,4.滚雪球抽样(snowball sampling),当我们无法了解总体情况时,可以从总体中少数成员入手,对他们进行调查,向他们询问还知道哪些符合条件的人;再去找那些人并再询问他们知道的人。如同滚雪球一样,我们可以找到越来越多具有相同性质的群体成员。,社會調查理論
21、與方法教學幻燈片,56,2023/10/17,抽样的基本程序,设计抽样方案界定调查总体编制抽样框选择抽样方法抽取调查样本评估样本质量,确定样本大小,(一)抽样框编制(二)抽样概率 1.PPS抽样 2.SPS抽样 3.入户后选择回答人,随机抽样中应注意的问题,社會調查理論與方法教學幻燈片,58,2023/10/17,为了解普通居民对某种新产品的接受程度,需要在一个城市中抽选1000户居民开展市场调查,在每户居民中,选择1名家庭成员作为受访者。,总体抽样设计 由于一个城市中居民的户数可能多达数百万,除了一些大型的市场研究机构和国家统计部门之外,大多数企业都不具有这样庞大的居民户名单。这种情况决定了
22、抽样设计只能采取多阶段抽选的方式。根据调查要求,抽样分为两个阶段进行,第一阶段是从全市的居委会名单中抽选出50个样本居委会,第二阶段是从每个被选中的居委会中,抽选出20户居民。对居委会的抽选 从统计或者民政部门,我们可以获得一个城市的居委会名单。将居委会编上序号后,用计算机产生随机数的方法,可以简单地抽选出所需要的50个居委会。如果能够使一个居委会被抽中的概率与居委会的户数规模成正比,这种方法就是所谓PPS(Probability proportional to size)抽样方法。还可以采用SPS抽样。,社會調查理論與方法教學幻燈片,59,2023/10/17,在居委会中的抽样 在选定了居委
23、会之后,对居民户的抽选将使用居委会地图来进行操作。此时,需要派出一些抽样员,到各居委会绘制居民户的分布图,抽样员需要了解居委会的实际位置、实际覆盖范围,并计算每一幢楼中实际的居住户数。然后,抽样员根据样本量的要求,采用等距或者其他方法,抽选出其中的若干户,作为最终访问的样本。确定受访者 访问员根据抽样员选定的样本户,进行入户访问。以谁为实际的被调查者,是抽样设计中最后一个问题。如果调查内容涉及的是受访户的家庭情况,则对受访者的选择可以根据成员在家庭生活中的地位确定,例如,可以选择使用计算机最多的人、收入最高的人、实际负责购买决策的人,等等。如果调查内容涉及的是个人行为,则家庭中每一个成年人都可
24、以作为被调查者,此时就需要进行第二轮抽样,因为如果任凭访问员人为确定受访者,最终受访者就可能会偏向某一类人,例如家庭中比较好接触的老人、妇女等。,抽样误差与样本规模,1.抽样误差 在随机抽取样本的过程中所产生的样本统计量与总体参数之间的差别,它与抽样过程中的人为操作无关,而与研究总体的分布状况、样本容量、所采用的抽样方法等因素有关。2.样本规模 样本规模又称为样本容量,它指的是样本中所含个案的多少,统计学中通常以30为界,把样本分为大样本(30个个案及以上)和小样本(30个个案以下)当样本规模大于30时,其平均值的分布将接近于正态分布,3.影响样本规模确定的因素,总体的规模 总体的异质性程度估计的精确性要求 抽样 方法研究者所拥有的经费、人力和时间,