《第4章-抽样调查技术要点课件.ppt》由会员分享,可在线阅读,更多相关《第4章-抽样调查技术要点课件.ppt(56页珍藏版)》请在三一办公上搜索。
1、抽样调查技术,韩 璐,重点章节,为了获取总体的信息及特征,可以选择普查和抽样调查两种方法。总的来说,与普查相比抽样调查具有经济、及时、准确和高效的特点。,普遍调查,抽样调查,普查与抽样调查,抽样调查的定义,抽样调查又称样本调查,是指按照随机原则,从研究总体个单位中,抽取部分单位作为样本,按照以样本的调查结果对总体的数量特征做出具有一定可靠度和精确度的估计或推断的一种调查方法。抽样调查的理论基础是概率论。,抽样调查是什么?抽样调查要遵循随机原则吗?需要从研究总体中抽取样本 吗?能够可靠或准确的估计总体样本吗?有理论基础吗?,概率论,抽样方法,抽样调查的分类,两种抽样的区别,概率抽样又称随机抽样,
2、是指按照随机原则抽取样本,在抽取样本时排除主观因素影响,不进行有意识的挑选,使每个单位都有一定机会被抽中。,非概率抽样,它不遵循随机原则,而是从方便、快捷出发抽取样本,或是根据主观有目的地挑选样本。,遵循随机原则 客观抽样 每个单位都有相同机会,不遵循随机原则 主观判断抽样 方便、快捷的抽取样本,优:从概率样本中获得的信息含量较高。缺:抽取样本技术复杂,必须有合适的样本框,成本较高,对抽样人员专业技术要求高。,优:操作简便、时效快、成本低,适合做探索性研究和预调查。缺:无法估计和控制误差,无法用统计方法来推断总体。,第一步:定义有关的总体,抽样方案的设计步骤,第二步:获得总体的名单,第三步:设
3、计样本方案,明确总体:1)抽样的单位是什么?(家庭还是个人)2)时间限制,需要获取哪一时间段的信息?3)空间限制,局限于哪个区域的信息?,建立抽样框1)所有的样本均从抽样框中得到2)抽样框误差会影响分析结果的可靠性,确定样本数量和抽样方法1)确定抽样数量2)根据样本特征选择抽样方法,概率抽样,简单随机抽样,简单随机抽样又称单纯随机抽样、纯随机抽样、无限制随机抽样,它对调查总体不经过任何分组、排队,完全凭着偶然的机会从中抽取个体加以调查。,(1)抽签法,该方法适用于调查总体中个体数目较少的情况。,例如:北京小轿车摇号,(2)随机数字表法,该方法需要使用摇码器生成乱数表,而后在从中抽取,也是适用于
4、数量不大的总体。,从第1行第4列开始抽取,小于70的数。如果样本不够那么再从其他列抽取,直至抽够为止。,(3)计算机抽取,使用统计软件中都有的抽取随机样本的功能,从中抽取,该方法简便快捷,但是需要注意,软件生成的随机数是伪随机数,随机效果并不理想。,例如:商场让个人用电脑抽奖的活动,简单随机抽样的优点及局限性,优点:方法简单,易操作,理论上是最符合随机原则的。,简单随即抽样适用于总体的个数不太庞大,总体分布较为均匀的情况。,局限性:(1)采用简单抽样必须对个体进行编号,当总体样本巨大,且不断产生时逐一编号比较困难。(2)当调查总体的标志变异程度较大时,简单抽样的代表性就会下降。(3)简单抽样样
5、本较为分散,需要的调查投入较大。,系统抽样,系统抽样是指将总体中的单位按某种顺序排列,在规定的范围内随即抽取起始单位,然后按一定的规则确定其他样本单位的抽样方法。,排序的标志:按与调查项目无关的标志排序,如电话号码排序;按与调查项目有关的标志排序,如最近购买时间。,例:从某小区600户家庭中抽选50户进行消费习惯调查,可以利用小区物业管理的现有名册按顺序编号排序,从第1号编至600号。,抽取方式:从第一个12户中用简单随即抽样的方式抽取第1个样本个体,假如抽到的是8号,则后续依次抽中20号32号44号,直至抽够50户为止。,系统抽样的优点及局限性,局限性:(1)需要调查总体中每个个体的详细材料
6、,尤其是按有关标志排序时,较为困难;(2)当抽选间隔与被调查本身的节奏性相重合时会影响调查精度。,系统抽样适用于总体时间周期性不强的情况。,优点:操作简便,只要随即确定一个起始单位整个样本就可以确定了。当研究对象的标志变异程度较大,又不可能抽取更多样本个体时,这种方法能比较均匀的调查总体。,例:对军队中士兵对待战争的积极性进行调查,采用系统抽样的方法,将士兵的编号按班排序(每班10人),进行抽样,从1号开始抽取,接下来是11号、21号,调查发现士兵对待战争的积极性很高。但是经过对样本进行研究发现,被抽到的士兵都是每班的班长,样本的代表性就有问题了!,分层抽样,分层抽样,是指先将调查总体的所有个
7、体按某一重要标志进行分类(分组),然后在各类(组)中采用简单随即抽样或系统抽样方式抽取样本个体的抽样方法。分层抽样主要是希望增加样本的代表性,避免单纯随机抽样的样本过于集中于某种特性或完全无某种特性。,根据样本在各层中分配方法不同,可以分为等比分层抽样和非等比分层抽样两种方法。,1.等比分层抽样:按各层中个体数量占总体数量的比例分配各层的样本数量。,例:某产品的用户共有5000个,按用户的“年平均支出”将其分为“大客户”、“一般客户”和“临时客户”。从中抽取800个用户进行消费者调查。,等比分层抽样简便易行,分配合理,计算方便,适用于类型之间差异不大的分层抽样调查。,2.非等比分层抽样:按其他
8、因素(如各层平均数或成数标准差的大小,抽样工作量或费用的大小等)调整各层的样本个体数。非等比分层抽样主要在于减低各层之间的标准差,使母体平均数的估计更加精确。,非等比分层抽样适用于各层之间相差悬殊或标准差相差较大的情况。,例:某产品的用户共有5000个,按用户的“年平均支出”将其分为“大客户”、“一般客户”和“临时客户”。从中抽取800个用户进行消费者调查。,可以看出,标准差较大的抽取的样本个体也较多,这样可以平衡标准差的作用。但准确了解各组标志值变异程度的大小比较困难。,分层抽样的优点及局限性,优点:把科学分组方法和抽样原理结合,能划分出性质比较接近的组,以减少标志值之间变异程度,然后按随机
9、原则,可以保证大数法则的准确运用。比前两种抽样更准确,能得到比较准确的推断,尤其是总体数目较大,内容结构复杂时。,分层抽样优点较多,局限性较小,是调查中常用的抽样方法。,局限性:(1)在调查前准确了解各组标志值变异程度大小比较困难。(2)划分层次时,应尽量使各层之间具有显著性差异,不致混淆。分层数目也不宜过多,各层内各单位应尽量保持相似。,整群抽样,整群抽样也叫分群抽样,是指将总体分解为群,抽样直接抽取群,对抽中群中的个体单位全部或随机抽取部分进行调查(一级整群抽样、二级整群抽样、三级整群抽样),以此来推断总体的一般特性。整群抽样时,各群的特性应尽量保持相近,如人口、经济等。但每一群内部则应具
10、有差异性。,如:初级调查单位(如地区):具有相同性 次级调查单位(如家庭):具有差异性,整群抽样与分层抽样刚好相反:,思考:1、调查某产品消费者可支配收入去向时,可采用哪种方法?2、调查一线城市消费者耐用品消费状况时,可采用哪种方法?3、调查北京地区高校大学生用于购买电脑消费状况时,可采用哪种方法?,分层抽样,整群抽样,系统抽样,整群抽样的优点及局限性,优点:组织抽样和实施调查比较方便,节省了费用和时间。局限性:(1)与其他抽样方式相比,在抽样个体数目相同的条件下,抽样误差较大,代表性较差。(2)采用整群抽样时,一般都要比其他抽样方法抽选更多的个体,以降低抽样误差,提高结果的准确性。(3)抽样
11、结果的可靠性还取决于群与群之间的差异大小,差异越小,整群抽样结果就越准确。,在大规模市场调查中,当群体内各个体间差异性较大,而各群之间差异性较小时,适合采用整群抽样。,几种概率抽样方法的选择与比较,应当注意,强调根据调查要求和调查对象特点选择合适的抽样方式,并不否认几种概率抽样方式的结合运用。在实际调查中,特别是在复杂、大规模的市场调查中,抽取的调查个体一般不是一次性直接进行的,而是采用两阶段或多阶段抽取的方法。,非概率抽样,在以下情形下可以考虑进行非概率抽样:(1)由于客观条件的限制,无法很好的进行概率抽样;(2)调查人员具有丰富的积累,凭经验可以抽选出很好的样本;(3)调研委托方对抽样误差
12、没有过多要求,不需要对总体参数进行区间估计。,常用的非概率抽样方式有:方便抽样、判断抽样、配额抽样和滚雪球抽样四种。,方便抽样,方便抽样又称便利抽样或任意抽样,样本的抽选完全从调查者的方便或便利出发。,1.入户调查,2.拦截式访问,3.利用客户名单进行调查,4.将问卷通过传播媒体(如纸媒、网络)上,被调查者自填后寄回。,节省费用和时间,但样本信息不适用于对总体参数的推断,预调查时可以采用,正式调查较少采用。,判断抽样,判断抽样是指根据调查人员的主观意愿、经验和知识,从总体中选择具有典型代表性的样本作为调查对象的抽样方法。,简便易行,符合调查目的和特殊需要,被调查者配合较好,资料回收率高。但是容
13、易发生主观判断抽样误差。,配额抽样,配额抽样也叫定额抽样,是指将总体中的各单位按一定的标准划分为若干个类别,将样本数额分配到个类别中,在规定的数额内由调查人员任意抽选样本。,配额抽样可分为独立控制配额抽样和相互控制配额抽样两类。,独立控制配额抽样,调查人员可以将某个单一的特征的分类作为抽样配额的标准。如按收入分,高、中、低各抽50个,而不用规定高收入中男女比例或年龄分布。样本容易偏向某一组别,从而影响样本代表性。,相互控制配额抽样,调查人员对调查对象的各个特征的控制特性的样本数额交叉分配。如要求调查中高收入,20-29岁的男性和女性各为4个。对样本进行了更多的要求,调查面明显扩大,弥补了独立控
14、制配额抽样的缺点。,练习:按照通信费月平均支出与用户的年龄,根据政府公布的统计资料抽取样本600人。统计资料显示:22岁以下,支出200元/月以下的用户占22%,200元(含)-500元的占15%,500(含)以上的占1%;22岁及以上,支出200元/月以下的用户占35%,200元(含)-500元的占19%,500(含)以上的占8%。请编制配额表并计算各层抽样比例。,配额抽样与分层抽样有什么异同呢?,相同之处:都是事先对总体中所有个体按照一定特征、属性分类,然后对每一类(组)按一定比例分配样本数额。,差别之处:层内抽样方法不同(1)分层抽样各层内是按随机原则在层内抽取样本,保证大数法则的使用;
15、(2)配额抽样则是由调查人员在配额内主观判断选定样本。,配额抽样的优点及局限性,优点:调查费用低,执行容易,调查时间短,适用于无母体名单的情况。局限性:(1)通常采用政府人口调查资料作为分组和样本分配表形成的基础,但政府资料的时效性较差;(2)随着控制特性增加,各组资料不一定能够齐备;(3)循着符合条件的被调查者也是难以控制的事情;(4)主观选择抽样误差是无法控制和估计的。,滚雪球抽样,滚雪球抽样是指采用随机方式选择一组调查对象或个体,在对他们进行调查后,根据他们提供的信息或由他们推荐选择下一组调查对象或个体,像滚雪球一样继续下去,直至调查结束。,通过对调查总体设计期望特征,增强了样本个体相似
16、性,而且通过推荐降低了调查成本,但仍然有较强的主观性。,非概率抽样具有较强的主观特征,并且无法估计其误差。但是,在我们的很多调查(尤其是探索性调查和预调查中)仍然会使用,大家在使用非概率抽样时应当注意其满足条件,并且优先使用配额抽样方法。,抽样误差及测定,相关基本概念,调查误差与抽样误差,调查误差,登记性误差,代表性误差,登记、计算等工作错误造成!,违背随机原则!,不违背随机原则,但样本有代表性误差!,抽样误差的大小与样本的代表性成反比。,抽样误差的大小受到三个因素的影响:,(2)抽取的调查个体的数目:其他条件不变的情况下,抽样数目越多,抽样误差越小;,(3)抽样调查技术:在同等样本数量下,系
17、统抽样和分层抽样的抽样误差小于简单随机抽样。,(1)被研究总体各个体标志值的变异程度:总体方差与均方差越大,抽样误差就越大。,抽样平均数的平均误差,抽样成数的平均误差,抽样误差应用时应注意的问题,1、当总体个数非常大时,修正系数接近于1,对抽样误差的影响不大,因此,在应用中按不重复抽样方法抽样时,也按照重复抽样公式计算平均误差。,2、当计算平均误差没有总体标准差资料时,可以采用以下办法:(1)用样本方差代替总体方差;(2)用估计资料代替;(3)用过去数的数字代替(选择最近的);(4)进行一次小规模调查获得。,3、该公式是在纯随机抽样条件下获得的,其他的抽样方式的平均误差公式可在此公式基础上变化
18、得到。,样本量的确定,哪些因素影响了抽样的数目?,影响抽样数目的因素:(1)被调查对象标志的差异程度:差异程度越大,必要的抽样数目也越多;(2)允许误差的大小:允许误差与抽样数目成反比;(3)对调查结果要求的把握程度:要求把握程度与抽样数目成正比;(4)抽样方法:在同等条件下,不重复抽样比重复抽样需要的样本数目少;(5)抽样技术:分层抽样和系统抽样比简单随机抽样需要的样本数目少。,估计均值时样本量的确定,对于简单随机抽样:确定允许抽样误差范围d,d=5.00确定置信水平,=95%确定置信水平相应的t值,t=1.96确定总体的标准差,=55计算所需的样本量n,n=2t2/d2=465当样本量超过
19、总体的5%时,nc=nN/(N+n-1),估计成数(比例)时样本量的确定,对于简单随机抽样:确定允许抽样误差范围d,d=5%确定置信水平,=95%确定置信水平相应的t值,t=1.96估计总体的发生率P(待估计),P=64%计算所需的样本量n,n=P(1-P)t2/d2=355当样本量超过总体的5%时,nc=nN/(N+n-1),例题:某企业对某批产品的每包平均重量和合格率进行检验。根据以往资料,每包平均重量的标准差为10g,产品合格率为92%。现在用重复抽样的方式,在置信度为95%,每包产品平均重量的抽样误差不超过2g,合格率的抽样误差不超过4%的条件下,应抽取多少包产品进行调查?,=10,P=92%,=95%,t=1.96,d1=2,d2=4%,对于样本量的计算同学们应当初步掌握,能够根据给出的条件计算样本量。,本章作业,本书第116页:第1、2题(标明题号直接写答案)第3题(5)、(6)第4题(1)、(2)。,