调查技能教程培训讲义.docx

上传人:牧羊曲112 文档编号:1888824 上传时间:2022-12-24 格式:DOCX 页数:45 大小:152.34KB
返回 下载 相关 举报
调查技能教程培训讲义.docx_第1页
第1页 / 共45页
调查技能教程培训讲义.docx_第2页
第2页 / 共45页
调查技能教程培训讲义.docx_第3页
第3页 / 共45页
调查技能教程培训讲义.docx_第4页
第4页 / 共45页
调查技能教程培训讲义.docx_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《调查技能教程培训讲义.docx》由会员分享,可在线阅读,更多相关《调查技能教程培训讲义.docx(45页珍藏版)》请在三一办公上搜索。

1、调查技能教程培训讲义 第一章 调查导论调查就是使用明确的概念、方法和程序,以有组织、有条理的方式,从一个总体的部分或所有单元中搜集感兴趣的指标信息,并将这些信息综合编辑成有用的简要形式的所有活动。调查的步骤包括:- 调查目标的系统陈述;- 抽样框的选择;- 抽样方法的确定;- 问卷设计;- 数据收集;- 数据编码和录入;- 审核与插补;- 估计;- 数据分析和调查结果的表述;- 数据发布;- 文档。调查的生命周期- 调查计划;- 设计和开发;- 操作与实施;- 调查评估。第二章 调查目标的系统陈述步骤与过程1)确定信息需求(陈述问题)使用一般的术语来描述客户对调查的信息需求。2) 确定数据的使

2、用者(用户)和数据的用途数据用户的意见在调查计划阶段中十分重要确定数据应用的范围应适当控制,不宜过大应使信息需求得到具体且精确的表述。3)概念及运作定义尽可能地使用清楚、精确,已形成共识的标准定义,方便数据使用者和被调查者的交流,确保调查的一致性。4)调查内容必须确认调查内容包括信息需求的所有方面,但不包括任何无关项目。5)分析方案(生成表)确定每个项目的调查结果所需的详细程度及形式。对数据分析和表示方式的详细计划称为分析方案,并需要制作生成表(数据汇总表的格式)。生成表是将每个调查项目的调查结果按被调查者的类别分类列出而生成的数值表或频数表。生成表为以后的分析,也为问卷设计中确定相应调查项目

3、的详细程度及整个问卷的框架提供了依据。生成表的例:表2.3 2001年按P省地域划分的成年人口的劳动力情况地域劳动力情况就业待业下岗非劳动力合计城市A城市B城市C地区D地区E地区F地区G地区H地区I地区J地区K总计影响目标陈述的限制性因素- 要求的精度;- 可以利用的资源(预算、人力和设备);- 时间限制;- 用现有的技术能否对调查变量进行测量;- 对被调查者的回答负担;- 被调查单位或个人的隐私或机密是否会被泄露;- 对被调查者的名誉是否有负面影响。第三章 调查设计导论两种不同的调查:普查与抽样调查在普查中,我们从总体的所有单元中收集信息;而在抽样调查中我们仅仅从总体中的一部分(通常是很小的

4、一部分)单元中收集信息。抽样调查能在充分满足客户所需信息质量的前提下,提供一种更快、更节省的方法。相对于普查来说,抽样调查规模小,因而更容易进行监控,对被调查者的心理压力也小。一项经科学设计并严格实施的抽样调查完全有可能获得比全面调查(普查)更为准确、更为可靠的结果。在抽样调查和普查之间作抉择时,最需要考虑的因素:- 费用- 时效- 总体大小- 小区域估计- 属性的多寡- 调查误差- 特殊要求- 其它因素进行普查的一个原因是为了获得一些标准信息(或辅助信息)。这些信息可以用于改进抽样设计或抽样调查的估计量。目标总体和调查总体目标总体就是希望从中获取信息的总体。它是所感兴趣的所有单元的集合。在陈

5、述调查目标时就应定义目标总体。定义目标总体所必不可少的四个因素是:- 总体中单元的类型;- 单元的特征(指标);- 单元的地理位置;- 调查的标准时点(或时期)。目标总体只是概念性的,并不一定需要一个实际存在的名录。调查总体(抽样总体)即实际调查所覆盖的总体。它可以与目标总体不完全一致,理想状态下,这两个总体应该很相似。依据调查的结果所得出的结论仅适用于调查总体。抽样框(调查框)抽样框(调查框)提供了一条辨别和联系调查总体单元的有效途径。对于抽样调查,可根据抽样框计算总体中每个单元的入样概率。抽样框应该包括下述部分或全部内容:- 识别资料;- 联系资料;- 分类资料;- 维护与连接资料(为更新

6、抽样框);- 辅助资料。抽样框的类型名录框(目录框)是有关所有总体单元的一份实际的或者概念的名录清单。概念名录框常是基于一个调查正在进行中才存在的总体。实际名录框可取自各种不同的来源。各级政府机构因各自的管理目的都保存一些名录,他们也是对抽样框进行维护的最有效的资料来源。区域框是其单元由地理区域构成的一种特殊的名录框,也称地域框。区域框适用于以下所述的两种情况:当调查本质就是地理性质的(如通过每平方公里的野生动物数来估计野生动物的总数);或者不能获得一个适当的名录框。当没有合适的名录框时,可以考虑借助区域框来构造名录框。通过一个区域框抽取地理区域,并列出被抽中区域内的单元清单。对不断变化的总体

7、,任何名录框都会很快过时。比较而言,由于地理边界相对稳定,维护一个区域框也就更为容易。区域框中的单元可以分不同的层次,上一级单元可以细分成许多下一级单元。多重抽样框是两个或两个以上的抽样框的组合(如名录框和区域框的组合或者两个或两个以上名录框的组合)。抽样框的优良性准则:- 实用;- 精确;- 时效;- 费用。抽样框可能的缺陷:- 不完全涵盖(或不完全覆盖)- 过涵盖(过覆盖);- 重复;- 分类误差。调查误差- 抽样误差抽样误差是指仅根据对总体的一部分而不是全部的调查来估计总体特征所引起的误差。对于概率抽样调查,可以计算抽样误差。计算方法取决所用的抽样方法与估计方法(抽样策略)。抽样误差的大

8、小取决于下列因素:- 样本量;- 总体指标的变异程度;- 抽样设计;- 估计方法;- 总体大小。- 非抽样误差非抽样误差为除抽样之外的几乎所有调查活动过程中所产生的误差。非抽样误差不仅出现在抽样调查中,也出现在普查中。非抽样误差可以划分为两类:1)随机误差:如果样本足够大,这类误差可以忽略。随机误差只增加估计值的变异性。2)系统误差:误差倾向于同一个方向,会导致最终结果的偏倚。非抽样误差的计量,极为困难。与抽样方差不同的是,系统误差导致的偏倚不能随样本量的增大而减少。非抽样误差的来源:- 涵盖误差涵盖误差表示在抽样框或者样本中出现了单元的遗漏、错误的包含、重复以及错误的分类。涵盖误差可以导致估

9、计的偏倚,且偏倚的大小随总体的不同子总体而不同。- 计量误差 计量误差是指对一个问题所做的回答记录与它的真值之间的差异。计量误差能影响非抽样误差的大小并造成估计的偏倚。如果计量误差是随机的(实际获得的观测值随机地散布在真值周围),则会增大估计值的方差,从而降低调查的精度。如果计量误差系统地偏向某个方向或某个类别,就会产生估计的偏倚。- 无回答误差无回答有两种类型:全部无回答(单元无回答)和部分无回答(项目无回答)。单元无回答是指被调查单元没有提供任何信息,而项目无回答是指问卷中某些问题的回答空缺。无回答的影响:无回答的被调查者与回答的被调查者具有不同的特征,因此如果对无回答不予纠正,将会引起调

10、查估计的偏倚。由于比预期的要少的单元进行了回答,有效样本的数量减少,从而使抽样误差增大。单元无回答的产生的原因:无人在家、拒绝访问或者由于某些原因所抽中的人无法参加调查;不完整的抽样框资料是无回答产生的另一个原因。项目无回答发生在以下场合:被调查者不知道答案,拒绝回答某个问题,忘了回答,或者错误地跟随问卷的进程漏了回答,或由于有病或语言障碍而不能回答。设计低劣的问卷或者访问本身也会引起项目无回答。- 处理误差 处理是指将收集的调查结果转化为适合于列表及进行进一步数据分析所需要的形式。处理包含数据收集以后,作估计以前,对数据的编码、录入、审核及插补等的一切活动。处理误差通常可通过质量保证和控制方

11、法来监控。第四章 数据收集方法数据收集是在调查中对每一个被抽中的单元收集信息的过程。- 找到被抽中单元并与之相接触或建立联系;- 取得他们的配合;- 提问(或直接测量);- 记录回答(结果)。数据收集的目标是获得尽可能完整且精确的数据。两种主要数据收集模式纸张式 回答记录在用纸印刷的问卷上,数据录入是数据收集后的一个单独的过程。对于一次性调查来说,纸张式方法通常比计算机辅助式方法更便宜,且开发所需时间也少。计算机辅助式 问卷出现在计算机屏幕上,调查时将答案直接输入到计算机中。数据收集成为一个完整、快速的,比纸张式方法更有效的过程。计算机辅助数据收集方法的其他优点:- 问卷在问题的设置流程和审核

12、方面可以更复杂;- 对数据质量更容易进行监督和控制;- 更容易产生关于访问情况的管理报告;- 能够导致较少的回答负担;- 减少数据收集之后对某些单元的追踪回访;- 对重复性调查,可以减少回答误差;- 对类似的调查或重复性调查,可节省开发费用。计算机方式收集方法的其他缺点有:- 需要做大量的程序开发工作,且需经过严格的测试;- 必须为每位访员提供一台已装好程序及有关文件的笔记本电脑;- 要求填写问卷的人经过培训;- 不同计算机之间的数据传输必须保证调查资料的保密性;- 容易受到技术问题的困扰。数据收集的基本方法- 自填式:被调查者在没有访员协助的情况下完成问卷。把问卷递送/返回的方法有:由调查员

13、分发,通过邮寄或传真。在使用计算机辅助自我调查(CASI): 将问卷的电子版本送交给被调查者,被调查者使用计算机完成问卷;- 人员面访:访问以面对面的形式进行,访(问)员协助被调查者完成问卷。用纸张式方法时,由于同时需要用笔,故这种方法也称为纸笔面访(PAPI);当用计算机式方法时,称作计算机辅助式面访(CAPI);- 电话访问:访员通过电话协助被调查者完成问卷。用纸张式方法时,称为纸笔访问(PATI);使用计算机方式时,称为计算机辅助电话访问(CATI)。1)自填式自填式问卷要求问卷结构严谨,应有制作详细、形象友好的说明。有时可使用记帐式(日记式)问卷。自填式方法通常适用于受过相当好的教育的

14、被调查者,管理相对容易。对于要求详细信息的调查,由于可以参考个人记录,可减少回答误差,也可用于敏感问题的调查。但自填式的回答率通常低于访员协助式方法。- 对被调查者的回答负担很大。- 当用邮寄的方式递送和返回问卷时,需要的时间较长。- 是所有数据收集方法中最便宜的一种方法。计算机辅助自我调查(CASI)在CASI中,出现在计算机上的问卷具有审核和“帮助”功能,用电子文件的形式将问卷传送给被调查者。被调查者使用自己的计算机完成问卷。2) 访员协助方法有访员的好处是他或她能使面访个性化,能提高回答率。在识字率较低,或当概念及问卷较复杂时,访员特别有用。随着回答率的不断提高,数据质量也因为访员的存在

15、而得到提高,从而减少回答误差,避免部分无回答,减少事后的追踪回访,也会减轻被调查者的负担。访员协助式方法的缺点是费用较高且较难管理。对于敏感性问题,被调查者可能不会像在自填式方法情况下那样愿意提供回答。计算机辅助调查(CAI)在计算机辅助调查(CAI)的情况下,访员配备计算机,调查是在计算机的辅助下进行的。CAI调查可以通过电话进行(即计算机辅助电话调查,CATI),也可以通过访员与被调查者面对面进行(即计算机辅助面访,CAPI)。计算机辅助调查的主要优点:回答率较高,反应速度快。更容易对调查进行管理。更容易对调查过程进行质量控制。访员协助式数据收集方法与自填式方法的比较自填式方法访员协助式方

16、法面访电话访问费 用低高中时 间较长平均较短回答率低高中偏高数据收集的其他方法直接观测;电子数据传输或报告;行政数据;结合法;搭车或混合调查。第五章 问卷设计问卷(或调查表、统计表)是专门为从被调查者那里获得有关某个主题的信息而设计的一组或一系列问题。在数据收集过程中,问卷起着核心作用,也是影响数据质量的主要因素。设计优良的问卷应该是:- 能有效地用来收集数据,尽可能避免错误和前后不一致;- 对被调查者与访员有友好的界面;- 应尽量减少由无回答所引起的追踪回访的数量,最终减少收集和处理数据所花费的费用和时间。问卷开发程序问卷开发过程开始于调查目标的陈述和信息需求,还包括下列步骤:- 向数据用户

17、和对象进行咨询;- 参考以前相同主题的问卷;- 起草问题;- 对问卷进行审议与修改;- 对问卷进行测试与修改;- 定稿。问卷的测试和修改测试目的:- 使问卷对被调查者和访员具有友好的界面;- 有利于收集到正确的数据;- 使问卷格式更有利于数据编码和录入;- 减少数据收集和处理的费用及时间。测试方法:- 认知法;- 焦点座谈;- 非正式测试(预检验);- 向被调查者了解情况;- 向访员了解情况;- 行为编码;- 分离样本测试;- 试点测试。1)认知法认知法是为研究被调查者回答过程的步骤而设计的。认知法提供了考察被调查者回答问题时思考过程的方法。它有助于评估问题的有效性,并识别计量误差的潜在来源。

18、认知访谈通常在“实验室”环境或在带有单面镜等监督设备的房间中进行。2)焦点座谈焦点座谈是由从所研究总体中选出的若干对象对所选主题进行的非正式讨论。通过焦点座谈这种形式,使被调查对象或数据用户以及访员有机会把他们的观点纳入问卷设计过程。3)非正式测试(试答)对问卷的非正式测试可用于:- 发现问题措辞不当或顺序排列不好;- 识别问卷格式或指南中的错误;- 确定被调查者无力或不愿回答的问题;- 提出对某些问题增加可以预编码的回答选项的建议;- 提供完成一次访问所需的时间和回答率(包括项目无回答)的初始估计。问题的类型1)开放式问题 不向被调查者提供回答选项的问题。被调查者使用自己的语言或提供精确的数

19、字来回答。开放式问题主要用于下列情况:用于问卷开发和测试阶段。对审议实际问卷中问题的措辞和选项很为重要;可以从变化范围很大的指标中获得确切的数字;为封闭式问题提供补充。开放式问题的优点:被调查者有机会进行自我表达或详细描述。开放式问题的缺点:对被调查者来说,必须在没有选项帮助的情况下确定问题的意图。需要更多的时间来完成问卷。对统计调查机构来说,记录回答的过程(即数据录入)及编码更为困难。相对于封闭式问题而言,开放式问题会导致费用更高、更费时,而且更容易产生误差。2)封闭式问题 在提出问题的同时,列出若干可能的答案供被调查者进行选择。每种答案称为一个选项,要求被调查者在这些选项中,选择一个(或几

20、个)作为回答。优点:被调查者能更快、更容易地回答问题,更可能按设计者希望的意图来回答问题,收集起来的数据更容易分析。与开放式问题相比,封闭式问题的编码和数据录入也更容易,花费也更省。如果一个问题被用于多项调查之中,运用相同的回答选项将有助于对调查结果进行比较。封闭式问题有多种:最常用的是二项选择问题、多项选择问题和多选问题、排序问题和等级评定问题等。特别强调所有选项应互斥(不相重叠),且穷尽的。问题的措辞- 措辞要简单- 定义缩略语或简称- 确保问题适用- 措辞要具体- 避免意义双关的问题- 避免引导性问题- 避免使用双重否定- 减少敏感问题或隐私问题的影响- 确保问题读起来顺口问卷格式问题的

21、顺序问题的顺序应能鼓励被调查者完成问卷,并维持他们对问卷的兴趣;还应利于被调查者回忆,并使被调查者觉得自然;应该反映被调查者的逻辑,同时还要集中于调查的主题。问题应该自然地从一个转到另一个,应将同一主题的问题组织在一起。1) 引言问卷的引言应该包含如下内容:* 表明调查的名称或主题;* 明确是谁组织进行的调查;* 说明调查的目的;* 请求被调查者配合;* 说明完成问卷的重要性;* 确保被调查者弄清提供信息的价值;* 解释将如何使用调查数据;* 说明被调查者如何取得数据;* 表明个人回答将予以保密,并显示统计数据将与其它统计调查机构、政府部门和客户共享的任何协议;* 在邮寄调查中,提供返回地址和

22、返回日期。2) 开场问题开场问题起着鼓励被调查者参与调查的作用。第一个问题应与调查的目的直接相关。3) 敏感问题的位置敏感问题应该在被调查者感到轻松以及与其它问题的联系最有意义的地方引入。4) 有关被调查者的背景材料和分类问题的位置有关被调查者的信息通常被用于分组。在住户调查和许多社会调查中,反映被调查者本人或家庭的一些背景材料的问题通常放在问卷的最后。对被调查者提示或说明每份问卷应该有一个唯一的识别号码,即问卷编号。与问卷有关的计量误差及其控制第六章 抽样方法第一节 抽样抽样是通过抽取总体中的部分单元,收集这些单元的信息,用来对作为整体的总体进行推断的一种手段。两种抽样方法:非概率抽样与概率

23、抽样。选择使用哪种方法主要取决于我们是否打算对总体进行推断。第二节 非概率抽样非概率抽样是用一种主观的(非随机的)方法从总体中抽选单元。由于不需要完整的抽样框,非概率抽样是一种快速、简单且节省的获得数据的方法。由于非概率抽样抽取样本有倾向性与偏差且没有一个抽样框,不可能计算出各个单元的入样概率,从而无法得到总体目标量的可靠估计值及其抽样误差估计值。一、非概率抽样能用在下面几个方面的研究中:1.用来形成一种想法;2.作为设计开发概率抽样调查的初始步骤;3.后续步骤中帮助理解概率抽样调查结果。有时,非概率抽样是唯一可行的选择(例如,在医学实验中,采用志愿者抽样可能是取得数据的唯一途径。非概率抽样常

24、被用于抽选参加焦点座谈和深入访问的个人。另一个能较好发挥非概率抽样作用的例子是预研究。二、非概率抽样的优点是:1.快速简便;2.费用相对较低;3.不需要抽样框;4.对探索性研究和调查的设计开发很有用。三、非概率抽样的缺点是:1.为了对总体进行推断,需要对样本的代表性做很强的假定。2.不可能得到可靠的估计值以及抽样误差估计值。四、几种非概率抽样方法:随意抽样;志愿者抽样;判断抽样;配额抽样;修正的概率抽样。第三节 概率抽样概率抽样能使通过对样本的调查,对总体进行推断。概率抽样有两条基本准则:1) 单元是随机抽取的;2) 调查总体中的每个单元都有一个非零的入样概率,并且能计算出这些概率。概率抽样的

25、主要优点有:能得到总体的可靠估计值并能计算每个估计值的抽样误差,因而能对总体进行推断。概率抽样的主要缺点有:与非概率抽样相比,概率抽样比较复杂,更费时,通常也更费钱。但总的说来,其利远大于弊。一、简单随机抽样(SRS)所有概率抽样的出发点和理论基础。简单随机抽样是一种一步抽样法,它保证样本量为n的每个可能的样本都有相同的被抽中的概率p=n/N。抽样可以是放回的,也可以是不放回的。简单随机抽样被用作评估其他抽样策略的效率的基准,这里抽样策略是指抽样方法与所用估计量的结合。一个估计量就是一个用来计算估计值的公式。估计量的抽样误差是通过其抽样方差来测量的,而抽样方差定义为对采用这种抽样设计的所有可能

26、样本,估计值距其平均值的差(称为离差)平方的平均。如果一种抽样策略的抽样方差比另一种抽样策略的抽样方差小,我们就称这种抽样策略更有效率(统计效率)。一个有较小抽样方差的估计量具有较高的精度。与其他抽样技术相比,简单随机抽样有以下优点:1.是最简单的抽样技术;2.抽样框不需要其他(辅助)信息,唯一需要的只是一个关于调查总体所有单元的一个完全的清单和与其如何联系的信息;3.关于样本量的确定、总体估计与方差估计都有现成的标准公式可以利用,因此技术发展已经成熟。简单随机抽样的缺点是:1.抽样框中即使有现成的辅助信息也不加利用,使得估计的统计效率较其他利用辅助信息的样本设计低;2.由于样本在总体中的地理

27、分布范围比较广,如果采用面访,费用较高;3.有可能抽到一个“差的”样本;4.如果不用计算机,而用随机数表抽一个大样本将十分单调劳神。简单随机样本(图示)二、系统抽样(SYS)在系统抽样中,样本单元是从总体中按一定的(抽样)间距抽出的。如果N不能被n整除,则可以使用圆形系统抽样法来避免出现可能样本量不一致的情况。圆形系统抽样法的优点是每一个单元都有相同的被抽入样本的机会。使用系统抽样的另一个问题是,抽样间距k有可能正好碰上总体中变化的某种周期性,从而影响抽样精度。系统抽样的一个优点是,在事先没有总体单元名录的情况下,也可以用。此时,我们可以使用并构造一个概念抽样框(只需要单元的排列顺序),每隔k

28、个抽一个单元直到总体的末尾。这种方法的一个缺点是,只有抽样完成后才知道实际样本量n。系统抽样有以下优点:- 在没有抽样框时,可代替简单随机抽样;- 与简单随机抽样一样,系统抽样不需要辅助的抽样框信息;- 与简单随机抽样相比,系统抽样样本的分布较好(这还取决于抽样间隔及名录是如何排列的);- 与简单随机抽样一样,估计值容易计算;- 系统抽样比简单随机抽样简单。系统抽样的缺点有:- 如果抽样间距正好碰上总体变化的某种未知的周期性,就会得到一个“差的”系统样本;- 由于不使用抽样框中的辅助信息,抽样策略的效率不高;- 在使用概念框时,不能预先知道最终样本量;- 抽样方差没有一个无偏的估计量;- 在总

29、体大小N不能被样本量n整除且不使用圆形抽样法时,会得到样本量不同的样本。系统样本(图示)三、与大小(或规模)成比例的概率(PPS)抽样PPS抽样是一种使用辅助信息从而使入样概率不相等的抽样技术。如果单元大小的度量是准确的,而且所研究的变量与单元的大小相关,PPS抽样能极大地提高精度。PPS抽样的一个很好的例子是商业调查。单元大小度量可用雇员数、年销售额、经营场所数等。PPS抽样的主要优点是由于使用了辅助信息,提高了抽样策略的统计效率,能显著地减少抽样误差。PPS抽样有以下的缺点:- 抽样框中的所有单元,都要有高质量的、能用作大小度量的辅助信息第七章 估计第一节 估计就是根据从样本中收集的信息对

30、总体未知量进行推断的过程。 第二节 加权 估计的第一步,就是给每个样本单元或样本中的每个回答单元赋予一个权数。 设计权数指的是每个样本单元所代表的调查总体的单元数,设计权数等于样本单元的入样概率的倒数。 等概率抽样的加权 如果所有样本单元的设计权数都相同,那么称这样的抽样设计为自加权设计,等概率抽样是自加权的。 对于自加权的抽样设计,如果无需对权数进行调整,那么在计算诸如总值、均值、比例等估计量时可以将其忽略,对总值的估计仅仅需要将样本总值乘上某个倍数便可。 以下设计是自加权的: 简单随机抽样; 等概率系统抽样(等距抽样); 比例分配,且每个层内都使用简单随机抽样或等距抽样的分层抽样; 除最后

31、一阶抽样外,其它各阶都按PPS抽样,而在最后一阶用相同样本量等概率抽样的多阶抽样。 例7.1 一个由N=1000个人构成的总体被划分为两个层:第一层由N1=400名男性组成,第二层由N2= 600名女性组成。从中抽取样本量为n=250的一个样本,将样本等比例地分配给各层,使得两层的抽样比都等于n/N=1/4。 男性层的样本量是: 女性层的样本量是: 此时,设计权数是多少? 对于男性层,入样概率p1为: 对于女性层,入样概率p2为: 这样,每个人都有相同的入样概率1/4,设计权数w 皆等于4。 二、不等概率抽样设计的加权 例7.2 对于一项公共交通系统调查,总体由1100人组成,并按城乡分为两个

32、层。城市层N1=1000,农村层N2 =100。抽取一个n=250的样本:城市层n1=200,农村层n2=50。 层 总体大小 样本量 城市 N1=1000 n1=200 农村 N2=100 n2 =50 各层的权数是层单元入样概率的倒数: 城市层: 农村层: 三、对无回答(单元无回答)的权数调整 处理无回答的最简单的办法就是忽略它。在一些特殊的情况下,对无回答进行调整后所得的均值或比例的估计值,与未作任何调整的估计值相比并没有任何改进。然而,对总值的估计如果不对无回答进行调整,则会导致对总值的低估。 无回答调整因子是原样本单元的权数之和与回答单元的权数之和的比值。 对于自加权设计,这个比值也

33、可以用原样本的单元数与回答单元数的比值(回答率的倒数)来表示。 例7.3 从一个N=100人的总体中抽取一个n =25人的简单随机样本。记回答单元的数量为 ,结果只有20个人提供了所需的信息。求无回答的调整权数? 步骤1:计算设计权数: 入样概率p为: 每个样本单元的设计权数为4。 步骤2:对无回答的设计权数进行调整。 由于在n=25人中只有nr=20人提供了所需的信息此时无回答调整因子为: 步骤3:计算无回答的调整权数。 无回答的调整权数wnr等于设计权数与无回答调整因子的乘积: 于是对数据文件中的每一条记录应赋予权数5。 不同子总体往往具有不同的回答率,应对这些子总体分别进行无回答调整。

34、例7.2(续) 城市层中nr,1=150,农村层nr,2=40 层 总体大小 样本量 回答数量 城 市 N1=1000 n1=200 nr,1=150 农 村 N2=100 n2=50 nr,2=40 步骤1:各层的设计权数为: 城市层wd,1=5,农村层wd,2 = 2 步骤2:各层的无回答调整因子计算如下: 城市层: 农村层: 步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积: 城市层: 农村层: 四、事后分层调整 在调查中经常应使调查的估计值与已知的总体总值,或者从另一调查所得的估计值相匹配。例如,许多社会调查使用最新的人口普查数据来调整估计值,以确保这些估计值(如年龄、性别分

35、布等)的一致性。 数据收集之前,可能得不到合适的分层信息,在数据收集后,利用样本数据,选用其中合适的变量对样本进行分层,这就是事后分层。事后分层需要对权数进行调整。 例7.4 为得到某公司职员是否有吸烟习惯的信息,进行了一项调查。从N=78人的名录中抽出了一个n=25人的简单随机样本。在设计阶段,没有可用于分层的辅助信息。 在收集关于吸烟习惯的信息的同时,收集了每个回答者的年龄和性别情况。总共有nr=15个人作了回答,样本数据的分布为: 回答者数量 男性 女性 总计 吸烟的人数 1 7 8 总 人 数 3 12 nr =15 1.每个回答者的权数以及对无回答的调整计算如下: 设计权数是入样概率

36、的倒数: 假定样本中每个被调查者作出回答的概率都是相同的,用调查的总人数除以回答者的总人数,得无回答调整因子: 无回答调整权数wnr即为设计权数与无回答调整因子的乘积: 2.利用无回答的调整权数,可得到如下估计值: 调查的估计值 男性 女性 总计 第八章 样本量的确定样本量的确定 样本量的确定 一、影响调查样本量的因素首先是调查估计值要求达到的精度。 下列因素会影响精度,从而影响样本量: - 总体指标的变异程度; - 总体大小; - 样本设计和所使用的估计量; - 回答率。 除了估计值的精度以外,实际调查运作的限制也是影响样本量的主要因素。 样本量的确定包括对估计值的精度要求与各种运作限制之间

37、的平衡,这些运作限制包括可获得的预算、资源和时间。 二、精度(抽样误差)的几种度量方法: 抽样方差; 标准差; 误差限; 置信区间; 变异系数。 三、确定精度需要考虑的因素 1)怎样用调查估计值?对于调查估计值来说,多大的抽样方差是可以接受的? 2)是否需要对调查总体中的子总体(域)进行估计? 3)与调查估计值有关的抽样方差有多大? 4)精度要求的实际含义是什么? 四、影响精度的因素 总体指标的变异程度; - 总体大小; - 样本设计和所用的估计量; - 回答率。 1.总体的变异程度(总体方差) 若总体指标变异性很大,或具有所研究特征的单元数量很少,对这样的总体,要求精确估计是很困难的,需要较

38、大的样本量。 为确保样本量对所有的研究指标都足够大,应该根据最大变异程度或被认为最重要的指标,来确定样本量。 2.总体大小 在样本量确定过程中,总体所起的作用因它的大小而有所差异。对于小规模总体,它起着重要作用;对于中等规模的总体,其作用中等;而大总体对样本量影响的作用很小。 3. 样本设计和估计量 一般来说,当样本量采用简单随机抽样的计算公式,而实际使用的是更复杂的抽样方式时,为达到给定精度所需的样本量,应该在此基础上乘以一个称为设计效应因子。 设计效应是对于相等的样本量,给定样本设计估计量的抽样方差对简单随机抽样估计量的抽样方差的比率。 简单随机抽样设计,设计效应等于1; 分层抽样设计,设

39、计效应一般小于等于1; 整群或多阶抽样设计,设计效应一般大于等于1。 若过去相同或相似主题的调查所用的抽样设计与我们计划实施的抽样设计相同或相似,就能得到当前调查主要变量设计效应的估计值。我们也可以从试调查中得到设计效应的估计值。 4.调查的回答率 需要根据预计的回答率调整样本量的大小,根据预计的回答率确定一个较大的样本才可能达到精度要求。 五、样本量的计算公式 1)对于简单随机抽样,给定均值估计 的精度(100回答) 简单随机抽样下,通常使用误差限和估计量的标准差来确定所需的样本量。 2)对于简单随机抽样,给定比例估计 的精度(100%回答率) 于是公式(1)变为: 若在以往调查中可得总体比

40、例的一个较好估计 ,那么直接将它代入上面的公式就可以得到所需的样本量;否则可以用 ,因为这时总体的方差最大。 3)对一般抽样设计,给定比例估计 的精度,逐步计算样本量(回答率小于100%)。 第1步:计算初始样本量 注意,公式(1)使用了有限总体校正因子1n/N,对总体大小进行校正。如果忽略这个因子,初始样本量 应按下列公式计算: 第2步:对总体大小进行调整: 第3步:如果抽样设计不是简单随机抽样,则用下面公式对样本量进行调整 : 其中, 是设计效应。 第4步:根据无回答再次进行调整,以确定最终的样本量 : 其中, 为预计的回答率。 确定样本量的例子 例 8.1 某杂志出版商希望得到读者对该杂

41、志综合满意度的估计值。通过邮寄调查,出版商可以联系到所有2500个订户。但由于时间的限制,出版商决定使用简单随机抽样进行电话调查。请问应访问多少个订户 ? 我们假定: - 可接受的误差限e为0.10; - 调查估计值的置信度为95%,因此 =1.96; - 使用简单随机抽样; - 预计回答率 =0.65; - 由于事先没有关于顾客满意度的估计 ,方差应取最大,即 。 样本量的计算步骤如下: 第 1步:计算初始样本量 : 第 2步:根据总体大小调整样本量(这一步只需对中小规模的总体): 第3步: 根据抽样的设计效应来调整样本量: 在这个例子中,由于假定采用简单随机抽样设计,所以 = 1。 第4步

42、:根据无回答情况进行调整,确定最终的样本量 : 费用、时间和现场操作的限制 在实际中,在确定样本量时,不考虑时间和费用这两个极为重要的因素是不可思议的。大多数统计调查机构(和他们的客户)都不可能忽视这些限制条件。最终确定的样本量必须与可获得的经费预算和允许的时限保持一致。 最终样本量的确定需要在精度、费用、时限和操作的可行性等相互冲突的限制条件之间进行协调。它还可能需要重新审查初始样本量、数据需求、精度水平、调查计划的要素和现场操作因素,并作必要的调整。通常,统计调查机构和客户寻求在最有效使用费用的基础上(例如缩短访问时间),使用户能对所需的样本量提供经费支持。 分层抽样中 样本在各层中的分配 将n个样本单元分配到L层中去有两种方式:一是先用确定总的样本量,然后再在层间进行分配,即总样本量固定的情况;另一种情况是先根据预定的精度,确定每一层所需要的样本量,然后将各层的样本量加总得到总的样本量(若精度是由变异系数表示的,即是给定变异系数的情况)。 1) 总样本量固定 这种准则是先确定总的样本量,然后再将确定的总样本量n以某种方式分配到各个层。分配给第

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号