抽样调查基本理论框架.ppt

资源描述

《抽样调查基本理论框架.ppt》由会员分享，可在线阅读，更多相关《抽样调查基本理论框架.ppt（127页珍藏版）》请在三一办公上搜索。

1、抽样调查的基本理论主讲教师任栋,课前提问,在抽样调查设计时，如何确定样本容量？在抽样调查过程中，如何保证抽样调查项目的质量？抽样调查结束后，如何评价样本数据的可靠性？如何检验样本指标对总体指标的代表性？如何计算抽样调查的抽样误差？,一、什么是抽样调查？,有广义的抽样调查和狭义的抽样调查两种理解广义的抽样调查概念是指：所有的统计非全面调查都可称为抽样调查。即除了随机性的抽样调查方法之外，把重点调查、典型调查、偶遇调查、定额调查、简便调查、判断抽样等方法也认为是抽样调查。这些调查方法在市场调查中广泛应用。,狭义的抽样调查方法,狭义的抽样调查概念认为：只有随机性的抽样调查方法才是抽样调查。随机的（

2、或狭义的）抽样调查方法包括：简单（纯）随机抽样、分层随机抽样、系统（或等距）抽样、整群随机抽样、多阶段随机抽样、多相随机抽样、多期随机抽样等等。事实上，只有随机性的抽样调查才能够从数量上推断总体。因此，在本课程中，我们侧重介绍随机性的抽样调查方法。,统计过程,总体,样本,统计量,计算统计量,抽样,描述,统计推断,抽样技术：理论、技术、经验、工程,明确研究目的,定义总体、抽样单元,选择抽样方案,确定、购置抽样框,确定样本量,制定实施细节和步骤,确定主要目标量的精度,两个基本原则：实现抽样的随机性原则等概率或不等概率实现抽样效果最佳原则固定费用，抽样误差最小确定精度下，研究费用最小,什么是

3、抽样调查,抽样调查是一种重要的统计非全面调查方法。它是遵循随机原则，采用科学的方法，从总体中抽取一部分单位进行调查，并根据调查结果对总体的数量特征作出具有一定可靠度的推断，从而达到认识总体的一种统计方法。抽样调查既是一种统计调查的方法，又是一种统计推断的方法。中国统计改革制定了“以必要的周期性普查为基础，以经常性的抽样调查为主体，同时辅之以全面统计报表、重点调查和科学推算综合运用的统计调查方法体系”的目标模式。,二、什么是抽样调查的随机原则,所谓随机原则是指在抽选样本单位时，不受如何主观因素和其他系统性因素的影响，从而保证总体中的每一个单位都有一定的可能性被抽中的可能性。随机原则是抽样调查所必

4、须遵循的基本原则。这里所说的排除任何主观因素是指：样本单位的抽取既不取决于调查者的主观意志，也不受被调查者的态度所左右。这里所说的不受其他系统性因素的影响，是指在抽样时，总体应当“拌和”均匀，以免产生系统性的偏误。,随机原则不是“随意性的原则”，也不能简单地理解为“客观性的原则”。抽样的客观性和随机性是随机原则所包含的缺一不可的性质。在抽样调查中，必须坚持随机原则：1、只有坚持随机原则，才能保证抽样的科学性。2、只有坚持随机原则，才能保证所抽样本的分布“类似于”总体的分布。3、坚持随机原则，还要排除其他系统性因素的影响。4、坚持随机原则，并不是绝对排斥人的主观能动性。,三、抽样调查的特点和优越

5、性,1、按随机的原则抽取样本只有这样，才能保证所抽的样本带来总体的有效信息，才能保证样本对总体具有代表性。2、用样本资料对总体进行推断这个特点是抽样调查不同于其它非全面调查的主要特点。前面所谈到的非概率抽样，虽然有时也能抽到代表性大的样本，但它不具备推断总体数量特征的条件。3、抽样调查可以计算抽样误差，并且在一定的概率保证下，将估计误差控制在某个范围。,4、抽样调查的优越性（1）用样本推断总体，并计算和控制抽样误差。（2）有很高的时间、人力、物力和财力的价值。（3）具有坚实的理论基础，有高度的客观性和科学性。,抽样调查有什么作用,抽样调查具有其它调查方法无法相比的优点，所以这种调查方法在经

6、济工作、科学技术研究和人们日常生活中都得到了广泛的应用。1、在不可能进行全面调查情况下采用抽样调查法；2、在不必要进行全面调查的情况下，可以采用抽样调查法；3、在来不及进行全面调查时，可以进行抽样调查；4、对全面调查资料进行修正和补充。,抽样调查的基本工作步骤,不同的抽样调查方法有不同的特点，抽样设计也有所不同，但就其工作步骤大致有以下几个环节：第一确定调查目的和调查对象抽样调查的目的是整个抽样调查的出发点和归宿，是抽样调查最终要解决的问题。当调查目的确定之后，调查的对象就随之而确定了。它确定了调查人员应该到什么范围内进行调查、搜集信息。所以调查对象就是统计调查所要研究的现象总体。调查对象

7、的确定具体表现为抽样框的确定。,什么是抽样框抽样框就是指包括全部总体单位的框架，以此代表总体，进行随机抽样，这个框架称为抽样框。抽样框的表现形式有以下三种：第一种是名录框架。即包括全部总体单位的一览表或名录表；第二种是区域框架。即将调查的区域按某种标志分成若干个小区域作为抽样框单位进行抽样；第三种是时间框架。即将一个较长的时间过程分为若干个小的时间单位所形成的抽样框。,第二、确定调查的容许误差和样本容量,抽样调查是一种以部分样本单位来推断总体的方法，必然存在抽样误差。在进行抽样设计时，应当根据调查任务对抽样准确程度的要求以及若、财、物力等方面的条件，确定抽样调查的容许误差。抽样调查容许误差

8、的大小，与抽样调查的样本容量有着直接的关系。适当的容许误差一经确定，样本容量的大小也就容易确定了。,第三、确定抽样调查的调查项目在抽样调查中，调查目的和内容需要具体落实在调查的项目上。只有一个调查项目的抽样调查称为单项抽样调查，具有多个调查项目的抽样调查称为多项目（多目标）抽样调查。对于每一个调查项目，要满足定义明确、调查需要和可以取得调查结果这几个方面的条件。,第四、确定抽样的组织方式和方法,不同的抽样组织方式和方法，其所抽样本对总体的代表性的大小是不同的。在抽样设计时，应当在对总体有关情况进行深入分析的基础上，选择适当的抽样组织方式和抽样方法，以提高抽样调查的准确性和可靠性，提高抽样调查

9、的经济效益。,第五、确定调查的其他事项,抽样调查是一项科学的工作，需要进行科学的配套管理。抽样调查还需要具体确定的事项有：调查时间和期限的确定；调查问卷或表式的确定；调查经费和人员的确定；调查组织管理制度的确定等。,抽样调查的误差问题,在统计调查中，误差是一个不可回避的问题。全面调查也存在调查误差，有时可能还会很严重。在各种非全面调查调查方法中，抽样调查方法的优势在于：只有随机抽样调查才能计算抽样误差，而且还可以在一定的条件下控制抽样误差的大小。从理论上看，抽样调查存在着抽样误差和非抽样误差两种类型的误差。,抽样误差的分类,抽样误差抽样调查结果与真实值的差称为抽样调查误差。可分为两类：抽样误差

10、与非抽样误差。抽样误差是指因抽样的随机性而产生的用样本估计总体的代表性误差。在抽样调查中，抽样误差是不可避免的，但是可以计算和控制的。非抽样误差泛指在统计调查的整个过程中，由于调查工作方面的原因而产生的各种误差，有时又把非抽样误差称为工作误差。理论上讲，非抽样误差是可以通过提高工作责任感和业务水平而加以控制的。,抽样误差的概念又可进一步分为抽样平均误差和抽样极限误差这两个概念,抽样平均误差是指所有可能样本的样本指标与所对应的总体指标之间的标准差或称为样本指标的标准差（如平均数或成数）它是一个反映一种抽样方法可能产生的平均的误差大小是衡量抽样方法优劣的标准其理论的计算公式为：,按照理论公式计算抽

11、样平均误差或样本指标的标准差是不现实的。数理统计给出了另一种计算的方式。即样本平均数和成数的标准差可以按如下方式计算：后面我们可以看到，这实际上就是简单随机重复抽样下，样本平均数和样本成数的抽样平均误差。,抽样极限误差,抽样极限误差又称为（最大）容许的误差范围它是样本指标和总体指标离差的绝对值。抽样极限误差等于抽样平均误差与概率度的乘积这是因为，抽样极限误差可以表示为：不难看出，抽样极限误差抽样平均误差的比值，是一个服从标准正态分布的随机变量，即故有：,影响抽样误差大小的因素主要有,（1）总体各单位之间的差异程度；（2）允许误差（极限误差）的大小；（3）样本容量的大小；（4）抽样组织方式和方

12、法的不同；（5）估计方法的不同。（6）总体容量或抽样比例的大小（7）拒访率的高低,抽样推断的一般问题,概念,抽样推断是抽样调查的基础上，利用样本的实际资料计算样本指标。并据以推算总体相应数量特征的一种统计方法。,特点,1、抽样推断是由部分推算整体的一种认识方法。2、抽样推断是建立在随机取样的基础上。3、抽样推断是运用概率估计的方法。4、抽样推断的误差可以事先计算并加以控制。,内容,1、参数估计2、假设检验,几对基本概念,总体和样本,总体,样本,（全及总体）所研究的对象用“N”表示（它是确定的，唯一的）,（子样）指随机抽取的一部分单位的集合体。用“n”表示（它是不确定的可变的）,参数和统计量,参

13、数,1、它是反映总体综合数量特征的指标。2、数量标志，表现为总体平均数用“”表示。总体方差：“”表示3、品质标志：用成数表示，具有某种性质用“P”表示：不具有某种性质用“Q”表示式：（成数的平均数就是其本身）,统计量,1、根据样本各单位标志值或属性计算的综合指标称为样本统计量,2、常用的样本指标,1、样本平均数 2、样本方差,3、样本标准差,4、成数平均数,5、成数方差,样本容量和样本个数,样本容量,1、一个样本。所包含的单位数是多少2、样本容量超过30个，即称为大样本3、样本容量小于30个，即 n30 称为小样本,样本个数,指从总体中可能抽取的样本个数。一个总体中有多少个样本，则统计量就有

14、多少个了取值,重复抽样和不重复抽样,重复抽样,每次抽取一个单位把结果登记下来又重新放回，参加下一次抽选,不重复抽样,每次抽出一个单位就不再放回去，不参加下一次抽选。,抽样误差,概念,抽样误差是指由于随机的偶然因素使样本各单位的结构不是以代表总体各单位的结构而引起抽样指标与全及指标之标之间的绝对离差。,影响因素,1、总体各单位标志值的差异程度；2、样本的单位数；3、抽样的方法；4、抽样的组织形式,抽样平均误差,1、反映抽样误差的一般水平的指标。代表平均数的平均误差。代表成数的抽样误差,2、抽样平均数的平均误差,重复抽样,不重复抽样,抽样成数的平均误差,重复抽样,不重复抽样,抽样极限误差,1、反

15、映样本指标与总体指标之间抽样误差的一种可能范围,2、平均数极限误差,3、成数极限误差,4、为置信间。总长度为或,抽样误差的概率度,1、概率度指抽样误差的可靠程度，用“t”表示,2、平均数的概率度,3、成数的概率度,三者的关系,1、平均误差：是衡量误差范围的尺度（准确度）,2、极限误差：表示抽样估计准确度的范围。（可能范围）,3、概率度：“t”表示抽样误差的可靠程度（把握程度）,即：误差范围为平均误差的多少倍。在抽样平均误差一定的条件下，t值越大，极限误差范围越大，样本指标的可靠程度就越高，否则相反,总体参数的点估计,概念,1、根据总体指标的结构形式设计样本指标作为总体参数的估计量，并以样本指

16、标的实际值直接作为相应总体参数的估计值。,2、平均数的估计值：,3、成数的估计值：,估计标准,1、无偏性：即以抽样指标估计总体指标要求抽样指标值的平均数等于被估计的总体指标值本身,2、一致性：以抽样指标估计总体指标要求，当样本的单位数充分大时，抽样指标也充分地靠近总体指标。,3、有效性：以抽样指标估计总体指标要求作为优良的估计量的方差应该比其他估计量的方差小。,估计精度,1、抽样极限误差是指抽样平均数与总体平均数离差的绝对值。但同一数值对于不同的现象可能具有完全不同的意义，绝对值后边掩盖着不平等。,2、利用相对误差（误差率）来表示误差范围，就可以解决这个问题。,3、误差率,4、估计精度=1误

17、差率,估计置信度,1、抽样估计的置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。,2、现论证明：在样本单位数足够多的条件下，抽样平均数的分布接近于正态分布。即：抽样平均数的正误差和负误差可能相等。3、抽样误差的概率度用“t”表示。,总体参数的区间估计,概念,根据给定的概率保证程度的要求，利用实际抽样资料，指出总体被估计值的上限和下限，即指出总体参数可能存在的区间范围。,具备条件,1、估计值。用抽样平均数或抽样成数代替。2、抽样误差范围。3、概率保证程度。,计算方法,给定误差范围，求保证程度：F（t）,1、计算样本平均数或成数作为总体的估计值。2、计算样本标准差和抽样平均误差

18、。3、根据给定的极限误差范围或估计总体的置信区间,4、计算概率度,5、根据概率度“t”值，求出相应的保证程度,给定置信度F（t）求极限误差的可能范围,1、计算样本平均数或成数，作为总体的估计值。2、计算样本标准差和抽样平均误差。3、根据给定的置信度F（t）的要求，求出概率度“t”值。4、计算抽样极限误差的可能范围，找出总体估计值的上限和下限。5、对总体参数作出区间估计,例1、对某型号的电子元件进行耐用性能检查，抽查的资料分组列表如下，要求耐用时数的允许误差范围小时，试估计该批电子元件的平均耐用时数。,解：1、计算样本平均数,2、计算标准差,3、抽样平均误差,4、根据给定的误差范围小时，

19、计算置信区间，,5、计算“t”值。求得置信度F(t),6、做出区间估计。以概率为95.45%的保证程度，该批电子元件的耐用时数在10451066小时之间,例2、对某城市进行居民家计调查，随机抽取400户居民，调查结果得出年平均每户耐用消费品支出为850元，标准差为200元，要求以95%的概率保证程度，估计该城市居民每户年平均耐用消费品的支出额。,解：1、计算样本平均数 2、计算标准差,3、计算平均误差,4、根据给定的置信度F=（t）=95%.求“t”值查表.t=1.96,5、计算抽样极限误差和总体平均数的上下限,6、对总体参数作出区间估计以95%的概率保证程度，估计该城市居民户家庭年平均每户

20、耐用消费品支出在830.4869.6元之间,抽样数目的确定,确定原则,在保证预期的抽样推断可靠程度的要求下，抽取样本的单位数不宜过多。,影响因素,1、总体被研究标志的变异程度；2、允许误差的大小，即“”的大小；3、可靠程度的高低，即“t”值的大小；4、抽样方法与组织形式；5、人、财、物的允许条件。,抽样数目的计算,重复抽样,不重复抽样,平均数必要抽样数目的公式：成数必要抽样数目的公式：,平均数必要抽样数目的公式：成数必要抽样数目的公式：,例1、对某型号电子元件10000只进行耐用性能检查，根据以往测定，求得耐用时数的标准差为600小时，在重复抽样条件下，概率保证程度为68.27%。元件平均耐用

21、时数的误差范围不超过150小时，问要抽取多少个元件做检查？,解：1、重复抽样条件下：,2、不重复抽样条件下：,例2、根据以往的经验，元件的合格率为95%，合格率的标准差为21.8%，要求在99.73%的概率保证下，允许误差不超过4%，试确定所要抽取的元件数目是多少？,解：1、重复抽样条件下：,2、不重复抽样条件下：,调查费用包括调查的组织费用、调查人员的差旅费、每次采访的费用（或邮寄的费用）、资料的印刷费用、汇编费用、检查观测费用等等，它是抽样调查的组织者必须面对的一个问题。抽样调查费用的多少可以决定样本容量的大小和抽样方式。,样本容量和调查费用的确定,样本容量是抽样调查方案设计工作中要解决的

22、主要问题之一。对于几种基本的抽样方式，能借助总体的一些已知资料求出在给定抽样误差范围时的样本容量，或者在对费用函数的一些经验假设下求出给定费用时使抽样误差达到最小的样本容量。对于较为复杂的抽样组织方式，求最小的样本容量就比较麻烦，有时甚至不可能。因此，只好借助于基本抽样方式用变通方法来解决。常用的方法是:,先计算复杂抽样设计的设计效应系数deff，其公式为：然后求出简单随机抽样的样本容量，则：复杂抽样的样本容量简单随机抽样的样本容量deff,3、总体比例即总体中具有某种特征或属性A的单位数在总体容量中所占的比重：或记为：这里，Y=1表示该总体单位具有特征A,Y=0表示该总体单位不具有特征

23、A,4、总体比率,即同一总体两个不同的总值指标或平均指标之比率。记为：5、总体分位数例如全国家庭人均收入的5、10、50、90、95的分位数。6、总体方差和标准差,非抽样误差的分类,（1）设计误差；（2）回答误差；（3）调查登记误差；（4）计算整理误差；（5）系统性偏差。,样本量的确定,涉及到的一些基本概念：费用精度误差标准差（方差）置信度（置信水平）最大容许误差最大容许相对误差所要估计总体的比例总体大小抽样方法访问方法拒访率,非抽样误差,非抽样误差会对调查估计值的精度产生显著的影响非抽样误差的大小与样本容量的大小却没有很大的关系确定样本容量，就不必将这些误差作为影响因素加

24、以考虑为确保调查结果的准确性，应该消除非抽样误差，至少应尽可能使之最小化,抽样技术：理论、技术、经验、工程,明确调查目的,定义总体、抽样单元,选择抽样方案,确定、购置抽样框,确定样本量,制定实施细节和步骤,确定主要目标量的精度,两个基本原则：实现抽样的随机性原则等概率或不等概率实现抽样效果最佳原则固定费用，抽样误差最小确定精度下，调查费用最小,第三章简单随机抽样,31简单随机抽样概述简单随机抽样的概念简单随机抽样也叫纯随机抽样。它是不作任何加工处理，按完全随机的原则，从总体中抽取部分单位，保证总体的每个单位都有同等的被抽中的可能性的抽样调查方法。简单随机抽样是一种最简单、同时也是一

25、种最基本和最具有普遍意义的抽样组织方式。它不仅是其它各种抽样组织方式的基础，而且也是其它所有的以随机现象为研究对象的学科的研究起点。,简单随机抽样的实施方法,简单随机抽样对总体不作任何加工，仅事先给总体单位逐个编号，然后用抽签法、随机数表法或电脑处理法抽取样本。1、抽签法抽签法是一种原始的抽样方法。它首先将总体单位编号，为了方便，通常对总体单位按自然数的顺序赋予号码，再另制N个号签。总体单位的号码与号签的号码一一对应。使用时，根据重复和不重复抽样的方法，随机抽出号签，当总体单位的号码与抽中号签的号码一致时，即该总体单位被抽中。,2、随机数表法在使用随机数表时，必须遵循随机的原则，每次使用都

26、必须随机确定抽样起点，若样本容量N是r位数，则随机数必须从r位数中抽取，遇到了1至N的数则可以直接使用，若是1至N以外的数则是无效数，舍弃不用。在重复抽样中重复出现的数字重复使用，不重复抽样中重复出现的数字舍弃不用。假定N=386，386是三位数，就需要在表中取三位数，起点是随机确定的，然后按预先规定的方向，抽到小于386的数时，相应单位被抽中，若抽到大于386的数，则舍弃，至抽满 n个样本单位为止。,两个有名的试验,试验一：随意数试验。让六个人写下100个自己随意想到的三位数，将这些数内的0、1、9数字列成次数分布表如右。可见，六个人都对数字存在偏好，如第一个人更加偏好数字4、3、0；第二个

27、人则偏好数字1、8、4；等等。这种由于数字偏好所引起的偏估类型可称之为数字偏误。,试验二：着色试验。让四个人将1010方格的纸板着色，可供选择的颜色有蓝、绿、红、白和黄色五种，对每一个四分象限来说，规定每种颜色只能在每行和每列出现一次。每个方格以其所在的列号与行号表示，如(4，6)代表第四列第六行的方格。请四个人对这100个方格随意选择行列号，而对其着色。将这些由这四个人着色所得到的资料形成次数分布表如下：,四个人对方格着色的次数分布,可见四个人都对颜色存在偏好，如第一个人偏爱绿色，第二个人偏爱蓝色等。这种由于对颜色偏好所引起的偏估类型，可称之为颜色偏误。结论：随意抽样随机抽样,3、电子计算工

28、具取数法利用电子计算工具中的随机函数，就可以很方便地得到所需要的若干个给定位数的随机数，可以极大的提高抽样取数的工作效率。但是，在大规模的抽样调查中，采用电子计算工具取样要特别谨慎，因为当所抽取的随机数太多时，容易产生所谓的“伪随机数”的问题。,用Excel作计算机抽样,（一）简介：Excel中的Rand()函数可以返回大于等于0小于1的均匀分布随机数。Rand()不带任何参数运行，每次计算时都将返回一个新的数值。Rand()可用来作为不重复抽样的工具。,（二）操作步骤：例：在Excel A列出“NO”及10个象征性的数据。现欲从中随机抽取5个数据。步骤为：1、选择B2单元格，输入“=RAN

29、D()”并回车。2、拖动B2单元格的填充柄至B11单元格，并在B1单元格输入标题“RANDOM”。3、选取单元格B2至B11,右击选中区域选择“复制”，再次右击选中的区域，选择“选择性粘贴”，单击选项“数值”后，点击“确定”。4、选取单元格A2至B11,选择数据菜单项下的排序子菜单。5、选取“RANDOM”为关键字，点“确定”，则A2至A6单元格的样本即为随机抽取的5个样本单位。,应用简单随机抽样应注意的问题,简单随机抽样具有方法简单、随机性强，容易理解和接受等方面的优点。但是在统计的实践中，特别是大规模的抽样调查中，这种抽样组织方式表现出较大的局限性。其原因是：首先，采用抽样调查的目的是抽取

30、足以代表总体的样本，然后用样本的资料推断总体的数量特征。而简单随机抽样，事先就赋予每个总体单位相同的选择概率，当总体单位的规模不一致时，采用这种方法很难抽到代表性好的样本。其次，采用简单随机抽样时，需要在抽样前将总体单位编号，当总体容量相当大时，这项工作是相当繁重的。而且，有时根本没有条件完成。第三，相对于其它抽样组织方式而言，简单随机抽样的抽样误差通常也比较大。,二、总体成数的估计,当总体单位的某个标志的具体表现只有两种情况时，通常可以将其数量化，使之成为一个服从两点分布的总体。即令若总体容量为N,具有某种属性或特征的单位数为，不具有某种属性或特征的单位数为，则成数是具有此种属性或特征的单

31、位数占总体全部单位数的比重。用 P 表示即。可见，成数是两点分布变量的均值，所以对成数的估计，实际上就是对两点分布总体均值的估计。,设容量为n的样本中，具有某种属性的单位数为n1，则样本成数为。注意，我们用大写字母P表示总体成数，用小写字母p表示样本成数。（一）放回抽样总体成数的估计1、点估计定理3.4 简单放回随机抽样的样本成数是总体成数P的无偏估计量。,证明：样本由简单放回抽样得来，所得的具有某种属性的单位数n1是服从二项分布的随机变量，即n1B(n,P)，有E(n1)=nP,V(n1)=nP(1-P)所以，。证毕另外，样本成数p的方差为。,当总体成数P未知时，用样本成数p代替总体成数P

32、，可以得到样本成数方差的估计量。定理3.5 简单放回随机抽样样本成数方差的无偏估计量为,2、区间估计由中心极限定理知，当样本容量n足够大时，放回抽样样本成数p近似服从均值为P、方差为的正态分布。因而对给定，由可以得到总体成数P的置信度为1-的置信区间为。,二、总体中具有某种属性单位数的估计有了前面关于总体成数的估计结果，我们不难得到以下有关总体中具有某种属性单位数的估计。（一）放回抽样时属性单位数的估计1、点估计在简单放回随机抽样情形下，是总体中具有某种属性单位数N1的无偏估计量。2、区间估计总体中具有某种属性单位数N1的置信度为1-的置信区间为N。,总体成数的估计1、估计量及其无偏性,2、

33、估计量的方差及方差的估计量,总体中具有某种特征单位数的估计1、估计量及其无偏性设总体容量为N，P是总体的成数，总体中具有某种特征单位数N1=NP，由于p是P的无偏估计量，故,3.4 样本容量和总体容量的确定样本容量和总体容量的确定在抽样调查的设计阶段，确定样本容量是非常重要的。因为样本容量太大，会花费较多的人力、物力和财力，若样本容量太小，可能出现较大的抽样误差，从而影响推断结果，所以，在设计阶段就应该确定样本容量，以达到调查费用最少效率最高的目的。1、简单重复抽样样本容量的确定,2、简单不重复抽样样本容量的确定,3、估计总体成数时，样本容量（简单不重复抽样）为,最常用、最简单的方法、有

34、放回的按与抽样单元大小成比例的概率来抽取,PPS 抽样Sampling with Probability Proportional to Sizes,按研究目的，事先人为规定的度量标准，可以是人数、总营业额、等级等,简单随机抽样的优缺点,优点：是最基本的抽样方法最符合随机原则抽样误差容易计算复杂抽样设计的基础衡量其它抽样方法的标准,缺点：对所有单元编号，十分复杂，有时不可行所抽取的单元可能十分分散，实施困难没有利用有关总体的一些已知信息，可能不是最有效的,样本容量的确定(续),必要样本容量是在最大限度地满足规定精度要求以及尽可能节约调查费用的前提下，所应该抽取到的最少的样本容量。,

35、一、必要样本容量的确定,(一)依规定精度来定1、关于精度的不同提法,分层抽样,本科生50%,专科生30%,研究生20%,总体N=10000,专科生n1=3000,本科生n2=5000,研究生n3=2000,抽样样本n=1000,分层,专科生n1=300,本科生n2=500,研究生n3=200,样本1000人,分层抽样模拟,分层原则：层内差异小，层间差异大,分层抽样,4.1 分层抽样概述,分层抽样（Stratified Sampling)也叫分类抽样、类型抽样。这种抽样方法是在设计抽样方案时，根据人们对被调查对象性质的了解，按某种与调查目的有关的标志将总体单位划分为互不重叠的若干层（类），

36、然后从各层中随机抽取部分单位调查，用以推断总体参数的方法。分层抽样应满足条件分层抽样的前提是分层，而分层是以某一相关标志为标准，以该标志在总体各单位的具体表现为依据进行的，因而应用分层抽样须满足下述条件：1、分层标志易选2、要有清楚的划类界限3、一般应知道各层的总体单位数4、总体中任何两层所进行的抽样是相互独立的分层抽样的主要优点1、不仅可得到总体的估计值2、可使调查的管理及实施更为方便3、可提高样本指标对总体指标的估计精度,4.2 分层抽样总体参数估计的原理,分层抽样的估计量及其无偏性,估计量的方差及其估计量,4.3 样本容量在各层分配不同时总体参数的估计,分层抽样时，人们自然要关心每层

37、抽取的样本容量问题。当n给定时，每层的抽样数目应如何分配，才能使抽样估计的效率高，所需费用少。现就分层抽样法中有代表性的分配样本方法讨论如下：等比例分配的总体参数估计,奈曼（Neyman）最佳分配时总体参数估计,分层抽样的优点,子总体内的抽样单元之间差异比较小子样本具有较好的均匀性，可能得到较高精度的估计量有效消除特殊个体的影响可对各层的特性加以比较实施管理方便,当P=0.5时，P(1-P)为最大,简单随机样本,样本量的确定,非常简单随机抽样最小样本量,如果估计的比例P很小的话，为保证精度，最好采用最大允许相对误差公式来计算所需的样本量.,置信度95%下，最小样本量,计算比例估计样本容

38、量的详细步骤,先计算初始样本容量，然后根据总体的大小、设计效果和回答率分别对它进行调整，最后求得最终的样本容量。,第1步：计算初始样本容量,第2步：使用下列等式对总体的大小进行调整,第3步：设计效果调整样本容量,如果样本设计不是采用简单随机抽样，那么可以使用下列公式，即用抽样设计效果对样本容量进行调整：,其中，是设计效果，并且有：在简单随机抽样设计下，B=1，在分层抽样设计下，B 1，在整群抽样设计下，B 1。,根据无回答再次进行调整，以确定最终的样本容量n,其中，r=估计的回答率。,第4步：无回答调整样本容量,样本容量确定的例子,下面用实例说明样本容量的计算过程。例 1.某杂志出版商希望得到

39、读者对该杂志综合满意程度的估计值。通过邮寄调查，出版商可以联系到所有的2500个订户。但是，由于时间的限制，出版商决定使用简单随机抽样进行电话调查。请问应访问多少个读者？,如果真实的总体比例落在总体比例的样本估计值的0.10范围内，则该出版商将感到满意。换句话说，误差界限e为0.10。出版商希望调查估计值的置信度为95%，这就意味着20次抽样中只有1次，所得的样本估计值确定的置信区间不包含总体真值P，而且，Z=1.96。使用简单随机抽样SRS。估计回答率为65%，即r=0.65。由于事先没有关于顾客满意度真实比例P 的可利用的信息，因此，我们假定方差取最大的情况，即假设 P=0.5。,假设,

40、样本容量的计算步骤,第 1步：计算初始样本容量n1,注意，随着P 趋向0.50，P(1-P)的值将达到最大值，因此选择P=0.5，可得到最保守的n1的估计值。,第 2步：调整初始样本容量,将总体的大小这一影响样本容量确定的因素也考虑进,(记住，这一步只适于小规模总体以及中等规模的总体),第3步：根据抽样设计效果来调整样本容量,对这个例子来说，由于假设使用简单随机抽样设计，所以取 B=1。,第4步：根据无回答情况进行调整确定最终的样本容量n,例 2.现准备实施一项民意调查，以决定赞成建立一个公园的居民的比例。总体由所有在两个城市和一个农村地区居住的、年龄在18岁及以上的居民组成。通过从每个城市

41、或农村中各抽取一个简单随机样本，可以得到一个分层随机样本。问每一层需要多大的样本容量？,总体的单位数为 657,500 总体在各层的分布情况如下：,所需要的样本容量取决于调查对数据的具体要求，为此，可以考虑以下两个方案。,方案一,假设不需要得到各个层估计值的精度，而且如果整个地区的估计值达到95%的置信度、5%的误差界限，就认为估计值足够可靠了。由于没有整个地区赞成建立省级公园居民比例的真值，所以我们假设P=0.5，预计回答率为50%。,第 1步：计算初始样本容量n,计算过程如下：,第 2步：计算初步修正的样本容量n2,(注意：如果 n1/N 可以忽略不计,则可取 n2=n1),第 3步：根

42、据设计效果，再次进行调整n3,对于分层随机抽样，通常 B 1。但这里，由于没有可利用的B的估计值，因此，取B=1得到保守（即更大）的样本容量。,第4步：根据无回答情况确定最终的样本容量n,即根据该方案，调查所需的样本容量为 768。,方案二,假设对每一层，都要求得到误差界限为0.05、置信度为95%的估计结果，那么就需要单独计算各层的样本容量（即将每一层作为一个总体，估计调查所需的样本容量）。,计算之前，考虑到城市1和城市2是大总体，因而可以认为，对它们来说，总体的大小对样本容量的确定没有影响。由此，如果第1、2层中的取值与案例1相同，就可以认为这两层需要的样本容量都是768。然而，对于农

43、村地区，由于总体是小规模的，因此总体的大小对该层样本容量的确定会产生一定的影响。,计算步骤如下：,城市 1,由于,可以认为,所以,城市 2,因为城市2也是一个大城市，所以，同样可以忽略有限总体校正因子对样本容量的影响：,农村地区,因此，方案2所需的总样本容量为 768+768+732=2,268。,比较方案2的总样本容量2,268和方案1的样本容量768，可以发现方案2的样本容量几乎是方案1样本容量的3倍之大。换句话说，如果仅仅需要得到包含所有层的整个总体的估计值，那么要求的样本容量将大大小于需要分别对各层进行估计时所需的样本容量。因为对各层分别进行估计时，需要确保使每一层的样本容量都足够大。

44、,两种方案比较,例2 清楚地说明了要求对各研究域分别进行估计时，审查每一层精度要求的重要性。但如果调查涉及到许多研究域，这一要求可能会使总的样本容量显著增大，并可能导致样本容量超出调查研究者的预算和现有资源的承受能力。一般来说，要求估计的研究域越多，所需要的样本容量也就越大。因此，可能需要在精度与费用之间进行折衷，以保证估计的误差在可接受的范围之内。通过增大每一层估计值的允许误差，或合并其中两个或多个域，就可以使精度和费用达成权衡。,分层抽样的样本分配,决定分层抽样效率的一个重要因素是样本单位在层间的分配方式。使抽样方案的效率高于简单随机抽样或系统抽样。确保对要进行分析的特定研究域有足够的样本

45、量，以便进行分析。避免抽到一个“差的”样本。,采用分层抽样时，总体被分为同质的、互不重叠的几个子总体（层）。然后，在每一个层中独立地抽取样本。可以使用任何一种抽样方法来对每个层进行抽样，从比较简单的方法如简单随机抽样、系统抽样，到较复杂的方法如概率与大小成比例的抽样（PPS）、整群抽样、多阶段抽样或多相抽样。,费用、时间和现场操作的限制,调查中，最终确定的样本容量必须与可获得的经费预算和允许的时限保持一致。,对于许多调查，甚至在确定实施调查的细节之前，就已分配了经费、限定了最后的期限。实际中经常会出现这种情况，即实施调查所需要的样本容量大于现有经费所能支撑的样本容量。对于这种情况，如果不能找

46、到更多的经费，可能就得削减样本容量，从而降低估计值的精度。,对于时间因素，也会出现这样的情况。如果允许的时间不充裕，可能就需要限制样本的数量，以保证按时完成调查作业。,费用、时间和现场操作的限制,时间和费用之外，其它一些现场操作的因素如：采用何种数据收集方法能否招聘到合适的现场调查人员数据编码和录入人员处理数据的设备是否足够等等都会对样本容量的确定产生一定的影响。,最终样本容量的确定需要在精度、费用、时限和现场操作的可行性等相互冲突的限制条件之间进行协调。它还可能需要重新审查初始样本容量、数据需求、精度水平、调查计划的要素和现场实施过程，并对它们作某些修改。通常，调查的目标是寻求在一定费用的基

47、础上提高效率,例如，缩短调查时限，以便能对所需的样本容量提供经费支持。,如何计算样本中每个回答单位的权数加权问题。缺失值的处理,统计量的修正和数据调整,统计量的修正要解决的三个问题,设计权数每个样本所代表的总体单位的数量。总体未知参数主要是总量、均值和比例。抽样误差通过抽样调查得到的总体估计值往往是近似值。,每个样本单位所代表的被调查总体的单位数设计权数由抽样设计决定，用Wd表示设计权数=1/入样概率,设计权数,在抽样设计中，如果一个样本的入样概率=1/50，那么该样本的设计权数=50。也就是说，这个样本代表了总体中的50个单位。,自加权抽样设计,如果所用样本的设计权数是相等的，那么这样

48、的抽样设计是自加权的。也就是说，总体中的每个单元被抽中的可能性相等，具有等可能性、具有相等的入样概率。如果是自加权的，在总体均值、比例估计时不用考虑设计权数，对总量的估计只要扩大样本。,描述性统计,多变量分析技术,市场研究模型技术,数据挖掘技术,频数分析交叉表分析T-检验数据探查分析相关分析方差分析,回归分析主成分分析因子分析聚类分析判别分析对应分析多维尺度分析,结合分析离散选择模型多维偏好分析结构方程式模型分类树决策与预测模型,分类预测细分关联序列,统计分析,市场研究中的多变量数据分析技术,Conjoint Analysis,Correspondence Analysis,Multidime

49、nsionalScaling,PreferenceMapping,Multidimensional Preference Analysis,Discrete ChoiceAnalysis,Experimental Design,PrincipalAnalysis,FactorAnalysis,DiscriminateAnalysis,Regression/LogisticAnalysis,Marketing Research Application,SegmentationResearch,PriceResearch,BrandResearch,Survey&SamplingMethod,SPSSSAS,Structural Equation Model,SatisfactionResearch,ClusterAnalysis,ANOVAAnalysis,CHIAD/CART,TIME Serial,Network Analysis,HLM,多变量统计分析法分类图,消费者行为研究,新产品开发,价格定位,顾客满意度,市场细分,专项研究,连续性研究,定性,定量,消费者,探索性分析,预测性分析,描述性分析,因果关系,品牌研究,产品研究,媒体与广告研究,生活形态,营销环境研究,市场营销知识,统计知识,统计软件,市场研究,市场研究中的多变量数据分析技术,

展开阅读全文