抽样与抽样调查ppt课件.ppt

上传人:牧羊曲112 文档编号:1826816 上传时间:2022-12-20 格式:PPT 页数:81 大小:677KB
返回 下载 相关 举报
抽样与抽样调查ppt课件.ppt_第1页
第1页 / 共81页
抽样与抽样调查ppt课件.ppt_第2页
第2页 / 共81页
抽样与抽样调查ppt课件.ppt_第3页
第3页 / 共81页
抽样与抽样调查ppt课件.ppt_第4页
第4页 / 共81页
抽样与抽样调查ppt课件.ppt_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《抽样与抽样调查ppt课件.ppt》由会员分享,可在线阅读,更多相关《抽样与抽样调查ppt课件.ppt(81页珍藏版)》请在三一办公上搜索。

1、抽样与抽样调查,李孜,为什么要知道一个人的血液情况,只需抽一点点血来化验就行了?由部分认识总体同质和异质,盖洛普,美国民意测验中心1936年美国总统大选预测(配额抽样)1948年美国总统大选预测(失败)1984年美国总统大选预测1994年美国总统大选预测样本数据3000左右,1994年美国总统大选预测民意调查,抽样解决什么问题?对象的选取问题:如何从总体中选出一部分对象来作为总体的代表,抽样调查的含义,抽样调查:是指按照科学的原理和计算从所要研究现象的全部分析单位中按随机原则抽取部分单位进行调查,取得资料后,再根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断的方法。抽样调查旨

2、在以样本的资料来推断调查对象总体的相关统计数据。,抽样理论与方法是构建在现代统计学和概率论(尤其是概率抽样)基础上的。,抽样调查的特点,1)抽取样本时要遵循随机原则,即产生样本时,调查对象总体中的所有单位都有同等被抽中的机会。2)大数规律起作用的条件是样本容量足够大,如此样本对总体才有充分的代表性3)抽样误差可以事先经过计算而控制在一定范围内,并且能采取一定的组织措施控制这个误差。,几个关键概念,抽样sampling:指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素的过程。抽样单位sampling unit:是一次直接的抽样所使用的基本单位或与元素。如班级(学生) 元素

3、element :构成总体的单位,也是样本所包含的内容。 抽样单位与构成总体的元素有时相同,有时不同。如抽样单位班级构成总体的元素学生抽样框sampling frame:又称作抽样范围。指一次直接抽样时总体中所有抽样单位的名单。班级(学生)名单,抽样框的重要性,举例:1936年文学文摘的民意测量:从电话薄和车牌登记名单中选择1000万人,最后收到200万人预测出43% 的罗斯福支持率(实际是61%)思考:抽样框是什么?为什么预测不准? 抽样框选择的不合理只选择了不成比例的富人样本,而排除了穷人。成功的对比:盖洛普的配额抽样,抽样的一般程序,界定总体掌握总体的结构及各方面情况制定抽样框对名单进行

4、统一编号,多阶段抽样需要分别建立不同的抽样框。决定抽样方案抽样方法抽样规模主要目标量的精确程度实际抽取样本评估样本质量对样本的质、代表性、偏差进行初步检验和衡量。即用样本中某些重要指标与总体中的指标进行比较,结果越接近越好。,抽样方法,概率抽样 非概率抽样 简单随机抽样 偶遇抽样 等距抽样 判断抽样 分层抽样 定额抽样 整群抽样 雪球抽样 多阶段抽样,概率抽样probability sampling 是依据概率论基本原理,按照随机原则进行抽样,不加主观因素,组成总体的每个单位都有被抽中的概率(非零概率),可以避免样本出现偏差,样本对总体有很强的代表性。非概率抽样nonprobability s

5、ampling 是按主观意向进行的抽样(非随机的),组成总体的很大部分单位没有被抽中的机会(零概率),使调查很容易出现倾向性偏差。常在探索性调查中使用。,方便/偶遇抽样accidental sampling,样本限于总体中易于抽到的一部分。因此它并没有保证总体中的每一成员都具有同等被抽中的概率。常被误认为随机抽样,但有以上差别。最常见的方便抽样是偶遇抽样,即研究者将在某一时间和环境中所遇到的每一总体单位均作为样本成员。“街头拦人法”就是一种偶遇抽样。某些调查对被调查者来说是不愉快的、麻烦的,这时为方便起见就采用以自愿被调查者为调查样本的方法。方便抽样是非随机抽样中最简单的方法,省时省钱,但样本

6、代表性因受偶然因素的影响太大而得不到保证。不能依赖偶遇抽样的样本值来推断总体。,立意判断抽样purposive sampling,立意抽样又称判断抽样,研究人员从总体中选择那些被判断为最能代表总体的单位作样本的抽样方法。研究者对自己的研究领域十分熟悉,对研究总体比较了解时采用这种抽样方法,可获代表性较高的样本。这种抽样方法多应用于总体小而内部差异大的情况,以及在总体边界无法确定或因研究者的时间与人力、物力有限时采用。,滚雪球抽样 snowball sampling,以若干个具有所需特征的人为最初的调查对象,然后依靠他们提供认识的合格的调查对象,再由这些人提供第三批调查对象,依次类推,样本如同滚

7、雪球般由小变大。滚雪球抽样多用于总体单位的信息不足或观察性研究的情况。这种抽样中有些分子最后仍无法找到,有些分子被提供者漏而不提,两者都可能造成误差。 如喜欢公园活动的老人喜欢在家的老人,定额抽样quota sampling,定额抽样也称配额抽样,是将总体依某种标准分层(群);然后按照各层样本数与该层总体数成比例的原则主观抽取样本。参考书145表6-7 100个人的定额样本分布表(性别学科年级种分类特征)定额抽样与分层概率抽样很接近,最大的不同是分层概率抽样的各层样本是随机抽取的,而定额抽样的各层样本是非随机的,是按事先规定的条件有目的地寻找的。,定额抽样,总体也可按照多种标准的组合分层(群)

8、,例如,在研究自杀问题时,考虑到婚姻与性别都可能对自杀有影响,可将研究对象分为未婚男性、已婚男性、未婚女性和已婚女性四个组,然后从各群非随机地抽样。定额抽样是通常使用的非概率抽样方法,这项抽样方法要求对总体的情况比较了解。盖洛普1948年失败的案例(二战导致1940年人口普查数据的变化),简单随机抽样 simple random sampling,思考什么是随机?在班上随便抽点10个同学是不是随机?是概率抽样最基本的形式。常用办法有抽签、随机数表、人民币等来抽样要点:取得抽样框名单 将总体中所有元素一一按顺序编号 根据总体规模是几位数来确定从随 机数表中选几位数。特点:在差异较大的总体中,简单

9、随机抽样的样本不一定能保证样本的代表性。,随机数表的使用,将总体中所有数据编码确定所选择的随机数需要几位数字根据总体数据的位数来定查阅随机数表,建立某个执行原则(如从上到下或从左到右)来选择随机数当选到的数超过范围或重复时,跳过这个数选择下一个 P353,系统抽样等距抽样systematic sampling,又称系统抽样。把总体中的单位进行编号排序后,再计算出某种间隔,然后按这一固定的间隔抽取个体的号码来组成样本的方法。K(抽样间隔)=N(总体规模)/n(样本规模)个体编号为A,A+K,A+2K,A+(n-1)K抽样比率=样本大小/总体大小注意:若总体名单中,个体的排列具有某种等级的高低(如

10、学生名单是按学生成绩高低来排的)或周期性分布,则应打破原次序,重新编制总体名单。等距抽样比简单随机抽样简便易行,规模较大时多采用。,分层抽样stratified sampling,又称类型抽样。它是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分成若干个类型或层次然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本,最后将这些子样本合起来构成总体的样本。,分层抽样,特点:层内同质,层间异质 分层抽样在层内是抽样调查,层间是全面调查,所以分层时应该尽量让每层内的变异程度小,而层间的变异程度大。(因此分层要全面考虑,而分层的首要目标就是达到同质性) 。分层抽

11、样的优点就是在不增加样本规模的前提下降低抽样误差。它的抽样误差较简单随机抽样小,样本具有很好的代表性。(参考抽样误差的公式),考虑分层的比例问题,又分为1、比例分配法; 考虑每层中的总体单位数,按比例在每层中抽出相同比例的样本,即,每层的样本容量,例如: 调查在校学生的阅读倾向将符合要求的学生做统计后(除去留学生,成教等)总数为2万多人,考虑要作年级和教育差异对比,可将学生分为本科、硕士、博士三个大群体,根据最大样本数估计(允许的抽样误差在3%)需要抽取1068人就足够了。经求取比例,最低比例4.3可以满足样本需求。各层均按照4.3进行抽样,做到了各层次中抽取的样本单位数量的比例、该样本在总体

12、中抽取的样本单位的比例、该样本在总体中所占的比例这三个比例保持一致,这就是分层比例抽样。,非随机抽样中有一种配额抽样和分层比例抽样极为相似。差别在于:配额抽样不要求样本结构与总体完全相等,或具有已知的确切关系,具体单位样本的选择也是由调研人员在实施调研时才在给定的配额内主观地选取,其实质是一种分层的估计抽样。,2、不按比例分层抽样,当总体中有些分层的数目太少,若以比例抽样,则有的层在样本中个案太少,影响分析。为了对不同层次的子总体进行专门研究,则可不按比例分层抽样。但需注意,若要用样本资料推断总体时,则需要对各层数据资料进行加权处理,使样本中各层的比例恢复到总体中各层实际的比例结构。,例如:某

13、厂600工人(男500,女100人)调查他们的平均收入。计划抽样60人。按比例抽样: 男500*(60/600)=50人,女100*(60/600)=10人不按比例抽样,即男女各抽30人全厂工人平均收入=(每个男工的收入*5/3+每个女工的收入*1/3)/60人,是各层的标准差。 是总体中各层的数量,2、奈曼最佳分配法,考虑每层中总体单位的变异程度不同,在样本容量一定的条件下,变异大的层样本容量也大,变异小的层样本容量也小。每层的样本容量为,整群抽样cluster sampling,概念:首先将总体划分为群R;然后按随机的原则不重复抽出群r ,在每群中进行全面调查。该调查方法适用于单位较多的总

14、体。与分层抽样相反,整群抽样在群内是全面调查,在群间是抽样调查。,整群抽样,适用于:不同子群相互之间差别不大,而每个子群内部的异质性程度比较大。 -层内异质,层间同质(与分层抽样相反)当我们不可能或不方便编制一个完整的名单形成目标总体的时候,可以使用整群抽样。如对城市的人口进行抽样的时候,没有整个城市的人的名册,可以先选出几个街道样本,对街道中的所有户进行抽样。,整群抽样,优点:简便易行、节省费用缺点:样本分布面不广,样本对总体的代表性相对较差,多段抽样 multistage sampling,又称分段抽样。它是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。适合于总体规模特别大,

15、或总体分布范围特别广。方法:从总体中随机抽取若干大群,然后从大群中抽取若干小群,层层抽下去,直到抽到最基本的抽样元素为止。重复两个基本步骤:列表名册和抽样在上述每个阶段的抽样中,都要采用简单随机抽样或等距抽样或分层抽样的方法进行。,多段抽样时,需要考虑类别和个体之间如何保持平衡? 考虑两个因素REF 书P137表6-3各个抽样阶段中的子总体同质性程度。同质性越高的子总体,所抽规模就小一点。反之亦然。考虑人力和经费-“大的类别抽取的多,每一子类抽取的相应较少”所花的人力经费就多,但又可适当减少抽样误差 每级抽样都会产生误差,故多段抽样的误差较大。,Q:如何控制多段整群抽样的抽样误差?从抽样误差的

16、公式入手 增加样本容量提高样本要素的同质性(然而,如果总样本数量一定的话,抽取的群数量增加每个群中被抽取的要素的数量势必减少。),整群抽样的原则就是尽可能多的选取群(群的同质性强),而减少每个群中要素的数量。但又可能违背整群抽样效率的功能,户内抽样within-household sampling,适用于以家庭作为分析单位,以入户访谈的方法收集资料入户前的抽样可以采用多段抽样的方式如市/县区/乡街/村居委会/组家庭户确定户后,如何对户内的成年人进行选择?-生日接近法- KISH选择表,KISH选择法,将调查表编号为A,B1,B2,C,D,E1,E2,F 八种,每种表的数目分别占调查表总数的1/

17、6,1/12,1/12,1/6,1/6,1/12,1/12,1/6每个调查员配备一套KISH选择表(一套8种)对每户中成年人进行排序和编号:男在前,女在后;年纪大在前,小在后. 按照调查表上的编号找出选择表,根据家庭人口数目从选择表中查出该选个体的序号.对这一序号的成员进行调查.,概率比率抽样(PPS抽样) probability proportionate to size,一种多段整群抽样(适用于大规模调查)其中的群被选取的概率并不相等,其被选中的概率和其规模大小成比例根据群中其子样本的数量来衡量。特点是总体中含量大的部分被抽中的概率也大,可以提高样本的代表性。,对比:EPSEM /PPS,

18、EPSEM:equal probability of selection method 等概率抽样选择城市中的住户(假设100000户分散在1000条街道,如何抽取1000户居民) 1000条街道挑选100个街道:10%的选中机会假设每条街道只有100户(即规模相同) ,则抽10户即可,100户抽10户: 10%的选中机会则城市中每一户被选中的概率=0.1*0.1=1%这样,每户人家被选中的概率相同,挑选出来的样本对城市中的所有住户来说具有代表性思考:一个陷阱:如果每条街道户数不同,例如甲居委会有200户,乙居委会只有50户。思考: EPSEM抽样结果会怎样?甲居委会居民被抽中的概率:100/

19、1000*10/200=0.005乙居委会居民被抽中的概率:100/1000*10/50=0.02,乙居委会居民被抽中的概率是甲居委会居民被抽中的概率的4倍,PPS抽样,每一个元素被抽中的概率=所抽取的群数*(子群的规模/总体的规模)*(平均每个子群中所要抽取的元素/子群的规模)甲居委会居民被抽中的概率:100*200/100000*10/200=0.01乙居委会居民被抽中的概率:100*50/100000*10/50=0.01,PPS抽样总结,以阶段性的不等概率换取最终的总体的等概率,抽样设计的原则,目的性原则以研究目标为依据可测性原则能够从样本自身计算出有效的估计值或抽样变动的近似值。可行

20、性原则在实践中切实可行经济性原则考虑人、财、物、时间,抽样是问卷调查的前提抽样方法选择的正确与否直接决定着调查数据的可靠程度,同时也就决定了调查的成败。掌握几个重要的概念抽样分布/概率理论/抽样误差/置信度和置信区间,抽样分布,三种不同性质的分布 一. 总体分布 二. 样本分布 三. 抽样分布,一.总体分布(population distribution),统计研究对象的全体称为总体. 实际问题所研究的是总体中个体的某一特征 X ,X 是一个随机变量,而 X 的可能取值全体即为总体. 称 X 的分布为总体分布.,二.样本分布(sample distribution),样本中各观察值的分布称为样

21、本分布, 也称经验分布. 样本分布可以用样本的频数分布来表示.,三.抽样分布(sampling distribution),统计量的分布称为抽样分布. 讨论的统计量有样本均值、样本比例和样本方差等.,一个总体参数推断时统计量的抽样分布,一. 样本均值的抽样分布 二. 样本比例的抽样分布 三. 样本方差的抽样分布,总体参数parameter 描述总体数量特征的指标。总体是唯一的,所以参数也是唯一的;参数值只有通过对总体中的每一个元素都进行调查或测量才能得到。,样本统计量 statistic 描述样本数量特征的指标,由样本计算而得。由于样本是随机的,所以样本统计量是随机变量。抽样的目的就是尽可能通

22、过统计值去估计参数值。,NEXT,成数的概念,若总体单位的某种标志只有两种表现,总体成数是指具有某种特征和属性的单位在全部总体单位重所占比重。记为p。,以 代表总体单位中具有某种特征的单位数, 代表总体单位中不具有某种特征的单位数,N=N1+N0。有,一.样本均值的抽样分布,(一)抽样分布的形成过程,例 设一个总体N = 4,分别为X1=1, X2=2, X3=3 和 X4=4 , 可得总体的均值、方差,现从总体中抽取 n2 的简单随机样本,在重复抽样条件下,共有42=16个样本. 所有不同的样本为,表 所有可能的样本和样本均值(n = 2 ),表 样本均值的分布,样本均值的分布呈现正态分布,

23、随着样本容量n的增大,就越接近正态分布,从N中抽取n个样本,不重复抽样样本数目为m=N!/(N-n)!n!不重复抽样参见书P122图6-26,(二)样本均值的抽样分布形式,中心极限定理(central limit theorem) 设从均值为,方差2 的总体中随机抽取样本容量为n 的样本,当n充分大时,样本均值 的抽样分布近似服从均值为,方差为 的正态分布.(即全部样本平均数的平均数正好等于总计的平均数 ,全部样本平均数的标准差(称为标准误SE)则等于总体标准差除以 ),抽样分布是根据概率的原则而成立的理性分布,它显示出:从一个总体中不断抽取样本时,各种可能出现的样本统计值的分布情况,(三)样

24、本均值的抽样分布特征,二.样本比例的抽样分布,总体(或样本)中具有某种属性的单位数与单位总数之比,(1)总体比例:,(2)样本比例:,样本比例的抽样分布,1 样本比例的数学期望,2 样本比例的方差,(1)重复抽样:,(2)不重复抽样:,(6.4),(6.5),(6.6),率的标准误用抽样方法进行研究时,必然存在抽样误差。率的抽样误差大小可用率的标准误来表示,计算公式如下:,式中:p为率的标准误,为总体阳性率,n为样本含量。因为实际工作中很难知道总体阳性率,故一般采用样本率p 来代替,而上式就变为,标准误的计算,河北省组织高碘地方性甲状腺肿流行病学调查,作者调查了饮用不同碘浓度井水居民甲状腺肿的

25、患病情况,其中有两组资料如下表,试分别求出率的标准误。,举例,计算法:第一组:n1=3315,p1=1.78%=0.01781-p1=1-0.0178=0.9822,第二组:n2=3215,p2=5.60%=0.0561-p2=1-0.056=0.944,概率理论作用,概率理论提供抽样误差sampling error 的计算公式,以估计这些样本统计值与真实值的差距.抽样误差如果我们由总体内随机抽取许多独立的样本,这些随机抽样所得到的统计结果将以一种可知的方式分布在总体参数附近.那么抽样结果集中在总体参数多大的范围内呢?置信水平和置信区间,概率理论明确指出: 一定比例的样本估计值会落在总体参数值

26、的某个增量内(一个标准误SE就是一个增加单位)-置信区间,置信区间与置信水平,置信水平confident level : 总体参数值落在样本统计值某一区间的概率(把握程度)。它反映抽样的可靠性程度。如置信度为95%:指对某一总体进行的同样形式的100次抽样中,总体值将有95次都落在样本值周围的某一区间内。在其他条件一定的情况下,置信度越高,推论的把握性越大,所要求的样本规模就越大。置信区间confident interval : 估测总体参数值的范围.它是指在一定的置信度下,样本值与总体值之间的误差范围。它反映的是抽样的精确程度。范围越大,精确性程度越低。在其他条件一定的情况下,置信区间越小,

27、精确性程度要求就越高,即样本值与总体值之间的误差范围越小,则所要求的样本规模就越大。举例: 我们有95%的信心说,35-45%的投票者会投票给A,由于平均数的抽样分布是正态分布,其平均数的次数就是正态曲线下的面积.而根据概率统计论,正态分布曲线下的面积是可以用数学方法推算的.有90%落在u1.65SE之间有95%落在u1.96SE之间有98%落在u2.33SE之间有99%落在u2.58SE之间我们可以这样说:对于任何一次抽样来说,其样本统计值落在总体参数值正负2个标准误之间的概率是95%,总体率的可信区间由于样本率与总体率之间存在着抽样误差,所以也需根据样本率来推算总体率所在的范围,根据样本含

28、量n和样本率P的大小不同,分别采用下列2种方法:,正态近似法当样本含量n足够大,且样本率P和(1-p)均不太小,如np或n(1-p)均5时,样本率的分布近似正态分布,则总体率的可信区间可由下列公式估计:总体率()的95%可信区间:p1.96sp总体率()的99%可信区间:p2.58sp,查表法当样本含量n较小,如n50,特别是p接近0或1时,则按二项分布原理确定总体率的可信区间,其计算较繁,读者可根据样本含量n和阳性数X参照专用统计学介绍的二项分布中95%可信限表。,样本率的分布,Q : 如何才能减少标准误?,P(1-p)的值(当P=0.5时,标准误最大;而当P=1/0时,标准误最小)与样本容

29、量N 成反比: 当样本的容量增加4倍时, 标准误会减少一半,如何控制率的抽样误差?,如何控制抽样误差?,从同质总体中抽取样本比从异值总体中样本所产生的抽样误差小. 如果总体中99%的人同意某个陈述,任何概率抽样的样本结果,严重偏离此同意程度的可能是非常小的。相对来说,如果总体中只有50%的人同意某陈述,抽样误差就大多了.抽样中的分层抽样就是基于此原理来减少抽样误差.,例子,假设某研究大学生对校规的赞成程度,总体参数值是50%的学生赞成.每次抽样的学生为100名.计算: 标准误是多少?我们有95%的信心保证样本统计值落在参数值() 个标准误之间,即赞成学生的比例将介于()-()之间如果我们希望有

30、95%的信心让研究结果与总体参数值的差异在正负5%的范围内,那么样本容量至少要多少人?,总体率()的95%可信区间:p1.96sp总体率()的99%可信区间:p2.58sp,答案,5%正负2个标准误之间,40%-60%400,概率抽样总结,概率抽样的基本原则是:当我们从总体中随机抽取样本,用样本的平均值来推论总体平均值时,我们发现,样本量越大,抽样误差就越小。,概率抽样总结,样本量越大,则成本就越高。根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。因此,样本量的设计并不是越大越好,通常会受到经济条件的制约。 我们要

31、思考:抽样调查要选取多少样本数才能达到调查目的,又保证成本最低?,样本容量的概念又称为样本大小、样本规模等,指的是样本中所含单位数量的多少。,在确定样本容量时需要考虑以下因素: 用户对抽样推断的可靠程度和精确度的要求。 (置信水平和置信区间)不同的抽样组织方式。总体变量值的差异程度,最大样本数的计算,常用的简单随机抽样的最大样本数公式为: N = Z 2 2 / E 2 其中, N 为适合样本数; Z 为调查置信度; 为总体标准差; E 为抽样误差范围 在解决“比例”方面的调查问题时,公式为:N = Z 2 P(1-P) / E 2 其中, N 为适合样本数; Z 为调查置信度; P 为样本的

32、离散程度; E 为抽样误差范围 当p=0.5时,P(1-P)取最大值,此时的N就是最大样本数。N = Z 2 / 4E 2Z 2 即为统计课本中的置信区间Z(a/2)的平方,E是边界条件。常用z为95 (1.96) ,E为3时,N的取值。,N=1.962/4*0.032=1067,下表是一些常用的样本量,样本规模总结,统计学通常以30为界,分为大样本或小样本而社会研究专家认为,社会研究的样本规模至少不能少于100(因为我们要保证每个子类别中都有一数量的个案) 一般来说:小型调查,样本规模在100-300之间中型调查,样本规模在300-1000之间大型调查,样本规模在1000-3000之间,样本规模总结,探索性研究,样本量一般较小,而描述性研究,就需要较大的样本;收集有关许多变量的数据,样本量就要大一些;如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当更大;如果需要特别详细的分析,如做许多分类等,也需要大样本。针对子样本分析比只限于对总样本分析,所需样本量要大得多;总体指标的差异化越大,需要的样本量就越高;调研的精度越高,样本量越大。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号