《社会调查与统计第四章抽样.ppt》由会员分享,可在线阅读,更多相关《社会调查与统计第四章抽样.ppt(122页珍藏版)》请在三一办公上搜索。
1、选 题,概念操作化,抽 样,研究设计,问卷设计,资料收集,资料分析,调查报告撰写,社会调查步骤,第四章 抽 样,第四章 抽 样,本章主要内容1.抽样的概念和类型2.非概率抽样方法4.概率抽样方法5.户内抽样和PPS抽样6.样本规模,案例12004年美国大选主要民调样本数,51.34,48.31,2004年美国总统大选一周前民调结果,案例2文学文摘抽样理论依据,文学文摘(literary Digest)以邮寄明信片的方式进行民意测验,并且颇为准确预测出1916年、1920年、1924年、1928年和1932年的总统选举结果。该杂志所依据的理论是:“所询问的选民愈多,则结果愈可靠”。,案例文学文摘
2、抽样框获得,文学文摘通常会采用上千万个调查单位样本,而这些样本名单则是通过全美杂志订户、电话薄和汽车俱乐部会员名单收集到的。,案例文学文摘样本量,当1936年总统大选来临时,杂志仍以同样的方式进行了民意测验,并从寄出的10000万份明信片中,回收了200多万份。,案例文学文摘预测结果,案例文学文摘抽样选举结果,两个星期之后,美国总统选举的结果罗斯福以61的得票率获得第二任任期。相较于罗斯福的523张选举人票,兰登仅得到8张。,案例文学文摘失败原因,文学文摘的民意测验失败是因为它的样本严重地偏向高收入群体。在当时条件下,收入较低或失业者家里通常没有电话,也没有汽车,因此,根据电话薄和汽车俱乐部会
3、员名单选定的样本,主要涵盖的是经济地位较高的上层选民。,案例文学文摘失败原因,当时下层选民是罗斯福社会及经济政策的主要受益者和支持者,而共和党候选人则更受上层选民的青睐。,一、抽样的基本概念,1.元素:等同于分析单位2.总体(population):元素的集合体 N3.样本(sample)从总体中按一定的方式抽取出的一部分元素的集合。研究结论只能推及总体范围,不反映总体的样本农民为何常在民意调查中被忽略(中国青年报2005-03-04),中国人如何看美国,如何看美国人和中美关系?近期,环球时报在中国社会科学院美国研究所和专业调查公司的帮助下,就此进行了民意调查,并公布了调查结果。尽管该媒体发布
4、的报道声称,他们这次是“做了一次严格意义上的民意调查”,但这次调查是否真称得上“严格意义”,值得商榷。,实际上,他们调查的只是中国5大城市的部分居民,却根本没有调查过任何一位农民,而在当代中国,农村人口在全国人口总数中所占比例远远大于城市人口。所以,仅仅5个城市部分居民在调查中表达出来的民意,并不足以真正代表包括广大农村居民在内的“中国人”。,值得注意的是,类似这种只调查部分城市居民、调查结果却被说成是整个“中国人”的民意调查,并不鲜见。例如,稍前,解放日报和复旦大学、神州调查公司等合作,开展了“今天我们怎样过春节”的全国30个城市抽样调查,也将农民排除在外。中国经济景气监测中心曾经发布的一项
5、调查结果,本来只是显示有58.2的中国城市居民对目前的收入水平感到满意,但某些媒体在报道时,则声称是“逾半中国人满意当前收入”。超过8亿的中国农民居然“人间蒸发”。,零点调查公司曾经对京沪穗蓉宁等10个城市的4226名成年市民进行一项调查,旨在了解这些城市居民未来5年内最关心的事情,但媒体发布的调查结果,却是“中国人关注的十大焦点”。一项标榜为揭示“当代中国人世界观”的调查,实际调查的不过是京沪穗三市的部分居民。,(一)与抽样有关的概念(续1),3.抽样:从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素的过程。,4.抽样单位(sampling unit),抽样单位就是一次直接
6、的抽样所使用的基本单位。抽样单位与构成总体的元素有时是相同的,有时又是不同的。抽取1000个大学生。直接抽取先抽班级,再抽学生,(一)与抽样有关的概念(续2),5.抽样框(sample frame)又称作抽样范围,它指的是一次直接抽样时总体中所有抽样单位的名单。,案例抽样框,从一所中学中,直接抽取200名学生作为样本。,该中学的全体学生名单,抽样框,案例抽样框,如果抽取20个班级作为调查样本。,抽样框,该中学的所有班级名单,(一)与抽样有关的概念(续3),6.参数值(parameter)也称为总体值,它是关于总体中某一变量的综合描述。7.统计值(statistic)也称为样本值,它是关于样本中
7、某一变量的综合描述。,基本作用:是人们从部分认识整体的关键环节必要性:研究人员难以做到任何研究都进行全面调查,而抽样误差可以控制到很小,因而抽样调查成为最常用的研究方法之一。,二、抽样的作用,三、抽样的一般程序,界定总体,制定抽样框,决定抽样方案,实际抽取样本,评估样本质量,四、抽样的方法,判断抽样,非概率抽样,概率抽样,配额抽样,简单随机抽样,系统抽样,偶遇抽样,整群抽样,多阶段抽样,雪球抽样,抽样方法,(一)非概率抽样方法,非概率抽样:依据研究者的主观意愿、判断或是否方便等因素来抽取对象的方法。,1.偶遇抽样(accidental sampling),又称作方便抽样或自然抽样,是指研究者根
8、据现实情况,以自己方便的形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近、最容易找到的人作为对象。,2.判断抽样(judgmental sampling),判断抽样又称作立意抽样,它是研究者根据研究的目标和自己主观的分析来选择和确定研究对象的方法。,3.配额抽样(quota sampling),配额抽样,又称作定额抽样。研究者要尽可能地依据那些有可能影响研究变量的因素来对总体分层,并找出具有各种不同特征的成员在总体中所占的比例;,然后依据这种划分以及各类成员的比例去选择对象,使样本中的成员在上述各种因素、各种特征方面的构成及其在样本中的比例尽可能接近总体。,案例1配额抽样,假设某高校有4
9、000名学生,其中男生占60,女生占40;文科学生和理科学生各占50;一年级学生占40、二年级、三年级、四年级学生分别占30、20、10。现在用定额抽样方法依上述三个变数抽取一个规模为100人的样本。,配额抽样结果,案例2 盖洛普1948年总体选举民调,1936年,乔治盖洛普(George Gallup)准确地预测了罗斯福将会击败兰登。盖洛普成功是因为采用了配额抽样方法。,采用同样的配额抽样方法,1948年盖洛普预测纽约市市长杜威(Thomas Dewey)能击败当时在位的哈利杜鲁门(Harry Truman)当选总统。这次预测却失败了。,配额抽样的技术要求,配额抽样技术要求研究者必须对总体的
10、情况有所了解(所有投票者)。对于全国性大选的民意调查而言,这类信息主要来自人口普查资料。,人口构成改变,然而,到1948年二战促成了大量农村人口涌入城市,在很大程度上改变了1940年人口普查资料显示的人口特征,而盖洛普的抽样依据的正是1940年的人口普查资料。,城乡人口政治倾向,此外,由于城市居民更支持民主党,因此,在将乡村投票者的人数估计得多于实际的情形下,便相对低估了投票支持民主党的人数。,4.雪球抽样(snowball sampling),雪球抽样,当我们无法了解总体情况时,可以从总体中少数成员入手,对他们进行调查,向他们询问还知道哪些符合条件的人;再去找哪些人并询问他们知道的情况。如果
11、滚雪球一样,我们可以得到越来越多具有相同性质的群体成员。,线人(informants),华中某市高校同性恋者的个案研究,访谈对象大致来自三个方面:(1)来自由华中科技大学生命科学与技术学院组织的“大学生同性恋亚文化研究”课题组提供的个案资料;(2)笔者在现实中认识的同性恋朋友;,(3)由上述两组个案通过“滚雪球”方式认识的新的个案,即他们再介绍自己所认识的圈内的人。青年研究2004年第8期,(二)概率抽样的方法,概率抽样的原理保证总体中每一个个体都有相等的机会入选样本。当总体情况不明时,无法做到随机抽样,1.简单随机抽样,(simple random sampling)(1)简单随机抽样又称纯
12、随机抽样,它是按等概率原则直接从含有N个元素的总体中随机抽取n个元素。,(2)简单随机抽样步骤,取得一份总体所有元素的名单(抽样框)将总体中所有元素一一按顺序编号根据总体规模是几位数来确定从随机数码表中选几位数码,(2)简单随机抽样步骤(续),以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍根据样本规模的要求选择出足够的数码个数依据从随机数码表中选出的数码,到抽样框中去找出它所对应的元素,(3)随机数表的使用,随机数表,2.系统抽样(systematic sampling),(1)系统抽样的含义 系统抽样又称为等距抽样或机械抽样。它是把总体中的单位进行编号排序后,再计算出某种间隔,
13、然后按这一固定的间隔抽取个体的号码来组成样本的方法。它和简单抽样一样,需要有完整的抽样框。,(2)系统抽样具体步骤:,1.将总体的所有个体按顺序编号2.计算抽样间距K,3.在头K个个体中随机确定起点(A)e.g.如果K=10,就从01-10号中抽签决定一个号码作为起点,假定为054.从A开始,每隔K个个体抽取一个个体,组成样本:A,A+K,A+2K.,A+(n-1)K 05,15,25,.,95,(3)注意要点,系统抽样一个十分重要的前提条件,是总体中个体的排列,相对于研究变量来说,应该是随机的,即不存在某种研究变量相关的规则分布。,(3)注意要点之一,A.总体名单中,个体的排列具有某种次序上
14、的先后、等级上的高低情况。例 抽取若干家庭样本进行消费状况调查。,(3)注意要点之二,B.总体名单中,个体的排列上有与抽样间隔相对应的周期性分布情况。,(1)含义:先将总体中所有单位按某种特征或标志划分为若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的方法抽取一个子样本,将其合成样本。,3.分层抽样/类型抽样,图示:分层抽样,分类,随机抽样,总体,子群,样本,(2)分层抽样的运用,A分层的比例问题B分层的标准问题,A 样本量在各层的分配,按比例分配。即各层的子样本单位在总体中所占的比例,与各层单位在总体中所占的比例的比例完全相同。非等比例抽样 最优分配(Optimum al
15、location),案例 分层抽样,某所大学采矿专业中,男生4500人,女生500人,女生比例仅占10。如果按比例抽样,则当样本规模为500时,女生仅为50人。,B 分层的标准,理论上,按调查目标变量进行分层是最好的,但在调查之前目标变量的值是不知道的,因此只能是根据与目标变量最相关的辅助变量进行分层,B分层的标准(续),常用辅助变量包括:性别;年龄段;职业;教育程度;收入;地域;民族和宗教,B分层的标准之二,理论上讲,分层的数量越多越好,但是实际抽样中,层的数量受到限制。首先是样本量的限制。其次调查经费的限制,B 分层的标准之三,以保证各层内部同质性强,各层之间异质性强、突出总体内在结构的变
16、量作为分层变量,案例 分层抽样,从某大学1500名在职教师中抽取500名教师作为调查样本。设计一个抽样方案。,院 系,职 称,年 龄,性 别,总 体,抽样考虑因素,1.目的不同:定额抽样要保证样本与总体在结构比例表面上一致;分层抽样则包括比例分层和非比例分层。2.方法不同:定额抽样中各层样本是非随机抽取的;而分层抽样中各层样本是随机抽取的。,与定额抽样的区别,三种抽样方法的比较,4.整群抽样cluster sampling,(1)含义:将总体按某种标准划分为一些子群体,每个子群为一个抽样单位,用随机方法从中抽若干子群,将抽出的子群中的所有个体结合起来构成样本。,图示:整群抽样,优点:1.简化抽
17、样过程,降低费用 2.可扩大抽样规模 3.更容易取得抽样框缺点:样本分布面不广,代表性较差,尤其是当子群间异质性较强时,影响代表性更明显。,(2)整群抽样的特点,5.多阶段抽样,(1)定义 多阶抽样又称多级抽样或分段抽样,它是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。e.g.大学院系班级学生,(2)方法,先从总体中随机抽取若干大群(组),然后再从这几个大群(组)内抽取几个小群(组),这样一层层抽样下来,直至抽到最基本的抽样元素为止。,优点:不需要总体全部名单,抽样较容易;节约人力物力缺点:每级抽样都会有误差,故误差较大,(3)多级抽样的特点,城区居委会总库,零点公司抽样库及抽
18、样图,执行项目中抽取2025个居委会,每个居委会抽取2060样本户,每户抽取1人进行访问,每年更新一次总库,每年两次补充居委会抽样框及抽样图,自编程序等距抽取,每年定期从库中删除旧居委会记录并将抽样图作废,自动抽样系统,自动抽样系统,Kish抽取法或生日最近法,零点公司入户访问抽样方法,某市2.4万名教师,分布在全市10个区的200所学校,现在抽取一个由1200名教师组成样本,案例2:多阶段抽样,思考题,假设一个城市有100,000户居民,分属200个居委会。如果要从总体中抽取1000户居民构成样本,我们可以先从200个居委会中随机抽取20个居委会;然后,在所抽取的20个居委会中,每个居委会随
19、机抽取50户居民。这样,我们总共抽到1000户居民。,每一户抽中的概率是否相同?,如何保证每一户抽中的概率都相等?,6.PPS抽样,(1)概念 抽取概率与元素的规模大小成正比的抽样(sampling with probability proportionate to size),是典型的不等概率抽样。,PPS样本值通常大于常规等概抽样的样本值。在总体变动大、低值单元较多时,PPS 抽样效率更高。,6.PPS抽样,在多阶段抽样中,最初从总体中抽出的群被称为初级抽样单位(primary sampling unit,PSU)如果PSU的规模相等,用简单随机抽样或等距抽样方法,直接进行第二阶段抽样,这
20、是第二阶段单位是等概率的,而且样本规模是常数。,(2)基本思路,总体中的每一个元素都具有同等的被抽中的概率。如果总体中每个元素的“大小”基本相同,或者每一个元素在总体中的地位或重要性相差不多,则这种基于同等概率的抽样是合格的。,(2)基本思路(续),但当元素的大小不同,或者元素在总体中的地位不同时,则需要采用不等概率抽样的方法。社会调查中,最重要也是最常用的一种不等概率抽样叫做“简称PPS抽样”,案例1 PPS抽样,从下面5个企业中抽取3个企业,每个企业抽取50名职工,组成一个150名职工的样本,案例2 PPS抽样,假设从长沙市100家企业、总共20万名职工中,抽取1000名职工进行调查。我们
21、采取多阶段抽样的方法,先从100家企业中随机抽取若干企业,比如说20家,然后再从这20家企业中分别抽取50名职工构成样本。,PPS抽样实践,设总体由某高校10个院系组成,学生人数为2184人。利用PPS方法抽取3个院系,再从每个被抽中的院系分别抽取50名学生,构成一个150人的样本。,PPS抽样实务,0323,1168,1717,随机数表(部分),12184,7.户内抽样法,以家庭为单位时,从入选家庭中抽取一个成年人构成访谈对象的抽样方法。,KISH表,是指美国著名抽样专家KISH创立的一种在确定了户之后,如何选择户内家庭成员的方法。它的原理与随机数表的原理是一致的。它包括家庭成员编号(最大值
22、为8)、家庭成员名单(从与接待者的关系起定位)、性别、年龄等。,(1)科什选择法(kish),2.印制选择卡,给每个调查员发一套(八张),1.调查表编号。,Kish 选择表,3.给抽中家庭每个成年人进行编号并排序。方法是男性在前、年级大的在前。,4.根据调查表上的编号找出编号相同的那种“选择表”查出中选个体的序号,进行调查。,住户家庭成员情况登录表,抽 样 表,5,(2)生日法,1.随机确定一年中的某一天为标准日期。为便于计算,通常抽取每个月的第一天,比如说6月1日或者7月1日等等。2.了解所抽中的户中18岁以上的人口数,以及每人的生日是几月几号,3.计算出每人的生日距离标准日期的天数4.从中
23、选出生日距离标准日期最近的人(或者最远的人)作为调查对象。,例,一项调查确定的标准日期为8月1号。所抽中的某户家庭共有5口人,老年夫妇2人,青年夫妇2人,一个上小学的儿童。询问四个人的生日,假设老头子的生日为2月9号、老太太9月27日、年轻丈夫6月18日、年轻妻子5月6日。,五、样本规模,(一)样本规模,(二)影响样本规模大小因素,1.总体规模2.抽样精确性3.总体的异质性程度4.研究者所拥有的经费、人力和时间,常用抽样的比率(经验),六、非抽样误差,(一)误差类型1.抽样框丢失了本该列入的目标总体单元2.抽样框包含了不应该列入的目标总体单元,(一)误差类型,3.抽样框与目标总体存在不符合连接
24、一个门牌号内居住两户或多户一个住户有两处或多处住房,(二)流动人口抽样1.集体户管理2.暂住人口(三)追踪调查中的样本轮换,A.地址不准确及解决办法1.人户分离2.多处居所3.空巢现象,(四)无回答误差,按门牌号码抽样,解决办法,B.访问时不在家及解决办法,1.入户抽样与入户调查相分离2.保证20的回访率,C.拒访及解决办法,1.动员政府资源2.扩大样本规模3.提高问卷质量4.提高访问员素质,阅读材料,中国 19.3?,摘自2004 全球性状况调查报告,杜蕾斯调查对象选定,11月2日下午,为了证实杜蕾斯于今年向社会公布的全球性调查报告的真实性,记者特意请到了数字长春网站的首席运营官吕中秋先生。
25、当日下午4时许,记者终于在杜蕾斯的网站上看到了“杜蕾斯全球性调查表”的字样。,记者发现,在杜蕾斯网站的这个网页上,只需填写5个人名和5个电子邮箱,就再也找不到其他关于“杜蕾斯全球性调查表”的内容了。,根据页面提示,记者与数字长春网站的首席运营官吕中秋填写了5个人名和5个电子邮箱,但随后网页中显示出“感谢您完成杜蕾斯全球性调查问卷,当调查结果出台时,我们将给您发送一封电子邮件,告知您的国家(人)的性秘密。,此外,吕中秋还在网页上发现了一个可以迅速下载“调查问卷”的方法,就是必须先下载一个PDF软件。,两个小时后,记者填入“调查问卷”中的5个电子邮箱分别收到“杜蕾斯”网站的回信。打开邮箱,出现的页
26、面竟然与杜蕾斯中国网站的画面一致,只是文字变成了英文。,农村人比城里人感到幸福,张若渔(中国青年报,2004年12月18日),背景,日前,2005年社会蓝皮书中公布的“2004年中国居民生活质量报告”调查结果显示,目前中国近八成居民感到生活幸福,农村居民幸福感强于城镇居民。此次调查的数据来自2004年10月对全国7个大中城市、7个小城镇及8个农村地区的调查。,从报道中我们看不出调查了哪些城镇和哪些农村,所以也不敢妄下断语说调查不科学。但是笔者注意到,调查的城镇加起来有14个,而农村地区只有8个。,单纯从数字来说,这似乎有些不妥。众所周知,中国有8亿农民生活在农村,而城镇人口只有5亿多,那凭什么对广大农村地区只调查了8个,而对占人口少数的城镇却调查了14个呢?也许有人说,调查是具有代表性的。,但是别忘了,代表性必须以普遍性为前提,没有普遍性的代表性恰似无本之木,无源之水,人们有理由对此提出质疑。还有就是,调查的农村地区是相对富裕地区还是贫困地区?如果这个指标没有科学性的话,调查得出的数据也许会大相径庭。,