抽样方法和样本量估计.ppt

资源描述

《抽样方法和样本量估计.ppt》由会员分享，可在线阅读，更多相关《抽样方法和样本量估计.ppt（25页珍藏版）》请在三一办公上搜索。

1、抽样方法和样本量估计,报告人：常捷,关于抽样的概念,研究对象(unit of analysis)根据研究目的确定研究对象。总体(population)在明确研究对象的基础上，确定其同质范围。调查对象(sampling element)被抽中的研究对象。抽样单位(sampling unit)(如县、乡、村、医疗机构等等)观察对象(observation unit)如调查户主，户主填写户中各个家庭成员情况抽样表(sampling frame)列出所有抽样单位的名册抽样方法(sampling design)抽样误差(sampling error)只是因为抽样个体差异产生的随机误差抽样偏移(samp

2、ling bias)造成系统误差，样本层面的系统的偏差，对总体的代表性偏差,抽样方法可分为概率抽样法与非概率抽样法两类概率抽样法（probability sampling）总体中每个个体被抽中的概率是已知且不为零的，可以计算抽样误差并在此基础上做统计推断。主要包括：简单随机抽样；系统抽样；整群抽样；分层抽样非概率抽样法（non-probability sampling）不知道总体中每个个体被抽中的概率，选择样本的过程往往不是随机的。抽样误差无法计算，选择偏移无法控制。主要包括：方便抽样；配额抽样；目的抽样；滚雪球抽样,单纯随机抽样 simple random sampling,单纯随机抽样就是

3、在总体中以完全随机的方法抽取一部分观察单位组成样本。常见的办法是先对总体中全部观察单位编号，然后用抽签、随机数字表或计算机产生的随机数字的方法从中抽取一部分观察单位组成样本。但是当总体例数较多时，这种方法不太适用。单纯随机抽样法是其他概率抽样法的基础。Random Number Generator http:/,系统抽样 systematic sampling,系统抽样又称机械抽样或等距抽样，先将总体的观察单位按某一顺序分成n个部分，再从第一部分随机抽取k号观察单位，一次用相等间隔，从每一部分各抽取一个观察单位。系统抽样常作为单纯随机抽样的替代。,整群抽样 cluster sampling,整

4、群抽样是先将总体按照某种与主要研究指标无关的特征划分为K个群，每个群包含若干观察单位，然后再随机抽取k个群，由抽取的各个群的全部观察单位组成样本。与前两种方法不同在于抽样单位不同，不是直接抽取个体，而是抽群。单层整群抽样single-stage cluster sampling多层整群抽样multi-stage cluster sampling群的变异越小，群越多，抽样误差越小样本量一定情况下，增加群、减少每群中样本数，能提高总样本的代表性成本低代表性差,分层抽样 stratified sampling,分层抽样是先按照对研究指标影响较大的某个特征将总体分成若干类别（即“层”），再从每一层内

5、抽取观察单位，合起来组成样本。优点1）相同样本量，抽样误差最小优点2）不同的层中，根据实际情况可以选择不同的抽样方法各层观察单位数的分配：等比例分配；最优分配 1）2）；,非概率抽样法（non-probability sampling）虽然在对总体的代表性上很差，在此基础上做统计推断也不科学，但在很多情况下，也是适用的。,方便抽样 Convenience Sampling,方便获得的个体即选为样本，样本中每个个体的获得都是偶然性的。最终，样本不能够代表总体。不能在此基础上做统计推断。可以用于研究的初始阶段，目的可以是为了发现了解相关信息，发现值得研究的问题，为下一步提出假设准备信息。,配额抽

6、样 Quota Sampling,配额抽样为保证样本的代表性，其样本中具有某种特征的比例几乎和母体中具有此种特征的比例相等。譬如某大学有10000名学生，我们要抽取1000名。将学生依年级分成如下四个子母体。年级学生数在母体之百分比样本人数一 3200 32%320 二 2600 26%260 三 2200 22%220 四 2000 20%200与分层抽样区别在于，分层抽样是按随机原则在层内抽选样本，而配额抽样则是由调查人员在配额内主观判断选定样本。,目的抽样 Purposive Sampling,总体量很小时，比如总体中只有三个个体，此时，随机抽样并不一定能抽到具有代表性的样本。这

7、种情况下，还不如根据自己的专业知识或者通过咨询专家借助他们的专业知识人为选出最有代表性的样本。,滚雪球抽样 Snowball Sampling,通过总体中的一个个体提供的线索找到其他的几个个体，再通过其他几个个体提供的线索找到更多的个体。适用于难以找寻、获得的研究对象如 HIV/AIDS 其抽样的代表性也局限于被调查者的提供的社会网络。,第四次卫生服务总调查家庭健康询问调查样本住户的抽取方法,将样本村（居委会）内全部住户（包括非本地户口住户）按名单顺序编号(Sampling Frame)；根据本村（居委会）应抽取的样本户数确定抽样间隔。国家样本点抽样间隔=本村（居委会）内户数/60（四舍五入

8、，取整数）西部扩点抽样间隔=本村（居委会）内户数/33（四舍五入，取整数）确定抽样住户：首先随机抽一张人民币，取其末四位数，该数除以抽样间隔后的余数确定为K值，则K抽样间隔。K值为被抽第1个住户编号，K 值加抽样间隔为被抽中的第2个住户编号，K值加两个抽样间隔为第3个被抽住户编号，以此类推。(Systematic Sampling),第四次卫生服务总调查医务人员调查样本抽取方法,一、调查对象调查对象为被抽中的临床医生和护理人员。被调查人员将在家庭健康询问调查的样本县（市、区）中抽取，涉及到的机构包括样本县（市、区）中的所有三级综合医院、部分二级综合医院及样本乡镇及街道中的所有社区卫生服务中心

9、和乡镇卫生院。二、调查对象的选取（一）综合医院 1、开展家庭健康调查的样本县（市、区）中的所有三级综合医院及部分县（市、区）医院参与调查，参与调查的机构名单见培训光盘；2、每所医院选取临床医务人员30名，其中医生20名，护理人员10名。（二）社区卫生服务中心及乡镇卫生院样本街道、样本乡镇中所有的社区卫生服务中心和乡镇卫生院均参与调查；每所社区卫生服务中心和乡镇卫生院选取临床医务人员10名，其中医生7名，护理人员3名。如机构内人员数量不满足样本需求时，按实际人数进行调查。三、样本个体选取原则(Quota Sampling)1、全院所有临床科室均要抽到；2、样本选取要求职称分布均匀，兼顾高、中、

10、初级职称。,中国健康与养老追踪调查抽样设计,2008预调查抽样介绍 CHARLS预调查抽样程序：县级单位的选取是按区域以及城乡分层，然后依照PPS（Probability Proportional to Size）方法随机选取的。在每个县级单位中，CHARLS再依照PPS方法随机抽取3个村级单位（或是一个城镇社区），在每一个村或社区中，再从地图上随机抽取25-36处住所；然后决定每个住所中家庭户的样本个数。CHARLS随机选取其中一个符合年龄条件的家庭，然后确定该家庭中符合年龄条件的家庭成员个数并随机抽取一人作为主要受访者。基于这样的随机抽样过程，每个村或社区会产生25-36个样本家庭，每户家

11、庭产生的受访者有1名（单身、离婚或丧偶）或2名（主要受访者及其配偶）。,中国健康与养老最总调查抽样方法,2011年全国基线调查抽样介绍CHARLS 抽样以保证样本的无偏和代表性为宗旨，通过四个阶段，分别在县（区）-村（居）-家户-个人层面上进行抽样。具体而言，在县（区）-村（居）两级抽样中，CHARLS均采用按人口规模成比例的概率抽样，简称为PPS抽样（probabilities proportional to size）。在县级抽样阶段，按照PPS方法，以每个区县2009年人口数量为基础，使用地区、城乡和GDP为分层指标，直接从全国30个省级行政单位（不包括西藏自治区、台湾省以及香港和澳门特

12、别行政区）范围内随机抽取150个区县；在村级抽样阶段，按照PPS方法，以每个村或社区2009年常住人口为基础，从上述150个区县中各随机抽取3个村或社区，最后得到450个村/社区。以上抽样过程均在STATA软件环境中进行，不允许换样本。为了避免人口信息的偏差，抽样时我们对450个村级单位的2009年常住人口数据与2007年数据进行了比对。对于两年人口数据差别超过一定限度的村或社区，向统计局进行了核实。同时，对于抽中的村或社区，通过中国疾控中心发文到全国进行核实，进一步保证了抽样的质量。在村/社区抽样完成后，为得到准确的家户样本抽样框，中国健康与养老追踪调查项目设计并开发了专用的绘图软件（简称C

13、HARLS-GIS）以进行实地绘图并搜集住户信息。该软件利用清晰的Google Earth影像图或者其它途径的图片作为底图。在实地工作中，绘图员首先携带GPS在村的边界外走一圈来确定样本村/居委会的边界；其次，根据实地情况依次在底图上勾画建筑物，导入建筑物GPS位置并进行拍照；之后，填写建筑物内住户信息列表。在绘图和列表工作完成后，CHARLS北京总部与每个村（居）联络人联系，并对以下三方面进行审核：（1）边界是否准确；（2）是否所有建筑物都包括在内；（3）住户列表是否准确（通过随机抽取住户核对他们的地址进行）。通过审核后，从每个样本村/居委会的所有住户信息列表中随机抽取80户样本家户，并对这

14、80户进行入户询问、核实家里最长家户成员的年龄、户主的姓名、联系方式、家户状态（是否空户、无法联系）。之后，根据2008年CHARLS甘肃和浙江试调查的拒访率，按照每个村（居）24户有效家户估算需要抽中的样本户数量并在80户内进行相应数量的样本抽取。最终在450个村、居抽取的样本户为23590户。抽样完成后，抽中的住户会在地图上自动显示，绘图员会重新访问这些户，对住户门口拍照，取GPS位置，送致居民的一封信。在个人层面，我们利用过滤问卷进行调查，在每个样本户中随机选择一位年龄大于45岁的家庭成员作为主要受访者，对他（她）及其配偶进行访问。,样本含量（sample size）,为了保证研究结论的

15、可靠性，确定的实验研究或调查研究所需要的最低观察对象的数量。样本含量少，研究结论不可靠（accuracy）样本含量过多，造成人财物的不必要浪费（efficiency）还有可能引入不必要的混杂因素。,影响所需样本量的因素,总体特征(,the size of population)分析方法(比较和同时分析的变量)对估计精度的要求()财力、时间和人力研究设计(如实验研究；准实验研究)回应率(1回应率；2问卷合格率),样本量估计时考虑的因素,第一类错误概率大小（或置信度1-），越小，所需要的样本含量越大，根据研究问题的性质和研究目的决定I型错误的概率值，通常情况下，取0.05，可取单侧或双侧。第二类错

16、误概率大小，越小，检验效能1-越大，所需样本量也越大，一般要求检验效能不低于0.80。一般只取单侧。在参数估计的样本量估计中不涉及，在假设检验的样本量估计中涉及。,样本量估计时考虑的因素,容许误差，是指研究者要求的或客观实际存在的样本统计量与总体参数间或样本统计量间的差值，容许误差值越小，所需样本量越大。总体标准差或总体率，常根据预试验以及前人的研究结果或统计理论进行估计，愈大或愈远离0.5，所需样本量越大。,样本量估计,估计总体均数的样本含量估计总体率的样本含量,样本量估计,样本均数与总体均数比较两样本均数比较多个样本均数比较,检验效力（Power）,样本量显著性水准 effect size，即相关系数G*Power,Thank you!,

展开阅读全文