《《基本抽样问题》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《基本抽样问题》PPT课件.ppt(64页珍藏版)》请在三一办公上搜索。
1、基本抽样问题,Sampling,学习目标,掌握抽样概念学习开发抽样计划的步骤明确随机样本和非随机样本的区别明确抽样误差和非抽样误差概念复习随机抽样法的类型了解非随机抽样法的类型,8.1 重要术语的定义,总体与全域,在抽样领域,总体(population)和全域(universe)可以互相代替总体或同质总体是指能提供所需信息的人的全体,Sampling Fundamentals,Census?or Sample?,抽样与普查,普查(census)指获取同质总体中每个成员的信息,但在市场调研中并不常用事实证明:一个相对较小、但精心选择的样本能准确地反映出所抽查的总体的特征,抽样调查,也称为抽查,是
2、指从调研总体中抽选出一部分要素作为样本,对样本进行调查,并根据抽样所得的结果推断总体的一种专门性的调查活动。,8.2 开发样本计划的步骤,第1步:定义同质总体,第2步:选择数据收集方式,第3步:选择抽样框,第4步:选择抽样方法,第5步:确定样本容量,第6步:制定选择样本单位的操作程序,第7步:抽样计划的实施,第1步:定义总体(有时也叫全域),定义同质总体的基础,例如,一个新的电视智力游戏节目的观众总体被定义如下:男性或女性年龄:880岁在过去30天里,在他们家里观看过电视智力游戏节目的人。筛选样本:如果家庭成员在电视公司工作,第2步:选择数据收集方式,第3步:选择抽样框,数据收集方式对抽样过程
3、有重要影响,抽样框的例子,电话簿随机选数字:如5783462邮寄名单,第4步:选择抽样方法,概率抽样,指总体中每个单位都具有同等可能性被抽中,样本数据不同于总体数据的差异被称为抽样误差。是对总体中每一个体都给予平等的抽取机会的抽样技术。每个样本抽中或抽不中完全凭机遇,排除了人的主观因素的选择。,非概率抽样,指从总体中非随机地选择特定的要素(单位),根据简便易行、减少开支的原则选择总体中的某些要素(单位),会导致非随机性。是对总体中每一个个体不具有被平等抽取的机会,而是根据一定主观标准来选取样本的抽样技术。,概率抽样与非概率抽样的优缺点比较,第5步:确定样本容量,对非概率抽样,依靠可得预算、抽选
4、规则、子集量分析来决定样本容量对概率抽样,需要在允许误差的目标水平(抽样结果和总体指标的差异)下和置信水平(置信区间涵盖总体真值的概率,置信区间是样本结果加减允许误差)下,计算样本容量。,第6步:制定选择样本单位的操作程序,第7步:抽样计划的实施,8.3 抽样误差和非抽样误差,抽样误差,指所选举样本的结果不能完全代表总体而导致的误差,非抽样误差,指在调研过程中,不准确计算和偏见等原因产生的不同于抽样误差的各种误差,随机的抽样误差,管理的抽样误差,8.4 概率抽样方法,简单随机抽样,在总体中每个单位在抽选时有相等的被抽中机会。概率公式为:,优越性:简单,满足概率抽样的一切必要条件,保证每个总体单
5、位在抽选时都有相等的被抽中机会,缺点:访谈费用过高,抽样数量多、覆盖区域大使数据收集过程费时费钱,另外,在实际市场调研中,简单随机抽样往往不是切实可行的,例子,二汽在调查它的销售人员对公司奖惩方法的意见的调查中,从200个销售人员中选择20个销售员作为样本以获得他们的意见。首先,可以给每个销售员一个号码,如,0199。,简单随机抽样,乱码表抽签法,等距抽样,经常作为简单随机抽样的代替物使用,优势:经济性,时间更少,费用也低,劣势:总体单位的排列,一些总体单位数可能包含隐蔽形态,调研者可能疏忽地把它们带进样本中,仍是上例,从200个销售员中选择n=20个,即每10个中抽一个:n 20 1 N 2
6、00 10随机从010中选择一个数,,=,分层抽样,1、把总体各单位分成两个或两个以上的相互独立的完全的组2、从两个或两个以上的组中简单随机抽样,优点:误差更小,统计更有效率,缺点:将样本适当划分层次所需的信息常常是得不到的;即使必要的信息是可得到的,但从所得的信息价 值来看,分层所需的时间和费用不划算,具体程序:,分层抽样的3个步骤,首先,辩明突出的(重要的)人口统计特征和分类特征,这些特征与所研究的行为相关,其次,确定每个层次占总体的比例,成比例分配:即样本各组比例与总体各层比例等同,注:n为样本量,N为总体单位数,I为各组(层)单位数,不成比例分配或最佳分配,最后,调研者必须从每层中抽取
7、独立简单随机样本,例子,研究某小镇上人们对办地方图书馆的看法。研究者估计受过不同教育程度的人的看法可能不一样。这样就根据受教育程度来把该镇上的居民分成几大块。,根据教育程度进行分层随机抽样,整群抽样,1、同质总体被分为相互独立的完全的较小子集2、随机抽选子集构成样本,样本是一组单位一组单位地抽取,其步骤为:,优点:成本效率高缺点:统计效率低,例子,要对武汉市的居民进行调查,但很难获得一个武汉市所有住户的名单。如果研究者要使用概率抽样的话,就有必要使用分群抽样。把武汉分成若干个区域,比如100个生活区,然后用随机抽样方法选出10个区来进行调查,选出这10个区的所以居户的名单,再从中使用概率抽样决
8、定要调查的住户的样本。,举例说明,例如,在某市进行一项居民消费情况调查。(一)地图块 地图块指在正式出版的行政区划地图上,将地图上的面积按一定标准划分为若干个地图块,每一地图块作为一基本的抽单位,样框总体即为地图块的总和。1分类:根据划分标准不同,主要分为网格块和街道地块。网格块 街道地块,8.5 非概率抽样,便利抽样,适用在缺乏经验而又急需真实数据的近似值时,比如,要对某大学的学生进行调查,研究者可以在学生食堂、校园路口选择要询问的学生。,适用于调研员基于选择标准抽取典型样本的情形。某大商场想要新增加一种食品,但经理首先想知道顾客对这种食品的反应。经理首先判断这种查品可能最适合独生子女家庭使
9、用。他知道这些家庭通常回结伴上街购物,一般是在星期天。这样,经理就通过这些判断来从顾客中选择要询问的对象。,判断抽样,根据一定标志对总体分层或分类后,从各层或各类中主观地选取一定比例的调查单位的方法,配额抽样,例子,要调查100个家庭的主人对城市住户规划的意见。研究者可以将研究总体在收入的基础上进行分类。设,滚雪球抽样,指通过使用初始被调查者的推荐来挑选另外的被调查者的抽样程序。比如:某保险公司可能想得到在过去6个月中从健康保险转如康复组织的全国性个体样本,为了找到符合条件的1000个样本,可能需要在全国范围内进行大量的调查。可先取得特征总体中200个最初样本单位,平均每个最初调查者那里得到另
10、外4个人的名单。由此,来完成1000个样本。,因特网抽样,1、在线的人群仍然不能代表总体;2、不存在一 个可作为抽样框的包括所有的EMAIL地址的中心数据库,因此,目前还不能说任何一种网上的抽样都是典型的概率抽样,发展存在的两个问题:,抽样方法分类,抽样方法,概率抽样,非概率抽样,分层抽样,等距抽样,便利抽样,滚雪球方法,整群抽样,简单随机抽样,判断抽样,配额抽样,8.6 样本容量的确定,学习目标,了解样本容量确定过程中的财务和统计问题寻求确定样本容量的地方理解正态分布理解总体、样本及抽样分布区分点估计和区间估计认识抽样平均值和抽样比例问题,8.6.1 确定概率抽样的样本容量,财务、统计和管理
11、问题,利用抽样结果做必要推断时需要的3条信息:,可支配预算,单凭经验的做法,要分析的子群数,传统的统计方法,总体标准差的估计值可接受的抽样误差范围抽样结果落入总体实际值的某一特定范围(抽样结果抽样误差)内的预期置信度,8.6.2 正态分布,总体特征,正态分布呈钟型且只有一个众数,正态分布相对于平均值对称,一个具体的正态分布由其平均值和标准差唯一决定,正态分布曲线下方的总面积等于1,正态分布曲线下方任意两个变量之间的区域的面积,等于从该分布中随机抽取一个观察对象,其值在这两个变量值之间范围内的概率,正态分布在其平均值给定个数的标准差之间区域的面积都相同,标准正态分布,平均值为0,标准差为1任意正
12、态分布的任一变量值X通过一个简单的转换公式就能变换成相应标准正态分布中的Z值,总体分布、样本分布和抽样分布,总体分布:是总体中所有单位的频率分布,样本分布:是单个样本中所有单位的频率分布,样本平均值的抽样分布:指从一个特定总体中抽取的给定容量的所有可能样本的平均值,一个概念上和理论上的概率分布,它是一个正态分布,平均值的抽样分布,主要特征,是正态分布分布的平均值等于总体平均值分布的标准差,称为平均值的标准误差,将该统计量称做“平均值的标准误差”而不是标准差,它适用于样本平均值的分布,而不是总体分布或样本分布的标准差,且这种计算只适合简单随即样本,根据单个样本做出推断,点估计:是对与一总体值的某
13、一特定估计值有关的抽样误差的推断区间估计:是对总体值落在某范围内的可能性的推断,点估计和区间估计,置信度或置信系数:总体平均值的实际值在区间范围内的概率,区间则被称为置信区间,平均值的区间估计,8.6.5 比例抽样分布,主要特征,近似于正态分布所有可能的样本的比例的平均值等于总体比例比例的抽样分布的标准误差可以按下面公式计算:,式中,8.6.6 样本容量的确定,关于平均值问题,计算所需样本容量的公式:,计算样本容量必需回答的3个问题,可接受的或允许的抽样误差的具体范围(E)是多少?,以标准误差表示的可接受的置信度(Z)是多少?,所需的总体标准差()的估计值是多少?,估计总体标准差的4种方法,利
14、用以前的调查结果,进行试验性调查,利用二手资料,运用判断,关于比例问题,计算所需样本容量的公式:,例子,某城市一所大学有学生5000人,该大学计划从城里募集一些资金来扩建一个教学项目。理由之一是向城里人人,特别是商人有教大的经济利益。作为这个研究的一部分,要从学生中抽样调查他们在该城市的月花费。这个结果用来估计整个学生整体的花费。,如果要求在95%的置信度下,学生的置信区间为所有学生真实平均花费的+-2元范围,决定S的一个可行方法是进行一个小样本的调查(n=30),使用这个样本的标准方差作为S。假设S=13.5元。,An Example,Suppose a researcher is inte
15、rested in estimating the proportion of families in the United States owning birds as pets.Although the researcher has learned from industry sources that one out of every five families owns a bird,the researcher believes it is necessary to sample families.As part of the sampling process,an appropriat
16、e sample size must be determined.If the researcher wants to employ a confidence coefficient of 0.90 and be certain the sample estimate will lie within 4 percent of the population proportion,given the study procedures to be employed,then the sample size required(assuming a simple random sample)can be
17、 approximated in the following manner.,If,approximate sample size(since 1-=0.90,=0.10 and/2=0.05,so that t=1.65 from Statistical Appendix Table 4)(Since p=0.20 and 0.20(0.80)is an estimate of variance)(0.042),or 272,then,Thus,the researcher uses a sample size of 272,总体容量和样本容量,通常,总体容量与为在一定误差范围内和一定置信度下估计总体参数所需的样本容量之间没有直接的关系,样本容量占总体5%以下时平均值的标准误差公式:,样本容量占总体5%及以上时平均值的标准误差公式:,其中,(N-n)/(N-1)被称为有限总体修正系数,当样本较大时,调研人员可以通过有限总体修正系数来适当地减少所需的样本容量,通过运用下面公式来计算:,8.6.7 统计功效,第I类错误:不存在差异时推断差异存在而产生的错误,第II类错误:当实际存在差异时认为没有差异而产生的错误,统计功效:不发生第II类错误的概率,计算样本容量的标准公式默认统计功效为50%,FINISHED!,