抽样调查计算题.ppt

上传人:小飞机 文档编号:5056507 上传时间:2023-06-01 格式:PPT 页数:156 大小:407.50KB
返回 下载 相关 举报
抽样调查计算题.ppt_第1页
第1页 / 共156页
抽样调查计算题.ppt_第2页
第2页 / 共156页
抽样调查计算题.ppt_第3页
第3页 / 共156页
抽样调查计算题.ppt_第4页
第4页 / 共156页
抽样调查计算题.ppt_第5页
第5页 / 共156页
点击查看更多>>
资源描述

《抽样调查计算题.ppt》由会员分享,可在线阅读,更多相关《抽样调查计算题.ppt(156页珍藏版)》请在三一办公上搜索。

1、1,抽样调查,抽样调查的概念与作用抽样类型与抽样程序概率抽样原理抽样误差抽样估计样本量的确定假设检验,2,抽样调查的概念与作用1.概念抽样调查是一种非全面调查,它是从全部调查研究对象中,抽选一部分单位进行调查,并据以对全部调查研究对象作出估计和推断的一种调查方法。显然,抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。,3,2.特点遵循随机原则抽样依据随机原则,总体中每个单位都有同等被抽中的机会。目的是推算总体抽样调查的目的在于通过样本获得资料,并进一步从数量上推断总体。可以计算和控制误差其他调查方式都存在误差,但都无法计算。,4,3.作用现实

2、中不可能进行全面调查,而又需要了解其全面情况的现象(如破坏性实验、产品寿命检查等)。有些现象虽然可以进行全面调查,但是由于总体范围大、单位数目多,又缺乏原始记录,进行全面调查有许多困难(如家计调查)。检查和修正普查资料(如人口普查后的1抽样调查)。当被调查总体中的单位无限多时,事实上不可能进行全面调查,只能用抽样调查(如江河、湖泊、海洋中有多少鱼,大气或海洋的污染程度等)。,5,在我国,抽样法已被广泛应用于各个领域。目前,国家统计调查制度中所包括的统计指标,依靠抽样方法取得的资料已达到三分之一左右。在城乡住户调查、农产品调查、价格统计、市场调查等领域,应用抽样调查已取得很好的成果,在人口统计、

3、社会统计、交通统计、商业统计等领域,抽样调查也正在发挥越来越重要的作用。随着我国社会主义市场经济的发展,抽样调查的应用范围将逐渐扩大,所发挥的作用也将越来越大。,6,抽样调查的局限性:首先,由于总体构成的复杂性,通常无法提供总体中各个组成部分的资料。其次,组织抽样调查要遵守某些条件,被调查对象也有一定限制。一些重要的反映国情、国力的统计资料,仍然必须组织全面调查。因此,既要大力推广和应用抽样调查,又不能用抽样调查取代其他调查,应根据资料的性质和调查对象的不同,采用不同的统计调查形式。,7,4.几个基本概念总体总体(也称全及总体)是指由调查对象的全部单位所构成的集合体。有限总体:总体中所包含的单

4、位数目是有限的。无限总体:总体中所包含的单位数目是无限的。总体单位数(总体容量),一般用N表示。,8,样本样本就是从总体中按一定方式抽取的一部分单位的集合。样本单位数(样本容量),一般用 n表示。样本容量相对于总体容量一般是很小的,即 n/N是个很小的数,往往是百分之几或千分之几,最大也不超过1/3。,一般 时,称为大样本;时,称为小样本。,9,总体指标(又称参数值或总体值)总体平均数()总体成数(P)成数即比重。指现象有两种表现时,其中一种表现的单位数所占的比重。总体标准差()总体方差(),10,样本指标(又称统计值或样本值)样本平均数()样本成数(p)样本标准差(),11,样本标准差的分母

5、为什么用自由度n-1?自由度是指一组数据中可以自由取值的个数。当样本数据的个数为n时,若样本均值确定后,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值。例如,样本数n为5,并且样本平均数为8,则从总体中最多只有4个数可以自由选择。如任意选择3,9,6,5则最后一个数只能选择17,没有其他的选择可能。样本方差(),12,重复抽样与不重复抽样重复抽样(也称回置抽样)即每次从总体中随机抽取一个总体单位,经调查登记后再放回总体,参加下一次抽选,直到抽选出第n个样本单位。由于每次在抽取样本单位时总体单位数都保持不变,因此,每一个总体单位被抽中的可能性是相同的,被抽中的概率为1/N。,13,不

6、重复抽样(也称不回置抽样)即每次从总体中随机抽取一个总体单位,经调查登记后不再放回总体中,而是从余下的总体单位中随机抽取下一个总体单位进行调查,直到抽选出第n个样本单位。在这种抽样方法中,第一个单位被抽中的机会为1/N,第二个单位被抽中的机会为1/(N-1),以此类推,总体中每个单位被抽中的机会是不相等的。在实际调查中,大多采用不重复抽样。,14,抽样类型与抽样程序1.抽样类型,抽样方法,概率抽样,非概率抽样,简单随机抽样等距抽样分层抽样整群抽样多阶段抽样PPS抽样,偶遇抽样判断抽样定额抽样雪球抽样,15,概率抽样概率抽样是使总体中的每一个个体都有一个已知不为零的被选机会进入样本。可分为等概率

7、抽样和不等概率抽样两类。等概率抽样是指总体中每一个个体被抽中的机会相等;不等概率抽样,是指总体中不同个体被抽中的机会不相等。实践中,一般多采用等概率抽样,因其在计算样本值以及抽样误差时不用加权,比较简单。,16,简单随机抽样简单随机抽样(又称单纯随机抽样、无限制随机抽样或完全随机抽样)是一种对总体的每个单位(个体)都不加任何限制的抽样。在总体中不作任何分组、划类、排队等,完全随机地抽取调查单位。它是抽样调查中最简单的组织形式。抽样理论就是以此建立的。,17,简单随机抽样的具体方法直接抽选法即直接从总体中随机抽选样本单位进行调查,这种方法适用于小型总体。抽签法即对被研究总体内各单位先进行编号,把

8、序号写在纸上,搅匀后从中抽选。这种方法在总体单位数目很大的情况下不宜采用。,18,随机数字表法随机数字表一般由计算机或用其他随机方法制成。使用时,先编号,并确定出位数,然后从表中任意一行、任意一列、任意一个方向开始,遇到属于编号范围内的数字就作为样本单位,直到抽够样本容量为止。链接资料附表17.doc链接资料随机数字表.doc,19,简单随机抽样适用情况:总体单位数较少,范围也有限;对总体的情况了解很少;当抽到的单位比较分散时,不会影响调查工作。从理论上说,简单随机抽样最符合随机原则,是衡量其他抽样方式抽样效果的标准。但是,它在统计实践中的应用受到一定的限制,当总体很大、范围很广时不宜使用。,

9、20,等距抽样等距抽样(又称系统抽样或机械抽样)它是先将总体中各单位按一定的标志排队,然后每隔一定的距离抽取一个总体单位(个体)的抽样方式。,21,按照排队时依据的标志不同,等距抽样分为按无关标志排队和按有关标志排队两种。无关标志就是与调查项目没有直接关系的标志。例如,在调查职工生活水平时,按职工的姓氏笔划排队。例:某学校有1300名学生,抽130人进行健康状况调查。可利用现有学号,随机起点(110号中随机确定),然后每隔10号(抽样距离10)抽取一个。,22,有关标志就是与调查项目有直接关系的标志。例如:城市职工家庭经济调查,一般按职工家庭的平均收入排队;农产量调查,一般按预计产量或前三年平

10、均产量的高低排队等等。但是,与无关标志排队不同,第一个样本的确定不是随机起点,而是将抽样起点固定为半距处。其目的是为了避免系统误差。,23,例:100人中抽取10人进行调查。首先,将100人按有关标志排队编号;其次,计算抽样距离:1001010最后,从半距开始抽,每隔一个抽样距离抽取一个调查单位。即:编号为 5,15,25,35,45,55,65,75,85,95的10个人组成样本。,24,排队后由于抽选的方法不同,等距抽样又可分为:随机起点等距抽样半距起点等距抽样对称等距抽样。,25,有关标志排队对称等距抽样它是半距起点的一种改进,是随机起点。其做法:首先,将总体各单位按有关标志排队,并计算

11、抽样距离K(KNn);其次,从排列为1K的各单位中,随机抽取一个单位(设为r,r为随机起点,1rK);最后,对称等距离抽取位于2Kr,2K+r,处的单位作为样本单位,直到抽满n个单位为止。,26,当n为偶数时,依次用2、4、6倍的K值减加r值,即可直接计算出各个样本单位的位次。即:r,2Kr,2Kr,4Kr,4Kr,27,当n为奇数时,则采取先抽中间后抽两边的办法,但要区别两种情况:两边要抽取的样本单位数为偶数如,5个样本单位,中间为3,两边为2。则中间样本以前第二个单位起用2、4、6 偶序数K值减加r值计算各个样本的位次;中间样本以后,用中间样本数为起点的奇序数倍K值减加r值计算各个样本的位

12、次。如上例,各样本单位的位次如下:r,2Kr,3K,3Kr,5Kr,28,两边要抽取的样本单位数为奇数如,7个样本单位,中间为4,两边为3。则:中间样本以前第二个单位起用2、4、6 偶序数K值减加r值计算各个样本的位次;中间样本以后,用中间样本数加1为起点的奇序数倍K值减加r值计算各个样本的位次。如上例,各样本单位的位次如下:r,2Kr,2Kr,4K,5Kr,5Kr,7Kr,29,例:某乡共有14个村,现采取对称等距抽样从中抽取4个村进行农村家庭经济收入情况调查。有关资料如下表。,30,某乡2008年农村家庭经济收入情况,31,抽样距离:K1593243983(人)确定随机起点,即在03983

13、中,抽取一个随机数,假定r=2000,那么累计人口数中包含2000的村即为抽中村,也就是编号为第2号的村即为第一个抽中村。以下依次有:2Kr2398320005966,则第二个抽中的村为5号;2Kr2398320009966,则第三个抽中的村为9号;4Kr43983200013932,则第四个抽中的村为12号。,32,再如,仍用上例。假定r=1000,那么累计人口数中包含1000的村即为抽中村,也就是编号为第2号的村即为第一个抽中村。以下依次有:2Kr2398310006966,则第二个抽中的村为6号;2Kr2398310008966,则第三个抽中的村为7号;4Kr43983100014932

14、,则第四个抽中的村为13号。,33,等距抽样具有简便、易行、推断的代表性高等特点,但在使用时要注意总体单位的标志值按一定顺序排列后是否有周期性波动。等距抽样的间隔不要与周期波动幅度一致,否则会产生较大的误差。,34,类型抽样类型抽样(又称分层抽样或分类抽样)是按照某一标志先将总体分成若干组(类),其中每一组称为一层,然后在每一层内按照纯随机抽样或等距抽样方式进行抽样的抽样方式。例如:先将工业企业划分为冶金、电力、石油化工、煤炭、机械、电子等部门,然后在每个部门中随机抽取调查单位。,35,在分组后,抽取样本单位的具体方法有两种:等比例抽样与不等比例抽样。等比例抽样是各组按同一比例抽取样本单位。例

15、:某省有56个县(市),其中山区16个,丘陵16个,平原24个。现从中抽取14个县(市)进行农产量调查。14560.25(25),则山区为:16254,丘陵:16254,平原:24256。不等比例抽样是各组按不同比例抽取样本单位。,36,实际工作中,类型抽样应用广泛。在总体单位标志值相差悬殊的情况下,运用类型抽样的效果比较好。其优点:一是可以提高样本的代表性。由于样本单位来自不同的组,能更接近总体的分布情况,因而提高了样本的代表性。二是降低了影响抽样平均误差的总体方差。总体方差有组间方差和组内方差两种。由于从各类型组都抽取了样本单位,对各类型组来说是全面调查,因此可以不考虑组间方差,而只考虑组

16、内方差即可。,37,整群抽样整群抽样是先将总体按某一标志分成若干组,每一组称为一个群,以群为单位进行简单随机抽样,然后对抽到的群进行全面调查的抽样方式。例如:了解某地区职工家庭生活状况时,按居委会分群,然后对抽到的群(居委会)所辖每户职工家庭进行调查登记。,38,从理论上讲,在进行整群抽样时应尽可能缩小群与群之间的方差,以减小抽样的平均误差。但实际上,群大多是自然形成的,很难人为地缩小群间方差。与简单随机抽样相比,如果调查单位相同,则整群抽样由于调查单位相对集中,不能均匀地分布在总体中,随机性受到影响,因此其准确性较简单随机抽样差。与其它几种抽样调查形式相比,其准确性也较差。其优点是费用比较节

17、约。,39,多阶段抽样前面介绍的四种抽样方式都属于单阶段抽样,即一次抽选就可以确定样本单位。而多阶段抽样是将一次抽样后得到的样本当作总体再次进行随机抽样,得到第二次抽样样本,然后再如此进行下去的抽样方式。例如:我国农产量调查就采用五阶段抽样方式。省抽县、县抽乡、乡抽村、村抽地块、地块抽样本点,对样本点进行实割实测的调查方法。,40,多阶段抽样可以使样本单位相对集中,便于组织,可以节约人力及费用。在多阶段抽样的各个阶段,可以根据具体情况采用不同的抽样方式,因而具有灵活方便的特点,在我国的统计实践中得到广泛应用。,41,PPS抽样(Probability Proportionate to Size

18、 Sampling)在多阶段抽样中,暗含了一个假设前提:即在每个阶段抽样时,其总体各单位的规模是相同的。如,前述农产量调查,第一阶段抽取县时,暗含了每个县规模相同;第二阶段抽取乡时,暗含了每个乡的规模相同;以下类推。但问题是,现实中它们是不同的。,42,例:假设某城市有100 000户居民,分属200个居委会。如果从中抽取1000户居民组成样本进行调查。采用两阶段抽样。第一步先从200个居委会中随机抽取20个居委会(这里暗含了每个居委会规模一样大的假设前提);第二步在抽中的20个居委会中,每个居委会随机抽取50户居民。,43,再比如,被抽中的居委会中,甲居委会有800户居民,乙居委会只有200

19、户居民。那么:甲居委会居民被抽中的概率为(20/200)(50/800)1/160乙居委会居民被抽中的概率为(20/200)(50/200)1/40两者相差4倍。为了解决上述问题产生了PPS 抽样。,44,PPS 抽样又称比率抽样、按规模大小成比例的概率抽样、概率与元素的规模大小成比例的抽样等,属于概率抽样中的不等概率抽样。就是将总体按一定标准划分出容量不等的具有相同标志的单位,然后在总体中按不同比率分配的样本量进行的抽样。其基本原理可以理解为:以阶段性的(或暂时的)不等概率换取最终的总体的等概率。,45,例:从某市100家不同规模的企业(总共20万名职工)中抽取1000名职工进行调查。而这1

20、00家企业的规模不同,最大的企业有职工16000名,最小的企业只有200名职工。为了使职工被抽中的概率相同,可以采用PPS 抽样。其方法如下:,46,首先,先将企业排列起来,然后将各个企业的规模列在后面,计算所占比重和进行累计,并根据累计数依次写出对应的选择号码范围(见表第一、二、三、四、五列);其次,采用随机数码表或等距抽样的方法选择号码,确定入选第一阶段的样本(见表第六、七列);最后,再从所抽取样本中进行第二阶段抽样,即从每个被抽中的元素中抽取50名职工。,47,用PPS方法抽取第一阶段样本举例,48,从抽样结果看,规模大的企业,被抽中的概率也大。如企业3就抽到两个号码,那么在第二阶段时就

21、需要抽100名职工(502100)。所以,这种方法最终抽出的样本对总体的代表性比较大。,49,非概率抽样非概率抽样主要依据研究者的主观意愿、判断或是否方便等因素来抽取对象,它不考虑抽样中的等概率原则。非概率抽样往往会产生较大误差,也难以保证样本的代表性。,50,偶遇抽样(又称方便抽样或自然抽样)指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离的最近的、最容易找到的人作为调查对象。如:在图书馆阅览室对正在阅读的人进行调查;在商店门口对进出的顾客进行调查等等。偶遇抽样不属于随机抽样,它不能保证总体中的每一个成员都具有同等被抽中的概率,因而偶遇抽样不能推算总体。

22、,51,判断抽样(又称立意抽样)指调查者根据研究的目标和自己的主观分析,来选择和确定调查对象的方法。与典型调查确定典型的方法类似。此方法抽样标准的确定带有较大的主观性。其优点是可以充分发挥研究人员的主观能动作用。其缺点是所得样本的代表性难以判断。其适用于总体规模小、调查所涉及的范围较窄,或调查时间、人力等条件有限的情况。,52,定额抽样(又称配额抽样)指研究者应尽可能依据那些有可能影响研究变量的各种因素来对总体分层,并找出具有各种不同特征的成员在总体中所占的比例。然后依据这种划分以及各类成员的比例去选择调查对象,使样本的分布尽量接近总体。,53,例:假设某高校有20 000名学生,其中,男生占

23、60,女生占40;文科学生和理科学生各占50;一年级学生占40,二、三、四年级学生分别占30、20和10。现采用定额抽样方法依据上述资料抽取一个1000人规模的样本。依据总体的构成和样本规模,可以得到定额表,见下表。,54,1000个学生的定额样本分布表,55,定额抽样与分层抽样很相似,但两者有本质区别。首先,两者的目的不同定额抽样的目的在于抽取总体的“模拟物”,注重的是样本与总体在结构比例上的表面一致性;而分层抽样,一方面是要提高各层间的异质性与同层中的同质性,另一方面是为了照顾到比例小的层次,提高代表性,减少误差。其次,两者的抽样方法不同定额抽样是按事先规定的条件,有目的地抽样;而分层抽样

24、是排除主观因素,等概率地抽样。,56,雪球抽样指在总体情况未知的前提下,可以从少数成员入手,对他们进行调查,并通过他们再去寻找哪些符合条件的人,如此下去,如同滚雪球。如,研究退休老人的生活,可以清晨到公园去调查晨练的老人,再通过他们结识更多的老人。这种方法的缺点是容易产生偏差,如上例,那些不去晨练,不愿与人交往,喜欢在家的老人就很难被包括进去,而他们却代表另一种退休后的生活方式。,57,2.抽样程序界定总体 链接文摘预测的失.ppt制定抽样框 链接抽样框.ppt确定抽样方法抽取样本评估样本质量,58,概率抽样原理1.抽样科学性的三个依据部分来自于全体,必带有反映全体的信息;构成(同质)总体的一

25、些个体之间在性质上必定相似或相近,所以彼此有相当代表性;不管原始分布如何,样本平均数的分布总可视为正态分布,而且由此得到总体参数准确估计的概率值极大。,59,2.抽样调查的理论基础大数定律大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。其原因是,在大量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。,60,例如,观察个别或少数家庭的婴儿出生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的观察就会发现,男婴和女婴占婴儿总数的比重均会趋于50%。,61,大数定律有若干个表现形式

26、。这里仅介绍其中常用的两个重要定律:切贝雪夫大数定理 设 是一列两两相互独立的随机变量,服从同一分布,且存在有限的数学期望a 和方差,则对任意小的正数,有:该定律的含义是:当n很大,服从同一分布的随机变量 的算术平均数 将依概率接近于这些随机变量的数学期望。将该定律应用于抽样调查,就会有如下结论:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。,62,贝努里大数定律 设n 是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为P,则对任意正数,有:该定律是切贝雪夫大数定律的特例,其含义是,当n足够大时,事件A出现的频率

27、将几乎接近于其发生的概率,即频率的稳定性。在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。,63,中心极限定理中心极限定理,是概率论中讨论随机变量和的分布以正态分布为极限的一组定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。从正态总体中,随机抽取含量为n的样本,样本均数也服从正态分布;即使是从偏态总体抽样,当n足够大时(比如n30),也近似正态分布。,64,从均数为,标准差为的正态或偏态总体抽取含量为n的样本,样本均数的总体均数也为,标准差为,可近似地按下式计算:,65,抽样误差1.抽样误差的概念由于样本不能完全代表总体所产生的误差,就是抽

28、样指标和总体指标之间的绝对离差。抽样误差包括:样本平均数与总体平均数的差;样本成数与总体成数的差。,66,统计调查中的误差登记性误差是指在调查和整理资料的过程中,由于主客观原因引起登记或计算错误而造成的误差,是所有统计调查都可能发生的误差。系统性误差是指在抽样时违背了随机性原则而造成的误差。登记性误差和系统性误差都可以采取一定的措施加以避免。,67,抽样误差是一种代表性误差,但并不是所有的代表性误差都是抽样误差。抽样误差是指在没有登记性误差的前提下,又遵循了随机原则而产生的样本指标与被它估计的总体相应指标的差数。这种误差是不可以避免、难于消除的,但可以采取一定的方法加以控制。,68,抽样误差的

29、影响因素:总体各单位标志值的差异程度在其它因素相同的条件下,总体各单位标志值差异程度越大,抽样误差也越大。样本的单位数相同的条件下,样本单位数越多,抽样误差就越小。抽样的方法一般地,不重复抽样的误差要小于重复抽样的误差。抽样调查的组织方式按有关标志排队的等距抽样误差一般小于其他形式的抽样误差。,69,2.抽样平均误差概念从同一个总体N个单位中随机抽取n个单位组成样本可以有不同的取法,因而有很多个样本,并且各样本指标是随机变量,它们与总体指标之间存在着误差,那么平均来讲误差了多少,就是抽样平均误差。,70,定义公式抽样平均误差就是全部可能的样本指标与总体指标离差平方和的平均数的平方根,实际就是抽

30、样平均数或抽样成数的标准差。,71,举例说明:某高校经济学专业A、B、C、D四名同学的宏观经济学课程考试成绩分别为:60分、70分、80分和90分。现假定分别采取重复和不重复抽样方法从中抽出两名学生作为样本进行抽样调查。,72,注:重复排列不重复排列由资料可得:,73,重复抽样的抽样平均误差,2,74,则:重复抽样的抽样平均误差为:计算表明,对于16个可能样本来讲,其样本平均数与总体平均数的平均误差是7.91分。,75,不重复抽样的抽样平均误差,2,76,则不重复抽样的抽样平均误差为:计算表明,对于12个可能样本来讲,其样本平均数与总体平均数的平均误差是6.45分。,77,抽样平均误差的大小可

31、以用来衡量样本指标代表性的大小。如果抽样平均误差越大,则抽样误差的离散程度就越大,样本的代表性就越弱;反之,抽样平均误差越小,则抽样误差的离散程度就越小,样本的代表性就越强。,78,实际计算根据抽样平均误差的定义公式计算抽样平均误差实际是不可能的,因为实际工作中,总体的单位数很多,样本数也较多,不可能抽取所有可能样本,而是只抽取一套样本。那么实际工作应如何计算?,79,重复抽样的抽样平均误差抽样平均数在重复抽样的条件下,抽样平均数的平均误差的计算公式为:式中,为抽样平均数的平均误差,为总体数量标志的标准差,n为样本容量。,80,抽样成数(成数方差.ppt)在重复抽样的情况下,成数的抽样平均误差

32、的计算公式为:式中,为抽样成数的平均误差,p(1-p)为总体是非标志的方差。,81,不重复抽样的抽样平均误差抽样平均数平均数的抽样平均误差计算公式为:当N很大时,N-1N,上式又可以写为:,82,抽样成数在不重复抽样的情况下,成数抽样的平均误差为:当N很大时,上式可以写成:,83,上述公式中,称为修正系数。由于修正系数是一个小于1的数,因而,在其他条件相同的情况下,不重复抽样的抽样平均误差总是小于重复抽样的抽样平均误差。另外,当总体单位数很大时,修正系数趋向于1,重复抽样与不重复抽样的抽样平均误差相差甚微。因此,实际工作中,按不重复抽样抽取样本,而按重复抽样的公式计算抽样平均误差。,84,现以

33、前述四位同学考试成绩的例子加以验证。已知:N4,n=2,。则:重复抽样的抽样平均误差为:不重复抽样的抽样平均误差为:可见,与定义公式的计算结果完全相等。,85,必须说明:实际工作中,公式中总体标准差()通常是未知的,其解决办法如下:一是用样本标准差(S)来代替,如果是成数还可以用成数方差的最大值0.25来代替;二是用过去的全面调查或抽样调查的资料;三是依据历史资料来估计;四是在正式调查之前,先组织一次小规模的试调查。,86,例1,随机抽取某大学100名学生调查体重,经过称量和计算后,学生的平均体重58公斤,同时由过去的资料知道该校学生的体重总体标准差为100公斤,求平均体重的平均误差。,87,

34、例2,某大学随机抽取400名学生,发现戴眼镜的有160人,计算戴眼镜学生所占比重的平均误差。,88,例3,某进出口公司出口一种名茶,从2 000包中随机抽取100包进行检验,资料如下,试计算这批茶叶平均重量的误差及每包重量在149克以上的茶叶所占比重的误差。链接资料抽样平均误差计算举例.doc,89,抽样组织形式与抽样平均误差以上关于抽样平均误差的计算公式都是简单随机抽样的,其他组织形式的抽样平均误差的计算公式都是在此基础上建立的。现分别简介如下:,90,类型抽样重复抽样计算公式:不重复抽样计算公式:,式中:或 表示平均组内方差,计算公式为,或,91,例如,某乡粮食播种面积20 000亩,按平

35、原和山区面积比例抽取其中的2%进行调查,资料如下表,要求计算平均亩产的抽样平均误差。,92,则:样本的平均亩产为:样本各组数量标志平均组内方差为:抽样平均数抽样误差为:,93,等距抽样一是无关标志等距抽样近似于简单随机抽样,可按简单随机抽样的误差公式计算。二是有关标志等距抽样实质上是一种特殊的类型抽样,不同的是分组更细、组数更多,而且每个组只抽取一个样本单位。因此,可以用类型抽样的误差公式计算。,94,整群抽样设总体的全部单位N划分为R群,每群包括M个单位,现从总体R群中随机抽取 r 群组成样本,对中选 r 群的所有M单位进行全面调查,则第i群样本平均数为:,(i=1,2,r),样本平均数为:

36、,95,样本平均数的抽样平均误差可以根据群间方差来推算。2为群平均数的群间方差,则:整群抽样都采用不重复抽样的方法,所以抽样的平均误差为:,或,96,抽样成数平均误差的计算道理与 类似。其样本成数p、样本成数群间方差 及抽样成数平均误差 分别为:,97,例如,从某县100个村中随机抽取10个村,对村中各户家禽饲养情况进行调查,平均每户饲养家禽35只,各村平均数的方差为16只。其抽样平均误差为:从以上计算可知,整群抽样只存在群间抽样误差,不存在群内抽样误差。,98,3.抽样极限误差抽样极限误差是指样本指标和总体指标之间抽样误差的可能范围。因总体指标是一个确定数,而样本指标则围绕着总体指标上下变动

37、,既可能产生正离差,也可能产生负离差,这样,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围。,99,设 和 分别表示抽样平均数与抽样成数的抽样极限误差,则有:将上列等式变换为下列等价的不等式:,100,因抽样调查的目的是用样本推算总体,因而,可将上述两个不等式再等价地变换为:,101,基于理论上的要求,抽样极限误差通常需要用抽样平均误差为标准单位来衡量,即将抽样极限误差除以相应的抽样平均误差,得出相对数 t,表示抽样极限误差为抽样平均误差的若干倍,即:,或,或,102,式中 t 值称作概率度。概率度与概率之间具有函数关系。为了方便,一般的统计教材都有正态分布概率表,

38、供实际工作时查用。现列举几个常用值如下:,103,抽样估计抽样估计就是根据样本指标的数值估计和推断总体指标的数值。有两种估计方法:点估计和区间估计。1.点估计又称定值估计,是用实际样本指标的数值代替总体指标的数值,即总体平均数的点估计值就是样本平均数,总体成数的点估计值就是样本成数。,104,例如,某大学对200名学生进行调查,平均身高1.62米,戴眼镜的比例为35%。按点估计,则认为该校全体学生的平均身高为1.62米,戴眼镜的比例为35%。可以看出,点估计的方法比较简单,一般不考虑抽样误差和估计的可靠程度,只适用于对推断准确性与可靠程度要求不高的情况。,105,2.区间估计区间估计就是根据估

39、计可靠程度的要求,利用样本指标确定一个范围,使估计的总体指标包括在其中。它要完成两个方面的估计:第一,根据样本指标和误差范围,估计出一个可能包括总体指标的区间;第二,确定出所估计的区间内包括总体指标的把握程度有多大。,106,区间估计的两个公式:总体平均数总体成数,即:,即:,107,以表1的资料为例,估计茶叶的平均重量及每包重量在149克以上茶叶所占比重的可能范围,要求可靠程度为95.45%。在95.45%的概率下,t=2,则平均重量的允许误差为:平均重量(克)的可能范围为:150.3-0.17 150.3+0.17 150.13 150.47,108,成数的允许误差为:每包重量在149克以

40、上的茶叶所占比重的可能范围为:90%-5.84%P90%+5.84%84.16%P95.84%链接资料区间估计例题.doc,109,区间估计要点:1.估计的是总体指标所在的可能范围;2.估计总体指标在这个范围之内只有一定的把握程度,而没有绝对的把握;3.扩大抽样误差的范围可以提高估计的把握程度,缩小抽样误差的范围则会降低估计的把握程度。,110,样本量的确定依据抽样极限误差的公式建立。链接.ppt1.重复抽样,平均数:,成数:,111,平均数:,成数:,不重复抽样,112,影响样本量的因素总体各单位之间标志变异程度;抽样极限误差的大小;概率度 t 值的大小;抽样方法和抽样组织形式。,113,例

41、如,某厂对生产的某型号电池进行电流强度检验,根据以往正常生产的经验,电流强度的标准差=0.4安培,而合格率为90%。现在用重复抽样的方式,要求在95.45%的概率保证下,抽样平均电流强度的极限误差不超过0.08安培,抽样合格率的极限误差不超过5%,则必要的抽样单位数应该为多少?,114,解:抽样平均数的单位数为:抽样成数的单位数为:两个抽样指标所要求的单位数不同,应取大的,即抽取144个单位。,115,关于样本量的一些实际做法统计学中以30为界,将样本分为大样本(n30)和小样本(n30)。其原因是数学证明,当n30时,样本平均数的分布将接近于正态分布,这样才可以用样本推算总体。而统计学中的大

42、样本与社会经济调查中的大样本并不完全等同。,116,根据一些社会经济调查专家的看法,社会经济调查的样本规模至少不能少于100个单位。另外,在社会经济调查实践中,400是一个颇受青睐的样本量。这是因为根据计算总体规模超过10万以后,样本量基本恒定在400。计算结果见下表:,117,总体规模与样本量统计表,118,假设检验,119,所谓假设检验,就是先做一个关于总体情况的假设,继而抽取一个随机样本,然后以样本的统计值来验证假设。例如,某厂生产一批产品,必须检验合格才能出厂,规定合格率为95%,现从中抽取100件进行质量检查,发现合格率为93%,假设检验就是利用样本指标p=93%的合格率,来判断原来

43、假设P=95%合格率是否成立。如假设成立,产品就能出厂,如假设不成立,这批产品便不能出厂。,120,又如,某地区去年职工家庭年收入为72000元,本年抽样调查结果表明,职工家庭年收入为71000元,这是否意味着职工生活水平下降呢?我们还不能下这个结论,最好通过假设检验,检验这两年职工家庭收入是否存在显著性统计差异,才能判断该地区今年职工家庭年收入是否低于去年水平。,121,一、基本概念研究假设与虚无假设1.研究假设科学研究一般是先建立假设,即假定在总体中存在某些情况,如假定收入与工作年限之间存在相关关系。这个假设,称为研究假设(又称备择假设或替代假设),简写为:,122,2.虚无假设在假设检验

44、中不是直接验证研究假设是否正确,而是首先检验与这个研究假设相对立的假设,从而间接验证研究假设正确的可能性。与研究假设相对立的假设,在统计学上称为虚无假设(又称原假设)简写为:例如,若研究假设 是 X 与 Y 相关,则虚无假设 是 X 与 Y 不相关。,123,为什么要建立虚无假设?假定我们的研究假设 是:在总体中同意某项政策与反对某项政策的人数不相等。现从一个随机样本中发现,同意与反对的人数不相等,那么能不能下结论:是正确的呢?答案是不能!因为,虽然样本有可能与总体一致,但也有可能是由抽样误差造成的。既然任何抽样都可能存在误差,那么依据样本所作出的结论就可能犯错误。,124,因此,要证明 是否

45、正确,就必须排除抽样误差的可能性。检验假设的基本逻辑是先成立一个与 相对立的。前例 的虚无假设 是:在总体中同意某项政策与反对某项政策的人数相等。如果我们能证明 正确的可能性很小,那么,就可以据此排除抽样误差的说法,而认为 是对的。,125,各种假设检验方法都是根据 来成立抽样分布,然后求出 是正确的可能性。假设检验的基本原则就是直接检验虚无假设,根据 的检验结果,从而间接检验研究假设,目的是排除抽样误差的可能性。,126,显著性水平显著性水平是指在虚无假设(原假设)成立的条件下,假设检验中所规定的小概率的标准,一般用 表示,即小概率的数量界限。显著性水平是一个概率值,与置信度 相对应。显著性

46、水平一般是研究者事先规定好的,通常是先确定显著性水平,然后再进行资料统计分析;而不是在资料分析过程中或者根据统计量计算结果,再选择一定的显著性水平。,127,显著性水平的大小主要根据研究需要确定。在当前的社会科学研究中,一般都是以 最为常见。其他如民意测验用0.1、产品质量检验用0.01、工程技术检验用0.001甚至用0.0001等。当然,显著度越小,越难否定虚无假设,也就越难证明研究假设。,128,临界值、接受域和拒绝域检验虚无假设,基本上是根据抽样分布的原理。当统计量确定后,根据虚无假设 成立的条件,可以画出统计量的分布。下面以均值的抽样分布为例,说明检验 的方法。,129,拒绝域,即抽样

47、分布内一端或两端的小区域,如果样本的统计值在此区域范围内,则拒绝虚无假设。(见图)接受域,即拒绝域以外的区域,如果统计值落在接受域,则接受虚无假设。(见图)临界值,即接受域与拒绝域的界限,是显著性水平对应的标准值,一般用 表示。(见图),130,接受域,拒绝域,131,根据显著性水平,通过查标准正态分布表可以查到对应的Z值,即为临界值。如果计算的统计值 Z,统计值位于拒绝域内,拒绝虚无假设,接受研究假设;如果计算的统计值 Z,统计值位于接受域内,接受虚无假设,拒绝研究假设。,132,双边检验和单边检验如果拒绝域位于正态分布的两端,称为双边检验。当显著性水平为 时,每侧拒绝域的概率为 2。(见图

48、),133,接受域,拒绝域,拒绝域,134,如果拒绝域位于正态分布的一端,称为单边检验。单边检验又分为左侧单边检验和右侧单边检验。,左侧单边检验,右侧单边检验,拒绝域,拒绝域,接受域,接受域,135,如何确定单边和双边检验?如果研究的假设仅仅探讨是否相关或者是否变化等问题,则采用双边检验;如果不仅要回答是否相关或者是否变化,还要知道是正相关还是负相关,或者变化的方向是增加还是减少等问题时,则采用单边检验。例如,如果研究假设是当年人均收入是否发生变化,则用双边检验;如果研究假设是当年人均收入是增加了,还是减少了,就应用单边检验。,136,如果我们关心的问题是总体平均数或成数是否低于预先的假设,应

49、该采用左侧单边检验,因而又把左侧单边检验称为下限检验。如灯泡的使用寿命,一般都是规定平均不能低于1000小时。如果我们关心的问题是总体平均数或成数是否超过预先的假设,应该采用右侧单边检验,因而又把右侧单边检验称为上限检验。如袋装食品一般规定不符合标准的产品比例不超过5。,137,假设检验的两类错误任何假设检验的结果都有犯错误的可能。一类错误:以真为假-原假设正确但被否定。二类错误:以假为真-原假设错误但被接受。,一般无法计算!,138,二、假设检验的基本原理和步骤假设检验的理论依据是概率论中的小概率原理。小概率事件原理 小概率事件在一次试验中几乎不会发生。如果某事件在一次试验中发生了,我们可认

50、为它不是一个小概率事件。如果在某个假设下应当是小概率的事件在一次试验中发生了,可认为该假设不能成立。,139,假设检验的基本思想(统计学描述):经过抽样调查获得一组数据,即一个来自总体的随机样本,如果根据样本计算的某个统计量,在虚无假设成立的条件下几乎是不可能发生的,就拒绝虚无假设,继而接受它的对立面研究假设;反之,如果在虚无假设成立的条件下,根据样本计算的某个统计量,发生的可能性不是很小,那么,就接受虚无假设,拒绝研究假设。这里发生的可能性就是事先规定的显著性水平。,140,假设检验的基本步骤1.提出一对对立的假设2.构造并计算检验统计量3.确定否定域4.对所作的假设进行推断,141,三、总

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号