第六章抽样分布.docx

上传人:李司机 文档编号:5424423 上传时间:2023-07-05 格式:DOCX 页数:9 大小:84.48KB
返回 下载 相关 举报
第六章抽样分布.docx_第1页
第1页 / 共9页
第六章抽样分布.docx_第2页
第2页 / 共9页
第六章抽样分布.docx_第3页
第3页 / 共9页
第六章抽样分布.docx_第4页
第4页 / 共9页
第六章抽样分布.docx_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《第六章抽样分布.docx》由会员分享,可在线阅读,更多相关《第六章抽样分布.docx(9页珍藏版)》请在三一办公上搜索。

1、第六章抽样分布第一节总体和样本一、总体和样本总体:研究中依据研究目的而确定的所有想要研究的个体(或事件)的集合。(有限总体VS无限总体)个体:构成总体的基本单元,可以是符合特定描述条件的人、事物或者是一个组织或机构。样本:从一个总体中抽取出来的一部分个体(或事件)的集合。样本容量:组成样本的个体数量决定了样本的大小。样本VS总体VS个体的关系:总体和样本都是由个体组成的,样本是总体的一个子集。由于研究问题的范围不同,同一团体或集合在不同的研究中可以是总体,也可能是样本。二、参数与统计量参数:描述总体特性的值,i般用希腊字母表示,总体的参数值是唯一确定的。统计量:描述样本特性的值,i般用拉丁字母

2、表示,随着样本的不同而发生变化。总体VS样本的关系:1 .从总体中抽取部分个体组成了样本;2 .通过对样本特征的描述,获得了样本特征的统计量;3 .根据统计量对总体的参数或者某些特性做出推断;4 .把样本中获得的结果推论到总体之中。第二节抽样技术一、非概率抽样和概率抽样二、概率抽样中的误差来源三、概率抽样的具体方法一、非概率抽样和概率抽样非概率抽样:研究者依据自身的经验或抽样方便程度,有目的、主观地选择一部分个体作为样本。典型调查、重点调查以及方便抽样都是常见的非概率抽样C概率抽样:要求总体中的每个个体都有定的概率被抽中,遵循随机性原则。随机会随意选择总体中的某些个体作为样本。这是一个概率问题

3、,需要用一定的方法保证每一个个体都有机会被选中。二、概率抽样中的误差来源任何一个抽样都会存在误差,称为抽样误差。抽样误差的来源主要有两个方面:1.抽样方法本身如何选择合理的抽样方法:抓阉和简单随机抽样。5 .由样本的随机性造成的样本信息和总体信息之间的误差注意:不可避免!但是可以通过增加样本容量降低误差。抽样误差的两重性:1 .抽样误差是无法完全避免的。2 .只能尽量加以控制:一是选择适当的抽样方法,消除抽样的偏差;二是增加样本容量,降低抽样的变异性。三、概率抽样的具体方法(一)简单随机抽样简单随机抽样是最基本的抽样方法,操作简便,适用性广。简单随机抽样有两种方法:抽签法:需放回抽样。随机数法

4、:给总体内的每个个体都赋予一个编号,然后随机抽取数字决定抽取的样本包含哪些个体。采用简单随机抽样时,总体中的每个个体都有可能被抽取到,每个个体被抽到的概率都是相等的,这就为样本的代表性提供了保障。简单随机抽样的评价:优势:1 .是其他抽样方法的基础,操作方法简单直观,可以直接从总体中抽取出所需的样本,在多数情况下效率是比较高的;2 .由于每个个体被抽中的概率相等,在之后的统计推断中计算更为方便。局限性:1 .在很大规模的抽样调查中,获取总体中每个个体的名单并不容易,给总体中每个个体进行编号更加不易;2 .抽取出的样本分布较散,在实施调查的过程中会遇到比较大的困难,易造成资源上的较大程度浪费。(

5、二)系统抽样系统抽样:也称为等距抽样。具体的操作方法是,先将总体内的个体按照一定次序排列,然后在规定的范围内随机确定一个抽样的起点(起始号码),之后根据总体容量与样本容量的比值确定抽样间隔k,然后都按照固定的间隔k抽取个体,最后组成样本。例如,要在300个产品中抽取10个作为样本,检查它们的合格率。K=30010=300在130之间随机选择2为起点,每隔30抽样一名,就会抽取编号为2、32、62、92、122这一系列的个体作为样本。1 .只要个体在总体中的分布较为均匀,系统抽样将会非常接近于简单随机抽样。2 .当总体中的个体本身已经有记录的情况下,或者总体容量非常大的时候,采用系统抽样将会比简

6、单随机抽样更为方便。3 .如果有信息能够使总体中的个体有组织地排列,那么这样抽取的样本是均匀地分散分布在总体中的,能够很好地保证样本的代表性,可以有效提高估计的精度。4 .如果总体的分布具有一定的周期性,则使用系统抽样抽取的样本可能会存在较大的误差,不能很好地代表样本。(三)分层随机抽样分层随机抽样:按照某些特征或标准将总体分为几个部分,然后在每个部分中分别进行随机抽样,最后将每个部分中抽取出的个体全部组合在一起得到样本。每个部分在此都称作一个层,因此叫作分层随机抽样。方法:在确定各层抽取的个体数时,可以简单地按照所需样本容量占总体容量的比例来抽取。适用条件:当总体中的个体间差异很大,而且能够

7、根据这些差异将总体分成明显的几个亚群体时,采用分层抽样方法能够很好地保证样本结构与总体结构一致,从而使样本具有更好的代表性。优势:首先,从样本代表性上来讲,简单随机抽样有可能出现较为极端的情况,在总体中分布不够均匀;而分层随机抽样保证了这样得到的样本与总体的结构更容易保持一致,在总体中分布更为均匀。其次,从抽样工作实施的方便程度来讲,在较大规模的抽样调查中,分层随机抽样具备更强的可操作性。最后,从调查结果的丰富性来讲,分层抽样不仅能够推断总体的情况,还能用来推断各层的情况。(四)整群抽样整群抽样:将总体按照一定的规则或标准分成若干个群,然后抽取其中一个或几个群,以这些被选中的群里的所有个体作为

8、样本。采用整群抽样时,往往是总体先前已经分成了若干个群体,有可能是天然的、有可能是社会的。在这样的情况下,采用这样的抽样方法非常方便且经济,因此在实际的社会调查中这种方法是非常常见的。与分层抽样不同的是,整群抽样要求同一个群体内的个体差异较大、异质性较高;不同群体之间则差异较小、同质性较高。因为这种抽样方法以整群为单位,只有确保这样的前提条件使样本结构与总体结构更相近,才能保证样本的代表性。整群抽样还有单阶段整群抽样和多阶段整群抽样之分。单阶段整群抽样:抽取总体中的若干个亚群体之后,对这些群体中的所有个体全部进行调查。多阶段整群抽样:将总体分成了不同层次的整群,在抽中第一层的群体之后,还会在第

9、二层、第三层等的群体中再进行抽取。(大规模研究)优势:实施方便、花费较小。弊端:1 .因为在采用整群抽样时,群往往是已经根据某些自然或社会的标准提前进行了划分,群内个体之间的差异很多时候比较小,从而使得这样抽取的样本对总体的代表性不够而,存在较大的抽样误差;2 .统计运算更为复杂。样本容量与抽样误差:在一次抽样调查中可以结合使用多种抽样方法,来达到最好的效果。样本容量增加,抽样误差逐步减少。一般来讲,样本容量n30的样本即可被称作大样本。当然,在实际的研究中,要确定样本容量还要考虑更多复杂的因素(研究经费、人员等)。第三节抽样分布一、基本概念(一)总体分布、样本分布和抽样分布总体分布:总体内个

10、体观察值的次数分布或概率分布。总体分布可以是连续的,也可以是离散的。样本分布:样本内个体观察值的次数分布或概率分布。抽样分布:在同一总体下,相同样本容量的所有可能样本的某个统计量观察值的理论概率分布。样本的平均数、标准差等都是样本的统计量。样本的所有统计量都会有其相应的抽样分布。例:现在有一个由4位同学构成的总体,他们的体重分别是40kg、44kg48kg、52kgo如果我们从中有放回地抽取样本容量为2的样本,会形成什么样的抽样分布呢?表6-1总体分布表体重kg40444852频数1111图67总体分布图X40444852U=46N4O=U-=20VN当采用有放回的抽样方式从中抽取n=2的样本

11、时,总共可以得到16个不同的样本。表6-2所有可能的样本及其平均数样本编号数据构成样本平均数第一个第二个1IO10402401142340IS-114105216511104264444447H-11S46S115248948IO4410484446114811SIS124852501352IO46145244481552IS5016.525252表6-3样本平均数分布样本平均数40424446485052频数1231321图6-5样本平均数分布图计算所有样本平均数的平均数和标准差:M匕1N40+42+44462+44+46+48+44+46+48+50+46+4+50+5216从样本平均数分

12、布中得出样本平均数的概率问题。如,样本平均数大于48的概率:P(x48)三(二)中心极限定理中心极限定理:如果总体的平均数为,标准差为。那么样本容量为n的样本平均数分布的平均数为,标准差为云;且当样本容量n趋于无穷大时,样本平均数的分布也趋于正态分布。当样本容量等于或大于30时,抽样分布就已经接近正态分布了。另外,这个定理说明,任何分布形态总体的抽样分布都是有章可循的。当拿到一个样本时,就可以据此计算任意和样本相关的概率,这是通过样本特征推断总体的基础。例:某次测验总体平均值=IO0,总体标准差。=6。如果从中随机抽取一个n=36的样本,该样本的平均数大于101的概率是多少?解析,根据中心极限

13、定理可知,样本平均数的分布符合正态分布,且=IOQGy=Io当X=Iol时,Z=KnTOo=I%_1查正态分布表可得,101)=l)=015866因此,该样本的平均数大干10访概率为15.87%(三)标准误标准误:样本平均数分布的变异性,也就是样本平均数分布的标准差。标准误一般用文表示,有时也用SE表示。公式为:F使用样本标准差来替代总体标准差:标准误的大小会受到样本大小和总体标准差的影响。样本量越大,样本平均数就更容易接近总体平均数,就会更集中地聚集在总体平均数附近,标准误也就越小。总体标准差描述了总体的离散程度,总体的离散程度越低,抽取样本时抽到极端值的概率就越低,样本的平均数也就更容易集

14、中在总体平均数周围,标准误也就会越小。二、样本平均数的抽样分布(一)t分布在总体标准差未知,只知道样本标准差S的前提下,要了解样本统计量的抽样分布特征,就要先学习一种新的分布一一t分布。t分布是1908年,统计学者高赛特提出的。=沛t分布的特征:(1)均值为0;(2)以0为中心,是左右对称的单峰分布;(3)t分布是一簇曲线,它的形态变化与自由度df=nT的大小有关;自由度df越小,t分布曲线越低平:自由度df越大,t分布曲线越接近正态分布曲线。(4)随着自由度增大,t分布逐渐接近正态分布。认识t值表:表6-4t值表(截取)dfP0.250.100.050.0250.010.00511.0003

15、.0786.31412.70631.82163.65720.8161.8862.9204.3036.9659.92530.7651.6382.3533.1824.5415.84140.7411.5332.1322.7763.7474.60450.7271.4762.0152.5713.3654.03260.7181.4401.9432.4473.1433.70770.7111.4151.8962.3652.9983.49980.7061.3971.8602.3062.8963.35590.7031.3831.8332.2622.8213.250100.7001.3721.8122.2282.7

16、643.1696-7分布示意用t分布中概率问题:例如,查表可知,自由度df=10时,当p=0.05时,t=1.812o也就是说,当自由度为10时,有5%的t分布在t=L812以外的尾部,即df=10时,P(t1.812)W0.05。当自由度为5时,t分布在0l.476之间的概率是多少呢?查表可知,df=5,t=L476时,p=0.IOo也就是说,当自由度为5时,有10%的t分布在t=L476以外的尾部,因此t分布在01.476之间的概率P(0t1.476)=0.50-0.10=0.40,(二)不同条件下的样本平均数抽样分布1.总体分布为正态,总体标准差。已知这种情况不需考虑样本容量的大小,样本

17、平均数都会服从均值为标准误为7;的正态分布。例:某次测验分数服从正态分布,总体平均值U=400,总体标准差。二40。如果从中随机抽取一个n=16的样本,该样本的平均分在380420的概率是多少?40=10;当灭=3题时,z=X=380-400=_a当了=4刎,z=f=420-400=2解析:110jr10查正态分布表可得,p(38-y42)=P(-2Z2)=2x0.47725=0.9545。故,概率约为95.45%。2 .总体分布为非正态,总体标准差。已知这种情况下,当样本为大样本(即n230时),样本平均数会服从均值为口,标准误为石的正态分布。3 .总体分布为正态,总体标准差。未知S这种情况

18、不需考虑样本容量的大小,样本平均数都会服从均值为U,标准误为&的t分布。例:某次测验分数服从正态分布,总体平均值口=400。如果从中随机抽取一个n=16的样本,样本标准差S=40,那么该样本平均数符合怎样的分布呢?该样本平均数大于407的概率是多少?S40解析:407)-P(r0.7)025,故大于40击做率为025。4 .总体分布为非正态,总体标准差。未知这种情况下,当样本为大样本(即n230时),样本平均数近似服从均值为u,标准误为工的t分布。因为大样本的情况下,t分布趋近正态分布,因此,此种情况下也可以用正态分布处理。例:某次测验分数不服从正态分布,总体平均值U=400。如果从中随机抽取

19、一个n=100的样本,样本标准差S=40,那么该样本平均数符合怎样的分布呢?解析:分布3如备=4,=-1=99近似正态分布=400.=j=4本节习题1 .描述总体特性的值称为()。A.总体B.样本C.参数D.统计量正确答案C答案解析J参数是指描述总体特性的值。P125。2 .下列说法不正确的是()。.样本平均数分布的标准差称为标准误8 .标准误是直接反映总体分布特征的量C.样本容量增大时,标准误减小D.总体方差较大时,标准误也较大正确答案B答案解析J标准误反映样本平均数分布的变异性。PI35。3 .下列关于t分布的说法,不正确的是()。A. t分布的均值为0B. t分布是左右对称的分布C.分布形态与自由度有关D.自由度变小时t分布渐进正态分布正确答案D答案解析J随着自由度增大,t分布逐渐接进正态分布。PI36。4 .什么叫标准误?正确答案标准误是指样本平均数分布的变异性,也就是样本平均数分布的标准差。P135o5 .如果从N=3000,均值为100,标准差为7的总体中,抽取n=49的样本。那么,样本平均数的抽样分布的平均数是多少?标准差呢?分布形态是怎样的?正确答案平均数为100,标准差为1,样本平均数符合正态分布。答案解析判断不同条件下的样本平均数抽样分布。总体标准差已知,大样本的情况。P137。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号