抽样分布与参数估计.ppt

上传人:牧羊曲112 文档编号:5735594 上传时间:2023-08-15 格式:PPT 页数:57 大小:568KB
返回 下载 相关 举报
抽样分布与参数估计.ppt_第1页
第1页 / 共57页
抽样分布与参数估计.ppt_第2页
第2页 / 共57页
抽样分布与参数估计.ppt_第3页
第3页 / 共57页
抽样分布与参数估计.ppt_第4页
第4页 / 共57页
抽样分布与参数估计.ppt_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《抽样分布与参数估计.ppt》由会员分享,可在线阅读,更多相关《抽样分布与参数估计.ppt(57页珍藏版)》请在三一办公上搜索。

1、第五章 抽样分布与参数估计,第一节 抽样的基本概念第二节 参数估计第三节 样本容量的确定,投资何道?时间才是收益三联生活周刊2008.3.17,中国证券登记结算公司的数据显示,2006年底,沪深两市的帐户总数为7 854万户,2008年1月这一数字变为11 462万户2007年一年的开户数,已经接近过去17年开户总数的50%.去年底,中国证券报和大智慧公司联合进行了一项投资者2007年的收益调查,在11 205位被调查者中,只有48.6%的投资者在股市获利,其中7.26%的投资者跑赢大盘,11%获利在50%100%,16.88%获利为20%50%,13.51%获利在10%左右。在51.4%的亏

2、损者中,18.61%的人亏损在10%左右,更有2.44%的亏损超过50%。,投资何道?时间才是收益三联生活周刊2008.3.17,显然,调查结果可以用下表表示:,超八成美国民众认为:美国正在错误方向上前行2008.4.11青年参考,3月28日到4月2日,美国纽约时报和CBS新闻报道频道合作进行了一项电话民意调查。结果显示,美国民众对国家政策方向的不满达到了上世纪90年代以来的最高点。81%的受访者认为“美国的情况已经发展到了错误的方向上”。一年前持有类似观点的受访者只占69%,而2002年这个数字仅为35%。,超八成美国民众认为:美国正在错误方向上前行2008.4.11青年参考,关于这次民调这

3、次民调一共有1368名美国成年人接受了电话访问。受访电话号码字段是由电脑从42 000个遍布全国的电话中随机抽取的。同样以随机的程序,从每一个家庭选出一个成年人作为采访对象。理论上说,通过这种采样方法得到的结果,与对全美成年人口进行普查的结果相比较,20次中有19次误差不超过3%。,盖洛普调查美国人对中国敌视度上升2008.4.4青年参考,美国著名民调机构盖洛普于3月28日发布了一项调查结果,在被问道谁是美国最大的敌人时,伊朗、伊拉克和中国分列前三位。对中国的敌视度上升了3%。盖洛普在今年2月11日至2月14日就这一问题电话调查了1007位美国成年人,结果显示,25%的美国人认为伊朗是美国的首

4、要敌人;第二位是伊拉克占22%;第三为中国,占14%;然后是朝鲜,为9%,盖洛普调查美国人对中国敌视度上升2008.4.4青年参考,同样,上述调查结果可以整理如下:,2007年谁是美国最大的敌人,2001年谁是美国最大的敌人,第一节 抽样的基本概念,#抽样推断的作用(应用场合)1、在不可能进行全面调查时,可以通过抽样调查说明总体情况;2、对没有必要进行全面调查的社会经济现象进行分析时;3、对全面调查的结果进行评价和修正;4、用于工业生产过程的质量控制#抽样推断的特点:1、抽样推断是由部分推断整体的一种研究方法。2、抽样推断建立在随机概率抽取样本的基础上。3、抽样推断是运用概率估计的方法。4、抽

5、样推断的误差可以事先计算,并能加以控制。,第一节 抽样的基本概念,一、有关抽样的基本概念(一)样本容量与样本个数1、总体:是指包括调查对象所有单位的全体。一般用N 代表总体单位数。2、样本:是从总体中抽出的部分单位所的整集合这个集合的大小称为样本容量它表明一个样本中所包含的单位数。一般用 n 表表示。在一定条件下,样本容量大,调查误差会小。n30为大样本。3、样本个数:又称样本可能数目,是指从一个总体中可能抽取多少个样本。样本个数与抽取样本的方法相关。,第一节 抽样的基本概念,#交替标志平均数与的标准差:1、交替标志:只表现为是或否、有或无、对或错的标志称为交替标志,也称作是非标志。交替标志实

6、际是品质标志,是把总体单位按品质标志分为两组的。所有品质标志都可以作为交替标志。2、成数:具有某种表现的单位数占总体单位数的比重称为成数。通常用p表示。例如:将产品分为合格与不合格两组,当你关心合格品所占比重时合格率即为成数;当你关心不合格品所占比重时不合格率即为成数。在抽样调查中,除了对平均数的估计外,就是的成数的估计。,第一节 抽样的基本概念,3、交替标志的平均数:交替标志的平均数即为被研究标志表现成数。,286,0,286,x f,100.0,500,合计,42.8,214,0,不赞成,57.2,286,1,赞成,成数(%),单位数 f,变量x,交替标志,第一节 抽样的基本概念,4、交替

7、标志的标准差:为被研究的标准的标志表现的成数p与另一种表现的成数(1-p)乘积的平方根。,第一节 抽样的基本概念,(二)总体参数和样本统计量1、总体参数:总体分布的数量特征的就是总体的参数。总体参数是常数,一般是未知的,其中只有总体单位数N可能已知。2、样本统计量:又称样本指标。是反映样本特征的统计指标。由于样本是从总体中随机抽取的单位构成的,因而,样本统计量是随机变量。样本单位数用n 表示。总体参数和统计量各有四个,分别为:平均数、成数、方差、标准差。其中统计量是可以计算的。公式见下表:,第一节 抽样的基本概念,第一节 抽样的基本概念,(三)抽取样本单位的方法(重置抽样与不重置抽样)1、重置

8、抽样:具体做法是从总体中随机抽取一个单位,记录其标志值后,又将其放回总体中,在新一轮的抽取时,该单位有可能被抽中。#特点:(1)n个样本单位是由n次试验是结果构成的。(2)每次试验是独立的。(3)每次试验是在相同条件下进行的。2、不重置抽样:具体做法是从总体中随机抽取一个单位,记录其标志值后不放回总体中,在新一轮的抽取时,该单位有没有可能被抽中。#特点:(1)n个样本单位是由n次试验是结果构成的。(2)每次试验不是独立的。(3)每个单位在多次试验中中选的机会是不等 的。,第一节 抽样的基本概念,3、样本个数(所有可能样本数目):放回抽样样本数目不放回抽样:样本数目以N4,n2为例放回抽样,样本

9、数目M16不放回抽样,样本数目M12以48人一个班,从中选取12人为例:放回抽样,样本数目M1.50 x10不放回抽样,样本数目M 3.34x10,20,19,第一节 抽样的基本概念,(四)概率抽样及其组织形式 1、概率抽样:就是要求对总体的每一次观察(抽取)都是一次随机试验,并且有和总体相同的分布。按这样的要求对总体观测(抽取)n次,可得到容量为n的样本。只有概率抽样,才能进行科学的统计推断。【例5-1】有10个同样的球,分别标有从1至10的号码。(1)从中有目的地抽出5号球;(2)从中随便地取一个球;(3)把10个球放在袋中,充分混匀,从中抽出一个球,抽取时,要求袋中各个球有相等的被抽中的

10、概率。,第一节 抽样的基本概念,显然,(1)和(2)的抽取行为都不是随机试验。因而不属于概率抽样。只有(3)的抽取行为是随机试验。总体的分布可用表5-1的分布列来描述,而(3)的随机试验中所观测的随机变量也有与表5-1有相同的分布。所以,(3)的抽取行为是概率抽样。表5-110个球号码的分布,第一节 抽样的基本概念,2、概率抽样的组织形式(1)简单随机抽样定义:又称纯随机抽样,是从总体全部单位中直接按随机原则抽取样本单位,使每个总体单位都有同等机会被抽中。从理论上说最符合随机原则,是最基本形式。具体方法:直接抽选法、抽签法和随机数字表法。总体很大时,编号工作困难。而且,当总体各单位标志值之间差

11、异很大时,采用这种抽样方式并不能保证样本的代表性。,第一节 抽样的基本概念,(2)等距抽样定义:又称机械抽样或系统抽样,是将总体全部单位按某一标志排队,而后按固定的顺序和间隔在总体中抽取若干个样本单位组成样本的一种抽样方式。特点:(1)简便、易于实施。(2)在已知总体有关信息时,可提高样本对总体的代表性。(3)类型抽样定义:又称分层抽样,是先把总体按某一标志分成若干个类型组,然后分别在各组内按随机原则抽取样本单位。特点:把分组法和贯彻随机原则结合起来。,类型抽样的总体方差由两部分组成:(1)组间方差(2)组内方差,第一节 抽样的基本概念,(4)整群抽样 定义:是先将总体分成若干群,然后以群为抽

12、样单位,按随机原则从总体中抽取若干群作为样本,对中选群内的所有单位进行调查。分群基本要求:(1)不重复(2)不遗漏特点:(1)从总体中抽取的是“群”。(2)影响总体方差的是总体的群间方差,群内方差不影响抽样误差。(5)阶段抽样定义:是将抽样分成若干个阶段进行,除了最后一个阶段外,其余阶段进行整群抽样,最后阶段采用随机抽样。,第二节 参数估计,一、抽样误差的概念:1、概念:是指样本指标与被它估计的总体相应指标之间数量上 的差数。即随机误差。2、产生原因:(1)登记性误差。主观原因造成。全面调查和非全面调查都可能产生。(2)代表性误差。是抽样调查可能产生的误差,包括两种:系统性误差:又称偏差,是由

13、于没有遵循随机原则而产生的误差。随机误差:又称偶然的代表性误差,是指遵循随机原则进行调查所产生的样本指标与被它估计的总体相应指标的差数。,第二节 参数估计,二、抽样平均误差的概念和计算(一)抽样平均误差的概念 随机误差包括:抽样实际误差和抽样平均误差。实际误差是不可求的:1、由于总体参数是未知的。2、虽然总体参数是确定的,样本却有无数个,样本不同,误差也不一样。抽样平均误差:是所有可能出现的样本指标的标准差,也可以理解为所有样本指标和总体指标的平均离差。,第二节 参数估计,(二)抽样平均误差的计算1、定义公式:按抽样平均误差的定义,其计算公式应为平均数估计成数估计,第二节 参数估计,例如:N4

14、;X分别为1,2,3,4。则;平均数2.5 标准差1.1180方差1.25 n2 时,放回抽样共有16个样本,不放回为12 个。将放回抽样所有16个样本的平均数、抽样平均误差的计算列表如下;同时,计算不放回抽样的12个样本的抽样平均误差。,1,1,3.5,4,3,15,2.25,1.5,4,4,4,16,0.25,0.5,3,4,2,14,0,0,2.5,4,1,13,1,1,3.5,3,4,12,0.25,0.5,3,3,3,11,0,0,2.5,3,2,10,0.25,-0.5,2,3,1,9,0.25,0.5,3,2,4,8,0,0,2.5,2,3,7,0.25,-0.5,2,2,2,6

15、,1,-1,1.5,2,1,5,0,0,2.5,1,4,4,0.25,-0.5,2,1,3,3,1,-1,1.5,1,2,2,2.25,-1.5,1,1,1,1,平均数,构成,样本,这是放回抽样的平均误差,由此可见。不放回抽样的误差更小,合计:10,第二节 参数估计,定义公式只是告诉我们按照抽样平均误差的定义,应如何计算,由于计算时要应用总体参数,实际抽样中是无法按这一公式计算的。,第二节 参数估计,2、理论公式:数理统计证明抽样平均误差可按以下公式计算。(1)放回抽样(2)不放回抽样代入数据计算如下:放回抽样 不放回抽样,第二节 参数估计,显然,理论公式的计算结果与定义公式是一样的。但是,由

16、于计算中要使用总体参数,理论公式与定义公式一样,不能计算。当总体标准差和方差未知时:1、用样本方差来代替总体方差。2、用过去全面调查的资料或过去抽样调查的资料代替。(三)影响抽样平均误差的因素1、总体各单位标志的变异程度。(成正比)2、样本容量的大小。(成反比)3、不同抽样方法的影响。(不放回抽样误差小)4、不同抽样组织方式的影响。,第二节 参数估计,三、抽样极限误差:1、定义:是指样本统计量与总体参数之间可能的误差范围。抽样极限误差的大小取决于人们希望控制总体参数的把握程度的大小。统计上称之为概率保证程度。抽样极限误差与概率保证程度成反比关系。2、t 概率度的确定:,即,第二节 参数估计,四

17、、参数估计概述(一)参数估计的定义与种类:1、定义:就是用样本统计量去估计总体的未知参数。2、参数估计的种类:(1)点估计:用一个样本统计量作为总体参数的估计值。#特点:方法简单,适用于对推断准确程度与可靠程度不高的情况。#实际应用:用样本方差估计总体方差。(2)区间估计:给出总体参数具体的上限和下限。,第二节 参数估计,(二)估计量的优良标准P108同一个未知参数可能有多个可供选择的估计量,因而必须对估计量进行评价,从中选择最佳(满意)估计量的问题。估计量优良性包括以下四条标准:1、无偏性:如果估计量的数学期望值等于总体参数,则这个估计量为总体参数的无偏估计量。例如:总体均值的估计量可以是反

18、映总体的集中趋势的样本统计量,包括:均值、众数、中位数。而总体均值的无偏估计量是样本均值(算术平均数)。但注意,样本方差不是总体方差的无偏估计量 无偏估计量即准确的估计量。,对于放回抽样,对于不放回抽样,=40/16=2.5,=30/12=2.5,显然:无论是放回抽样还是不放回抽样,样本平均数都是总体平均数的无偏估计量,第二节 参数估计,2、有效性:(又称最小方差性)有效性:如果对比任何一个其它估计量,某估计量有最小方差,则这个估计量为总体该参数的有效估计量。例如:样本平均数是总体均值的有效估计量而众数、中位数则不是总体均值的有效估计量。有效估计量即精确的估计量3、一致性一致性:是指(在一定条

19、件下)随着样本容量的不断增大,样本统计量接近总体参数的可能性就越大。抽样推断的条件指一定的把握程度和允许误差范围,第二节 参数估计,(四)区间估计与估计的精度和可靠性所谓区间估计,实质上就是用两个互相联系的样本统计量给出的区间。即以和分别作为总体参数区间估计的下限与上限,同时要求该区间将包含在内的概率应达到一定的程度。即:P()=1-(5.19)式中被和框定的区间叫做置信区间。=叫做抽样极限误差,它可以反映抽样估计误差的最大范围。,第二节 参数估计,作为参数的区间估计,应满足以下两个要求:一是估计的精度要求,二是可靠性要求。所谓精度要求就是估计误差必须控制在一定的范围内。允许误差的最大值,可通

20、过极限误差来反映。显然,越小,估计的精度要求越高,越大,估计的精度要求越低。极限误差的大小要根据研究对象的变异程度和分析任务的性质来确定。显然,一个良好的区间估计,应该是置信概率高,置信区间小,既可靠又精确。然而,置信概率与置信区间却是互相制约的,在n一定的情况下,置信概率越高,可靠性越大,相应的置信区间确越宽,估计越不精确。,第二节 参数估计,#区间估计的步骤:计算样本指标。计算抽样平均误差。根据把握程度确定概率度 t。计算抽样极限误差。给出总体参数的区间范围。,常用概率:可靠性F(t)概率度68.27%190%1.64595%1.9695.45%299.73%3,第二节 参数估计,常用概率

21、:可靠性F(t)概率度t68.27%190%1.64595%1.9695.45%299.73%3,第二节 参数估计,例如:从某校学生中随机抽取100人,得出平均体重58.27公斤,标准差15.64公斤,试以95.45%的可靠性对全部学生的平均体重进行区间估计。解:已知平均体重58.27=15.64 当可靠性为95.45%时,t=2,即:有95.45%的把握,该校学生平均体重在57.15公斤61.39公斤之间,从某县农民家庭中随机抽取100户调查其年收入情况(单位:千元),要求:(1)以95%的可靠性对全县农民家庭年人均收入进行区间估计。(2)以90%的可靠性估计年收入在10千元以上家庭所占比重

22、。,141.790,1139.0,100,合计,44.5210,2.11,135.0,13.5,10,13以上,24.6420,1.11,25.0,12.5,20,1213,0.3872,0.11,36.8,11.5,32,1112,22.1788,0.89,294.5,10.5,28,1011,25.0047,1.89,66.5,9.5,7,910,25.0563,2.89,25.5,8.5,3,9以下,离差,xf,组中值x,农户数f,人均收入,平均收入=1139/100=11.39,方差=141.79/100=1.42,抽样平均误差=0.119,抽样极限误差=1.960.119=0.23,

23、全部农民家庭年人均收入为=11.390.23,即:有95%的把握估计全部农民家庭年人均收入在11.16至11.62千元之间。,(2)以90%的可靠性估计年收入在10千元以上家庭所占比重。,1)样本中年收入在10千元以上家庭所占比重为2)p=90/100=90%3)抽样平均误差4)抽样极限误差5)给出总体参数的置信区间,=3%,=4.92%,即:有90%的把握估计年收入在10千元以上家庭所占比重在85.08%94.92%之间。,P=p=90%4.92%,平均收入=1139/100=11.39,第三节 样本容量的确定,一、问题的提出:在参数估计中,精确度当然要求越高越好。例如:3%的误差显然不如1

24、.5%而可靠性要求则也是越高越好。例如:90%的可靠性不如95%的。然而,这是一对矛盾。在抽样实践中,精确度高(缩小),可靠性就会降低;可靠性提高(t 加大),精确度则会降低。因而,样本容量的确定是在精确度和可靠性两个要求中找到一个平衡点。=t,第三节 样本容量的确定,二、估计总体均值时样本容量的确定要确定样本容量,显然必须对总体情况有所了解,也对本次调查要求的精确度和可靠性取得一致的意见。1、总体方差已知,放回抽样,第三节 样本容量的确定,例如:某城市进行居民家庭生活抽样调查,根据历史资料居民家庭平均每户收入的方差为625元(或标准差25元)要求可靠性95%,允许误差4元,问需要抽取多少户?

25、,=150.06151(户),第三节 样本容量的确定,2、总体方差已知,不放回抽样,第三节 样本容量的确定,例如:某城市进行居民家庭生活抽样调查,根据历史资料居民家庭平均每户收入的方差为625元(或标准差25元)要求可靠性95%,允许误差4元,该城市共有居民300万户,问需要抽取多少户?,=150.05151(户),显然,在总体单位数足够大时,放回抽样与不放回抽样的样本容量及其接近。,第三节 样本容量的确定,三、估计总体比率(成数)时样本容量的确定与总体均值相同,第三节 样本容量的确定,四、使用上述公式应注意的问题1、计算样本容量时,总体的方差与成数常常是未知的,可用有关资料替代:1)历史资料

26、2)在正式抽样调查前进行几次试验性调查,用其中方差最大值3)比率方差在完全缺乏资料时,用其最大可能值0.252、如果进行一次抽样调查,需要同时估计总体均值和比率,可用上述公式同时计算出两个样本容量,取其中较大的结果,同时满足两方面需要。3、上述公式计算结果如果带小数,用只入不舍 法取近似值。,第三节 样本容量的确定,#影响样本容量的因素(1)总体各单位标志变异程度。(2)允许的极限误差。(3)抽样方法。(4)抽样方式。(5)抽样推断的可靠程度的大小。,第三节 样本容量的确定,例如:香港有680万人口,现拟对香港人对奥运马术比赛的关注度进行调查,如果需要95%的把握程度,能够接受(最大允许)误差

27、不超过3%,试确定需要抽多少人进行调查?方差未知,用0.25,=1067.11 1068,=1066.941067,练习,某工厂生产一种新型灯泡5000只,随机不放回抽取100只作耐用时间测试。其结果是:平均寿命为4 500小时,标准差300小时。试在90%概率保证下(t=1.65),估计该新式灯泡平均寿命的区间;假定概率保证程度提高到95%,允许误差缩小一半,试问应抽取多少只灯泡来测试?已知:N=5000 n=100求:(1)t=1.65 平均寿命的区间(2)t=1.96 n=?,练习答案,(1),练习答案,(2),课后练习,P127 7 增加一项要求(3)如果平均工资估计时,要求误差不超过5元,应抽取多少个工人进行调查?P128 10,第五章 结束,THE END!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号