第7章 抽样推断.ppt

上传人:李司机 文档编号:6618792 上传时间:2023-11-18 格式:PPT 页数:189 大小:2.06MB
返回 下载 相关 举报
第7章 抽样推断.ppt_第1页
第1页 / 共189页
第7章 抽样推断.ppt_第2页
第2页 / 共189页
第7章 抽样推断.ppt_第3页
第3页 / 共189页
第7章 抽样推断.ppt_第4页
第4页 / 共189页
第7章 抽样推断.ppt_第5页
第5页 / 共189页
点击查看更多>>
资源描述

《第7章 抽样推断.ppt》由会员分享,可在线阅读,更多相关《第7章 抽样推断.ppt(189页珍藏版)》请在三一办公上搜索。

1、第七章 抽样推断,不象其他科学,统计从来不打算使自己完美无缺,统计意味着你永远不需要确定无疑。Gudmund R.Iversen,统计名言,学习内容,抽样推断概述抽样推断的理论依据抽样分布参数估计 必要样本数目的确定,第一节 抽样推断概述,学习目标,抽样推断概念(理解)抽样推断的特点(理解)抽样推断的应用(理解)几个基本概念(掌握),一、抽样推断的概念,抽样推断是建立在概率论基础上的一种科学的统计分析方法。它是指按照随机原则,从全及总体中抽取一部分单位作为样本进行实际调查,然后根据调查所得的样本数据,对总体的特征值做出具有一定可靠程度的推断,以反映总体的数量特征或数量关系。,统计推断,全及总体

2、指标:参数(未知量),样本总体指标:统计量(已知量),按随机原则抽取样本运用概率论的理论和方法,用样本指标来推断总体指标。推断的误差可以事先计算和控制。,二、抽样推断的特点,每个单位都有相同的被抽中的机会,哪个单位被抽中,由随机因素确定,完全排除抽样者的个人主观意志,无法或很难进行全面调查而又需要了解其全面情况时某些可以采用全面调查的社会经济现象,也可采用抽样推断可用于生产过程的质量控制,三、抽样推断的应用,全及总体与样本总体全及指标与样本指标抽样方法样本的可能数目抽样组织方式,四、抽样推断的几个基本概念,(一)全及总体和样本总体,1.全及总体简称为总体,是指所要研究的对象的全体。总体单位数用

3、N表示。2.样本总体简称为样本,是指从全及总体中按随机原则抽取出来的那部分单位形成的整体。样本总体所包含的样本单位数称为样本容量,用n表示。,(二)总体指标和样本指标,1.总体指标总体指标是用来描述全及总体数量特征的统计指标,也可以称为总体参数。由于全及总体是唯一确定的,所以根据全及总体计算的总体指标也是确定的量。我们所要估计的总体指标主要有总体均值、总体比例和总体方差。,(二)总体指标和样本指标,总体均值:未分组分 组总体比例:总体方差:未分组分 组,(二)总体指标和样本指标,2.样本指标样本指标是用来描述样本总体数量特征的统计指标,也称统计量。从一个全及总体中可以随机抽取很多个样本,所以根

4、据样本计算的样本指标是随机变量。在抽样调查中,经常采用的样本指标主要有样本均值、样本比例和样本方差。,(二)总体指标和样本指标,样本均值:未分组 分 组样本比例:样本方差:未分组分 组,重复抽样和不重复抽样,考虑顺序的抽样和不考虑顺序的抽样,(三)抽样方法,从总体N个单位中随机抽取一个容量为n的样本,每次抽取一个单位,把结果登记后再放回到总体中,重新参加下一次的抽取.,抽出个体,登记特征,放回总体,继续抽取,抽样方法重复抽样,从总体N个单位中随机抽取一个容量为n的样本,每次抽取一个单位,把结果登记后不再放回到总体参加下一次的抽取.,抽出个体,登记特征,继续抽取,抽样方法不重复抽样,从总体N个单

5、位中抽取n个单位构成样本,不但考虑样本各单位成分的不同,而且还要考虑样本各单位的中选顺序.,即中选成分相同但中选顺序不同的视为不同样本,抽样方法考虑顺序的抽样,从总体N个单位中抽取n个单位构成样本,只考虑样本各单位成分的不同,不管样本各单位的中选顺序.,即中选成分相同但中选顺序不同的视为同一样本,抽样方法不考虑顺序的抽样,按照一定的抽样方法和组织方式,从总体N中抽取n个单位构成样本,一共可以抽出的不同样本的数量,一般用M表示.,(四)样本可能数目,考虑顺序的不重复抽样考虑顺序的重复抽样不考虑顺序的不重复抽样不考虑顺序的重复抽样,简单随机抽样类型抽样整群抽样等距抽样多阶段抽样,(五)抽样组织方式

6、,抽选样本的方法,直接抽选法抽签法随机数码表法,抽样的组织方式,简单随机抽样,简单随机抽样也叫纯随机抽样。它是按照随机原则直接从总体N个单位中抽取n个单位作为样本,然后通过对样本单位的调查观测,计算出样本指标,据以对相应的总体指标作出推断,。,设总体由N个单位构成,把总体划分为K层(组),使,然后从每类中随机抽取个 单位,构成容量为n的样本,使得,抽样的组织方式,分层抽样,可以提高样本的代表性可以缩小总体变异程度对抽样误差的影响,只受组内方差影响,不受组间方差影响.,抽样的组织方式,分层抽样,抽样方法,等比例类型抽样,不等比例抽样,先将总体各单位按某一标志排队,然后按固定的顺序和间隔来抽取调查

7、单位的一种组织方式.,抽样的组织方式,等距抽样,从12个中抽取3个,按有关标志排队等距抽样,按无关标志排队等距抽样,抽样的组织方式,等距抽样,整群抽样是将总体划分为由总体单位所组成的若干个群,然后,以群为单位,从总体中抽取若干个群作为样本,而对中选群内的所有单位进行全面调查的调查方式。,抽样的组织方式,整群抽样,比较方便和节约费用。由于影响了样本单位在总体中的均匀分布误差较其他方式大,概念:把抽样过程分成若干阶段来完成。抽样时先抽总体中范围较大的单位,再从抽中的范围大的单位中抽取范围小的单位,逐次类推,直到最后抽到样本单位。例如:我们要对全国城市居民的收入状况进行调查,可以先抽省,再从抽中的省

8、中抽市,从抽中的市中抽居民区,最后从抽中的居民区中抽取居民,整个抽样过程分成了四个阶段。,多阶段抽样,抽样的组织方式,同步训练,1.质检部门从某企业一天生产的手机中随机抽取20部进行检查,推断该批手机的合格率。这项研究的总体是 A.20部手机 B.一天生产的全部手机 C.20部手机中合格的手机 D.一天生产的手机中合格的手机。正确答案是(B),同步训练,2.一所大学从全校学生中随机抽取300人作为样本进行调查,其中80%的人回答他们的月生活费支出在500元以上。这里的300人是 A.总体 B.样本 C.变量 D.统计量正确答案是(B),同步训练,3.一项调查表明,在所抽取的2000个消费者中,

9、他们每月在网上购物的平均花费是200元,这项调查的样本是 A.2000个消费者 B.所有在网上购物的消费者 C.所有在网上购物的消费者的网上购物的平均花费金额 D.2000个消费者的网上购物的平均花费金额正确答案是(A),同步训练,4.最近发表的一项调查表明,“汽车消费税率调整后,消费者购买大排量汽车的比例显著下降”。这一结论属于 A.对样本的描述 B.对样本的推断 C.对总体的描述 D.对总体的推断正确答案是(D),同步训练,5.到商场购物停车变得越来越困难,管理人员希望掌握顾客找到停车位的平均时间。为此,某个管理人员跟踪了50名顾客并记录下他们找到车位的时间。这里,管理人员感兴趣的总体是(

10、)A 管理人员跟踪过的50名顾客 B上午在商场停车的顾客 C在商场停车的所有顾客 D到商场购物的所有顾客正确答案是(C),同步训练,6.为了估计全国高中学生的平均身高,从20个城市选取了100所中学进行调查。在该项研究中,样本是()A 100所中学 B 20个城市 C 全国的高中学生 D 100所中学的高中学生正确答案是(D),同步训练,7.某大学的一位研究人员希望估计该大学本科生平均每月的生活费支出,为此,他调查了200名学生,发现他们每月平均生活费支出是500元。该研究人员感兴趣的总体是()A 该大学的所有学生 B该大学所有大学生的总生活费支出 C该大学所有的在校本科生 D 所调查的200

11、名学生正确答案是(C),同步训练,8.某大学的一位研究人员希望估计该大学本科生平均每月的生活费支出,为此,他调查了200名学生,发现他们每月平均生活费支出是500元。该研究人员感兴趣的参数是()A 该大学的所有学生 B该大学所有大学生的月平均生活费支出 C该大学所有的在校本科生 D 所调查的200名学生正确答案是(B),同步训练,9.某大学的一位研究人员希望估计该大学本科生平均每月的生活费支出,为此,他调查了200名学生,发现他们每月平均生活费支出是500元。该研究人员感兴趣的统计量是()A 该大学的所有学生 B该大学所有大学生的月平均生活费支出 C该大学所有的在校本科生 D 所调查的200名

12、学生的月平均生活费支出正确答案是(D),同步训练,10.为了估计某城市中拥有汽车的家庭比例,抽取500个家庭的一个样本,得到拥有汽车的家庭比例为35%,这里的35%是()A 参数值 B 统计量的值 C 样本量 D 变量正确答案是(B),同步训练,11.分层机抽样的特点是 A.使得总体中的每一个元素都有相同的机会被抽中 B.在抽样之前先将总体的元素划分为若干类,使得每一类都有相同的机会被抽中 C.先将总体划分成若干群,使得每一群都有相同的机会被抽中 D.先将总体各元素按某种顺序排列,使得总体中的每一个元素都有相同的机会被抽中正确答案是(B),同步训练,12.为了解大学生的上网时间,从全校所有学生

13、宿舍中随机抽取50个宿舍,然后对抽中宿舍中的每个学生进行调查,这种抽样调查方法是 A.分层抽样 B.简单随机抽样 C.系统抽样 D.整群抽样正确答案是(D),同步训练,13.在抽取样本时,一个元素被抽中后不再放回总体,然后再从所剩下的元素中抽取第二个元素,直到抽取n个元素为止,这样的抽样方法称为 A.重复抽样 B.不重复抽样 C.分层抽样 D.系统抽样正确答案是(B),新课小结,抽样推断概念抽样推断的特点抽样推断的应用几个基本概念,复习旧课,抽样推断概念抽样推断的特点抽样推断的应用几个基本概念,第二节 抽样推断的理论依据,抽样推断的理论依据,(一)随机事件及其概率(二)大数定律(三)中心极限定

14、理,(一)随机事件及其概率,1.随机事件我们经常接触到的现象可以分为两类,一类叫确定性现象,一类叫不确定性现象,在概率论中称为随机现象。为了研究随机现象内部存在的数量规律性,我们必须对随机现象进行多次重复试验。每次试验中,可能发生可能不发生的事件称为随机事件(或偶然事件)。,(一)随机事件及其概率,2.概率 概率是用来度量随机事件出现的可能性大小。从不同角度,概率有三种定义:(1)概率的统计定义在相同条件下进行大量的重复试验,一个随机事件出现的次数和总的试验次数之比,称为这个事件在这次试验中出现的频率,以频率作为概率的近似值。,概率的统计定义(例题分析),例如,投掷一枚硬币,出现正面和反面的频

15、率,随着投掷次数 n 的增大,出现正面和反面的频率稳定在1/2左右,概率的统计定义(例题分析),【例】:某工厂为节约用电,规定每天的用电量指标为1000度。按照上个月的用电记录,30天中有12天的用电量超过规定指标,若第二个月仍没有具体的节电措施,试问该月第一天用电量超过指标的概率。解:上个月30天的记录可以看作是重复进行了30次试验,试验A表示用电超过指标出现了12次。根据概率的统计定义有,(一)随机事件及其概率,(2)概率的古典定义 n表示该试验中所有可能出现的基本结果的总数目。M表示事件A包含的试验基本结果数。,概率的古典定义(例题分析),【例】某钢铁公司所属三个工厂的职工人数如下表。从

16、 该公司中随机抽取1人,问:(1)该职工为男性的概率(2)该职工为炼钢厂职工的概率,概率的古典定义(例题分析),解:(1)用A 表示“抽中的职工为男性”这一事件;A为全公司男职工的集合;样本空间为全公司职工的集合。则,(2)用B 表示“抽中的职工为炼钢厂职工”;B为炼钢厂全体职工的集合;样本空间为全体职工的集合。则,(一)随机事件及其概率,(3)主观概率的定义主观概率是凭个人经验或专业技能对某一事件出现可能性大小进行的一种人为估计。一家餐馆将生存5年的概率,可以用已经生存了5年的类似餐馆所占的比例作为所求概率一个近似值根据自己的判断,明天某只股票上涨的可能性为80%,(一)随机事件及其概率,3

17、.随机变量概念:设E是随机试验,其样本空间S=e,如果对每一个样本点eS 有一个实数Xe与它对应,这个在样本空间S上定义的单值实值函数Xe称为随机变量,简称为X。记录某次试验结果时,事先不知道会出现什么结果的变量类型:离散型随机变量和连续型随机变量。,(二)大数定律,1.契比雪夫定理设随机变量,相互独立,且具有相同的数学期望和方差:,则 依概率收敛于数学期望。2.贝努利定理 3.辛钦定理,大数定律对于抽样推断的意义:从理论上揭示了样本和总体之间的内在联系,即随着抽样单位数的增大,样本平均数(或比例)有接近于总体平均数(或比例)的趋势。,(二)大数定律,(三)中心极限定理,1.独立同分布的中心极

18、限定理 2.李雅普诺夫定理 3.德莫佛-拉普拉斯定理,中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的期望值为,方差为2/n。即xN(,2/n),中心极限定理(central limit theorem),从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,大样本,小样本,样本均值正态分布,样本均值正态分布,样本均值非正态分布,正态分布函数的性质,图形是关于x=对称钟形曲线,且峰值在x=处均值和标准差一旦

19、确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。越大,正态曲线扁平;越小,正态曲线越高陡峭当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1,和 对正态曲线的影响,中心极限定理对于抽样推断的意义:当我们的认识对象分布未知时,只要坚持随机原则抽取足够多的样本单位,就可以使样本统计量服从(或近似服从)正态分布,继而可运用正态分布理论,根据样本信息来推断总体

20、的数量特征。,(三)中心极限定理,第三节 抽样分布,学习目标,抽样分布概念(理解)样本均值的分布(理解)样本比例的分布(理解),样本统计量的概率分布,是一种理论分布按一定方法随机选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,一、抽样分布(sampling distribution),按一定方法随机选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础,二、样本均

21、值的分布,样本均值的分布(例题分析),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下,均值和方差,样本均值的分布(例题分析),现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的分布(例题分析),计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较(例题分析),2=1.25,总体分布,样本均值分布,实践中不可能将所有样本一一列举对于样本的概率分布只能进行推算推算的理论依据是中心极限定理,抽样分布定理,全部可能样本平均数

22、的均值等于总体均值,即:从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。样本均值的标准差为总体标准差的。,抽样分布定理中心极限定理,样本均值分布的重要结论:(一)重复抽样(二)不重复抽样,总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为,三、样本比例的分布(proportion),按一定方法随机选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布采用重复抽样方法,当样本容量很大时,样本比例的抽样

23、分布可用正态分布近似,即,样本比例的分布,4.采用不重复抽样方法,当样本容量很大时,样本比例的抽样分布可用正态分布近似,即,样本比例的分布,样本比例分布的重要结论:(一)重复抽样(二)不重复抽样,同步训练,1、从全校学生中随机抽取100人作为样本,调查他们每月的生活费支出。则统计量的抽样分布是指 A.这100名学生生活费支出的频数分布B.全校学生生活费支出的频数分布 C.抽取所有可能的样本量为100的样本,所有样本平均生活费支出的概率分布 D.全校学生平均生活费支出的概率分布正确答案是(C),同步训练,2、某地区每个人的年收入是右偏的,均值为5000元,标准差为1200元。随机抽取900人并记

24、录他们的年收入,则样本均值的分布为 A.近似正态分布,均值为5000元,标准差为40元 B.近似正态分布,均值为5000元,标准差为1200元C.右偏分布,均值为5000,标准差为40 D.左偏分布,均值为5000元,标准差为1200元正确答案是(A),同步训练,3、一家慈善机构的调查表明,在捐赠者中,有40%是通过银行账户实施捐赠。从该慈善机构中抽取样本量为200的捐赠者组成一个样本,则样本比例的期望值为 A.80%B.8%C.40%D.4%正确答案是(C),新课小结,抽样推断的理论依据 抽样分布的概念 样本均值的抽样分布 样本比例的抽样分布,复习旧课,抽样推断的理论依据 抽样分布的概念 样

25、本均值的抽样分布 样本比例的抽样分布,1、大数定律大数定律是阐明大量随机现象平均结果的稳定性的一系列定理的总称。其一般意义是:在随机试验过程中,每次试验的结果不同,但大量重复试验后,所出现结果的平均值总是接近某一确定 的值。或者说,当样本单位数逐渐增大时,样本均值与总体均值的离差趋于0.,抽样推断的理论依据,大数定律的直观意义是:在对大量现象进行观察时,个别的、偶然的差异性将相互抵消。从而显示出现象总体的、必然的规律性。从抽样推断的角度看,随着样本容量的逐渐增大,抽样平均数将逐渐逼近总体平均数。,2、中心极限定理是指样本平均数分布的性质和总体分布的性质之间关系的系列定理。它认证了:第一、如果总

26、体很大,而且服从正态分布,样本平均数(成数)的分布也同样服从正态分布。第二、如果总体很大,但不服从正态分布,只要样本容量足够大,样本平均数(成数)的分布趋近于正态分布。三、样本平均数(成数)的平均数,等于总体平均数(成数)因此,在抽样推断中,不论总体服从什么分布,只要样本很大时,抽样分布都服从正态分布,进而可以推算总体平均数或成数落在某一范围内的概率。,样本统计量的概率分布,是一种理论分布按一定方法随机选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本,抽样分布的概念,按一定方法随机选取容量为n的

27、样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础,样本均值的抽样分布,样本均值分布的重要结论:(一)重复抽样(二)不重复抽样,按一定方法随机选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布,样本比例的抽样分布,样本比例分布的重要结论:(一)重复抽样(二)不重复抽样,第四节 参数估计,学习目标,抽样误差的概念(理解)影响误差大小的因素(理解)抽样平均误差(掌握)抽样极限误差(掌握)抽样推断的可靠程度(理解)抽样推断的优良标准(理解)参数估计的方法(掌握),样本指标与总体指标之差,即抽样估计值与被估计的未知的真实总体参数之差。

28、,一、抽样误差的概念,通过合理的组织和调整抽样方式可消除,不可消除,但可以进行计算加以控制,抽样误差,样本容量的大小,容量大,抽样误差小,总体的变异程度,变异大,抽样误差大,抽样方法,重复抽样产生的误差大于不重复抽样,二、抽样误差的影响因素,抽样组织方式,不同的抽样组织方式,误差是不同的,三、抽样平均误差,抽样平均误差即全部可能样本的样本平均值或样本成数计算的标准差。又称抽样标准误差、抽样标准误,也就是样本的均值与总体均值离差的平均数,1.抽样误差是样本统计量与总体参数之间的差异。,2.抽样误差是一个随样本不同而不同的随机变量。,3.因为总体指标未知,对于任何一个样本,其抽样误差都不可能测量出

29、来,抽样平均误差计算公式,总体方差,若总体方差未知:用样本方差2 代替用历史资料代替,抽样平均误差,【例】,总体方差已知,总体方差未知,用样本方差代替总体的,抽样平均误差,【例】,美国FBI的研究表明,监狱犯人获释后一年内又再次犯罪的比例为70%,某监狱准备100抽取名犯人进行一项改造计划,以望降低重犯率,求重犯率的抽样平均误差。答:重犯率的抽样平均误差,某电子产品使用寿命在3000小时以下为不合格品,现用简单随机抽样的方法,从5000个产品中抽取100个对其使用寿命进行调查,结果如下,根据资料,计算1、该产品平均寿命的抽样平均误差?2、该产品合格比率的抽样平均误差,答:已知:N5000,n1

30、00,由于该电子产品使用寿命在3000小时以下为不合格品,则有样本合格率p=(30+50+15)/100=95%该产品的平均寿命为:由于缺少总体方差资料,用样本方差代替为:,则:该产品平均寿命的抽样平均误差为:重复抽样下:不重复抽样下:,该电子产品合格率的抽样平均误差:重复抽样:不重复抽样:,在抽样推断中,在一定概率保证下,允许样本统计量偏离总体参数的最大幅度。(可允许的误差范围),从实际抽样角度来看,抽样极限误差就是实际样本指标与总体指标之间存在抽样误差的可能范围.,四、抽样极限误差,样本统计量的抽样分布,总体中心值,N(总体中心值,),抽样极限误差,和样本均值一起构造总体均值的置信区间,抽

31、样极限误差,和样本比例一起构造总体比例的置信区间,抽样极限误差,所谓抽样推断的可靠程度,就是指总体指标和样本指标之间的误差不超过一定范围的概率保证程度,或者说是总体指标落入区间 或的概率保证程度.,五、抽样推断的可靠程度,估计区间是一定可靠程度下的估计区间,可靠程度是一定估计精度(误差范围)下的可靠程度.,样本统计量的抽样分布,总体中心值,N(总体中心值,),抽样极限误差可以以抽样平均误差为标准单位来衡量.,抽样推断可靠程度的计算,t称为概率度。又称为置信度。,抽样推断可靠程度的计算,总体中心值,0.6827,0.9545,0.9973,从总体中抽取一个样本,该样本的指标落入区间的概率可用占曲

32、线面积的比例表示.,抽样推断可靠程度的计算,样本统计量的抽样分布,N(总体中心值,),某电子产品使用寿命在3000小时以下为不合格品,现用简单随机抽样的方法,从5000个产品中抽取100个对其使用寿命进行调查,结果如下,根据资料,计算1、该产品平均寿命的抽样极限误差?2、该产品合格比率的抽样极限误差?,答:已知:N5000,n100,由于该电子产品使用寿命在3000小时以下为不合格品,则有样本合格率p=(30+50+15)/100=95%该产品的平均寿命为:由于缺少总体方差资料,用样本方差代替为:,则:该产品平均寿命的抽样平均误差为:重复抽样下:不重复抽样下:,该电子产品合格率的抽样平均误差:

33、重复抽样:不重复抽样:,例:根据上题,假定取t2,那么该电子产品平均寿命及合格率的抽样极限误差是:重复抽样,不重复抽样,极限误差与抽样平均误差数值之间的关系为()A、前者一定小于后者 B、前者一定大于后者 C、前者一定等于后者 D、前者既可大于后者,也可小于后者D,反映样本指标与总体指标之间的平均误差程度的指标是()。A、置信度 B、概率度 C、抽样平均误差 D、抽样极限误差C,反映抽样指标与总体指标之间抽样误差可能范围的指标是()。A抽样平均误差 B抽样极限误差 C抽样误差系数 D概率度,对甲乙两个工厂工人平均工资进行纯随机不重复抽样调查,调查的工人数一样两工厂工资方差相同,但甲厂工人总数比

34、乙厂工人总数多一倍,则抽样平均误差()。A甲厂比乙厂大 B乙厂比甲厂大 C两个工厂一样大 D无法确定A,新课小结,抽样误差的概念 抽样误差的影响因素 抽样平均误差 抽样极限误差 抽样推断的可靠程度,复习旧课,抽样误差的概念 抽样误差的影响因素 抽样平均误差 抽样极限误差 抽样推断的可靠程度,样本指标与总体指标之差,即抽样估计值与被估计的未知的真实总体参数之差。,一、抽样误差的概念,通过合理的组织和调整抽样方式可消除,不可消除,但可以进行计算加以控制,抽样误差,样本容量的大小,容量大,抽样误差小,总体的变异程度,变异大,抽样误差大,抽样方法,重复抽样产生的误差大于不重复抽样,二、抽样误差的影响因

35、素,抽样组织方式,不同的抽样组织方式,误差是不同的,三、抽样平均误差,抽样平均误差即全部可能样本的样本平均值或样本成数计算的标准差。又称抽样标准误差、抽样标准误,也就是样本的均值与总体均值离差的平均数,1.抽样误差是样本统计量与总体参数之间的差异。,2.抽样误差是一个随样本不同而不同的随机变量。,3.因为总体指标未知,对于任何一个样本,其抽样误差都不可能测量出来,总体方差,若总体方差未知:用样本方差2 代替用历史资料代替,总体方差已知,总体方差未知,用样本方差代替总体的,在抽样推断中,在一定概率保证下,允许样本统计量偏离总体参数的最大幅度。(可允许的误差范围),从实际抽样角度来看,抽样极限误差

36、就是实际样本指标与总体指标之间存在抽样误差的可能范围.,四、抽样极限误差,和样本均值一起构造总体均值的置信区间,抽样极限误差,和样本比例一起构造总体比例的置信区间,抽样极限误差,所谓抽样推断的可靠程度,就是指总体指标和样本指标之间的误差不超过一定范围的概率保证程度,或者说是总体指标落入区间 或的概率保证程度.,五、抽样推断的可靠程度,估计区间是一定可靠程度下的估计区间,可靠程度是一定估计精度(误差范围)下的可靠程度.,样本统计量的抽样分布,总体中心值,N(总体中心值,),抽样极限误差可以以抽样平均误差为标准单位来衡量.,抽样推断可靠程度的计算,t称为概率度。又称为置信度。,抽样推断可靠程度的计

37、算,总体中心值,0.6827,0.9545,0.9973,从总体中抽取一个样本,该样本的指标落入区间的概率可用占曲线面积的比例表示.,抽样推断可靠程度的计算,样本统计量的抽样分布,N(总体中心值,),设为待估计的总体参数,为样本统计量,则的优良标准为:,若,则称为比更有效的估计量(有效性),若,则称为的无偏估计量(无偏性),若越大越小,则称为的一致估计量(一致性),六、抽样推断的优良标准,有偏,无偏,抽样推断的优良标准无偏性,学生成绩 30 40 50 60 70 80 90,按随机原则抽选出名学生,并计算平均分数和中位分数。,抽样推断的优良标准有效性,中位数的抽样分布,平均数的抽样分布,抽样

38、推断的优良标准有效性,学生成绩 30 40 50 60 70 80 90,按随机原则抽选出5名学生,并计算平均分数。,n=4时 的抽样分布,n=5时 的抽样分布,抽样推断的优良标准一致性,为的无偏、有效、一致估计量;为 的无偏、有效、一致估计量;为 的无偏、有效、一致估计量。,抽样推断的优良标准,参数估计的两种方法,点估计区间估计,参数估计用得到的样本指标来推断总体指标。三要素估计值、估计的误差范围、概率保证程度,七、参数估计的方法,在参数估计中,直接以样本统计量的值作为待估计的总体参数的值,称为点估计。,点估计的概念,但无法同时给出极限误差和概率保证程度。,参数估计的方法,以样本统计量为中心

39、,以抽样极限误差为距离单位,可以构造一个区间,并可以一定的概率保证待估计的总体参数落在这个区间之中。区间越大,则概率保证程度越高。,区间估计的概念,参数估计的方法,同时给出概率保证程度,总体指标进行推断需要三个要素,且三者密切相连。,参数估计的模式,已知可靠性要求,其他量需要计算。已知极限误差,其他量需要计算。,由532名商业周刊订阅者组成的样本表明,其每周使用因特网的平均时间为6.7小时。如果总体标准差为5.8小时,求该周刊订阅者总体每周平均花费在因特网上时间的95置信区间。,则:该置信区间为:,参数估计的模式,已知可靠性要求,例:从某企业的1000名职工中,随机100抽取进行调查,得到资料

40、如下表,要求:1、试以95.45%的概率估计该企业全部职工月平均工资的可能范围;2、试以95.45%的概率估计该企业全部职工中男职工所占比重的可能范围。100名职工工资及人员资料表,重复抽样条件下:1、计算样本指标:p65/10065%,2、计算抽样平均误差,3、计算抽样极限误差由F(t)=95.45%,根据正态分布概率表可得:t2,4、给出总体参数的估计区间:代入数据得,以上计算结果说明,在以95.45%概率保证的重复抽样条件下,该企业全部职工月平均工资的可能范围是687.38736.62元,该企业全部职工中男职工所占比重的可能范围是55.46%74.56%。,不重复抽样条件下:1、样本指标

41、数值不变。p65%S2=15156,2、计算抽样平均误差,计算极限误差由F(t)=95.45%,根据正态分布概率表可得:t2,4、给出总体参数的估计区间:代入数据得,以上计算结果说明,在以95.45%概率保证的重复抽样条件下,该企业全部职工月平均工资的可能范围是688.64735.36元,该企业全部职工中男职工所占比重的可能范围是56%74%。,某水泥厂生产100装水泥,每分钟产量10袋,连续生产一天的产量为1440袋,现每隔144分钟抽取10袋组成样本,检测其包装重量,结果如下:每袋重量()数量(袋)9799 2199101 65101103 14计算抽样平均误差。并以95.45%(t=2)

42、的概率估计这一天生产水泥平均每袋重量的区间。(提示:使用不重置抽样方法),课堂练习,新课小结,抽样推断的优良标准 参数估计的方法,1、某手表厂在某段时间内生产100万个某种零件,用纯随机抽样方式抽取1000个零件进行检验,测得废品为20件。如以99.73%(t=3)的概率保证,试对该厂这种零件的废品率作点估计和区间估计。P=2%,区间估计(0.68%,3.32%),思考题,2、某灯具厂对其生产1500台灯具进行使用寿命检查,随机抽取30台,平均寿命为4.5万小时,标准差为240小时,若以95%的概率进行推断,试求极限误差和使用寿命的置信区间。43.82*1.9685.9(小时),置信区间(44

43、914.1,45085.9)小时,思考题,复习旧课,抽样推断的优良标准 参数估计的方法,设为待估计的总体参数,为样本统计量,则的优良标准为:,若,则称为比更有效的估计量(有效性),若,则称为的无偏估计量(无偏性),若越大越小,则称为的一致估计量(一致性),六、抽样推断的优良标准,参数估计的两种方法,点估计区间估计,参数估计用得到的样本指标来推断总体指标。三要素估计值、估计的误差范围、概率保证程度,七、参数估计的方法,在参数估计中,直接以样本统计量的值作为待估计的总体参数的值,称为点估计。,点估计的概念,但无法同时给出极限误差和概率保证程度。,参数估计的方法,以样本统计量为中心,以抽样极限误差为

44、距离单位,可以构造一个区间,并可以一定的概率保证待估计的总体参数落在这个区间之中。区间越大,则概率保证程度越高。,区间估计的概念,参数估计的方法,同时给出概率保证程度,总体指标进行推断需要三个要素,且三者密切相连。,参数估计的模式,已知可靠性要求,其他量需要计算。已知极限误差,其他量需要计算。,第五节 必要样本数目的确定,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,找出在规定误差范围内的最小样本容量,找出在限定费用范围内的最大样本容量,抽样推断的样本容量,总体各单位的标志变异的程度允许的误差范围要求的概率保证程度抽样方法和抽样组织方式,抽样推断

45、样本容量的影响因素,若未知。一般按以下方法确定其估计值:以前类似样本的 试验调查样本的S,计算结果通常向上进位,抽样推断样本容量的计算,(1)重复抽样,1、估计总体均值时样本容量的确定,例:某地硕士研究生毕业第一年年薪的标准差大约为2000元人民币。如果以95%的置信度估计其平均年薪,并且希望抽样极限误差分别不超过500元和100元,样本容量应为多少?,(2)不重复抽样,P 或 p 必须事先知道,但通常未知。一般按以下方法确定其估计值:a 以前类似样本的p;b 试验调查样本的p;,计算结果通常向上进位,抽样推断样本容量的计算,(1)重复抽样,2、估计总体比例时样本容量的确定,某网站一个由400名使用者组成的样本表明,该网站的使用者中26的使用者为女性。在95的置信度下,若希望将抽样极限误差控制在3,则样本容量应当为:,(2)不重复抽样,本章小结,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号