统计学第五章参数估计.ppt

上传人:牧羊曲112 文档编号:6193913 上传时间:2023-10-04 格式:PPT 页数:110 大小:1.15MB
返回 下载 相关 举报
统计学第五章参数估计.ppt_第1页
第1页 / 共110页
统计学第五章参数估计.ppt_第2页
第2页 / 共110页
统计学第五章参数估计.ppt_第3页
第3页 / 共110页
统计学第五章参数估计.ppt_第4页
第4页 / 共110页
统计学第五章参数估计.ppt_第5页
第5页 / 共110页
点击查看更多>>
资源描述

《统计学第五章参数估计.ppt》由会员分享,可在线阅读,更多相关《统计学第五章参数估计.ppt(110页珍藏版)》请在三一办公上搜索。

1、1,参数估计,第五章 参 数 估 计,南京财经大学统计系,2,本 章 内 容,第一节 统计推断的基本问题和概念第二节 总体参数的点估计第三节 正态总体均值的区间估计第四节 一般总体均值的大样本区间估计第六节 样本容量的确定,3,第一节 统计推断的基本问题和概念,、统计推断的基本问题一、简单随机抽样和抽样误差 二、统计量及其抽样分布三、参数估计的主要内容,4,统计推断的基本问题,如何根据观测或试验所得到的有限信息对总体作出推断,并同时指出所作的这种推断有多大的可靠性(用概率表示),是统计推断的基本问题。,统计推断通常是从所要研究的对象全体中抽取一部分进行观测或试验以获取信息,对总体作出推断。,由

2、于抽取部分个体观测和试验是随机进行的,依据有限个体的数据对总体作出的推断不可能绝对准确,总是包含误差,总是含有一定程度的不确定性,5,抽样,从总体中抽样有多种方法和技术,常用方法有简单随机抽样,分层抽样、系统抽样和整群抽样,不同的抽样方法得到不同的样本,进而所用的统计推断方法也不尽相同;简单随机抽样是最常用的方法。,6,简单随机抽样,为什么要进行随机抽样?由于种种原因,现实中很多现象不可能进行全面调查。对具有破坏性或消耗性的产品进行质量检验:灯泡,食品质量 对无限总体或总体容量过大的现象进行研究:海洋中的鱼 某些现象即使理论上可以进行全面调查,但为了节省大量的人力、物力、财力和时间,在不影响精

3、度和可靠度的前提下,采用抽样推断可以达到事半功倍的效果。,在进行随机抽样时,根据有无放回分为:重复抽样和不重复抽样,7,重复抽样又叫有放还抽样或重置抽样。它是每抽出一个样本单位后,把结果记录下来,随即将该单位放回到总体中去,使它和其余的单位在下一次抽选中具有同等被抽中的机会。在重复抽样过程中,总体单位数始终保持不变,并且同一个单位有多次被抽中的可能性。,重复抽样,8,不重复抽样又叫无放还抽样或不重置抽样。它是每抽出一个样本单位后,把结果记录下来,该单位就不再放回到总体中去参加以后的抽选。在不重复抽样过程中,总体单位数逐渐减少,并且每个单位至多只有一次被抽中的可能性。,不重复抽样,9,样本只是总

4、体的部分个体,不能完全包含总体的全部信息。不管采用什么推断方法,由样本推断总体时,必定存在差异,这种总体未知参数和相应的基于样本的统计量之间的差异称为抽样误差(sampling error)。抽样误差是抽样推断方法所固有的,只要利用抽样推断方法,抽样误差就一定存在,在参数估计和假设检验等统计推断过程中都伴有抽样误差。,抽样误差,相同的条件下,哪种方式的抽样误差较小?,不重复抽样,10,11,到底是那个误差才可以作为参考呢,事实上哪个也不行,最好能得到一个平均误差,12,抽样平均误差的理论公式,所谓总体成数(或比例)指总体中具有某种特征的个体的数量在总体中所占的比重,用表示;样本成数用p表示。,

5、M是指在固定样本容量下从总体中抽取不同样本的可能数目。,13,抽样误差,理论研究中,在,的条件下,常用标准差,来测度抽样平均误差,M通常难以获取,以上平均误差公式在实际中难以使用,就抽样平均数或成数而言,抽样平均误差就是抽样平均数或成数的标准差。,14,抽样平均数的抽样平均误差,重复抽样:不重复抽样:,理论研究表明在一定条件下样本均值的抽样平均误差公式为,当总体标准差未知时用样本值,N表示总体单位数,n表示样本容量,比较两种情形下的抽样平均误差的大小(公式,直观),样本均值(成数)的抽样平均误差即为样本均值(成数)的标准差,特别注意,显然,15,例题1,总体标准差未知,用样本标准差代替,16,

6、几个基本概念,样本,样本观测值:在一次抽样以后,观测到的一组确定的值或数据 称为该样本的观测值或样本数据,也称作该样本的一个实现;,显然,每次抽样的结果一般是不同的;如果我们记抽样结果为,显然这是一个多维随机变量;我们称之为随机样本,简称样本,样本,样本观测值,17,统计量,统计量:不依赖于任何未知参数的样本的函数或者说统计量仅仅是样本的函数,统计量的观测值:把样本的观测值代入统计量公式计算出的数值;,18,抽样分布,统计量是随机变量,它也有自己的分布密度和分布函数抽样分布;,由样本推断总体的有关特征时依据统计量的抽样分布。-如区间估计,假设检验,由于正态分布在统计学中的应用十分普遍,其样本均

7、值和样本方差在统计学中也起着非常重要的作用,接下来我们给出总体为正态分布的样本均值和样本方差的抽样分布,它们是统计推断的理论依据和基础。,19,一个正态总体(时的抽样分布),20,两个正态总体(时的抽样分布),21,非正态总体样本均值的抽样分布中心极限定理,方差未知用样本,22,总体成数和样本成数,所谓总体成数(或比例)指总体中具有某种特征的个体的数量在总体中所占的比重,用表示。如果总体容量为N,总体中的个体具有某特质(如合格)赋值为“1”,不具有此特质则赋值为“0”,假设总体均值u,为具有该特质的个体数,可见,对这种0-1总体而言,其均值等于成数,如果所有取值仅有0,1两个结果,这样的总体一

8、般称之为0-1总体,23,总体成数和样本成数,易知样本成数 p 就是样本均值;所以总体(样本)成数就是一类特殊总体的总体(样本)均值;易得成数的抽样误差:,总体标准差为:,24,抽样成数的抽样平均误差,重复抽样:不重复抽样:,总体成数未知,用样本成数代替,25,例题2,26,有关样本成数的渐近分布的结论可以作为样本均值的特殊情况得到,27,第二节 总体参数的点估计,一、矩估计二、极大似然估计二、点估计量的优良标准,28,参数估计的主要内容,非参数估计 参数估计 点估计 矩估计 极大似然估计 区间估计(置信区间)双侧置信区间(两个端点)单侧置信区间(一个端点)估计量和估计值,29,参数估计的主要

9、内容,瓶装饮料上所标注的容量:看一下饮料供应商有没有欺骗消费者,对瓶装饮料的含量估计一个区间,只要厂家的声称(或瓶上的标注)未超出我们所估计区间的上限,我们就认为没有欺骗行为-有上限即可,单侧置信区间举例:,30,在研究未知参数的估计值时,并不是根据一组样本的具体观测值来确定一个估计值,而是从总体出发,先根据某原理确定估计量(根据某种特定目的确定的统计量)。,点估计的特点,点估计的优点在于它能够提供总体参数的具体估计值,可以作为行动决策的数量依据。点估计的不足之处,它不能提供误差情况如何、误差程度有多大的这类重要信息。,然后在研究参数一个估计量与参数的真值之间的偏差在统计意义下是大还是小,在统

10、计意义下偏差小的估计量通常被认为是好的。,31,矩估计,矩估计法是英国统计学家K.Pearson提出的。,其基本思想:用样本矩来估计相应的总体矩,从而得到总体分布的参数的估计,这种估计方法称为矩估计,32,一阶原点矩,一阶样本原点矩,矩估计,二阶中心矩,二阶样本中心矩,实际中,更多使用,33,矩估计,矩法估计优点:(1)只要总体的k阶矩存在,就可以用矩估计来估计总体参数;(2)简单、直观,且不必知道总体的分布类型,局限性:(1)如它要求总体的k阶原点矩不存在,否则无法应用;(2)它不考虑总体分布类型,如果总体的分布类型已知,由于它没有充分利用总体分布函数提供的信息,所以得到的结果并不比极大似然

11、估计来的准确。,34,1.无偏性,2.一致性(相合性)(以投币过程中正面出现的比重为例),3.有效性,这里 都是 的无偏估计,点估计优良性的测定,35,第三节 正态总体均值的区间估计,一、单正态总体均值的区间估计二、两正态总体均值之差的区间估计三、正态总体均值的单侧区间估计,36,区间估计,一 点估计是通过相应的估计量计算出一个数值去估计未知参数,而实际中常常用到参数的另一种估计形式:区间估计。,区间估计考虑了估计中可能出现的误差,并将误差以醒目的形式标出来,给以以更大的可信感。,如估计某人身高以很大的可能性在米之间,估计某月消费金额在1000-1400元之间,估计某个人的年龄范围等等。,37

12、,区间估计的概念和基本思想,38,置信区间越小,说明估计的精度越高,即我们对未知参数的了解越多、越具体;置信水平越大,估计可靠性就越大。,一般说来,在样本容量一定的前提下,精度(区间长度)与置信度往往是相互矛盾的;若置信水平增加,则置信区间必然增大,降低了精度;若精度提高,则区间缩小,置信水平必然减小。要同时提高估计的置信水平和精度,就要增加样本容量。,置信区间的构建往往要借助于未知参数点估计或其函数的抽样分布来进行。,39,单正态总体均值的区间估计(方差已知时),即要找到两个端点 使得平均寿命 满足,(一般置信区间构造和相应点估计的分布有关)回忆其样本均值的有关性质:,给定置信水平,我们可以

13、对任何概率值找到对应的区间,的定义,40,单正态总体均值的区间估计(方差已知时),即,所以总体均值 的置信水平为 的(双侧)置信区间,函数normsinv(1-/2)=-normsinv(/2)返回的即为我们所需的,重复抽样时平均数的抽样误差,41,总体方差,,样本容量为,,样本均值,置信水平为,对应函数normsinv(1-0.025)=-normsinv(0.025)=1.96,因此该厂60W灯泡的平均寿命的置信水平为95%的置信区间为,假如该厂声称其灯泡使用寿命平均为1490我们认为还是可信的,如果声称为1500,则认为不可信,42,注意:在构造区间估计时,事实上我们是通过寻找一个随机变

14、量 完成的,在此例中,就是找到了 这个量,我们把它称为是枢轴量,这也是构造区间估计的常用方法,在这个枢轴量中,只含有待估的未知参数而不含其他任何未知参数.,在很多情况下 可以从未知参数 的点估计经过变换获得,对给定的置信水平,利用枢轴量的抽样分布(一般都是常见分布)通过不等式变形即可得到未知参数的区间估计,构造位置参数的置信区间的一般步骤:,43,单正态总体均值的区间估计(方差未知时),当正态总体的方差未知时,如果要构造总体均值的区间估计,此时的 枢轴量就不能选择,因为其中含有未知参数,可考虑用样本标准差代替总体标准差,得到枢轴量,,服从自由度为n-1的t分布,44,t分布函数说明,1;单尾

15、2:双尾,Tdist(x,deg-greedom,tail)=p(|T|x)或p(Tx)p=Tdist(1.75,8,2)=0.118233;p=Tdist(1.75,8,1)=0.059116,非负,45,t分布函数说明,Tinv(0.118233,8)=1.75 tinv(0.05,8)=2.306,概率-分位点,如果求p(T?)=-运用t分布的对称性,Tinv(0.1,8)=1.8595,Tinv(probability,deg-freedom):返回p(|T|x)=probability所对应x(注:只是双侧情形)即Tinv(,m):返回的即为双侧置信区间估计中的所需的分位点,计算,4

16、6,47,对应函数Tinv(0.01,24)=2.7969,类似题目见活页ex-3,48,类似题目见活页ex-2,由于样本量较大,所以采用了正态分位数,49,t分布与标准正态分布的比较,50,教材数据中的ch5例5.6Exel演示,51,Exel演示,Tinv(0.05,31),-Normsinv(0.025),52,正态总体均值的单侧区间估计,根据研究者掌握的关于总体均值的信息,有时只需要或只想要寻求有关总体均值的置信下限(或置信上限),这就涉及到单侧置信区间问题,饮料的容量-消协想根据瓶上的容量标注看一下商家有没有欺骗消费者估计出饮料容量可能的区间,其实只要瓶上的标注容量没有超出区间的上限

17、,我们就认为商家没有欺骗行为-所以,主要是一个上限的问题,53,的定义,54,的定义,Tinv(2,n-1),55,Tinv(0.02,24)=2.492,56,两正态总体均值之差的区间估计,57,类似题目见活页ex-5,-Normstinv(0.05)=1.65,58,2.两个正态总体的方差 和 未知,但,59,2.两个正态总体的方差 和 未知,但,60,EXCEL演示,类似题目见活页ex-4,对应函数Tinv(0.1,11)=1.7959,61,如果样本量n和m应比较大,62,两正态总体的均值之差的单侧置信区间,63,两正态总体的均值之差的单侧置信区间,64,小结:正态总体均值和均值之差的

18、大样本双侧置信区间,65,第四节 一般总体均值的大样本区间估计,一、非正态总体均值的大样本区间估计二、总体成数的大样本区间估计三、总体成数的大样本单侧区间估计,66,非正态总体均值的大样本区间估计,(一)单个非正态总体的均值的大样本置信区间,类似题目见活页11题,67,(二)两个非正态总体的均值之差的置信区间,类似题目见活页11题,68,小结:非正态总体均值和均值之差的区间估计,69,总体成数和样本成数,所谓总体成数(或比例)指总体中具有某种特征的个体的数量在总体中所占的比重,用表示。,总体成数的大样本区间估计,一般,总体中的个体具有某特质(如合格)赋值为“1”,不具有此特质则赋值为“0”,即

19、认为总体中的个体要么取值为1,要么取值为0,显然这就是我们所熟悉的0-1总体。令X表示相应的总体,简化为合格问题,易知,在此问题中,合格的概率(比重)就是 成数,可表示为,70,总体成数和样本成数,总体成数的大样本区间估计,回忆0-1总体的均值,方差,由此可知,总体成数即为0-1总体的均值。显而易见,样本成数(记为p)为0-1总体的样本均值。所以,有关总体成数的估计问题即为0-1总体(非正态总体)均值的估计问题,71,回忆单个非正态总体均值的置信区间估计,给定置信水平1-,对应的双侧置信区间为,总体成数的大样本区间估计,故成数的双侧置信区间为,这里p表示样本成数(对应0-1总体的样本均值),p

20、(1-p)表示样本方差,注意:大样本的情形,72,【例5.9】某公司有职工3000人,从中随机抽取100人调查其工资收入情况。调查结果表明,职工的月平均工资为3350元,标准差为403元,月收入在5000元及以上职工8人。试以95.45%的置信水平推断该公司职工月平均工资所在的范围月收入在5000元及以上职工在全部职工中所占的比重所在的范围,总体成数的大样本区间估计,73,。,74,类似题目:课后三(2)或活页2,75,回忆两个个非正态总体均值之差的置信区间估计,所采用的枢轴量为,故两总体成数之差1-2的双侧置信区间为,这里p1,p2表示样本成数,注意:大样本的情形,两总体成数之差的近似区间估

21、计,给定置信水平1-,对应的双侧置信区间为,近似分布为标准正态分布,76,【例5.10】分别从两个同行公司中随机抽取100人和120人调查其工资收入情况。调查结果表明,A公司月收入在5000元及以上有职工9人,B公司月收入在5000元及以上的职工有6人。试以95%的置信水平推断这两个公司职工月工资在5000元及以上职工所占的比重之差的置信区间;该结果能说明A公司5000元及以上职工所占的比重比B公司高吗?,总体成数的大样本区间估计,77,78,总体成数或成数之差的区间估计(同非正态(0-1分布)情形),79,小结:非正态总体均值和均值之差的大样本双侧置信区间,80,非正态总体均值和均值之差的大

22、样本单侧置信区间,81,在单个总体均值或成数的置信区间估计问题中,置信区间的形式为,给定置信水平1-,样本均值置信区间为,样本成数置信区间为,特别注意,当采用不重复抽样,特别给出总体单位个数N时,应考虑新的置信区间形式,相关题目:活页10或课后操作题四,样本均值在重复抽样下的抽样平均误差,样本成数在重复抽样下的抽样平均误差,82,第六节 样本容量的确定,一、总体均值估计的必要样本容量二、总体成数估计的必要样本容量三、影响必要样本容量的因素,83,作参数估计时为什么要确定合适(必要)的样本容量?我们既希望参数的估计的可靠度或置信度要高,又希望估计的精度要高,但样本容量过多,必然会增加人力、财力、

23、物力的支出,造成不必要的浪费;样本容量过少,又会导致抽样误差增大,达不到抽样所要求的准确程度。因此,必要样本容量就是在保证误差不超过规定范围的条件下尽可能节省人、财、物的支出。,必要样本容量,84,本节只考虑了单个总体双侧区间估计时的样本容量。这里确定出来的样本容量,很多时候是一个近似值,在实际工作中是一个非常重要的参考,以上也可表示为,在1-的置信水平下,,可理解为在1-的置信度下,抽样误差不会超过预先设定的误差,在此条件下的样本容量称为必要样本容量。根据抽样方式不同,必要样本容量的表达式也不同。,给定置信水平1-,均值置信区间为,85,总体均值的必要样本容量,重复抽样:不重复抽样:,当总体

24、方差未知时,采用样本方差进行,当有多个样本方差可供选择时,采用最大的样本方差遵循随大原则。,务必注意,86,87,以重复抽样为例说明此时计算的样本容量为达到要求所需的最小容量,此例中所计算的n=144,如果我们采用了140,看看抽样的平均误差是否达到了既定标准,即p(|x-u|)是否到达了99.73%,根据有关性质p(|x-u|)是否到达了99.73%,P=1-2*normsdist(-2.958)=99.69%,88,重复抽样:不重复抽样:,总体成数的必要样本容量,例题7,当总体成数 未知时,用其估计量样本成数 代替。,同样采用最大的样本方差遵循随大原则。,89,遵循随大原则:p(1-p)在

25、p=0.5时取得极大值,相关题目:活页 7,8,90,影响必要样本容量的因素,1.总体的变异程度,即方差的大小。总体方差越大,要求样本容量要大些;反之则相反。2.容许误差的大小。容许误差越大,要求样本容量越小。3.抽样方法。在其他条件相同时,重复抽样比不重复抽样要求样本容量大些。4.抽样方式。采用类型抽样的样本容量要小于简单随机抽样的样本容量。5.抽样推断的置信度的大小。置信度越大,要求样本容量越大.可从样本容量计算公式的推导结果加以验证,提醒:活页习题2虽为方差未知的正态总体,由于是大样本,简单起见可采用标准正态分布的枢轴量。,91,END,92,把所研究的问题或现象视为随机变量,有概率分布

26、,它全面描述了我们要研究的现象的统计规律性。如果知道了要研究的随机变量的概率分布,就可以在其基础上比较清楚地了解要研究的现象。但在现实中,绝大多数情况下,并不知道要研究的随机现象的分布,有时即使知道其服从什么类型的分布,但不知道分布中所含的参数。由于总体包含个体的大量性,研究者很难得到全部个体的信息和资料,即使有时可以得到,但不经济。,统计推断的基本问题,93,统计推断的基本问题,统计推断通常是从所要研究的对象全体中抽取一部分进行观测或试验以获取信息,对总体作出推断。由于抽取部分个体观测和试验是随机进行的,依据有限个体的数据对总体作出的推断不可能绝对准确,总是包含误差,总是含有一定程度的不确定

27、性,而不确定性用概率表示比较恰当,概率大,所做的推断就比较可靠,概率小,推断的准确性就低。如何根据观测或试验所得到的有限信息对总体作出推断,并同时指出所作的这种推断有多大的可靠性(用概率表示),是统计推断的基本问题。,94,简单随机抽样,为什么要进行随机抽样?由于种种原因,现实中很多现象不可能进行全面调查。对具有破坏性或消耗性的产品进行质量检验 对无限总体或总体容量过大的现象进行研究 某些现象即使理论上可以进行全面调查,但为了节省大量的人力、物力、财力和时间,在不影响精度和可靠度的前提下,采用抽样推断可以达到事半功倍的效果。,95,简单随机抽样,抽取的样本应能很好地代表总体;从总体中抽取样本有

28、多种不同的方法,最简单的、应用很普遍的抽样方法是简单随机抽样,它满足以下两个条件:(1)总体的每一个体都有同等机会被选入样本;(2)样本的分量 是相互独立的随机变量,即样本中任一个体的取值不影响其它个体的取值。满足这两个条件的抽样方法称为简单随机抽样,由此得到的样本称为简单随机样本。易见,简单随机样本 独立同分布(有时用表示)。,96,简单随机抽样,从总体中抽样有多种方法和技术,除简单随机抽样外,分层抽样、系统抽样和整群抽样也是常用的抽样方法,不同的抽样方法得到不同的样本,进而所用的统计推断方法也不尽相同。以后如无特别说明,所提到的样本都是指简单随机样本。研究对象可以视为随机变量,有自己的分布

29、;总体和随机变量联系起来。在一次抽样以后,观测到 的一组确定的值或数据 称为该样本的观测值或样本数据,也称作该样本的一个实现。样本所有可能观测值的全体就构成了样本空间。,97,由于样本中每一个个体 都来自总体,所以样本中的任一个体 的分布函数和总体相同,即 的分布函数为 简单随机样本,相互独立,则样本 的联合分布函数为如果总体的密度函数为,则样本 的联合分布密度函数为如无特别说明,一般用大写英文字母或希腊字母表示随机变量,而用小写英文字母表示随机变量的观测值或数据。,简单随机抽样,98,不同的样本容量对抽样误差的影响,但是,后面我们可以看到,99,抽样误差,100,点估计的一般原理,101,原

30、点矩,k阶原点矩,一阶原点矩,二阶原点矩,k阶样本原点矩,一阶样本原点矩,二阶样本原点矩,矩估计,以正态分布为例,102,矩估计,说明:设总体的概率函数 已知,其中 是2个未知参数,是取自总体的一个样本,假设的一,二阶矩 存在,且是 的函数。样本的i阶矩为,令解这2个方程所组成的方程组就可以得到的一组解,这就是的矩估计。,103,104,矩估计,推广,当含义s个未知参数时,只需令 解这s个方程所组成的方程组即可得s个未知参数的矩估计,原因:总体分布的参数一般都是总体矩的函数;样本来源于总体,样本矩在一定程度上反映了总体矩,而大数定律表明样本矩依概率收敛到总体矩.,矩法估计优点:(1)只要总体的

31、k阶矩存在,就可以用矩估计来估计总体参数;(2)简单、直观,且不必知道总体的分布类型,局限性:(1)如它要求总体的k阶原点矩存在,否则无法应用;(2)它不考虑总体分布类型,如果总体的分布类型已知,由于它没有充分利用总体分布函数提供的信息,所以得到的结果并不比极大似然估计来的准确。,105,二.极大似然估计,1.基本原理:,用样本出现概率达到最大的参数值作为未知参数的估计值,例1.设有外形完全相同的两个箱子,甲箱有99个白球1个黑球,乙箱有99个黑球1个白球.今随机抽取一箱,再从取出的一箱中抽取一球,结果取得白球,问抽取的最可能是那个箱子?,解:,甲箱中抽得白球的概率P(白球|甲箱)=99/10

32、0,乙箱中抽得白球的概率P(白球|乙箱)=1/100,极大似然估计原理的直观想法:一个随机试验如有若干个可能结果A,B,C,若在一次试验中,结果A出现,则认为试验条件对A出现有利,也即A出现的概率最大,106,设X1,X2,Xn是来自总体X的样本,其观测值为x1,x2,xn,X的概率函数,107,108,2.两个正态总体的方差 和 未知,但,当两个正态总体的方差未知时,此时的枢轴量就不能用了,因为其中含有未知参数,可考虑用样本标准差代替总体标准差.,当两个正态总体的方差已知时,如果要构造总体均值之差的区间估计时所采用的枢轴量为,109,2.两个正态总体的方差 和 未知,但,由独立卡方变量的可加性,可知,构造T统计量,110,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号