《《概率论与数理统计教学课件》6第六章.ppt》由会员分享,可在线阅读,更多相关《《概率论与数理统计教学课件》6第六章.ppt(54页珍藏版)》请在三一办公上搜索。
1、第二部分 数理统计,从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,这说明人们很早就开始了统计的工作。但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之外的推断。,数理统计的客观背景,到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科。,同时随着计算机的诞生与发展,为数据处理提供了强有力的技术支持,这就导致了数理统计与计算机结合的必然的发展趋势。,目前国内外著名的统计软件包:R,SAS,SPSS,STAT 等,都提供了快速、简便地进行数据处理和分析的方法与工具。,数理统计学是一门应用性很强的学
2、科,它是研究怎样以有效的方式收集、整理和分析所获得的有限的资料,以便对所考察的问题尽可能地作出精确而可靠的推断和预测,直至为采取一定的决策和行动提供依据和建议。,数理统计研究的对象,-带有随机性的数据,数理统计的任务,数理统计的特征,-数理统计方法具有“部分推断整体”的特征,在数理统计中,不是对所研究的对象全体(称为 总体)进行观察,而是抽取其中的部分(称为样 本)进行观察获得数据(抽样),并通过这些数 据对总体进行推断。,由于在数理统计中是从一小部分样本观察值去推断该全体对象(总体)情况,即由部分推断全体.所以这里使用的推理方法是“归纳推理”。,在概率论中所研究和讨论的随机变量,它的分布都是
3、已知的,在这前提下去进一步的研究它的性质、特点和规律性。而在数理统计中所研究和讨论的随机变量,它的分布是未知的或不完全知道的。于是就必须通过对所研究和讨论的随机变量进行重复独立的观察和试验,得到许多观察值(数据),对这些数据进行分析后才能对其分布作出种种判断。得到这些数据最常用的方法是-随机抽样法。,随机抽样法,要较好地反映所研究和讨论的随机变量整体的特性,就必须研究:,(1)如何抽样,抽多少,怎么抽,如何对抽样的结果进行合理分析,作出科学 的判断.,统计推断问题,抽样方法问题,今后所讨论的统计问题主要属于下面这种类型:,从所研究的随机变量的某个集合中抽取一部分元素,对这部分元素的某些数量指标
4、进行试验与观察,根据试验与观察获得的数据来推断这集合中全体元素的数量指标的分布情况或数字特征。,数理统计,抽样分布,统计推断,常用的统计量,四个重要分布,参数估计,假设检验,正态总体的样本均值与方差的分布(重要统计量的分布),矩估计法,点估计,区间估计,极大似然估计法,均值的区间估计,方差的区间估计,均值的检验,方差的检验,单个总体,两个总体,正态总体,一.总体和个体,定义,将研究对象的某项数量指标的值的全体称为总体(母体);将总体中的每个元素称为个体,例1.,当研究某地区中职工收入平均水平时,这地区所有职工的月收入组成了总体;而每个职工月收入就是个体。,(1),(2),研究某批灯泡的质量,则
5、该批灯泡寿命的全体就组成了总体;而每个灯泡的寿命就是个体。,总体,第6.1节 随机样本,(3),研究某国产轿车每公里平均耗油量时,则该国产轿车每公里耗油量的全体就是总体;而该国产轿车每公里耗油量就是个体。,注:,因此,X 所有可能取的值的分布为总体 X 的分布,记为F(x),称其为总体 X 的分布函数。,研究对象的某项数量指标 X 是一个随机变量;,这是由于每个个体的出现是随机的,所以相应的数量指标的出现也带有随机性。从而可以把这种数量指标看作一个随机变量,因此随机变量的分布就是该数量指标在总体中的分布。,总体 可以用一个随机变量及 其分布来描述,研究某批灯泡的寿命时,关心的数量指标就是寿命,
6、那么,此总体就可以用一维随机变量 X 表示,或用其分布函数 F(x)表示。,某批灯泡的寿命,总体,寿命 X 可用一概率分布来刻划,鉴于此,常用随机变量的记号或用其分布函数表示总体,如总体 X 或 总体 F(x)。,例2.,(1),在研究某地区中学生的营养状况时,若关心的数量指标是身高和体重,现用 X 和 Y 分别表示身高和体重,则此总体可用二维随机变量(X,Y)或其联合分布函数 F(x,y)来表示。,总体依其包含的个体总数分为有限总体(个体的个 数是有限)和 无限总体(个体的个数是无限的)。但当有限总体它所含的个体的个 数很大时也可视其为无限总体。,(2),注:,在数理化统计中,总体这个概念的
7、要旨是:,总体就是一个概率分布.,二.抽样和样本,为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽取过程称为“抽样”,所抽取的部分个体称为 样本,样本中所包含的个体数目称为 样本容量。,从某批国产轿车中抽5 辆进行耗油量试验。这一过程即为“抽样”,这 5 辆轿车为一个样本,其样本容量为 5,抽样,例如:,定义1.,从总体中抽取一部分个体进行观察,被抽出的部分个体称为总体的一个样本。,为了了解总体的分布,我们从总体中随机地抽取n个个体,记其指标值为 则 称为总体的一个样本。由于每一次观测所取得的观测值 具有随机性。因此,从另一个角度来讲,样本是一
8、个随机变量。,注:,即样本具有双重性:(1)是一个n维随机变量;(2)是n个具体的观察数值。,对于有限总体和无限总体都可以通过放回抽样的方式得到简单随机样本。当个体的总数 N比要得到的样本容量n大得多时,可将不放回抽样近似地当作放回抽样来处理。,三.简单随机样本,定义2,设 X 是具有分布函数 F 的随机变量,若,是具有同一分布函数 F 的、,相互独立的随机变量,则 称,为总体 X(或从总体 F 或从分布函数 F)得到的容量为 n 的简单随机样本简称样本,它们的观察值,样本是随机变量,但它具有二重性。,注:,若 为总体 X 的一个样本,X 的分布函数为 F(x),概率密度为 f(x),则:,联
9、合概率密度为:,可视样本为一个随机向量,记为,此时,相应的样本值可记为:,联合分布函数为:,从而,容量为 n 的样本可以看作 n 维随机变量。,在上节所介绍内容中已经知道:样本是进行统计推断的依据。但在实际应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推断。,第二节 抽样分布,问题的提出,亦即样本去推断总体情况,需要对样本进行一定的“加工”,这就要构造一些样本的适当函数,它把样本中所含的(某一方面)的信息集中起来。,这种不含任何未知参数的样本的函数称为统计量。它是完全由样本决定的量。,1.定义,设 是来自总体 X 的一个样本,,是 的函数。,
10、若 g 是连续函数且 g 中不含任何未知参数,则称 是一个统计量。,一.统计量的定义,注:,统计量是完全由样本确定的量。,统计量是样本的函数,所以也具有双重性。(1)当样本是随机变量时,统计量也是随机变量;(2)当样本为观测值时,统计量是一个具体数值。,统计量的构造总是有目的的。,2.几个常用的统计量,样本均值:,样本方差:,它反映了总体均值的信息,它反映了总体方差的信息,(1).,(2).,(3).,样本标准差:,(4).,样本 k 阶原点矩:,(5).,样本 k 阶中心矩:,k=1,2,它反映了总体k 阶矩的信息,它反映了总体k 阶中心矩的信息,注:,(5)均是随机变量,实际上它们是样本函
11、数的数字特征;它们的观察值是具体的实数值,仍称为样本均值、样本方差、样本 k 阶原点距与样本 k 阶中心距。,若总体 X 的 k 阶原点距 存在,则当 时有:,这个结论表明:样本的 k 阶距依概率收敛到总体的 k 阶距。这也是参数估计中的矩估计法的理论根据。,设总体X的均值为,方差为2,X1,X2,Xn为取自总体X的样本,则,3.抽样分布,统计量作为随机变量,因而就有一定的分布,这个分布就称为统计量的“抽样分布”。故有:,统计量的分布称为抽样分布,二.几个重要的分布,设 是来自正态分布 N(0,1)的样本,则称统计量:为服从自由度为 n 的 分布.,定义.,分布,1.,记为:,注:,自由度 n
12、 是指 中所包含独立变量的个数,分布的密度函数为:,来定义。,其中:伽玛函数 通过积分:,其图形如下:,若,则,n=2,n=1,n=4,n=6,n=11,(参见教材 P163 图 61),相互独立,则,分布的上 分位点:,分布的可加性:,其图形如下:,的点,面积=,对于不同的 与,有表可查(见教材P386 的附表5),一般:,例如:,费歇R.AFisher证明,或:,记为T t(n),为服从自由度为 n 的 t 分布.,设 XN(0,1),Y,且 X 与 Y 相互独立,则称随机变量:,t 分布,2.,定义.,注:,t 分布是英国统计学家哥塞特(G0sset)首先发现的,并以学生(student
13、)的笔名在英国的Bi0metrike杂志上发表的一篇文章中提出了他的研究结果,故 t 分布也称为学生分布。,t 分布的概率密度函数为:,它非常象正态分布图形,关于 y 轴对称,n=2,n=25,n=,(参见教材 P140 图 68),其图形如下:,T 分布的上 分位点:对于给定的,称满足条件:,当 充分大时,,若 T t(n),则有:,当 时,的点 为 t 分布的上 分位点。,面积=,对于不同的 与,有表可查(见教材P392 的附表7),一般:,(用正态分布近似),例如:,由上 分位点定义及 h(t)对称性得:,F分布,设 X 与Y 相互独立,则称统计量:,为服从自由度 n1 及 n2 的 F
14、 分布,记作:F F(n1,n2),若 F F(n1,n2),则 F 的概率密度为:,注:,3.,定义.,其图形如下:,(参见教材 P141 图 610),若 则,若 则:,当 时,,当 时,,称满足条件:,F 分布的上 分位点:对于给定的,面积=,对于不同的 与,有表可查(见教材P387的附表6),例如:,正态分布,分布的上 分位的性质:,4.,(请复习其图形及性质等),三.正态分布的样本均值与样本方差的分布,定理 1(样本均值和样本方差的分布),是其样本均值和样本方差,则,只证(1),(2)与(3)的证明见教材P145P147,证明:,则有:,由已知,又,则:,即,定理二,分别为样本均值和
15、样本方差,则有,相互独立,分析,?,?,?,(证略),n 取不同值时样本均值 的分布,n 取不同值时 的分布,推论.,注:,设 是总体 的一个样本,,则,对于一般的有:,由推论,定理 2.,分别为样本均值和样本方差,则有:,证明:,由定理1 的结论与 推论,并且两者相互独立,由 分布的定义得:,定理 3.,且 X 与,是取自 Y 的样本。,Y 相互独立,,则有:,(1),(2),当 时,,其中:,证明:(1),由假设,相互独立,则由F分布的定义知,即,而,相当于y=ax+b中 a=-1,b=0,从而,由定理1推论,(2),由 分布的可加性,则由 t 分布定义得:,例1.,在总体 中随机抽取一容量为 36 的样本,求:样本均值 落在 50.8 到 53.8 之间的概率,解:,样本的容量为 36,样本均值,从而:,例2.,证明:,由 F 分布定义得:,已知,求证:,所以由 分布的定义,即:,