沈阳理工大学徐静霞版统计学(12)第5章参数估计ppt课件.ppt

上传人:牧羊曲112 文档编号:1347015 上传时间:2022-11-12 格式:PPT 页数:84 大小:2.49MB
返回 下载 相关 举报
沈阳理工大学徐静霞版统计学(12)第5章参数估计ppt课件.ppt_第1页
第1页 / 共84页
沈阳理工大学徐静霞版统计学(12)第5章参数估计ppt课件.ppt_第2页
第2页 / 共84页
沈阳理工大学徐静霞版统计学(12)第5章参数估计ppt课件.ppt_第3页
第3页 / 共84页
沈阳理工大学徐静霞版统计学(12)第5章参数估计ppt课件.ppt_第4页
第4页 / 共84页
沈阳理工大学徐静霞版统计学(12)第5章参数估计ppt课件.ppt_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《沈阳理工大学徐静霞版统计学(12)第5章参数估计ppt课件.ppt》由会员分享,可在线阅读,更多相关《沈阳理工大学徐静霞版统计学(12)第5章参数估计ppt课件.ppt(84页珍藏版)》请在三一办公上搜索。

1、Fundamental Statistics,统计学基础,第5章 参数估计,5.1 抽样与抽样分布5.2 参数估计的基本原理5.3 总体均值的区间估计5.4 总体比例的区间估计5.5 样本量的确定,导入案例:,大学生每天花多少时间上网 某大学经济管理学院为了解学生每天上网的时间,在全院1500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时): 根据上表的计算,样本的平均上网时间为3.317小时,标准差为1.609小时。根据这些资料,该如何推断全院学生每天的平均上网时间呢?每天上网时间超过4小时的学生比例又应该是多少?本章将对这些问题进行阐述。,学习

2、目标,1.抽样与抽样分布。了解概率抽样的方法,熟悉常见的随机变量概率分布,掌握样本均值和样本比例的抽样分布。2.参数估计的基本原理。熟悉参数估计的数理统计基础,重点掌握点估计和区间估计的原理。,学习目标,3.总体均值的区间估计。重点掌握在大样本条件下总体均值的区间估计,以及正态总体方差未知和小样本下总体均值的区间估计。4.总体比例的估计。重点掌握大样本下总体比例的区间估计。5.样本量的确定。重点掌握估计总体均值和估计总体比例时样本量的确定方法。,5.1 抽样与抽样分布,5.1.1 概率抽样的方法5.1.2 几种重要的随机变量分布5.1.3 抽样分布5.1.4 统计量的标准误,5.1.1 概率抽

3、样的方法,概率抽样:是根据一个已知的概率来抽取样本单位,总体中哪一个单位会被抽中,并不取决于研究人员的主观意愿,而是取决于客观的机会概率。特点:单位被抽中完全是随机的。一般的抽样推断都是建立在概率抽样的基础之上的。常见的概率抽样方法有:简单随机抽样,分层抽样,系统抽样,整群抽样等。,5.1.1.1简单随机抽样,简单随机抽样:又称纯随机抽样,它是按随机原则直接从总体N中抽取样本单位n。特点:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。适用的条件:通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。简单随机抽样方法简便,易于掌握。分类:重复抽样和

4、不重复抽样。,重复抽样,重复抽样也叫重置抽样,是指每次抽取一个单位记录其标志表现后又放回,重新参加下一次的抽选。重复抽样可能的样本数为:,不重复抽样,不重复抽样也叫不重置抽样,是指每次从总体中抽取一个单位记录其标志表现后不再放回,从剩余的单位中抽取下一个单位。不重复抽样可能的样本数为:,5.1.1.2分层抽样,分层抽样:是常用的一种抽样方式,它是先将总体各单位划分成若干类(或层),然后在各组内按随机原则抽取若干单位,将所有组抽样的样本单位组成一个样本。 特点:1.将总体内性质比较接近的单位分在一组,然后在每一组内抽样;2.除了可以对总体进行估计外,还可以对各层的子总体进行估计;3.分层抽样可以

5、按自然区域或行政区域进行分层,使抽样组织和实施都比较方便。适用范围:总体情况复杂,各单位之间差异较大,单位较多的情况。,5.1.1.3系统抽样,系统抽样:是将总体各单位按某种顺序排列成为图形或一览表式(也就是通常所说的排队),然后按相等的距离或间隔抽取样本单位。 特点是:1、抽取方式简单,容易实施 2、样本在总体中分布较为均匀例如:对某市的工业企业做调查,就可以按照相关部门的习惯顺序排列,直接利用这些顺序进行等距抽样。,5.1.1.4整群抽样,整群抽样:它是将研究对象的总体划分为若干群(或称为组),然后按照随机的原则抽取若干个群(或组),对抽中的群(或组)内所有单位都进行调查的一种抽样组织形式

6、。 特点是:研究的单位比较集中,工作的组织和进行比较方便,可以节省人力、物力和财力,尤其是当总体中包括的单位数很多,且缺乏可靠的登记资料时经常采用。适用范围:群间差异性不大或者不适宜单个地抽选样本的情况。,在重复选取容量为n的样本时,由每一个样本算出的该统计量数值的相对频数分布或概率分布 是一种理论分布。随机变量是 样本统计量样本均值, 样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布 (sampling distribution),5.1.2几种重要的随机变量分布,二项分布、正态分布、 分布、t分布

7、、F分布,5.1.2.1二项分布,二项分布是离散型随机变量概率分布的一种,是建立在贝努力实验的基础上的。n重贝努力实验满足下列条件:1.一次实验只有两个可能,即“成功”和“失败”。2.一次实验“成功”的概率为 ,“失败”的概率为 而且概率对每次试验都是相同的。3.实验是相互独立的,且可以重复进行n次。在n次实验中,“成功”的次数的概率分布就是二项分布记为 。n次实验中成功次数为x的概率可表示为:二项分布的期望值和方差分别为:,某电子元件厂,已知其一批产品的合格率为95%,从中有放回的抽取10个,求10个产品中:(1)全部合格的概率;(2)有一个不合格产品的概率;(3)有2个以下不合格产品的概率

8、。,【例5.1】,【例5.1】,解:每取一个产品就是一次独立实验,n=10,由于是有放回的抽取,因此每次试验是独立的,每次抽取不合格率为5%。设X为抽取的不合格产品数,显然,概率分布分别为(1),(2),(3),5.1.2.2正态分布,特点:在总体平均数及其附近,总体单位数最多;相 反地,越远离总体平均数,总体单位数越少。若随机变量服从正态分布,记为 ,其概率密度函数所对应的曲线如图所示。,不同的 值和 值,对应的正态分布就不同。,图2 不同的 的正态分布曲线图,不同的 值和 值,对应的正态分布就不同。,图3 不同的 正态分布曲线图,我们把参数 时的正态分布称为标准正态分布(standard

9、normal ditribution),如果随机变量X服从 正态分布,其数学期望值(均值)为 方差为 ,若令 则Z就服从标准正态分布,通常用记为ZN(0,1)表示。,(1),(2),(3),某厂生产一批小型装置,其寿命X服从均值为8,标准差为2(单位:年)的正态分布。(1)求整批小型装置中寿命大于7的比率;(2)求整批小型装置中寿命介于7-9年的比率;(3)如果工厂规定在保用期间遇有故障可免费换新,将要求免费换新的比率定为3%,求保用年限。,【例5.2】,解:,(1)利用【NORMDIST】函数:,(2)利用【NORMDIST】函数:,(3)利用【NORMINV】函数得: MORMINV(0.

10、03)=4.2384128 即工厂应将保用年限定为4年。,5.1.2.3 分布(适用于方差的估计与检验),分布具有如下的特征:,1. 分布的变量值始终为正值;,2. 分布的形状取决于自由度n的大小,通常为不对称的右偏分布,但随着自由度的增大逐渐趋于对称,如图4所示.,5.1.2.4 t 分布,t分布是类似正态分布的一种对称分布,当随机变量X服从标准正态分布N(0,1),Y服从分布 ,X,Y相互独立,则,分布称为t分布,记为t(n),其中n为自由度。,t分布通常比标准正态分布要分散和平坦一些,如下图5所示。,5.1.2.5 F 分布,F分布(F-distribution)是两个 分布的比。设随机

11、变量Y和Z相互独立,且Y和Z分别服从自由度为m和n的 分布,则随机变量X,,服从第一自由度为m,第二自由度为n的F分布,记为F(m,n)。F分布的图形与 分布类似,其形状取决于两个自由度,如图6所示。,在重复选取容量为n的样本时,由每一个样本算出的该统计量数值的相对频数分布或概率分布 是一种理论分布。随机变量是 样本统计量样本均值, 样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布 (sampling distribution),【例5.3】已知总体有4名学生A,B,C,D,他们的年龄分别为 岁, 岁

12、, 岁, 岁,从中抽取2人调查平均年龄。此时,样本均值的抽样分布是所有的样本均值形成的相对频数分布,即 的概率分布。,5.1.3.1样本均值的抽样分布,总体平均年龄,总体标准差,表2 重复抽样且考虑抽样顺序样本及其均值 计算表,表3 样本平均数 分布,样本均值的分布与总体分布的比较 (例题分析), = 23 2 =5,总体分布,样本均值分布,样本均值的抽样分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X 的数学期望为,方差为2/n。即XN(,2/n),中心极限定理(central limit theorem),中心极限定理:设从均值为

13、,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,中心极限定理 (central limit theorem),x 的分布趋于正态分布的过程,样本均值抽样分布与正态分布的关系,样本均值的数学期望样本均值的方差重复抽样不重复抽样,样本均值的抽样分布(数学期望与方差),通过计算,可知样本平均数的标准差 和总体标准差 之间存在一定的对应关系,即,以上的结论,我们可以通过例6-6计算证明。可知样本平均数 的平均数 等于总体平均数,即:,总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)

14、 与全部产品总数之比总体比例可表示为样本比例可表示为,样本比例的抽样分布(比例proportion),5.1.3.2样本比例的抽样分布,样本比例抽样分布是指在重复选取样本量为n的样本时,由样本比例的所有可能的取值形成的相对频数分布。 的抽样分布是样本比例 的所有可能取值的概率分布。,的数学期望值 等于总体的比例 ,即:,而 的方差则与抽样方法有关,假设 的抽样方差为 ,在重复抽样条件下,有: ,样本比例的数学期望样本比例的方差重复抽样不重复抽样,样本比例的抽样分布(数学期望与方差),5.1.4统计量的标准误,统计量的标准误(standard error),是指样本统计量的抽样分布的标准差,有时

15、也称为标准误差。 估计标准误(standard error of estimation)是指当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,也称为估计标准误差。,5.2 参数估计的基本原理,5.2.1参数估计的概念5.2.2参数估计的数理基础5.2.3参数估计的优良标准5.2.4 抽样估计方法,参数估计(parameter estimation)就是用样本统计量去估计总体的参数估计量:用于估计总体参数的统计量的名称如样本均值,样本比例,样本方差等例如: 样本均值就是总体均值 的一个估计量参数用 表示,估计量用 表示估计值:估计参数时计算出来的统计量的具体值如果样本均值 x =

16、80,则80就是 的估计值,5.2.1参数估计的概念,5.2.2参数估计的数理基础,5.2.2.1 大数定律5.2.2.2中心极限定理,5.2.2.1 大数定律,大数定律从理论上揭示了样本与总体之间的内在联系,即随着抽样单位数n的增大,样本平均数(或比率)有接近于总体平均数(或比率)的。大数定律在运用于抽样估计时,必须注意两个问题: 抽样必须遵循随机原则; 抽样必须遵循大量原则。大数定律用于抽样估计中,可以解释:随着样本容量的增加,样本平均数有接近总体平均数的趋势,样本成数有接近总体成数的趋势。,中心极限定理:对于一个具有任意分布形式的总体,其平均数 和方差 有限。若从该总体抽取容量为 的样本

17、,则当样本容量很大时,由于这些样本计算出的样本平均数 近似的服从正态分布,样本平均数的平均数 以总体平均数 为对称,所以可以近似地认为 = 。同时也有样本平均数的标准差 的计算公式为:,5.2.2.2中心极限定理,当重复抽样时:,当不重复抽样时:,同样,当样本容量很大时,样本比例 也是具有中心极限定理所表述的性质,即样本比例 近似地服从正态分布,中心为总体比例 ,可认为 ,此时标准差 的计算如下:,当重复抽样时:,当不重复抽样时:,5.2.3参数估计的优良标准,通常评价估计量好坏的标准,即参数估计的优良标准有四个:无偏性,有效性,一致性和充分性。 1 无偏性(估计量抽样分布的期望值等于被估计的

18、总体参数) 2 有效性(样本估计量的标准差越小越有效) 3 一致性(随着样本容量n的增大,样本估计值与被估计的总体参数的偏差越来越小) 4 充分性(样本估计量能把包含在样本中的有关总体信息完全提取出来),5.2.4 抽样估计方法,5.2.4.1点估计5.2.4.2区间估计,5.2.4.1点估计,点估计也称为定值估计,它是用样本的实际数直接估计总体参数,即用一次样本均值去直接作为总体均值的估计值,用一次样本比例去直接作为总体比例的估计值,用一次样本方差直接作为总体方差的估计值。 优点是简单、具体、明确;缺点是无法给出估计可靠性的度量,也无法给出估计值的把握程度。,5.2.4.2区间估计,区间估计

19、就是在点估计的基础上给出总体参数的估计的一个估计区间,该区间通常由样本统计量加减估计误差得到的。区间估计是用样本的统计量说明估计总体参数的准确程度和可靠性,去估计总体参数的可能范围,即用样本平均数估计总体平均数的可能范围。,在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限。置信水平也称为置信度或置信系数,是指将构造置信区间的步骤重复多次,置信区间中包含的总体参数的次数所占的比例。统计学中,常见的置信水平有90%,95%和99%。(置信水平由调查方根据需要来确定)根据置信水平确定的Z值是确定允许误差的重要依据。 允许误差=Z倍的标

20、准误差,区间估计示意图,置信区间还有以下几点说明:,1、置信水平为95%的置信区间含义就是用某种方法构建的所有区间中,有95%的区间包含有总体参数的真值,5%的区间不包含。2、置信区间也是一个随机的区间,它随着样本的不同而不同,因此不是所有的区间都包括总体参数的真值,3、在实际问题中,往往只抽取一个样本,与该样本相联系的一定置信水平下的置信区间,就不再是一个随机区间,而是针对特定样本的特定区间,所以无法知道这个样本产生的置信区间是否一定包含总体参数的真值。,置信区间的表述 (95%的置信区间),从均值为185的总体中抽出n=10的20个样本构造出的20个置信区间, 我没有抓住参数!,点估计值,

21、5.3 总体均值的区间估计,总体均值进行区间估计,需要考虑(1)样本容量的大小(2)总体是否为正态分布(3)总体方差是否已知。总体均值在置信水平1-下的置信区间一般表述如下:,5.3.1 正态总体或非正态总体、方差已知或 未知,大样本,5.3.2 正态总体、方差未知、小样本,根据正态分布的性质可以得出总体均值 所在的置信水平1-下的置信区间为:,当总体服从正态分布且 已知时,或者总体不服从正态分布,但是在大样本(n30)情况下,由中心极限定理可知,样本均值 近似的服从期望值为 ,方差为 的正态分布。而样本均值经过标准化后则服从标准正态分布,即:,5.3.1正态总体或非正态总体、方差已知、大样本

22、,某生产茶叶的厂家,每袋茶叶的重量是一个重要质量指标,右面是机器生产的袋茶重量(克)的数据。,【例5.4】,要求:建立每袋茶叶重量的90%的置信区间。,分析:已知n=36,1-=90%,根据Excel中的【NORMSINV】函数得知 =1.645,由于总体方差未知,单位大样本,可用样本方差来代替总体方差。根据样本数据计算的样本均值和标准差分别为:,根据公式得到:,=,即(3.2572,3.3628),袋装茶叶重量的90%的置信区间为3.25723.3628克之间。,在小样本(n30)的情况下,如果正态分布总体方差 未知,样本均值经过标准化后则服从自由度为n-1的t分布,即:,5.3.2正态总体

23、、方差未知、小样本, t(n-1),在置信水平1-下,总体均值的置信区间为:,某超市想了解一下顾客一次购买商品的消费金额,在一周内不同时间随机抽取了16名顾客做样本,数据如下表所示。假设顾客的消费额为正态分布。要求:建立顾客平均消费额95%的置信区间。,【例5.5】,分析:由于总体服从正态分布,总体的 未知,且为小样本,因此用t分布来建立总体均值的置信区间。根据Excel中的【TINV】函数得知:,根据样本数据计算的样本均值和标准差分别为:,根据公式得到:,=,即(119.54,174.21),该超市顾客平均消费额95%的置信区间为119.54174.21元之间。,总体均值的区间估计 (小结)

24、,总体比例的区间估计(一个总体比例、大样本条件),1.假定条件总体服从二项分布可以由正态分布来近似np(成功次数)和n(1-p)(失败次数)均应该大于10使用正态分布统计量 z,3. 总体比例在1-置信水平下的置信区间为,在一项家电市场调查中,随机抽取了100个居民户,调查他们是否拥有某一品牌的电视机。其中拥有该品牌电视机的家庭占23%。用95%的置信水平估计总体比率的置信区间。,【例5.6】,分析:已知n=100,由Excel中的【NORMSINV】函数得 =1.96,由抽样结果计算的样本比例: =23%,根据上式得:,=,=,总体参数区间估计使用的分布 (小结),总体参数的区间估计 (小结

25、),5.5 样本量的确定,样本量的确定与可以容忍的置信区间的宽度以及该区间置信水平有一定关系。在参数估计时,必须确定一个恰当的样本容量。5.5.1估计总体均值时样本量的确定5.5.2估计总体比例的样本量确定,估计总体均值时样本量n为样本量n与总体方差 2、边际误差E、可靠性系数Z或t之间的关系为与总体方差成正比与边际误差的平方成反比与可靠性系数成正比样本量的圆整法则:当计算出的样本量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等,估计一个总体均值时样本量的确定,其中:,某大学经过调研,学生人均月消费额的标准差大约为150元,假定想要估计每位学生月消费额95%的置信区间,允许估计的误差不超过50元,应抽取多少样本量?,【例5.7】,解:已知 =150,E=50, =1.96,根据上式,得:,=,所以,应抽取35个人作为样本。,5.5.2估计总体比例的样本量确定,同样,我们可以推导出估计总体比例时所需要的样本量,计算公式如下:,某公司通过调研发现家庭安装宽带的比率为32%,现要求估计误差不超过5%,在计算95%的置信区间时,应抽取多少家庭作为样本?,【例5.8】,解:已知 =32%,E=5%, =1.96,根据上式,得:,=,所以,应抽取335个家庭作为样本。,Thank You !,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号