第5章统计推断：参数估计ppt课件.ppt

资源描述

《第5章统计推断：参数估计ppt课件.ppt》由会员分享，可在线阅读，更多相关《第5章统计推断：参数估计ppt课件.ppt（89页珍藏版）》请在三一办公上搜索。

1、第五章参数估计,第一节参数估计的基本原理第二节一个总体参数的区间估计第三节两个总体参数的区间估计第四节样本容量的确定,学习目标,估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准一个总体参数的区间估计方法两个总体参数的区间估计方法样本容量的确定方法,参数估计在统计方法中的地位,统计推断的过程,一、估计量与估计值二、点估计与区间估计三、评价估计量的标准,第一节参数估计的基本原理,2022年11月23日星期三,6,估计量：用于估计总体参数的样本统计量如样本均值、样本比例(成数)、样本方差等例如: 样本均值就是总体均值的一个估计量估计值：估计参数时计算出来的统计量的具体值

2、如果样本均值 x =80，则80就是的估计值注：有时，对估计量和估计值并不刻意区分，都称为估计，根据上下文很容易明确其指代,一、估计量与估计值 (estimator & estimated value),随机变量,2022年11月23日星期三,7,一个总体参数的估计,2022年11月23日星期三,8,二、点估计与区间估计,2022年11月23日星期三,9,点估计 (point estimate),做法：用样本估计量的值直接作为总体参数的估计值例：用样本均值直接作为总体均值的估计；用样本成数直接作为总体成数的估计例：用两个样本均值之差直接作为总体均值之差的估计2.缺点：没有考虑抽样误差的大小；没

3、有给出估计值接近总体参数的程度点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等,区间估计 (interval estimate),在点估计的基础上，给出总体参数估计的一个区间范围，该区间由样本统计量加减抽样误差而得到的根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如，某班级平均分数在7585之间，置信水平是95%,区间估计的图示,将构造置信区间的步骤重复很多次，置信区间包含总体参数真值的次数所占的比例称为置信水平表示为 (1 - 为是总体参数未在区间内的比例常用的置信水平值有 99%, 95%, 90%相应的为0.01，0.05，0.10,置信

4、水平,由样本统计量所构造的总体参数的估计区间称为置信区间统计学家在某种程度上确信这个区间会包含真正的总体参数，所以给它取名为置信区间用一个具体的样本所构造的区间是一个特定的区间，我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个，但它也可能是少数几个不包含参数真值的区间中的一个,置信区间 (confidence interval),置信区间与置信水平,均值的抽样分布,(1 - ) % 区间包含了 % 的区间未包含,影响区间宽度的因素,1.总体数据的离散程度，用来测度样本容量，3.置信水平 (1 - )，影响 z 的大小,常用置信

5、水平及值,2022年11月23日星期三,16,2022年11月23日星期三,17,评价估计量的标准,2022年11月23日星期三,18,无偏性(unbiasedness),无偏性：估计量(随机变量)的数学期望等于被估计的总体参数中心极限定理证明了：样本平均数和样本成数都满足无偏性,2022年11月23日星期三,19,有效性(efficiency),有效性：对同一总体参数的两个无偏点估计量，有更小标准差的估计量更有效,样本平均数比中位数更有效,2022年11月23日星期三,20,一致性(consistency),一致性：随着样本容量的增大，估计量的值越来越接近被估计的总体参数大数定律已经证明了

6、：样本平均数和样本成数都满足一致性,总体均值的区间估计总体比例的区间估计总体方差的区间估计,第二节一个总体参数的区间估计,一个总体参数的区间估计,总体均值的区间估计 (正态总体、已知，或非正态总体、大样本),总体均值的区间估计(大样本),1.假定条件总体服从正态分布,且方差() 已知如果不是正态分布，可由正态分布来近似 (n 30)使用正态分布统计量,总体均值在1-置信水平下的置信区间为,总体均值的区间估计(例题分析),【例】一家保险公司收集到由36位投保个人组成的随机样本，并得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间,总体均值的区间估计(例题分析),解：已知

7、n=36, 1- = 90%，z/2=1.645。根据样本数据计算得：，总体均值在1-置信水平下的置信区间为,投保人平均年龄的置信区间为37.37岁41.63岁,总体均值的区间估计 (正态总体、未知、小样本),总体均值的区间估计 (小样本),1.假定条件总体服从正态分布,且方差() 未知小样本 (n 30)使用 t 分布统计量,总体均值在1-置信水平下的置信区间为,t 分布,分布是类似正态分布的一种对称分布，它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大，分布也逐渐趋于正态分布,总体均值的区间估计(例题分析),【例】一家食品生产企业以生产袋装食品为

8、主，为对产量质量进行监测，企业质检部门经常要进行抽检，以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋，测得每袋重量如下表所示。已知产品重量的分布服从正态分布，且总体标准差为10克。试估计该批产品平均重量的置信区间，置信水平为95%,总体均值的区间估计(例题分析),解：已知N(，102)，n=25, 1- = 95%，z/2=1.96。根据样本数据计算得：总体均值在1-置信水平下的置信区间为,该食品平均重量的置信区间为101.44克109.28克之,总体均值的区间估计(例题分析),【例】已知某种灯泡的寿命服从正态分布，现从一批灯泡中随机抽取16只，测得其使用寿命(小时)如

9、下。建立该批灯泡平均使用寿命95%的置信区间,总体均值的区间估计(例题分析),解：已知N(，2)，n=16, 1- = 95%，t/2=2.131。根据样本数据计算得：，总体均值在1-置信水平下的置信区间为,该种灯泡平均使用寿命的置信区间为1476.8小时1503.2小时,总体比例的区间估计,总体比例的区间估计,1.假定条件总体服从二项分布可以由正态分布来近似大样本使用正态分布统计量,3. 总体比例在1-置信水平下的置信区间为,总体比例的区间估计(例题分析),【例】某城市想要估计下岗职工中女性所占的比例，随机抽取了100个下岗职工，其中65人为女性职工。试以95%的置信水平估计该城市下岗职

10、工中女性比例的置信区间,解：已知 n=100，p65% , 1-= 95%，z/2=1.96,该城市下岗职工中女性比例的置信区间为55.65%74.35%,总体方差的区间估计,总体方差的区间估计,1.估计一个总体的方差或标准差2.假设总体服从正态分布总体方差 2 的点估计量为S2,且,4. 总体方差在1-置信水平下的置信区间为,总体方差的区间估计(图示),总体方差的区间估计(例题分析),【例】一家食品生产企业以生产袋装食品为主，现从某天生产的一批食品中随机抽取了25袋，测得每袋重量如下表7所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间,总体方差的区间估计

11、(例题分析),解:已知n25，1-95% ,根据样本数据计算得s2 =93.21 2置信度为95%的置信区间为,该企业生产的食品总体重量标准差的的置信区间为7.54克13.43克,两个总体均值之差的区间估计两个总体比例的之差区间估计两个总体方差比的区间估计,第三节两个总体参数的区间估计,两个总体参数的区间估计,两个总体均值之差的区间估计(独立大样本),两个样本均值之差的抽样分布,两个总体均值之差的估计(大样本),1.假定条件两个总体都服从正态分布，1、 2已知若不是正态分布, 可以用正态分布来近似(n130和n230)两个样本是独立的随机样本使用正态分布统计量Z,两个总体均值之差的估计 (大

12、样本),1.1、 2已知时，两个总体均值之差1-2在1- 置信水平下的置信区间为,1、 2未知时，两个总体均值之差1-2在1- 置信水平下的置信区间为,两个总体均值之差的估计(例题分析),【例】某地区教育委员会想估计两所中学的学生高考时的英语平均分数之差，为此在两所中学独立地抽取两个随机样本，有关数据如下表。建立两所中学高考英语平均分数之差95%的置信区间,两个总体均值之差的估计(例题分析),解: 两个总体均值之差在1-置信水平下的置信区间为,两所中学高考英语平均分数之差的置信区间为5.03分10.97分,两个总体均值之差的区间估计(独立小样本),两个总体均值之差的估计(小样本: 12=22

13、 ),1.假定条件两个总体都服从正态分布两个总体方差未知但相等：1=2两个独立的小样本(n130和n230)总体方差的合并估计量,估计量X1-X2的抽样标准差,两个总体均值之差的估计(小样本: 12=22 ),两个样本均值之差的标准化,两个总体均值之差1-2在1- 置信水平下的置信区间为,两个总体均值之差的估计(例题分析),【例】为估计两种方法组装产品所需时间的差异，分别对两种不同的组装方法各随机安排12个工人，每个工人组装一件产品所需的时间（分钟）下如表。假定两种方法组装产品的时间服从正态分布，且方差相等。试以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间,两个总体均值之差的

14、估计(例题分析),解: 根据样本数据计算得合并估计量为：,两种方法组装产品所需平均时间之差的置信区间为0.14分钟7.26分钟,两个总体均值之差的估计(小样本: 1222 ),1.假定条件两个总体都服从正态分布两个总体方差未知且不相等：12两个独立的小样本(n130和n230)使用统计量,两个总体均值之差的估计(小样本: 1222 ),两个总体均值之差1-2在1- 置信水平下的置信区间为,两个总体均值之差的估计(例题分析),【例】沿用前例。假定第一种方法随机安排12个工人，第二种方法随机安排8个工人，即n1=12，n2=8 ，所得的有关数据如表。假定两种方法组装产品的时间服从正态分布，且方差

15、不相等。以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间,两个总体均值之差的估计(例题分析),解: 根据样本数据计算得自由度为：,两种方法组装产品所需平均时间之差的置信区间为0.192分钟9.058分钟,两个总体均值之差的区间估计(配对样本),两个总体均值之差的估计(配对大样本),假定条件两个匹配的大样本(n1 30和n2 30)两个总体均值之差d=1-2在1- 置信水平下的置信区间为,两个总体均值之差的估计(配对小样本),假定条件两个匹配的小样本(n1 30和n2 30)两个总体各观察值的配对差服从正态分布两个总体均值之差d=1-2在1- 置信水平下的置信区间为,两个总体

16、均值之差的估计(例题分析),【例】由10名学生组成一个随机样本，让他们分别采用A和B两套试卷进行测试，结果如下表。试建立两种试卷分数之差d=1-2 95%的置信区间,两个总体均值之差的估计(例题分析),解: 根据样本数据计算得,两种试卷所产生的分数之差的置信区间为6.33分15.67分,1.假定条件两个总体服从二项分布可以用正态分布来近似两个样本是独立的2.两个总体比例之差1- 2在1-置信水平下的置信区间为,两个总体比例之差的区间估计,两个总体比例之差的估计(例题分析),【例】在某个电视节目的收视率调查中，农村随机调查了400人，有32%的人收看了该节目；城市随机调查了500人，有45%的

17、人收看了该节目。试以90%的置信水平估计城市与农村收视率差别的置信区间,两个总体比例之差的估计 (例题分析),解: 已知 n1=500 ，n2=400， p1=45%， p2=32%， 1-=95%， z/2=1.96 1- 2置信度为95%的置信区间为,城市与农村收视率差值的置信区间为6.68%19.32%,两个总体方差比的区间估计,两个总体方差比的区间估计,1.比较两个总体的方差比用两个样本的方差比来判断如果S12/ S22接近于1,说明两个总体方差很接近如果S12/ S22远离1,说明两个总体方差之间存在差异总体方差比在1-置信水平下的置信区间为,两个总体方差比的区间估计(图示),两个总

18、体方差比的区间估计(例题分析),【例】为了研究男女学生在生活费支出(元)上的差异，在某大学各随机抽取25名男学生和25名女学生，得到下面的结果：男学生：女学生：试以90%置信水平估计男女学生生活费支出方差比的置信区间,两个总体方差比的区间估计 (例题分析),解:根据自由度 n1=25-1=24 ，n2=25-1=24，查得 F/2(24)=1.98， F1-/2(24)=1/1.98=0.505 12 /22置信度为90%的置信区间为,男女学生生活费支出方差比的置信区间为0.471.84,确定样本量应考虑的因素估计总体均值时样本容量的确定估计总体比例时样本容量的确定总体参数的预先估计,第

19、四节样本容量的确定,一、确定样本量应考虑的因素,（一）费用因素一般来说，要将样本容量控制在费用要求范围内。费用函数表征了样本容量与费用之间的关系。在简单随机抽样条件下，设总费用函数为：式中，C为总费用，为固定费用，如管理人员开支、办公费、组织、宣传、场租费等，这些费用都与样本量无关；为与样本量有关的可变费用，即每调查一个样本单元所需的费用，如调查费、差旅费、礼品费等。,2022年11月23日星期三,74,（二）精度要求对精度的要求通常以对估计误差的限制来表征。（三）其他考虑因素实践中，确定样本量除了要考虑费用限制和精度要求以外，还要考虑其他一些因素。1问题重要性。2所研究问题目

20、标量的个数。3参照同类调查。4调查表的回收率。5有效样本。 6资源限制。,2022年11月23日星期三,75,二、估计总体均值时样本容量的确定,估计总体均值时样本容量n为样本容量n与总体方差2、边际误差d、可靠性系数Z或t之间的关系为与总体方差成正比与边际误差成反比与可靠性系数成正比,估计总体均值时样本容量的确定,其中：,估计总体均值时样本容量的确定 (例题分析),【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元，假定想要估计年薪95%的置信区间，希望边际误差为400元，应抽取多大的样本容量？,估计总体均值时样本容量的确定 (例题分析),解: 已知 =2000，E=400,

21、1-=95%， z/2=1.96 12 /22置信度为90%的置信区间为,即应抽取97人作为样本,三、估计总体比例时样本容量的确定,根据比例区间估计公式可得样本容量n为,估计总体比例时样本容量的确定,d的取值一般小于0.1 未知时，可取最大值0.5,其中：,估计总体比例时样本容量的确定 (例题分析),【例】根据以往的生产统计，某种产品的合格率约为90%，现要求边际误差为5%，在求95%的置信区间时，应抽取多少个产品作为样本？,解:已知=90%，=0.05， Z/2=1.96，E=5%,应抽取的样本容量为,应抽取139个产品作为样本,注意的问题,以上公式是重置抽样条件下的样本量确定公式，实践中不

22、重置抽样应用较多。对不重置抽样样本量的确定通常遵循如下思路：首先计算重置抽样条件下的样本量，记为；然后判断是否成立，若成立，则取，否则，对按以下公式进行修正：,2022年11月23日星期三,83,注意的问题(续),以上公式计算出的n是最低的，也就是必要样本单位数确定样本容量是在抽样之前进行的，此时还没有总体方差或替代它的样本方差资料。如果有历史资料可以借鉴，选择最大的；否则，可以通过组织实验性的抽样调查取得替代资料如果进行一次抽样调查，要同时估计平均数和成数，利用以上公式计算的结果会有差异，选择大的那个计算结果非整的处理：取大的邻近整数,2022年11月23日星期三,84,四、总体参

23、数的预先估计,（一）利用历史资料如果有历史资料，可利用历史资料代替；如果有若干个可供选择的历史资料，应采用数值最大的一个，从而给出一个最谨慎的估计。（二）利用预调查（或试调查）如果没有可供替代的历史资料，可通过组织预调查（或试调查）获取替代资料。对于大型调查，通常都要进行预调查，预调查的样本量一般比较小。组织预调查或试调查的目的通常有三个：一是发现调查组织工作中可能存在的问题；二是判断问卷设计是否合理，有没有逻辑错误或询问的歧义等；三是实现总体参数的预先估计。,2022年11月23日星期三,86,（三）两步调查法如果时间允许，并且总体现象相对稳定（即总体范围和目标量的数量特征不会随时间的变化有大的变化），就可以通过组织两步调查的方法进行总体参数的预估。调查分两步走，首先确定一个可以承受的样本量，调查后对估计精度进行计算，如果精度达到要求，则调查结束；否则，根据个样本单位获取的信息计算为达到精度要求所需的样本量n ，再补抽个单位进行调查即可。,2022年11月23日星期三,87,本章小结,参数估计的基本原理一个总体参数的区间估计两个总体参数的区间估计样本容量的确定,THANKS,第五章结束了!,

展开阅读全文