第六章--估计与假设检验教案资料.doc

资源描述

《第六章--估计与假设检验教案资料.doc》由会员分享，可在线阅读，更多相关《第六章--估计与假设检验教案资料.doc（14页珍藏版）》请在三一办公上搜索。

1、第六章参数估计与假设检验第一节参数估计一、参数估计概述在许多实际问题中，总体被理解为我们所研究的那个统计指标，它在一定范围内取数值，而且是以一定的概率取各种数值的，从而形成一个概率分布，但是这个概率分布往往是未知的。例如为了制定绿色食品的有关规定，我们需要研究蔬菜中残留农药的分布状况，对这个分布我们知之甚少，以致它属于何种类型我们都不清楚。有时我们可以断定分布的类型，例如在农民收入调查中，根据实际经验和理论分析如概率论中的中心极限定理，我们断定收入服从正态分布，但分布中的参数取何值却是未知的。这就导致统计估计问题。统计估计问题专门研究由样本估计总体的未知分布或分布中的未知参数。直接对总体的

2、未知分布进行估计的问题称为非参数估计；当总体分布类型已知，仅需对分布的未知参数进行估计的问题称为参数估计。本节我们研究参数估计问题。本节及以后假定抽样方法为放回简单随机抽样，样本的每个分量都与总体同分布，它们之间相互独立。二、参数估计的基本方法（一）估计量与估计值1.参数估计就是用样本统计量去估计总体参数2.用来估计总体参数的统计量的名称称为估计量，如样本均值、样本比例、样本方差等都可以是一个估计量。3.估计量的具体数值称为估计值（二）点估计与区间估计参数估计方法有点估计与区间估计两种方法。1.参数估计的点估计法（1）设总体的分布类型已知，但包含有未知参数，从总体中抽取一个简单随机样本，欲利用

3、样本提供的信息对总体未知参数进行估计。构造一个适当的统计量作为的估计，称为未知参数的点估计量（Point estimate）。当有了一个具体的样本观察值后，将其代入估计量中就得到估计量的一个具体观察值，称为参数的一个点估计值。今后点估计量和点估计值这两个名词将不强调它们的区别，通称为点估计，根据上下文不难知道此处的点估计究竟是点估计量还是点估计值。通俗地说，用样本估计量的值直接作为总体参数的估计值称为点估计。常用的点估计量有： 2、估计的评价标准：（1）无偏性：设是未知参数的一个点估计量，若满足即估计量的数学期望等于被估计参数则称是的无偏估计量（Unbiased estimate），否则称

4、为有偏估计量。需要注意的是，由于估计量是样本的函数，样本量是维随机变量，所以对求平均是按样本的概率分布求平均。无偏性是我们衡量点估计量好坏的一个评价标准，这个评价标准的直观意义如下。由于样本的出现带有随机性，所以基于一次具体抽样所得的参数估计值未必等于参数真值，这是由样本的随机性造成的。我们希望当大量使用这个估计量对参数进行估计时，一系列估计值的平均值应该与待估参数真值相等。这就从平均效果上对估计量的优劣给出一个评价标准。（2）有效性：设，均为未知参数的无偏估计量，如果对参数的一切可能取值有且严格不等号至少对参数的某个可能值成立，则称无偏估计量比有效（Efficiency）。一个无偏估计量并不

5、意味着他就非常接近被估计的参数，他还必须与总体参数的离散程度比较小。对同一总体参数的两个无偏点估计量，方差小者更有效。（3）一次性：设对容量为的样本，是参数的一个估计量，若对任意0，则称是的一个一致的估计量序列，或称此估计量序列具有一致性。随着样本容量的增大，点估计量的值越来越接近总体参数2.参数估计的区间估计法在参数估计中，虽然点估计可以给出未知参数的一个估计，但不能给出估计的精度。为此人们希望利用样本给出一个范围，要求它以足够大的概率包含待估参数真值。这就是导致区间估计（Interval estimation）问题。所谓区间估计，就是估计总体参数的区间范围，并要求给出区间估计成立的概率值。

6、设是未知参数，是来自总体的样本，构造两个统计量，对于给定的（01），若、满足则称随机区间，是参数的置信水平（Confidence level）为的置信区间（Confidence interval）, 称为，的置信度，称为置信限（Confidence limit）。这里有几点需要说明：(1)区间，的端点，及长度都是样本的函数，从而都是随机变量，因此，是一个随机区间。(2) 是说随机区间，以的概率包含未知参数真值，区间长度描述估计的精度，置信水平描述了估计的可靠度。(3)因为未知参数是非随机变量，所以不能说落入区间，的概率是，而应是随机区间，包含的概率是。通俗地说，在点估计的基础上，给出总体参数

7、的一个范围称为区间估计。三、总体均值的区间估计（一）正态总体且方差已知；或非正态总体、方差未知、大样本情况下在这种情况下，样本均值的抽样分布呈正态分布，其数学期望为总体均值，方差为。则称为总体均值在置信水平下的置信区间。设样本来自正态总体是总体均值，当已知时数理统计证明服从正态分布，从而服从标准正态分布，对给定的置信度查表可得，使得从而有取则即是的置信水平为的置信区间。例6.5保险公司从投保人中随机抽取36人,计算得36人的平均年龄岁，已知投保人平均年龄近似服从正态分布，标准差为7.2岁，试求全体投保人平均年龄的置信水平为99%的置信区间。解：查表得故全体投保人平均年龄的置信水平为99%的

8、置信区间为36.41,42.59在不重复抽样条件下，置信区间为：（6.17）例6.6一家食品公司，每天大约生产袋装食品若干，按规定每袋的重量应为100g。为对产品质量进行检测，该企业质检部门采用抽样技术，每天抽取一定数量的食品，以分析每袋重量是否符合质量要求。现从某一天生产的一批食品8000袋中随机抽取了25袋（不重复抽样），测得它们的重量如表6.3所示。表6.3 25袋食品重量已知产品重量服从正态分布，且总体方差为100g。试估计该批产品平均重量的置信区间，置信水平为95。解：已知100g，n=25，95，1.96根据样本资料，计算的样本均值为：根据（6.17）式得=105.361.96即

9、105.363.914115=(101.4459, 109.2741)，该批产品平均重量在95置信水平下的置信区间为：101.4459109.2741。若总体方差未知，可用样本方差S2代替例6.7承例6.5假定保险公司从投保人中随机抽取36人，得到他们的年龄数据如表6.4所示。表6.4 36名投保人的年龄若总体方差未知，试建立投保人年龄90的置信区间。解：已知n=36，90，1.645，由于总体方差未知，但为大样本，故可用样本方差代替。根据样本资料计算的样本均值和样本标准差为：（样本均值和样本标准差的计算，也可直接通过Excel软件中的描述统计功能计算，计算结果如图6.3所示）图6.3 描述

10、统计运行结果则置信区间为：即39.52.13=(37.37，41.63)，投保人平均年龄在90的置信水平下的置信区间为37.37岁41.63岁。（二）正态总体、方差未知、小样本情况下如果总体服从正态分布,无论样本容量大小,样本均值的抽样分布都服从正态分布。只要总体方差已知，即使在小样本情况下，也可以计算总体均值的置信区间。如果总体方差未知，需用样本方差S2代替，在小样本情况下，应用分布来建立总体均值的置信区间。分布是类似正态分布的一种对称分布，他通常要比正态分布平坦和分散。随着自由度的增大，分布逐渐趋于正态分布。正态总体、方差未知、小样本情况下，总体均值在置信水平下的置信区间为：（重复抽样条

11、件下）（6.18）（不重复抽样条件下）（6.19）其中为t分布临界值，可以查t分布临界值表得到，也可由Excel计算得到。Excel计算，可使用粘贴函数 “Tinv”完成。操作步骤依次为：Tinvdf确定例6.8已知某种电子元件的寿命服从正态分布，现从一批电子元件中随机抽取16只，测得其寿命如图6.4中的原始数据部分。图6.4 16只电子元件寿命原始数据及描述统计部分结果试建立该批电子元件使用寿命95的置信区间。根据样本资料计算的样本均值和样本标准差为：（样本均值和样本标准差的计算，也可直接通过Excel软件中的描述统计功能计算，计算结果如图6.4所示）由95知，2.131则该批电子元

12、件平均使用寿命95的置信区间为：即=(1476.8，1503.2)，该批电子元件平均使用寿命在95的置信水平下的置信区间为1476.8小时1503.2小时。现将总体均值的区间估计总结如表6.5所示.表6.5 不同情况下总体均值的区间估计四、总体比例的区间估计在大样本（一般经验规则：）条件下，样本比例的抽样分布可用正态分布近似。在这种情况下，数理统计已经证明如下结论：置信水平为的置信区间为：（重复抽样）（不重复抽样）例6.9某城市想要估计下岗职工中女性所占的比例，采取重复抽样方法随机抽取了100名下岗职工，其中65人为女性。试以95的置信水平估计该城市下岗职工中女性所占比例的置信区间。解：

13、已知，根据公式得：即659.35%=(55.65%，74.35%)，95的置信水平下估计该城市下岗职工中女性所占比例的置信区间为55.65%74.35%。例6.10某企业共有职工1000人，企业准备实行一项改革，在职工中征求意见，采用不重复抽样方法，随机抽取200人作为样本，调查结果显示，由150人表示赞成这项改革，有50人表示反对。试以95的置信水平确定赞成改革的人数比例的置信区间。解：已知，根据公式得：即755.37%=(69.63%，80.37%)，95的置信水平下估计赞成改革的人数比例的置信区间为69.63%80.37%。五、样本容量的确定（一）影响样本容量的因素在抽取样本时样本

14、容量应多大是一个很实际的问题。样本容量取得比较大，收集的信息就比较多，从而估计精度比较高，但进行观测所投入的费用、人力及时间就比较多；样本容量取得比较小，则投入的费用、人力及时间就比较少，但收集的信息也比较少，从而估计精度比较低。这说明精度和费用对样本量的影响是矛盾的，不存在既使精度最高又使费用最省的样本量。一个常用的准则是在使精度得到保证的前提下寻求使费用最省的样本量。由于费用通常是样本量的正向线性函数，故使费用最省的样本量也就是使精度得到保证的最小样本量。（二）估计总体均值时样本容量的确定在简单随机重复抽样下，设样本来自正态总体，总体均值的点估计为样本均值。如果要求以估计时的绝对误差为，可

15、靠度为，即要求由知故只要需取绝对误差从而解得（重复抽样条件下）同理，在简单随机不重复抽样条件下，我们可以得出估计总体均值时样本容量的计算公式为：（不重复抽样条件下）例6.12 在某企业中采用简单随机抽样调查职工月平均奖金额，设职工月奖金额服从标准差为10元的正态分布，要求估计的绝对误差为3元，可靠度为95%，试问应抽多少职工？解：已知则即需抽取43名职工作为样本进行调查。（三）估计总体比例时样本大小的确定在简单随机重复抽样条件下，估计总体比例时，我们可以定义绝对误差为：从而得到样本容量：（重复抽样条件下）（6.25）同理，在简单随机不重复抽样条件下，我们可以得出估计总体比例时样本容

16、量的计算公式为：（不重复抽样条件下）（6.26）例6.13根据以往的生产统计，某种产品的合格率为90%，现要求绝对误差为5%，在置信水平为95%的置信区间时，应抽取多少个产品作为样本？已知，则=第二节假设检验一、假设检验的基本思想 1、小概率原理如果对总体的某种假设是真实的，那么不利于或不能支持这一假设的事件A（小概率事件）在一次试验中几乎不可能发生的；要是在一次试验中A竟然发生了，就有理由怀疑该假设的真实性，拒绝这一假设。抽样总体样本（某种假设）观察结果检验（接受）（拒绝）小概率事件小概率事未发生件发生 2、假设的形式原假设， H1备择假设双尾检验：H

17、0：=0 ， H1：0 单尾检验：H0：0 ， H1：0 H0：0 ， H1：0 假设检验就是根据样本观察结果对原假设（H0）进行检验，接受H0，就否定H1；拒绝H0，就接受H1。二、假设检验规则与两类错误 1、确定检验规则检验过程是比较样本观察结果与总体假设的差异。差异显著，超过了临界点，拒绝H0；反之，差异不显著，接受H0。差异临界点判断 c拒绝H0 c接受H0 怎样确定c? 2、两类错误接受或拒绝H0，都可能犯错误 I类错误弃真错误，发生的概率为 II类错误取伪错误，发生的概率为检验决策H0为真H0非真拒绝H0犯I类错误（）正确接受H0正确犯II类错误（）大就小，小就大基本原

18、则：力求在控制前提下减少显著性水平，取值：0.1, 0.05, 0.001, 等。如果犯I类错误损失更大，为减少损失，值取小；如果犯II类错误损失更大，值取大。确定，就确定了临界点c。设有总体：X，2已知。随机抽样：样本均值。接受域标准化：。拒绝域拒绝域确定值，查概率表，Z 知临界值0计算Z值，作出判断。三、假设检验的一般步骤（1）建立总体假设H0，H1 （2）（3）（4）抽样得到样选择统计量根据具体决策本观察值确定H0为真要求确定（6）时的抽样分布（5）计算检验统计量确定分布上的临界（7）的数值点C和检验规则比较并作出检验判断三、总体均值的检验Z类型条

19、件检验统计量H0、H1 拒绝域 000ZZttt-ZZZZI正态总体2已知(1) H0：=0 H1：0(2) H0：0 H1：0(3) H0：0 H1：0000-ttII正态总体2未知(n30)(1) H0：=0 H1：0(2) H0：0 H1：0(3) H0：0 H1：000-ZZ0ZIII非正态总体n302已知或未知(1) H0：=0 H1：0(2) H0：0 H1：0(3) H0：0 H1：0四、总体成数的检验条件检验统计量H0、H1 拒绝域 -Z0Z0ZZ0Z1(P)np5nq5(1) H0：P=P0 H1：PP0(2) H0：PP0 H1：PP0(3) H0：PP0 H1：PP0

20、Z-ZZ00Z0Z2(P1-P2)n1p15n1q15n2p25n2q25(1) H0：P1=P2 H1：P1P2(2) H0：P1P2 H1：P1P2(3) H0：P1P2 H1：P1P2五、假设检验中的其他问题(一)利用置信区间进行假设检验（1）双侧检验1.求出双侧检验均值的置信区间已知时：未知时：2.若总体的假设值在置信区间外，拒绝（2）左侧检验1.求出单边置信下限2. 若总体的假设值小于单边置信下限，拒绝（3）右侧检验1.求出单边置信下限2.若总体的假设值大于单边置信下限，拒绝本章的重点1、假设检验的基本思想；2、不同总体的各种参数的假设检验。3、如何理解抽样估计的基本理论；4、抽样

21、误差的含义与计算方法；5、不同类型总体的参数区间估计问题。复习思考题1、什么是抽样估计，抽样估计的基本方法有哪些？2、在抽样估计中，为什么说准确性的要求和可靠性的要求是一对矛盾，在实际估计中又如何解决这对矛盾？ 3、抽样估计的优良标准是什么？4、什么是抽样平均误差、抽样极限误差，两者在抽样估计中发挥什么作用？5、类型抽样中的分组和整群抽样中的分群有什么不同意义和不同要求？6、为什么说对总体指标的区间估计只能是一种可能范围估算，而不是绝对范围估算？7、抽样推断与假设检验是一回事吗？若不是，两者关系如何？8、什么是零假设，零假设与备择假设有什么不同？9、第一类错误与第二类错误有何不同？10、如果“总体均值等于4”的零假设在研究过程中被错误地拒绝了，请问这是犯了第几类错误？

展开阅读全文