总体均数的估计教学课件学习课件PPT.ppt

资源描述

《总体均数的估计教学课件学习课件PPT.ppt》由会员分享，可在线阅读，更多相关《总体均数的估计教学课件学习课件PPT.ppt（33页珍藏版）》请在三一办公上搜索。

1、2023/3/2,1,第六章总体均数的估计,景学安,2023/3/2,2,学习要求了解：置信区间的正确使用。熟悉：定量资料抽样研究的特点。掌握：均数抽样误差和标准误的概念、计算公式和应用；t分布和z分布的概念、特征和两者的联系与区别；总体均数置信区间的概念和计算公式；标准差的标准误的区别和联系。,2023/3/2,3,第一节均数的抽样误差与标准误一、样本均数的抽样分布在医学科学研究中，往往采取抽样研究(sampling study)的方法，即从研究的总体中随机抽取部分观察单位作为样本，然后根据样本信息来推论总体特征，即为统计推断(statistical inference)。然而，由

2、于总体的变量值存在变异，样本均数往往不等于总体均数。如表6.1。,2023/3/2,4,样本1,样本2,样本3,样本k,2023/3/2,5,定量资料抽样研究的特点：1.从同一正态总体中抽取样本含量n相等的许多样本，这些样本均数的分布仍是以总体均数为中心呈正态分布；或者虽然总体呈偏态分布,但样本含量足够大时，样本均数的分布仍近似正态分布。见图6.1和图6.3 2.理论上，如表6.1，=4.5，。3.样本均数间的变异小于原始变量的变异，即，并随样本含量的增加，样本均数间的变异逐步缩小。见图6.1。如表6.1资料，=0.2，=0.041。,2023/3/2,6,4.来自正态总体的样本均数的分布

3、为正态分布N()。,范围内包含95%的样本均数,范围内包含99%的样本均数,如表6.1资料，实际范围内包含了96个样本均数，占96%。,2023/3/2,7,二、均数的标准误由于随机抽样引起的样本均数与总体均数之间以及样本均数之间的差异称为均数的抽样误差（sampling error of mean)。样本均数的标准差称为均数的标准误（standard error of mean,SEM），用符号表示，它反映了各样本均数围绕总体均数的离散程度，也用来表示样本均数的抽样误差的大小。1.均数标准误的计算,2023/3/2,8,数理统计已经证明：均数标准误的大小与总体标准差成正比，而与样本含量

4、的平方根成反比,即,如表6.1资料，=0.2，n=20,即,实际工作中总体标准差往往是不知道的，而只知道样本标准差S，所以只能用S代替,求得标准误的估计值,即：,2023/3/2,9,例6.1 随机抽取某地正常成年男性200名，测得其血清胆固醇的均数为3.64mmmol/L，标准差为1.2mmol/L，试估计其均数的标准误。,2.均数标准误的应用表示抽样误差的大小，从而说明样本均数的可靠性。进行总体均数的区间估计。进行均数的t检验。,2023/3/2,10,第二节 t分布一、t 分布的概念上一章已说明，正态变量X采用z(X)/变换，则一般的正态分布N(,)即变换为标准正态分布N(0,1)。

5、又因从正态总体抽取的样本均数服从正态分布N(,)，同样可作正态变量的z变换，即,2023/3/2,11,而实际工作中由于未知，也未知，故往往是用作为的估计值，此时对采用的不是z变换而是t变换了，即,t值有大有小，有正有负，其频数分布是一种连续性分布，这就是统计上著名的t分布(t-distribution)。t分布于1908年由英国统计学家W.S.Gosset以“Student”笔名发表，故又称Student t 分布(Students t-distribution)。,，=n-1,2023/3/2,12,二、t分布曲线的特征,图6.4 自由度为1、5、时的t分布曲线,2023/3/2,1

6、3,由图6.4可见:t分布曲线是单峰分布，以0为中心，左右两侧对称；曲线的中间比标准正态曲线（z分布曲线）低，两侧翘得比标准正态曲线略高；当样本含量越小（严格地说是自由度=n-1越小），t分布与z分布差别越大；当逐渐增大时，t分布逐渐逼近于z分布，当=时，t分布就完全成为z分布。所以t分布曲线是随自由度的变动而变化的一簇曲线。,2023/3/2,14,三、t 界值我们常把自由度为的t分布曲线下双侧尾部合计面积或单侧尾部面积为指定概率时，则横轴上相应的t界值分别记为或。如当=20，双侧=0.05时，记为t0.05/2,20；当=22，单侧=0.01时，记为t0.01,22。对于或值，可根

7、据和值，查附表3，t 界值表。,0,t,0,t,2023/3/2,15,由于t分布是以0为中心的对称分布，t界值表中只列出正值，故查附表3时，不管t值正负只用绝对值。由t界值表可知：在相同，单侧概率和双侧概率2的t界值相同，即单侧=双侧，如单侧t0.05,20=双侧t0.1/2,20；对于相同的自由度，值越小，值越大，反之越小；对于相同的值，自由度越小，值越大，反之越小。当=时，则,故查z界值即可查=的t界值。,2023/3/2,16,t分布是t检验的理论基础。t值与样本均数和总体均数之差成正比，与标准误成反比。在t分布中t值越大，其两侧或单侧以外的面积所占曲线下总面积的比重就越小，说明在抽样

8、中获得此t值以及更大t值的机会就越小，这种机会的大小是用概率P来表示的。t值越大，则P值越小；反之，t值越小，P值越大。根据上述的意义，t，则P；反之，t，则P。,2023/3/2,17,第三节总体均数的估计用样本指标（统计量）估计总体指标（参数）称为参数估计，是统计推断的一个重要方面。观察样本均数的目的之一，是为了估计总体均数。估计总体均数的方法有两种，即点值估计（point estimation）和区间估计（interval estimation）。一、点值估计点值估计是直接用样本均数作为总体均数的估计值。例如上述某市120名12岁健康男孩身高均数为143.07cm，可作为该市全部

9、12岁健康男孩的平均身高的估计值。,2023/3/2,18,二、区间估计区间估计是按一定的概率（1-）估计包含总体均数可能的范围，该范围亦称总体均数的置信区间（confidence interval,CI）。1-称为置信度(亦称可信度)，常取1-为0.95和0.99，即总体均数的95%置信区间和99%置信区间。1-（如95）可信区间的含义是：总体均数被包含在该区间内的可能性是1-（95），没有被包含的可能性为（5）。总体均数可信区间的计算，可根据资料的条件选用不同的方法。（一）总体均数置信区间的估计,2023/3/2,19,1.未知且n较小（n100）按t分布的原理计算置信区间。1-置信区间

10、为，即,公式推导：在t分布中，1-的t值位于,区间内，即,于是得可信区间为1-时，计算总体均数可信区间的通式为,2023/3/2,20,表6.1资料模拟抽样100个样本均数，在计算的100个95%置信区间中，有95个区间包含总体均数（4.5），有5个个区间包含总体均数。例6.3 在某地成年男子中随机抽取了25人，测其脉率，得到脉率均数为72次/min，标准差为8次/min。试估计该地成年男子脉率总体均数的95置信区间。,即写成,2023/3/2,21,=n1=251=24,取双侧0.05,查附表3，t值表得双侧t0.05/2,24=2.064。按式6.6得：95%的置信区间为722.0641.

11、6，即（68.7,75.3）。故该地成年男子脉率总体均数的95置信区间为68.775.3（次/min）。2.已知或n较大(n100)（1）已知时，服从于Z分布，按Z分布的原理计算置信区间。1-可信区间为：，即,本例n=25，S=8次/min,算得样本均数的标准误为,2023/3/2,22,如Z 0.05/2=1.96，Z 0.01/2=2.58(2)n较大时，t分布接近于Z分布，即 t/2,接近于Z/2，为了计算方便，1-可信区间近似为：,2023/3/2,23,例6.4 随机抽取某地200名40岁以上正常人，测定取空腹血糖值，其均数为4.91mmol/L，标准差为0.72mmol/L，试估计

12、该地40岁以上正常人群空腹血糖的总体均数的95%置信区间。由于样本例数较大，可按正态近似法估计，=0.05，双侧Z0.05/2=1.96,故95%置信区间为：4.911.960.0509，即（4.81，5.01）mmol/L。,2023/3/2,24,（二）两总体均数差值置信区间的估计在实际工作中，我们经常想了解两个不同总体均数差值的大小，如正常成年男、女的血红蛋白平均相差多少？冠心病患者和正常人的血清胆固醇酯平均相差多少？等等。一般用作为（1-2）的点估计值，但是由于存在抽样误差，往往需要对两总体均数的差值进行置信区间的估计。数理统计证明，分别来自两个正态总体和的和，只要，其之差仍

13、服从于的正态分布。,2023/3/2,25,式中，称为两均数之差的标准误，其计算公式为，如果转换为标准正态分布，则,N(0,1),总体均数差值的（1-）置信区间为：,但在实践工作中，总体标准差是未知的，只能用样本标准差S来代替,两均数之差的标准误估计值为：,2023/3/2,26,式中，S2称为两均数合并的方差，计算公式为：,上式如果n1=n2，则,2023/3/2,27,总体均数差值的（1-）置信区间为：,服从于=n-1的t 分布。,例6.5 测定28例结核病患者和34例对照者的脑脊液中镁(mmol/L)的含量，结果见表6.5，试估计结核病人和对照者的脑脊液中镁含量的总体均数之差的95%置

14、信区间。,=n1+n2-2,2023/3/2,28,表6.5 两对比组脑脊液中镁含量(mmol/L),本例假定两组方差齐性，即,本例=28+34-2=60，查t界值表，t0.05/2,60=2.000,2023/3/2,29,(1.28-1.04)2.000.0395=0.1610.319(mmol/L)，即两总体均数之差的95%置信区间为（0.161，0.319）mmol/L。（三）置信区间的正确应用 1.从以上计算置信区间的计算公式可以看出，标准误愈小，估计总体均数可信区间的范围也愈窄，说明样本均数与总体均数愈接近，对总体均数的估计也愈精确；反之，标准误愈大，估计总体均数可信区间的范围也愈

15、宽，说明样本均数距总体均数愈远，对总体均数的估计也愈差。,2023/3/2,30,2.95%与99%可信区间相比较，前者估计的范围要窄些，估计的精度要高些，但估计错误的可能性有5%；而后者的估计范围要宽些，估计的精度要差些，但估计错误的可能性只有1%。最后请注意：标准误和标准差虽然都是说明离散程度的指标，但两者所代表的意义、计算方法及应用范围是不一样的，见表6.4。,2023/3/2,31,表6.4 标准差和均数的标准误的区别,2023/3/2,32,思考题1.标准差和标准误有何区别和联系？2.z分布和t分布有何区别与联系？3.均数的置信区间和参考值范围有何不同？,2023/3/2,33,Thank You!,

展开阅读全文

总体均数的估计教学课件 学习课件PPT.ppt

总体均数的估计教学课件学习课件PPT.ppt