研究生统计学第三章总体均数估计与假设检验.ppt

上传人:小飞机 文档编号:5806372 上传时间:2023-08-21 格式:PPT 页数:37 大小:5.10MB
返回 下载 相关 举报
研究生统计学第三章总体均数估计与假设检验.ppt_第1页
第1页 / 共37页
研究生统计学第三章总体均数估计与假设检验.ppt_第2页
第2页 / 共37页
研究生统计学第三章总体均数估计与假设检验.ppt_第3页
第3页 / 共37页
研究生统计学第三章总体均数估计与假设检验.ppt_第4页
第4页 / 共37页
研究生统计学第三章总体均数估计与假设检验.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《研究生统计学第三章总体均数估计与假设检验.ppt》由会员分享,可在线阅读,更多相关《研究生统计学第三章总体均数估计与假设检验.ppt(37页珍藏版)》请在三一办公上搜索。

1、第三章总体均数估计与假设检验,桂立辉新乡医学院公共卫生学院,研究生医学统计学(第三版),第三章总体均数估计与假设检验,均数的抽样误差与标准误t 分布总体均数的估计假设检验的基本原理和步骤t 检验假设检验的注意事项正态性检验和两样本方差比较的F检验,参数估计基础,统计学研究的目的通常是要了解总体的情况。如果要了解总体情况,有两种方法:全面研究 抽样研究 全面研究在许多情况下难以办到,因此,常用的方法是抽样研究,即从同质总体中随机抽取一部分观察单位作为样本,并由样本信息(包括样本变量值的分布及其用于描述的统计量)来推断总体情况,即统计推断(statistical inference)。,第一节 均

2、数的抽样误差和标准误,由于所研究变量在总体中各观察单位(个体)间存在变异,抽样研究必然会导致抽样误差(sampling error)。抽样误差是不可避免的,但我们可以探究抽样误差的规律,控制抽样误差在允许的范围内。,第一节 均数的抽样误差和标准误,为探讨抽样误差的规律,我们做一个放回式随机抽样实验。假设某年某地13岁女学生身高(X)服从总体均数=155.4cm,总体标准差=5.3cm的正态分布N(155.4,5.32)。每次抽取的30例构成一个样本,并计算出样本均数。如此共抽取100个样本,计算得到100个样本均数。,总体=155.4cm=5.3 cm,放回式随机抽样实验,表5-1 从正态总体

3、N(155.4,5.32)随机抽取100份样本(n=30)的算术均数,对100个样本均数组成的数据资料进行统计描述,结果:,图5-1 100个样本均数的频数分布图,第一节 均数的抽样误差和标准误,从一个总体均数为,标准差为 的总体中,随机抽取若干个含量为n 的样本。那么,这若干个样本的均数不会完全相同,其频数分布是以总体均数为中心的正态分布,其变异程度可用这若干个样本均数的标准差表示,称样本均数的标准误(standard error)。,样本均数的分布,第一节 均数的抽样误差和标准误,在前述放回式随机抽样实验中,已知总体标准差=5.3cm,每次抽样的样本含量n=30,代入公式得:,按实际抽取的

4、100个样本均数计算,标准误为0.96,与上述公式计算结果基本一致。,第一节 均数的抽样误差和标准误,实际工作中,往往不知道,因此,通常用样本标准差s 来代替,得到均数标准误的估计值:,例 调查某地120名正常成人的血糖值的均数为4.92mmol/L,标准差为0.48mmol/L,试计算标准误。,第一节 均数的抽样误差和标准误,均数标准误的用途:衡量样本均数的可靠性;标准误愈小,说明样本均数与总体均数越接近,即抽样误差越小,用样本均数推论总体均数的真实性越好。反之,标准误越大,抽样误差越大,样本均数对总体均数的代表性越差。估计总体均数的置信区间;用于均数的假设检验。,第二节 t 分布,一、t

5、分布的概念 对于任一正态分布XN(,2),经u变换后都可以变成标准正态分布N(0,1)。随机抽取若干个含量为n 的样本,这些样本均数的频数分布是以总体均数为中心的正态分布,其标准差为。如果进行u变换,同样可以变成标准正态分布N(0,1)。,第二节 t 分布,实际上 往往未知,故用 作为 的估计值,这时可以对样本均数作 t 变换:,则t 值的分布是以0为中心的正态分布,即t 分布(students t distribution)。1908年W S Gosset以笔名student发表了他的研究论文,开创了小样本统计推断之先河。,第二节 t 分布,二、t 分布的图形和t 分布表 对前述13岁女学生

6、身高总体,分别做n=3和n=50的随机抽样,各抽取1000个样本,并分别计算得到1000个样本均数和标准误。然后,分别做t变换,将t值绘直方图如图5-2。,第二节 t 分布,二、t 分布的图形和t 分布表 t 分布与u 分布一样,都是以0为中心,但t分布不是1条曲线,而是无数条曲线。t 分布的形态(峰度)随抽样样本量(严格地说是自由度n-1)而变化,自由度越小,曲线越低平,随着自由度增大,t 分布逐渐接近于标准正态分布,当自由度为无穷大时,t 分布与 u 分布完全重合。,图5-3 不同自由度的t 分布曲线,第二节 t 分布,t 分布与u分布一样,曲线下的面积分布有一定规律:从双侧-t/2,到t

7、/2,所对应的曲线下的面积占曲线下总面积的100(1-)%。或者,从单侧t,到-所对应的曲线下的面积占曲线下总面积的100(1-)%。,第二节 t 分布,由于t 分布的形态随自由度而变化,t也随自由度而变化。不同自由度时的t值可查附表2 t 界值表得到。,一、t 分布,第三节 总体均数的估计,一、可信区间的概念点值估计(point estimation)区间估计(interval estimation)总体均数()的100(1-)%置信区间(confidential interval,简记为 CI)。区间估计属于概率估计,总体参数并非一定在该置信区间内,只需要把总体参数不在该置信区间内的概率(

8、)控制在一定水平就可以了。,二、置信区间的计算,二、总体均数的置信区间的计算 的100(1-)%置信区间(CI):已知总体标准差,按正态分布原理,计算公式为未知,n较小,按t 分布原理计算:未知,但n足够大(如n100),按正态分布原理计算:,总体均数置信区间的计算,例 测得某地健康男子20人收缩压的均数为118.4mmHg,标准差为10.8mmHg,试估计该地健康男子收缩压总体均数的95%可信区间。本例v=20-1=19,查t 值表得 t0.05,19=2.093。代入公式得:,该地健康男子收缩压总体均数的95%可信区间为113.3123.5mmHg。,总体均数置信区间的计算,例 测得某地1

9、50名正常人脉搏的均数为73.53次/分,标准差为11.30次/分,试估计该地正常人脉搏总体均数的95%可信区间。本例n100,可按正态分布原理近似计算:,该地正常人脉搏总体均数的95%可信区间为71.7475.36次/分。,三、总体均数置信区间的解释,总体均数可信区间的计算和解释有两种理论依据,一是是Pearson、Fisher、Neyman等人的经典理论,另一个是Bayes理论。经典理论假定样本x1、x2、xn来自正态分布N(,2),其中2已知,是一个客观存在的常数。对置信区间的解释是:从总体中随机抽样,每个样本可以算得一个置信区间,该置信区间包括总体均数(估计正确)的概率是1-。Baye

10、s理论则认为参数是随机变量。对置信区间的解释是:有1-的可能性落在该区间,或者说在这个区间内的概率是1-。,总体均数置信区间的估计,参数估计时,一方面要控制发生错误的概率(),越小,估计的正确率就越高。另一方面,所定区间范围不能过宽,否则就失去了实际意义,也就是估计的精确程度要高,估计的区间范围越小,精密度就越高。正确性和精密性是相互矛盾的,提高了准确度,则精密度必然下降;如果提高精密度,则准确度又将随之降低。因此,通常把发生错误的概率()定在适当的水平,如=0.05,即总体参数不在该范围的概率不超过5%,即95%置信区间。增大样本量可以在不影响正确性的情况下提高参数估计的精密度。但并非样本量

11、越大越好。,总体均数的估计,例9.2 某医师随机抽查了某地20名正常成人,测得血糖值的均数为4.92mmol/L,标准差为0.48mmol/L,试估计该地正常成人血糖值总体均数的95%和99%可信区间。本例:今v=20-1=19,查t值表得t0.05,19=2.093,t0.01,19=2.861。95%可信区间为:99%可信区间为:,总体均数的估计,例9.3 随机抽查了某地120名正常成人,测得血糖值的均数为4.92mmol/L,标准差为0.48mmol/L,试估计该地正常成人血糖值总体均数的95%和99%可信区间。本例:按正态分布原理近似计算:95%可信区间为:99%可信区间为:,正确性和精密性的关系,样本量对参数估计正确性和精密性的影响(正常人血糖总体均数的估计),四、正常值范围与可信区间,总体均数的可信区间:正常参考值范围:可信区间是总体均数的可能范围,其大小受抽样误差的影响;正常参考值范围则是“正常”个体观察值的可能范围,其大小主要与个体间的变异大小有关。前者是推断性的,后者是描述性的,切不可混淆。,正常值范围与总体均数置信区间比较,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号