《统计-正态分布抽样误差.ppt》由会员分享,可在线阅读,更多相关《统计-正态分布抽样误差.ppt(32页珍藏版)》请在三一办公上搜索。
1、1,第三讲 正态分布 抽样误差,2,一、正态分布及其应用,正态分布正态分布的概念正态曲线下面积的分布规律标准正态分布正态分布的应用 估计频数分布估计参考值范围 质量控制理论分布的基础,3,正态分布的概念,4,正态分布的概念,频数分布概念频数集中在均数周围,左右基本对称,离均数愈近数据愈多,离均数愈远数据愈少如果观察数不断增多,组距不断细分,直方图的边线将逐渐接近一条光滑曲线这条曲线数学上称为正态曲线以均数为中心,两侧对称并逐渐下降,永远不与横轴相交的一条钟型曲线,5,正态分布的特性,正态分布曲线的特点集中性 对称性 均匀变动性曲线的位置和形状与两个参数有关,6,正态分布的特性,正态分布曲线的参
2、数 为位置参数:恒定时,增大,曲线沿横轴向右移动;减小,曲线沿横轴向左移动 为形状参数:恒定时,越大,曲线越宽,表示数据越分散;越小,曲线越窄,表示数据越集中,7,正态曲线下的面积分布图,8,当资料近似正正态分布时,可以 作为的估计值,以S作为的估计值,估计正态曲线下面积的分布规律,9,标准正态分布,标准正态分布:N(0,1)数据经标准化后,使=0,=1时的正态分布 转换方式任何一个正态分布,都可以通过变换,成为标准正态分布,10,正态分布的应用,频数估计估计医学正常参考值范围质量控制统计方法的理论基础,11,频数估计,正态分布标准正态分布,12,估计医学正常参考值范围,研究对象的选择估计范围
3、确定(80%、90%、95%、99%)单双侧的确定方法的选择正态分布偏态分布,13,正态分布的应用,质量控制 作为上下警戒值 作为上下控制值统计方法的理论基础u 检验、t 分布、F 分布、二项分布、2 分布等,14,常用u 值表,15,常用百分位数表,16,二、抽样误差及其应用,抽样误差的概念抽样误差的应用参数估计假设检验,17,抽样误差的概念,抽样误差由抽样研究引起的样本统计量与总体参数间的差异均数的抽样误差两种表现形式样本统计量与总体参数间的差异样本统计量间的差异抽样误差产生的原因抽样研究个体变异,18,标准误(standard error,SE),样本统计量的标准差称为标准误,用来衡量抽
4、样误差的大小。标准误与个体变异 成正比,与样本含量n的平方根成反比。标准误理论值,19,标准误(standard error,SE),实际工作中,往往是未知的,一般可用样本标准差s代替 标准误的估计值因为标准差s随样本含量的增加而趋于稳定,故增加样本含量可以降低抽样误差,20,t分布的概念,设某一变量Xi服从正态分布N(,),则 服从标准正态分布即,21,t分布的概念,从正态分布N(,)的总体中随机抽样并计算多个样本均数,它们服从总体均数为,总体标准差为 的正态分布,则 也服从标准正态分布。,22,t分布的概念,实际工作中,由于 未知,则用 代替,则 服从t分布t分布(t-distributi
5、on)主要用于参数估计及t检验。英国统计学家于1908年在生物统计杂志上发表该论文时用的是笔名“Student”,故t分布又称Student t分布。,23,t分布的特征,t分布为一簇单峰分布曲线t分布以0为中心,左右对称t分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布,24,不同自由度下的t分布,25,参数估计(parameter estimation),由样本信息估计总体参数 点估计(point estimation)区间估计(interval estimation),26,点估计,
6、直接用样本统计量作为总体参数的估计值 方法简单,但未考虑抽样误差的大小在实际问题中,总体参数往往是未知的,但它们是固定的值,并不是随机变量值。而样本统计量随样本的不同而不同,属随机的,27,区间估计,按一定的概率或可信度(1-)用一个区间估计总体参数所在范围,这个范围称作可信度为1-的可信区间(confidence interval,CI),又称置信区间。这种估计方法称为区间估计。,28,均数的可信区间,总体均数的(1-)可信区间定义为当样本含量较大时,例如n100,t分布近似标准正态分布,此时可用标准正态分布代替t分布,作为可信区间的近似计算。相应的100(1-)可信区间为,29,可信区间的
7、确切涵义,可信度为95%的可信区间的确切涵义是:每100个样本所算得的100个可信区间,平均有95个包含了总体参数。,30,可信区间的两个要素,可靠性 反映为可信度1-的大小 精确性 用区间长度CUCL衡量,31,可信区间与参考值范围的区别,可信区间用于估计总体参数,总体参数只有一个。参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限。95%的可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%95%的参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。,32,标准差意义:描述原始数据的离散程度。衡量均数对原始数据的代表性与n的关系 应用:频数分布估计(医学参考值范围估计)计算变异系数、标准误联系,标准误意义:反映抽样误差大小,衡量样本均数估计总体均数的可靠性与n的关系应用:总体均数估计)假设检验,标准差与标准误的区别与联系,