《参数估计基础.ppt》由会员分享,可在线阅读,更多相关《参数估计基础.ppt(63页珍藏版)》请在三一办公上搜索。
1、第五章 参数估计基础,由抽样造成的样本均数与总体均数及样本均数之间的差别称为均数的抽样误差。,第一节 均数的抽样误差与标准误,一、均数的抽样误差,抽样误差:,抽样研究中,样本统计量与总体参数间的差别及统计量与统计量间的差别称为抽样误差。,均数的抽样误差:,二、标准误的计算【例5-1】假设已知100名(总体)正常成年男性红细胞数的均值为5.001012/L,标准差为0.431012/L,现从该总体中进行随机抽样,每次抽取10名正常成年男子,并测得他们的红细胞数,最终共抽取100份样本,并计算出每份样本的均数。,将一百个样本均数看成一批资料或为一个新样本,我们可以计算其均数与标准差,均数值为4.9
2、097,标准差为0.1350。将样本均数的“标准差”定名为均数的标准误,简称标准误,以区别于通常所说的标准差。标准差表示个体值的变异程度,而标准误则说明样本均数的变异程度,两者不能混淆。,将第1号样本的标准差及例数代入式(5-2),得,(5-2),(5-1),100个样本均数的频数分布图,标准误,统计量的标准差称为标准误(如均数标准误、率的标准误);均数的标准误是描述均数抽样误差大小的统计指标。,标准误的用途:,1.衡量样本均数的可靠性。2.结合样本均数和正态分布曲线下的面积 分布规律,估计总体均数的置信区间。3.用于均数的假设检验。,思考题:标准误和标准差的区别?,则 zN(0,1),第二节
3、 t 分布,则 zN(0,1);,(,),作 z 转换,xN(,),作 转换,,一、t 分布 的概念,t 变量为用以推断总体均数的样本检验统计量。t 分布只有1个参数自由度n1。,1.当 已知时,可作 z 转换,推断总体均数的样本检验统计量为z。,2.当 未知时,可作正态变量 的 t 转换,,二、t 分布的特征与t界值表,图5-1 不同自由度t分布的概率密度曲线,3.当 时,t 分布逼近z 分布;,特征:,1.单峰分布,以0为中心,左右对称;,2.越小,t 值越分散,t 分布的峰部越矮而尾部翘得越高;,4.t 分布曲线下的面积有一定规律。,双侧:,单侧:,图5-2=9时单侧(a)与双侧(b)分
4、布曲线下尾部面积,第三节 总体均数的估计,【例5-2】随机抽取某地100名16岁男孩,测得其体重均数为48.65kg,标准差为15.23kg,试估计该地16岁男孩体重的总体均数。,一、点估计(point estimation)用样本统计量作为总体参数的点值估计,二、区间估计(interval estimation),结合样本统计量和抽样误差在一定的可信度100(1-)%下估计总体参数所在的范围,称为总体参数的置信区间(confidence interval,CI)。,置信区间的概念,1.Z分布法,正态分布原理计算总体均数的1-可信区间为:,-z/2,z/2,(1)已知(小样本要求资料服从正态)
5、,均数置信区间的计算,(2)未知,但样本例数n足够大时(50),注意:若总体不服从正态分布时,一般是很难确定其总体中的未知参数,但当样本量n很大时,我们可利用中心极限定理按上式对其总计均数作出近似的区间估计。,2.t分布法(未知),根据t分布原理,P(-t/2,t t/2,)=1-,-t/2,t/2,总体均数(1-)可信区间计算公式如下:,对于例5-2,因为总体标准差未知,所以采用公式(5-6)计算总体均数的95%置信区间为:,48.651.9841.523=48.653.02=(45.63,51.67)kg,95可信区间 可以认为是每抽100个由样本含量相等的样本算得的置信区间,平均有95个
6、置信区间会包括总体均数,只有5个置信区间不会包括总体均数。,置信区间的涵义,(1)置信区间 包括总体均数的可能性为95;(2)总体均数落在置信区间 范围内的可能性为95;(3)通过样本资料计算出的95置信区间19.623.2kg包括总体均数的可能性为95。,判断:,置信区间的两个要素:,1.准确度,2.精密度,反映在可信度1-的大小上,从准确度的角度,愈接近1越好,如99%可信区间比95%的好;,它反映在区间的宽度上,即区间越窄越好,均数可信区间与参考值范围的区别,1.含义:均数可信区间用于估计总体参数,而参考值范围用于估计变量值的分布范围。,2.计算公式:均数可信区间的计算公式是基于统计量的
7、抽样分布,而参考值范围的计算基于变量值的分布。,Bernoulli试验,以A表示所感兴趣的事件,A事件发生称为“成功”,不发生称为“失败”。相应的这类试验称作为“成败型”试验或Bernoulli试验。,一、二项分布,第四节 二项分布和Poisson分布,必须满足下列三条件:(1)每次试验结果只能是两个互斥结果之 一(A或非A)。(2)每次试验的条件不变,每次试验结果 A事件发生的概率为常数。(3)各次试验独立,即每次试验出现事件 A的概率与前面各次试验出现的结果无关。,概率的运算法则,乘法法则:几个相互独立事件的乘积(同时发生)的概率等于各独立事件概率之积:P(A1A2An)=P(A1)P(A
8、2)P(An)可加性:互不相容事件 A1、A2、An(任一次试验至多一个出现)的和(至少一个发生)的概率等于各事件发生的概率之和:P(A1+A2+An)=P(A1)+P(A2)+P(An),二项分布成功次数的概率分布,某实验中小白鼠染毒后死亡概率:为0.7,则生存概率为:1-=0.3,故对一只小白鼠进行实验的结果为:,死(概率为)或 生(概率为1-);,对二只小白鼠(甲乙)进行实验的结果为:,甲乙均死概率为2,甲死乙生概率为(1-),乙死甲生概率为(1-),甲乙均生概率为(1-)2,概率相加得:2+(1-)+(1-)+(1-)2=+(1-)2,对三只小白鼠(甲乙丙)进行实验的结果为:,表 3只
9、白鼠各种实验结果及其发生概率,概率相加得:+(1-)3,对n只小白鼠进行实验,所有可能结果的概率相加得:,n+Cn1(1-)n-1+Cnx x(1-)n-x+(1-)n=+(1-)n,n次试验中事件A出现的次数为x的概率是:,,k=0,1,2,n,记为 x B(n,),表5-3 接种3 人可能出现不适反应的人数及其概率,二项分布的性质:,(1)二项分布的概率之和等于1,即,(2)单侧累积概率,至少有m例阳性的概率(上侧累积概率),至多有m例阳性的概率(下侧累积概率),(3)二项分布的均数和标准差若xB(n,),则x 的总体均数=n,x的总体方差 2 n(1)x的标准差,(4)二项分布的正态近似
10、性,二项分布图形的形状取决于 和n 的大小;,二项分布的图形有如下特征:,当=0.5时,无论n的大小,均为对称分布;,当 0.5,n较小时为偏态分布,n较大时逼近正态分布。,n=5=0.3,n=10=0.3,n=20=0.3,当不接近于0或1,n不是很小,n5且n(1)5时,二项分布近似正态分布,有,因此,二项分布的正态近似拓宽了二项分布的应用范围,应用十分方便。,样本率p的总体均数:,当样本含量较大,总体阳性率不接近与0,也不接近于1时,样本中的阳性数近似正态分布N(n,),样本阳性率也近似正态分布N(,p),故有,样本率p的标准差:,样本率的分布和正态近似,例补1:根据以往经验,新生儿染色
11、体异常率一般为1,某医院观察了当地400名新生儿,只有l例染色体异常,问该地新生儿染色体异常率是否低于一般?H0:=0.01H1:0.05,按=0.05水准尚不能拒绝H0,尚不能认为该地新生儿染色体异常率低于一般。,Poisson分布更多地专用于研究单位时间、单位面积、单位空间,单位人群内某罕见事件发生次数的分布。如某种细菌在单位容积空气或水中出现的情况,某段时间特定人群中某种恶性肿瘤患者的分布或出生缺陷的发病情况,放射性物质在单位时间内的放射次数,单位空间某种昆虫数的分布等等。,二、泊松分布,用于描述事件出现概率很小而样本含量或试验次数很大的随机变量的概率分布。理论上可以证明二项分布当n很大
12、而很小时的极限分布是泊松分布。由二项分布的概率公式可推导出泊松分布的概率计算公式为:,泊松分布的概率函数为:,记作,k=0,1,2,,例5-4 某地新生儿先天性心脏病的发病率为9,该地100名新生儿中有3人患先天性心脏病的人数概率有多大?,将n=100,=9 代入公式得:,=0.9,=0.049,即该地100名新生儿中有3人患先天性心脏病的人数概率为49。,(程序),泊松分布的性质,1.泊松分布的均数和方差,=2,2.泊松分布的可加性,随机变量x1,x2,xk相互独立,分别服从参数(均数)为1,2,k的泊松分布,则,也服从泊松分布,参数=1+2+k,3.泊松分布的正态近似,若已知参数,可计算不
13、同x取值的概率,以x为横坐标,可能取值的概率P为纵坐标,可绘制泊松分布的图形。,当足够大时,泊松分布趋向于正态分布。一般 20,即可认为泊松分布近似于正态分布。,=3,=5,=10,=20,例补2:据以往大量观察得某溶液中平均每毫升有细菌3个。某研究者想了解该溶液放在5冰箱中3天,溶液中细菌是否会增长。他采取已放在5冰箱中3天的该溶液1毫升,测得细菌5个,请作统计推断。,P(X5),故不拒绝H0,即不能认为该溶液在5冰箱中放置3天,会引起溶液中的细菌数增长。,第五节 总体率的估计,【例5-5】某市疾控中心对该市郊区200名小学生进行贫血的检测,结果发现有80名小学生贫血,检出率为40.0%,则
14、认为该市郊区小学生贫血率为40.0%。,【问题】,(1)这是什么资料?(2)该研究属于何种设计方案?(3)以此次抽样得到小学生贫血率40.0%来代表该市郊区小学生贫血率是否合适?(4)怎样估计该市郊区小学生贫血率?,一、率的抽样误差与标准误,由于抽样而引起的样本率与总体率及样本率间的差异称为率的抽样误差,与均数的抽样误差可以用均数的标准误度量一样,率的抽样误差的大小亦可以用率的标准误来度量。,率的标准误由下式计算,例6-6,n200,p=0.40,代入公式得sp=0.035。,二、总体率的估计,当样本例数较小(n50),特别是p接近于0或1时,根据二项分布的原理确定总体率的可信区间。1970年
15、,Miettinen根据二项分布和F分布的关系,导出了总体率的可信区间算法。,精确概率法或查表法,【例5-6】2003年46月某医院重症监护病房收治重症SARS患者38人,其中死亡12人,求SARS病死概率的置信区间。,查附表3,n=38,x=12,在x与n的纵横交叉处,得到SARS病死概率的95%置信区间为18%49%。,正态近似法,当样本例数n较大,p和1p均不太小,如np和n(1p)均大于5。总体率的1的可信区间为(pz/2 Sp,pz/2Sp),即该乡镇小学生贫血率的95置信区间为(33.2,46.8)。,例5-5,n=200比较大,p=0.4,np=80,n(1-p)=120,均大于
16、5,,最佳选择题1.描述均数抽样误差大小的统计指标是()。A.标准差 B.方差 C.均数的标准误 D.变异系数 E.离均差平方和2.减少均数的抽样误差的可行方法之一是():A.严格执行随机抽样 B.增大样本含量 C.设立对照 D.选一些处于中间状态的个体E.选一些处于极端状态的个体,3.在标准差与标准误的关系中,说法正确的是():A.样本例数增大时,标准差减小,标准误不变B.可信区间大小与标准差有关,而正常值范围与 标准误有关C.样本例数增大时,标准差增大,标准误也增大D.样本的例数增大时,标准差与标准误均减小E.总体标准差一定时,增大样本例数会减小标准误4.关于t分布的图形,下述哪项是错误的
17、()。A.当自由度 趋于无穷大 时,t分布趋于标准正态分布 B.无论自由度为多少,t分布曲线下的面积都为1C.自由度越小,则t分布的尾部越高 D.t分布是一条以 为中心左右对称的曲线E.t分布是一簇曲线,故临界值因自由度的不同而不同,5.用正态近似法进行总体率的区间估计时,应满足()。A.n足够大 B.p或1-p不太小 C.np或n(1-p)均大于5 D.以上均要求 E.以上均不要求6.总体率95%可信区间的意义是()A.95%的正常值在此范围内 B.95%的样本率在此范围内 C.95%的总体率在此范围内 D.总体率在此范围内的可能性为95%E.样本率在此范围内的可能性为95%,7()的均数等
18、于方差。A.正态分布 B.二项分布 C.对称分布 D.Poisson分布 E.以上均不对8.某地成年男子红细胞数普查结果为:均数为4.801012/L,标准差为0.411012/L,那么标准差反映的是():A.抽样误差 B.总体均数不同C.随机误差 D.个体差异E.以上均不正确,9.测定某地100名正常成年男子的血红蛋白量,要估计该地正常男子血红蛋白均数,95%可信限范围为():,10某地成年男子红细胞普查结果为:均数为4.801012/L,标准差为0.411012/L,随机抽取10名男子,测得红细胞均数为4.001012/L,标准误0.501012/L,那么标准误反映的是():A.抽样误差 B.总体均数不同 C.随机误差 D.个体差异 E.以上均不正确,