第9章-计量资料的统计推断-课件.ppt

资源描述

《第9章-计量资料的统计推断-课件.ppt》由会员分享，可在线阅读，更多相关《第9章-计量资料的统计推断-课件.ppt（49页珍藏版）》请在三一办公上搜索。

1、第9章计量资料的统计推断,主要内容,第1节均数的抽样误差和标准误第2节假设检验第3节 t检验应用时应注意的问题,第1节均数的抽样误差和标准误,一、统计推断用样本信息推断总体特征的过程称为统计推断。,抽取部分观察单位,统计量,参数,推断,总体,样本,？,包括以下两个方面,1.参数估计用样本指标（统计量）估计总体指标（参数）。估计方法有两种：点（值）估计：用样本统计量直接作为总体参数的估计值。例如直接用样本均数估计其总体均数。区间估计：是按预先给定的概率（1-）估计包含未知总体参数的可能范围，该范围亦称置信区间。1-称为可信度，常取95%或99%。,2.假设检验亦称显著性检验，先对未

2、知总体的参数或分布作出某种假设，再用适当的方法根据样本对总体提供的信息，推断此假设应当拒绝或不拒绝。二、均数的抽样误差和标准误1.均数的抽样误差：由于抽样造成的样本均数与总体均数间的差异。,总体,样本,抽取部分观察单位,推断,与,之差即为均数的抽样误差,2.标准误样本均数的标准差称为均数的标准误，简称标准误，符号为。,计算公式已知：未知：意义反映均数抽样误差大小的指标，说明样本均数的可靠程度。,实例,例9-1 某市随机调查了120名13岁健康女生的身高情况，得身高均数为155.52cm，标准差为5.67cm，试计算其标准误。,标准误的用途,反映抽样误差的大小。用于估计总体均数的可信区间。

3、用于均数的假设检验。,标准差和标准误的区别,三、t值及t分布,t值是样本均数与总体均数之差除以标准误估计值所得的商。公式为：,如果从一个正态总体中，随机抽取例数为n 的许多样本，分别计算其样本均数和标准误，然后据上式求出每一个t值，这样可得到许多个t值，其频数分布是一种连续型分布，这些t值的分布就是t分布。t分布是t检验的理论基础。,t分布的特征,t分布是以0为中心左右对称的单峰分布，类似于标准正态分布（u分布），但曲线的中间比u分布曲线低，两侧翘得比u分布曲线略高。t分布曲线的形状与自由度大小有关。t分布曲线随着自由度的增大，逐渐接近于u分布曲线；t分布的极限为标准正态分布。,自由度分

4、别为1、5、时的t分布,t分布曲线下面积分布规律,t分布中理论上有95%的t值满足有99%的t值满足：t值越大，其两侧或单侧以外的面积占曲线下总面积的百分比就越小，说明抽样获得此t值以及更大t值的机会就越小，其大小用概率P来表示。在同一自由度下，t t,则P；反之，tt，则P。,t分布曲线下面积分布图,t分布曲线下单双尾面积与t值的关系,双侧t0.05/2，92.262 单侧t0.025，9单侧t0.05，91.833双侧t0.01/2，93.250 单侧t0.005，9单侧t0.01，92.821双侧t0.05/2，1.96 单侧t0.025，单侧t0.05 1.64,四、总体均数的估计,

5、（一）点（值）估计是直接用样本均数作为总体均数的估计值。计算简便，但由于存在抽样误差，不能准确地估计出总体均数大小，也无法确定总体均数的可靠程度，故实际工作中不常用。,（二）区间估计,是按一定的概率(1-)估计包含未知总体均数可能的范围，亦称总体均数的可信区间(confidence interval缩写为CI）。1-称为可信度，常取1-为95%和99%，即总体均数的95%可信区间和99%可信区间。1-(如95)可信区间的含义是：总体均数被包含在该区间内的可能性是1-(如95)，未被包含的可能性为（如5）。,可信区间的计算,1.样本含量n较小(n100)按t分布的原理 2.样本含量n较大(n1

6、00)按u分布的原理,例9-2 n=10=21.4kg s=2.6kg,求该地7岁男孩体重均数的95%可信区间。解：本例=10-1=9，=0.05，查t界值表可得t0.05/2,9=2.262，则的95%CI为：答：该地7岁男孩体重均数的95%可信区间为19.5kg23.3kg。,例9-3 某市120名12岁健康男孩的身高均数为143.10cm，标准误为0.52cm，试估计该市12岁健康男孩身高均数的95%可信区间。解：本例n=120100，=0.05：则的95%CI为：答：该市12岁健康男孩身高均数的95%可信区间为142.08kg144.12kg。,总体均数可信区间与参考值范围的区别,第2

7、节假设检验,主要目的：是在概率基础上，利用反证法判断资料间的差异是由于抽样误差所致，还是因为来自不同总体而存在本质上的差异，以便做出决策。反证法：当一件事情的发生只有两种可能A和B，为了肯定其中的一种情况A，但又不能直接证实A，这时否定另一种可能B，则间接的肯定了A。概率论：事件的发生不是绝对的，只是可能性大小而已。小概率思想:P0.05为小概率事件，它在一次试验或观察中几乎是不可能发生的。,一、假设检验的基本步骤,1.建立检验假设，确定检验水准无效假设：符号为H0。如假设两组资料的总体均数相等，即1=2。备择假设：符号为H1。如假设两组资料的总体均数不相等。双侧检验为1 2；单侧检验为1

8、2 或1 2。检验水准：符号为，它是拒绝无效假设H0的概率水准，是预先规定的概率值，通常取=0.05。,2.选定检验方法，计算统计量根据研究设计的类型和统计推断的目的要求等方面选用不同的检验方法。如完全随机设计中，两样本均数的比较可用t检验，样本含量较大时（n100）,可用u检验。不同的统计检验方法，可得到不同的统计量，如t 值和u值。3.确定概率P值，作出推断结论确定概率P值：根据自由度，查相应统计量的界值表(如 t值表)，确定现有统计量的概率P值，再与检验水准进行比较作出拒绝或不拒绝H0的推断结论。,推断结论：若 P，结论为按所取检验水准不拒H0；若P，结论为按所取检验水准拒绝H0，接

9、受H1。两均数比较时常用的判断标准如下表：,二、样本均数与总体均数比较的t检验,目的：推断样本均数所代表的未知总体均数与已知总体均数0有无差别(0 一般为理论值、标准值或经过大量观察所得的稳定值等)条件：要求资料来自正态或近似正态分布总体。公式：,=n 1,例9-4 已知健康成年男性白细胞均值为7.0109/L。现某医生随机抽取某厂20名苯作业男工，白细胞均数为5.2109/L，标准差为1.9109/L。问苯作业男工白细胞均数与健康成年男性有无差别？检验步骤如下：,三、两样本均数比较的t检验和u检验,1.两样本均数比较的t检验目的：推断两样本均数分别代表的总体均数1与2有无差别。条件：适用于完

10、全随机设计的两组样本资料；样本来自正态或近似正态总体；两总体方差相等即方差齐。公式：,=n1+n2-2,其中两均数之差的标准误为：,合并方差为：,当s1和s2已知时：,例9-5 某市妇产科医院随机抽查了13例出生后存活及12例出生后死亡婴儿，体重测量结果如下。试问出生后存活婴儿与死亡婴儿的体重有无不同？存活婴儿体重（kg）：2.015 1.715 1.130 3.160 2.550 2.090 1.720 1.575 3.400 2.570 2.600 2.040 1.680 死亡婴儿体重（kg）：1.050 1.770 1.295 1.940 1.185 1.600 1.175 2.275

11、1.300 2.200 1.225 2.730 检验步骤如下：（1）建立假设，确定检验水准 H0：12 H1：12=0.05（2）选择检验方法、计算统计量t值,X1=28.245，X12=66.482，=2.173，n1=13 X2=19.745，X22=35.680，n2=12，=1.645，计算合并方差得：计算两均数之差的标准误得：,计算t值得：,（3）确定P值，作出推断结论：,=n1+n2-2=13+12-2=23，查t界值表（双侧），得t0.05/2,232.069，今有t2.19，满足tt0.05/2,23，故P0.05。按=0.05检验水准，结论为拒绝H0，接受H1，可以认为存活与

12、死亡婴儿的出生体重有差别，存活婴儿体重大于死亡婴儿。,2.两大样本均数比较的u检验,目的：与两样本的t 检验相同。条件：适用于完全随机设计的两样本含量n1、n2均足够大（如均大于50）的资料。公式：优点：简单，u界值与自由度无关 u0.051.96，u0.012.58,两种劳动类型的人血清胆固醇水平（mmol/L）,例9-6 某医院为了研究血清胆固醇水平与劳动类型的关系，调查资料如下表。问两种劳动类型的人血清胆固醇水平是否不同？,检验步骤如下：（1）建立假设，确定检验水准,H0：1=2 H1：1=2=0.05。（2）选择检验方法、计算u值：本例两样本含量均大于50，故选两个样本均数比较的u检验

13、。本例u值为：,（3）确定P值，作出推断结论：双侧u0.05/21.96，u0.01/22.58，现u4.488，uu0.01/2，所以P0.01。按=0.05检验水准，结论为拒绝H0，接受H1，可以认为脑力劳动者血清胆固醇水平高于体力劳动者。,四、配对计量资料比较的t检验,类型：1.同源配对（1）同一批受试对象处理（如治疗）前后某些生理、生化指标的比较。（2）同一种样品（如尿铅）用两种不同方法测试结果的比较。2.异源配对每个对子中的两个受试对象分别接受不同的处理所得结果的比较。如按同窝别、同体重、同性别等条件配对的动物实验。,目的：推断两种处理的效果有无差别或推断某种处理有无作用。特点

14、：减少了个体差异，提高了检验效率；资料成对，每对数据不可拆分。思路：先求出各对子的差值d的均值,若两种处理的效应无差别，理论上差值d 的总体均数应为0，故这类资料的比较可看作是样本均数与总体均数为0的比较。条件：要求差值的总体分布为正态分布。,公式：,例9-7 为研究女性服用某避孕新药后是否影响其血清总胆固醇含量，将20名女性按年龄配成10对。每队中随机抽取一人服用新药，另一人服用安慰剂。经过一定时间后，测得血清总胆固醇含量（mmol/L），结果见下表第（1）（3）栏。问该新药是否影响女性血清总胆固醇含量？,实例：,新药组与安慰剂组血清总胆固醇含量（mmol/L）,检验步骤如下：（1）建立假设

15、，确定检验水准 H0：d0H1：d0=0.05。（2）选择检验方法、计算统计量t值：本例为配对设计资料，可选用配对t检验。,（3）确定P值，作出推断结论=n-1=10-1=9，查t界值表得t0.20/2,9=1.383，t0.10/2,9=1.833，本例t0.20/2,9t t0.10/2,9，所以0.10P0.20，按=0.05检验水准，不拒绝H0，差别无统计学意义，还不能认为该避孕新药对女性血清总胆固醇含量有影响。,第3节 t检验应用时应注意的问题,一、正确理解差别的统计意义资料经t检验，若P0.05时，按=0.05检验水准，拒绝H0，接受H1，结论为差别有统计学意义，习惯上也称差别有

16、显著性，可认为两总体均数有差别，但不能据此误解为实际差别很大。当P0.05时，则不拒绝H0，即所谓差别无统计意义（差别无显著性），亦不应误解为两总体均数一定相等或相差不大。,二、t检验的应用条件,t检验的前提是要有严密的抽样设计，以保证对比组之间具有可比性。在此基础上，作t检验的资料应满足以下条件：若样本含量n较小（如n50），要求样本取自正态或近似正态总体，若为两个小样本均数比较时还要求两样本所属的总体方差相等，即方差齐。三、正确选择t检验的方法在作t检验时，具体选择何种方法来计算检验统计量t值，主要取决于资料的设计方案、分析的目的、变量的分布、样本含量的大小等方面。如配对设计的计量资料要

17、采用配对t检验。,四、正确理解t检验结论的概率性 t检验结论的概率性，是指t检验的推断结论不是绝对的正确，也就是说不论是拒绝H0，还是不拒绝H0，都有可能发生推断错误。因此在报告结论时，不宜用“肯定”、“必定”、“一定”等词，且最好列出t值的确切数值、尽量写出P值的确切范围，如0.02P0.05，以便读者与同类研究进行比较。五、正确理解类错误和类错误假设检验的结论有可能发生两类错误，即类错误和类错误。,类错误是指拒绝了实际上成立的H0，即“弃真”的错误，类似于把阴性错误地判断为阳性（假阳性），这种错误在统计学上称为类错误，发生这类错误的概率用表示。亦称检验水准，常取=0.05。类错误是指

18、接受了实际上不成立的H0，即“存伪”的错误，类似于把阳性错误地判断为阴性（假阴性），这种错误在统计上称为类错误，发生这类错误的概率用表示，值的大小在假设检验时一般并不知道。,假设检验中可能发生的两类错误,与的大小应根据实际情况适当取值，可通过来控制的大小。1-为检验效能或把握度，其意义是两总体确有差别，按水准能发现它们有差别的能力。,类错误和类错误示意图,与的联系与区别,联系：当n固定时，增大，则减小；减小，则增大；增大n，可同时降低与。区别：（1）一般为已知，可取单侧或双侧，如0.05或0.01。（2）一般为未知，只取单侧，如取0.1或0.2。1(把握度)不小于0.75。,六、统计分

19、析不能代替专业分析差别有无统计学意义是统计结论，说明由抽样误差引起的可能性大小，并不代表专业上差别大小的实际意义，而差别的实际意义则对应的是专业结论，专业结论只能根据专业知识来确定，故统计结论必须与专业结论有机的结合，才能得出符合客观实际的最终结论。当样本含量足够大或标准差特别小时，即使两样本均数相差很小，也能得出足以拒绝H0的检验统计量值和P值，但在专业上可能被认为无实际意义。,七、正确地确定单侧检验或双侧检验,如何选择单侧检验或双侧检验，应事先根据专业知识和问题的目的要求，在实验设计时做出规定，而不能在计算出检验统计量（如t值）之后任意选择。若根据专业知识判断一种方法的结果不可能低于或高于另一种方法的结果，选用单侧检验。若还不能根据专业知识判断两种结果谁高谁低时，则用双侧检验。一般认为双侧检验较保守和稳妥。对同一资料，单侧检验比双侧检验更易得到差别有显著性的结论。,思考题,1.标准差和标准误有何区别和联系？2.可信区间和参考值范围有何不同？3.类错误和类错误有何区别与联系？,谢谢收看！,

展开阅读全文