《(预防医学ppt课件)05t检验与方差分析.ppt》由会员分享,可在线阅读,更多相关《(预防医学ppt课件)05t检验与方差分析.ppt(110页珍藏版)》请在三一办公上搜索。
1、1,假设检验的基本原理,主要用于判断两个或多个参数间的差别有无统计学意义。首先建立假设,然后看假设的事件发生的概率 P,通过比较 P 与 的大小作出统计推断。,2,假设检验的一般步骤,1.建立检验假设,确立检验水准无效假设 H0:0备择假设 H1:0或0(0)检验水准,是预先规定的概率值,它确定了 小概率事件的标准。,3,2.选定检验方法和计算检验统计量 根据假设检验的目的和研究设计的类型选用不同的检验方法。检验的具体方法,通常以选定的检验统计量来命名。,4,3.确定 P 值,做出统计结论P值是指在无效假设 H0 成立的前提下,获得大于等于(或小于等于)现有统计量的概率。P:就是 H0 成立的
2、概率。,当P时,按检验水准,拒绝H0,接受H1;当P时,按检验水准,不拒绝H0。,5,第四节 t 检验与 u 检验,6,掌握:t 检验和u 检验(应用条件、方法选择、分析步骤),本节课学习目的与要求,7,1.u 检验应用条件:已知;未知但 n 较大(n100)2.t 检验应用条件:未知且 n 较小(n100)时,要求样本来自正态 总体;两个小样本均数比较时,要求两样本所属总体 的方差齐。,应用条件,8,单样本(one sample t test)t检验 配对样本(paired t test)两独立样本(two independent samples t-test)单样本 两独立样本,数值变量
3、假设检验,u检验,9,比较的目的是推断样本均数代表的总体均数是否与一已知的总体均数0相同,0一般为理论值、标准值或经过大量观察所得的稳定值等。根据 是否已知和样本含量 n 的大小,选用 u 检验或 t 检验。,一、样本均数与总体均数的比较,10,=n-1,(一)u 检验,当 未知而 n 较大时(n100),可用 S 代替 估计 u 值。,11,例 某市某年抽查了150名2岁男孩的体重,得平均体重为11.18kg,标准差为1.23kg。而同期全国九城市大量调查得同龄男孩的平均体重为11kg(此调查结果可作为总体均数)。问该市2岁男孩的平均体重与全国的同期水平有无差别?,12,1.建立假设,确定检
4、验水准 H0:=0,2岁男孩的平均体重与全国的同期 水平无差别 H1:0,2岁男孩的平均体重与全国的同 期水平有差别=0.052.选定检验方法,计算统计量,13,3.确定 P 值,作出推断结论u值 P 值 结 论 u0.05 0.05 接受H0,差别无统计学意义 u0.05 0.05 拒绝H0,接受H1,差别有 统计学意义,14,本例 u=1.792,u0.05=1.96,u=1.792 u0.05=1.96。因此P0.05,说明在 a=0.05 水准上,接受H0,根据现有样本信息,尚不能认为该市 2 岁男孩的 平均体重与全国的同期水平不同。,15,=n-1,(二)t 检验,当 未知而 n 较
5、小时,样本均数与总体均数的比较用 t 检验。,16,例14 15例长期服用某种避孕药的妇女,其血清胆固醇含量的均数为6.5 mmol/L,标准差为0.7 mmol/L,一般健康妇女血清胆固醇含量的均数为4.4 mmol/L,问长期服用该种避孕药的妇女其血清胆固醇含量的均数与一般健康妇女有无差别?,17,1.建立假设,确定检验水准 H0:=0=4.4 H1:0=0.052.选定检验方法,计算统计量,11.619,18,3.确定 P 值,作出推断结论t值 P 值 结 论 t0.05 0.05 接受H0,差别无统计学意义t0.05 0.05 拒绝H0,接受H1,差别有 统计学意义,19,v=n-1=
6、15-1=14,查 t 界值,t0.05,14=本例 t=11.619 t0.05,14,故 P0.05。因此在 a=0.05 水准上,拒绝H0,接受H1,可认为长期服用该种避孕药的妇女其血清胆固醇含量均数与一般健康妇女的差别有统计学意义。,2.145,,检验步骤,首先假定H0是成立的,0.05,在此前提下计算统计量,根据其分布函数,通过查该分布的界值表,得到大于或等于此统计量值的概率P,21,配对的主要形式有:同源配对同一受试对象处理前后的数据;同一受试对象两个部位的数据;同一样品用两种方法(仪器)检验的结果;异源配对配对的两个受试对象分别接受两种处理后的数据。配对目的:推断两种处理(方法)
7、的结果有无差别。,二、配对设计的差值均数与总体均数0的比较,22,=n-1,其中 为差值的均数,为差值的标准差,为差值的标准误,n 为对子数。,Paired t test,23,例15 按性别、年龄相近、病情相近把 16 例某病患者配成 8 对,每对分别给予A药和B药治疗,现测得治疗后血沉(mm/h)结果如表15-8,问不同药物治疗后病人血沉水平是否有差别?,24,25,1.建立假设,确定检验水准 H0:d=0 H1:d0=0.052.选定检验方法,计算统计量,26,3.确定 P 值,作出推断结论 v=n 1=8 1=7,查 t 界值表,t0.05,7=2.365本例 t=4.582 t0.0
8、5,7,所以 P0.05。结论:在 a=0.05 水准上拒绝 H0,接受 H1,可认为不同药物治疗后病人血沉水平不同。,27,例 有12名接种卡介苗的儿童,八周后用两批不同的结核菌素,一批是标准结核菌素,一批是新制结核菌素,分别注射在儿童的前臂,两种结核菌素的皮肤浸润反应直径(mm)如下表,问两种结核菌素的反应性有无差别?,28,12名儿童分别用两种结核菌素皮肤浸润反应结果,被检测者号 标准品 新制品 d d2(1)(2)(3)(4)=(2)-(3)(5)1 12.0 10.0 2.0 4.00 2 14.5 10.0 4.5 20.25 3 15.5 12.5 3.0 9.00 4 12.0
9、 13.0-1.0 1.00 5 13.0 10.0 3.0 9.00 6 12.0 5.5 6.5 42.25.12 10.5 9.5 1.0 1.00合计 39()195,29,1.建立检验假设,确定检验水准,H0:d=0,即两种结果相同 H1:d 0,即两种结果不同=0.05(双侧检验)2.计算检验统计量 已知:d=39 d2=195,30,3.确定P值,作出推断结论=n-1=12-1=11 t0.05(11)=2.201 t0.01(11)=3.106 本例t=4.5195 t0.01(11),P0.01,差别有高度统计学意义,按=0.01水准,拒绝H0,接受H1,可认为两种方法皮肤浸
10、润反应结果不同。,31,例 设有12名志愿受试者服用某减肥药,服药前和 服药后一个疗程各测量一次体重(kg),数据 如下表。问此减肥药是否有效?,32,某减肥药研究的体重(kg)观察值个体号 服药前 服药后 d d2(1)(2)(3)(4)=(3)-(2)(5)1 101 100-1 1 2 131 136 5 25 3 131 126-5 25 4 143 150 7 49 5 124 128 4 16 6 137 126-11 121 7 126 116-10 100 8 105 115 10 100 9 100 97-3 9 10 107 97-10 100 11 94 84-10 10
11、0 12 101 109 8 64 合计 d=-16 d2=710,33,1.建立假设,确定检验水准 H0:d=0,即该减肥药无效 H1:d0,即该减肥药有效 单侧=0.052.选定检验方法,计算统计量,34,3.确定 P 值,作出推断结论 v=n 1=12 1=11,查 t 界值表,t0.05,11=1.796(单侧)本例 t=0.58 t0.05,11,所以 P 0.05。结论:在 a=0.05 水准上不拒绝 H0,可认为服用该减肥药前后体重差异无统计学意义。,35,两种类型:选择一定数量的观察单位,将它们随机分为两组或多组,分别给予不同处理;从两组或多组具有不同特征的人群中,分别随机抽取
12、一定 数量的样本,比较某一指标在不同特征人群中是否相等。比较目的:推断两样本各自代表的总体均数1 和2 是否相同。,三、完全随机设计两个样本均数的比较,36,=n-1,(一)u 检验,当两样本含量均较大时,如均大于100,可用下式进行 u 检验。,式中 为两样本均数之差的标准误。,37,例 某医师为研究血清胆固醇水平与职业的关系,得调查资料如下表,问这两种职业的血清胆 固醇水平是否不同?,38,两种职业血清胆固醇水平/(mmol/L),职业类型 人数 均值 标准差 教师 537 4.8 0.72 工人 643 4.6 0.81,39,1.建立假设,确定检验水准 H0:1=2,两种职业的血清胆
13、固醇水平相同 H1:12,两种职业的血清胆 固醇水平不同=0.052.选定检验方法,计算统计量,40,3.确定 P 值,作出推断结论 查 u 界值表,u0.05=1.96,u=4.488 u0.05所以,P0.05。结论:在 a=0.05 水准上,拒绝H0,接受H1,两种职业血清胆固醇水平的差异有统计学意义,可认为教师的血清胆固醇水平高于工人。,41,=n-1,(二)t 检验,t 检验用于两样本含量 n1、n2 较小时,要求样本来自正态分布总体,且要求两总体方差相等(又称方差齐性)。,42,式中 为两样本均数之差的标准误;为两样本合并方差。,43,例16 某医师分别抽取原发性高血压病人25例和
14、脑卒中病人27例,测定其尿酸的含量,结果见表15-9。问原发性高血压病人和脑卒中病人的尿酸含量有无差别?,44,表 15 9 原发性高血压病人与脑卒中病人的尿酸含量(mmol/L),组别 例数 均数 标准差原发性高血压 25 221.7 86.1 脑卒中 27 246.5 96.9,45,1.建立假设,确定检验水准 H0:1=2,原发性高血压病人和脑卒中 病人的尿酸含量无差别 H1:12,原发性高血压病人和脑卒中 病人的尿酸含量有差别=0.05,46,2.选定检验方法,计算统计量,47,3.确定 P 值,作出推断结论 v=(n1-1)+(n2-1)=(25-1)+(27-1)=50查 t 界值
15、表,t0.05,50=2.009,t=0.973 t0.05,50 所以,P0.05。结论:在 a=0.05 水准上,不拒绝H0,尚不能认为原发性高血压和脑卒中病人的尿酸含量不同。,48,单样本(one sample t test)t检验 配对样本(paired t test)两独立样本(two independent samples t-test)单样本 两独立样本,数值变量 假设检验,u检验,49,第五节 方差分析(Analysis of Variance),方差分析由英国统计学家R.A.Fisher在1923年提出,为纪念Fisher,以F 命名,故方差分析又称 F 检验。,50,例17
16、 某研究者将 27 只雄性大鼠随机分成三组(每组 9 只),给予不同处理后 3 周,测定血清中的SOD(超氧化物歧化酶)活性。结果见下表。问三组的SOD活性是否相同?,51,三组大鼠血清中SOD活性/(mol/L),想一想,可否用 t 检验?,多次使用ttest,使犯第类错误(假阳性错误)的概率增大;资料的利用率很低,统计量所对应的自由度减小,结论不可靠;分裂了原先的整体设计,结论片面。,试想假设检验时通常检验水平取0.05,亦即弃真概率控制在0.05以内,但将3个均数作两两比较,要作三次比较,总可靠度成为(1-0.05)3=0.8574个均数比较作6次(1-0.05)6=0.7355均数比较
17、作10次(1-0.05)10=0.5996均数比较作15次(1-0.05)15=0.463,54,方差分析(analysis of variance,ANOVA)又称变异数分析或 F 检验。主要原理:将各组数据的总变异按设计及研究目的分为若干部分,再计算各部分的均方,两均方之比为 F 值。F 值与 F 临界值比较,决定 P 值大小,再根据 P 值大小推断结论。,55,基本思想:按分析目的和设计把全部数据之间的总变异分成两部分或更多部分,然后借助F分布作出统计推断。总变异=组间变异+组内变异,56,用途:两个或两个以上样本均数的比较;分析一个、两个或者多个因素的作用和影响;分析因素之间的独立作用
18、或交互作用;两样本或多样本的方差齐性检验。,用途和适用条件,57,适用条件:各样本是相互独立的随机样本;各样本来自正态总体;各处理组总体方差相等(齐性)。,58,类型,单因素方差分析(one-way ANOVA)也称完全随机设计的方差分析,单向或单方式方差分析,该设计只能分析一个因素下多个水平对试验结果的影响。双因素方差分析(two-way ANOVA)也称随机区组设计的方差分析,双向或双方式方差分析,该设计可分析两个因素。一个为处理因素,一个为区组因素。,59,三因素方差分析也称拉丁方设计(Latin square design)的方差分析,该设计可以同时分析三个因素对试验结果的作用,且三个
19、因素之间相互独立,不能有交互作用。析因设计的方差分析(factorial design)当两个因素或多个因素之间存在相互影响或交互作用时,可用该设计进行分析。该设计不仅可以分析多个因素的独立作用,也可分析多个因素之间的交互作用,是一种高效率的方差分析方法。,60,单因素方差分析(one-way ANOVA)也称完全随机设计的方差分析,单向或单方式方差分析,该设计只能分析一个因素下多个水平对试验结果的影响。,一、完全随机设计多个样本均数比较,方差分析的数据格式,Xij第i 个组的第j 个观察值i=1,2,kj=1,2,ni ni第i 个处理组的例数ni=N,=第i组的均数=总的均数=,各种符号的
20、意义,有关方差分析的几个概念,什么是方差?离均差离均差之和离均差平方和 SS,方差(2,S2)也叫均方(MS)自由度:=N-1关系:MS=SS/=,65,基本思想:按分析目的和设计把全部数据之间的总变异分成两部分或更多部分,然后借助F分布作出统计推断。总变异=组间变异+组内变异,66,三组大鼠血清中SOD活性/(mol/L),从这个表,可以看到三种变异:组内数据的变异 组内变异 三组之间数据的变异 组间变异 全部数据间的变异 总变异,67,组间变异主要受到处理因素和个体误差两方面影响,组内变异主要受个体误差的影响。当H0为真时,由于处理因素不起作用,组间变异只受个体误差的影响。此时,组间变异与
21、组内变异相差不能太大,两部分的均方(方差)也相差不大,其比值 F 值接近1。如果比值远远大于1,如大于3-5倍时,则处理因素就产生作用,影响了数据的结果。,68,离均差平方和与其自由度之比在方差分析中称为均方(记作MS),当 H0 为真时,组间均方与组内均方相差不大,两者比值 F 值约接近于1。即 F=组间均方/组内均方 1,69,当H0不成立时,处理因素产生了作用,使得组间均方增大,此时 F 1,当大于等于F 临界值时,则P0.05,可认为H0不成立,各样本均数不全相等。,70,F 值与 F 分布,组间均方与组内均方的比值称为 F 统计量,服从 F 分布,即:,如果 H0 成立,即各处理组的
22、样本来自相同总体,处理因素没有作用,则组间变异同组内变异一样,只反映随机误差作用的大小。,71,4.3.3 F分布,图4-3 不同自由度时的F分布曲线,F分布有两个自由度,第一自由度()是分子的自由度,第二自由度()是分母的自由度。,F分布是方差比的分布,常用于方差齐性检验、方差分析等。,72,变异的分割及其意义,总变异=组内个体差异+组间差异,73,组内变异(SS 组内),组内各个观测值 X i j 与本组内均值 之差的平方和。反映了组内(同一水平下)样本的随机波动。,74,组间变异(SS 组间),组内均值 与总均值 之差的平方和。反映了处理因素各个水平组间的差异,同时也包含了随机误差。,7
23、5,总变异(SS 总),全部测量值大小不同,这种变异称为总变异,以各测量值 X ij与总均数 间的差异度量。,76,总变异、组间变异、组内变异的关系:,对应自由度的关系:,77,均方(mean square),离均差平方和大小:与变异程度大小有关 与其自由度大小有关 将各部分离均差平方和除以相应自由度,其比值称为均方差,简称均方(MS)。,78,方差分析表,79,例17 某研究者将 27 只雄性大鼠随机分成三组(每组 9 只),给予不同处理后 3 周,测定血清中的SOD(超氧化物歧化酶)活性。结果见下表。问三组的SOD活性是否相同?,80,三组大鼠血清中SOD活性/(mol/L),从这个表,可
24、以看到三种变异:组内数据的变异 组内变异 三组之间数据的变异 组间变异 全部数据间的变异 总变异,81,82,1.建立假设,确定检验水准 H0:1=2=3 H1:1、2、3 不等或不全相等=0.05,83,2.选定检验方法,计算统计量,84,85,3.确定 P 值,作出推断结论以 v组间 为 v1,以 v组内 为 v2,查附表 F 界值表,得F0.01(2,24)=5.61,本例 F F0.01(2,24),故 P0.01。结论:按 a=0.05 检验水准,拒绝 H0,接受 H1,可认为三组的 SOD 活性有差别,但不能认为任何两组SOD活性均有差别。,86,87,P197200,88,表 1
25、5 12 例 17 资料的方差分析表,89,二、随机区组设计资料的方差分析,随机区组设计(randomized block design)又称为配伍组设计,涉及处理因素(主要因素)和区组因素(配伍组因素,个体特征),故随机区组设计的多个样本均数比较分析又称两因素方差分析。,90,随机区组设计资料常见情况:,区组设计资料:先将全部观察对象按某种或某些特征分为若干个区组,每个区组的观察对象数等于处理组数 k,然后将同一区组的 k 个对象随机分配到 k 个不同的处理组所得到的数据资料;同一个对象的k个部位测定同一指标所得的数据资料;同一样品用多种不同方法测定同一指标所得的数据资料。,91,随机区组设
26、计资料数据结构,92,变异分解,总变异SST可分解为:处理因素的变异SSA SSA 反映了各个水平组间的差异(包含随机误差)区组因素的变异SSB SSB 反映了各个区组间的差异(包含随机误差)随机误差SSe SSe 反映了样本的随机波动,三者的关系如下:,93,方差分析表,94,例18 按性别相同、年龄相近、病情相近把 33 例某病患者配成 11 个区组,每区组 3 个患者,分别给予A 药、B 药和 C药治疗。治疗后患者血浆中的 IGA 含量见表15-14。问经三种不同药物治疗后该病患者血浆中IGA含量有无差别?,95,区组号 A药 B药 C药 1 1.67 1.77 2.10 5.54 2
27、2.04 2.03 2.07 6.14 3 1.38 1.45 1.48 4.31 4 1.02 1.09 1.07 3.18 5 1.29 1.15 1.92 4.36 6 1.32 1.05 1.28 3.65 7 1.17 1.26 1.08 3.51 8 2.12 1.87 2.07 6.06 9 1.64 1.72 1.65 5.01 10 1.75 1.85 2.45 6.05 11 1.65 1.56 1.38 4.59 n i 11 1 1 11 33(N)17.05 16.80 18.55 52.40()1.55 1.53 1.69 27.64 26.87 33.44 87.
28、95(),表 15-10 三种不同药物治疗后某病患者血浆IGA含量,96,处理间:H0:1=2=3,即三种不同药物治疗后IGA 含量的总体均数相等;H1:1、2、3 不等或不全相等=0.05区组间:H0:1=2=11,即11个区组的IGA含量的 总体均数相等;H1:1、2、11 不等或不全相等=0.05,1.建立假设,确定检验水准,97,2.选定检验方法,计算统计量,98,99,对于三种药物,以v处理为 v1,以v误差为v2,查F界值表得:F0.05(2,20)=3.49,本例F处理=2.2893 F0.05(2,20),故P 0.05。按a=0.05 检验水准,不拒绝 H0,即尚不能认为三种
29、不同药物治疗后该病患者血浆中IGA含量不同。,3.确定 P 值,作出推断结论,100,对于区组,以v区组为 v1,以v误差为v2,查F界值表得:F0.05(10,20)=2.35,F0.01(10,20)=3.37,本例F区组=10.8736 F0.01(10,20),故P 0.01。按=0.05 检验水准,拒绝 H0,接受 H1,可认为不同区组血浆中IGA含量不同。,101,P197200,102,表 15 15 例 18 资料的方差分析表,103,三、两两比较的 q 检验,拒绝H 0,接受H 1,表示总体均数不全相等。哪两两均数相等?哪两两均数不等?需要进一步作多重比较。,104,SNK(
30、Student-Newman-Keuls)法,最常用方法之一,其检验统计量为q,故又称为q 检验。,MS误差:单因素方差分析中的组内均方(MS组内),或两因素方差分析中的误差均方(MS误差),105,例19 对例15.17资料不同组的SOD活性的均数作两两比较。,1.建立假设,确定检验水准 H0:任两组的SOD活性的总体均数相等,即 H1:任两组的SOD活性的总体均数不等,即=0.05,106,2.将三个样本均数从大到小排列,编上组次 组次 1 2 3 均数 373.1 369.2 346.5 组别 对照组 环孢素+精氨酸组 环孢素组3.计算 q 值,列出两两比较的 q 检验计算表,107,表
31、 15 16 三个样本均数两两比较的 q 检验计算表,对比组 均数之差 组数 q 值 q 界值 P 值 A与B a P=0.05 P=0.01(1)(2)(3)(4)(5)(6)(7)1与2 3.90 2 0.80 2.95 4.02 0.051与3 26.60 3 5.51 3.58 4.64 0.012与3 22.70 2 4.71 2.95 4.02 0.01,按a=0.05水准,1与3对比组以及2与3对比组拒绝H0,接受H1,说明对照组与环孢素组的SOD活性有差别,环孢素+精氨酸组与环孢素组的SOD活性也有差别,但1与2对比即对照组与环孢素+精氨酸对比不拒绝H0,尚不能认为有差别。,108,109,掌握:抽样误差与标准误的概念及计算;参数估计的概念、计算及含义 假设检验的基本原理、步骤与注意事项;t 检验和u 检验(应用条件、方法选择、分析步骤);方差分析基本思想与应用条件;,110,熟悉:t 分布图形与特征;常见方差分析的计算方法;假设检验的两类错误。,