研究生统计学讲义第5讲第5章方差分析.ppt

上传人:小飞机 文档编号:5806379 上传时间:2023-08-21 格式:PPT 页数:54 大小:519.50KB
返回 下载 相关 举报
研究生统计学讲义第5讲第5章方差分析.ppt_第1页
第1页 / 共54页
研究生统计学讲义第5讲第5章方差分析.ppt_第2页
第2页 / 共54页
研究生统计学讲义第5讲第5章方差分析.ppt_第3页
第3页 / 共54页
研究生统计学讲义第5讲第5章方差分析.ppt_第4页
第4页 / 共54页
研究生统计学讲义第5讲第5章方差分析.ppt_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《研究生统计学讲义第5讲第5章方差分析.ppt》由会员分享,可在线阅读,更多相关《研究生统计学讲义第5讲第5章方差分析.ppt(54页珍藏版)》请在三一办公上搜索。

1、第5章 方差分析 analysis of variance,ANOVA,方差分析目的是利用变异的关系来判别多组资料的总体平均值是否有差别。基本思想是:先假设(H0)各总体均数全相等;将总变异SS总,按设计和资料分析的需要分为两个或多个组成部分,其自由度也相应地分为几个部分,以随机误差为基础,按F分布的规律作统计推断。,方差分析首先要进行F 检验,统计量为F,我们先介绍其统计量的分布F分布。,定义:如果随机变量X1、X2分别服从自由度为df1,df2的2分布,则称随机变量,预备知识,服从自由度为df1,df2的F分布(F-distribution)。,F0.05(5,10)=3.33,P(F 3

2、.33)=0.05;P(F3.33)=0.95;,查附表6,界值F0.01(3,5)=12.1,df1=3,df2=5时,P(F 12.1)=0.01,P(F 12.1)=0.99,查附表6,F0.01(3,5)=12.1,df1=3,df2=5时,P(F 12.1)=0.01,P(F 39.36)=0.025,P(F 39.36)=0.975。,因一般都按组成统计量F的分子大于分母计算F值。所以附表6中 F 界值都大于1。方便方差分析时用。,F分布具有倒数性质:,例如,查附表6,F0.05(2,5)=5.7861,F 界值表中没有列出F0.95(5,2),利用F分布的倒数性质可得F0.95(

3、5,2)=1/F0.05(2,5)=1/5.7861=0.1728。,下面的性质是F分布用于方差分析和两样本比较时的方差齐性检验的重要依据:,如果分别从两个正态总体N(1,1)和N(2,2)中,随机抽取样本含量为n1,n 2的两个样本,算出样本均数和方差分别为,s21和,s22,则统计量,服从自由度为df1=n11,df2=n21的F分布。,(5.2),第二节 方差分析的思路,1.方差分析的分析思路是将全部观察值之间的变异即总变异(SS总)按设计和资料以及分析需要分为两个组成部分,以随机误差为基础,计算F值,按F分布的规律作统计推断。,下面我们以完全随机设计资料为例,进一步说明方差分析的基本思

4、想。,例5.1 研究单味中药对小白鼠细胞免疫机能的影响,把39只小白鼠随机分为四组,雌雄尽量各半,用药15天后,进行E-玫瑰花结形成率(E-SFC)测定,结果如表,表6-1 不同中药对小鼠E-SFC(%)的影响,本例属于完全随机设计资料,从表5-1资料可以看到三种性质不同的变异(用离均差平方和表示变异):,(1)总变异(total variation):,显然SS总 还与总例数N(=nj)的多少有关,确切地说与总的自由度df总(df总=N1)有关。,(2)组内变异(within group variation):四个样本组各组内部E-SFE值也大小不等,这种变异称为组内变异。它反映了E-SFC

5、的随机误差(包括个体差异以及观测误差),其大小可用四样本内部每个观察值 xij 与自已所在样本组均数 之差的平方和(记为SS组内)来表示,,显然SS组内的大小还与各样本例数 nj 的多少有关,确切地说与自由度df组内(df组内=nj-k)有关,所以计算组内方差,称为组内均方(within group mean square,记为MS组内,MS组内=SS组内/df组内=(nj-1)sj2/(nj-k)。,(3)组间变异(between groups variation):四组间E-SFC值的样本均数 也大小不等,这种变异称为组间变异,它反映了不同处理(中药)的影响,也包括了随机误差。其大小可用各

6、组均数分别与总均数之差的平方和(记为SS组间)来表示,,同样,组间变异SS组间的大小还与其自由度df组间(df组间=k-1)有关,所以计算组间方差,称为组间均方(between groups mean square,记为MS组间),,MS组间=SS组间/df组间=,SS总=SS组间+SS组内,且df总=df组间+df组内,H0:1=2=3=4,FMS组间/MS组内 1,F 要大于1 多少才有统计意义呢?可查F 界值表(见附表6)得 P 值,按 P 值的大小作出推断结论。,2.方差分析的应用条件,(1)各样本是相互独立的随机样本。,(2)正态性(normality),各样本来自正态分布总体。方差

7、分析的这一应用条件是对样本含量较小时的资料而言,对于样本含量较大的资料来说,则样本不论来自什么总体,方差分析都是强有力的分析方法。因为当各组的样本含量较大时,样本均数近似正态分布。,(3)各比较组总体方差相等(12=22=k2),称为方差齐性(homogeneity of variance)。方差分析的这一应用条件主要是对完全随机设计资料而言,注意:无重复数据的方差分析,如配伍设计、交叉设计、正交设计的方差分析,因每个单元格子中只有一个观察数据,不需考虑正态性和方差齐性的要求。,3.方差分析的优点 方差分析的优点有:不受对比的组数之限制;可同时分析多个因素的作用;可分析因素间的交互作用。,第二

8、节 完全随机设计资料的多个样本均数比较,一、完全随机设计资料的方差分析,单因素方差分析(one-way ANOVA),H0:1=2=n,H1:1,2,n不等或不全等;=0.05。,单因素方差分析(完全随机设计多个样本均数比较的方差分析)检验统计量为 F 值:,FMS组间/MS组内(6.6),如果F,在水平上不拒绝H0,认为多个总体均数间差别无统计学意义,,如果F F,则P,在水平上拒绝H0,认为多个总体均数间差别有统计学意义,但并不意味着任何两总体均数有差别,只能说至少有两组有差别,可能有的组间没有差别,要了解哪些组间有差别,哪些组间没有差别,需要进一步作多个样本均数间的两两比较。,二、多重比

9、较,多重比较(multiple comparison)即多个样本均数间的两两比较,由于涉及的对比组数大于2,若仍用t检验作每两个对比组比较的结论,会使犯第一类错误的概率增大,即可能把本来无差别的两个总体均数判为有差别。,例如有4个样本均数间的两两比较有42=4!/2!(4-2)!6 种情况,即可有 6 次对比,若每次比较的检验水准=0.05,则每次比较不犯第一类错误的概率为0.95,按概率的乘法定理,6 次比较均不犯第一类错误的概率为(1-0.05)6,这时,总的检验犯第一类错误的概率为1-0.9560.2649,比0.05大多了。,例5.2 曾经有人观察甲、乙两种性激素对成四种中药纤维细胞生

10、长的影响,以安慰剂为对照,三组样本含量均为10,结果是甲组为364,乙组为393,安慰剂组为404。按检验水准=0.05,使用 t 检验作两两比较,结论:甲组与乙组组比较 t=1.897,P0.05,差异无统计学意义;乙组与安慰剂组比较,t=0.632,P0.05,差异无统计学意义;甲组与安慰剂组比较,t=2.236,P0.04,差异有统计学意义。显然在逻辑上是矛盾的。,本例方差分析的F=2.96;根据组间自由度df组间k-13-12,组内自由度df组内=N-k=30-3=27,F 界值F0.05(2,27)=3.35,F 0.05,所以,正确的结果应当是三组之间差异并无统计学意义。,多个样本

11、均数比较一般有两种情况:一种是在研究设计阶段未预先考虑或未预料到,经数据结果的提示后,才决定用多个均数间的两两比较,常见于探索性研究,这种情况下,往往涉及到任意两个均数的比较。另一种是在设计阶段就根据研究目的或专业知识而决定的某些均数间的两两比较,常见于事先有明确假设的证实性实验研究,例如多个处理组分别与一个对照组的比较,处理后不同时间分别与处理前的比较等。,多个实验组分别与一个对照组比较常用Dunnett法。每两个均数的比较常用最小显著差值(LSD)、SNK(Student-Newman-Keuls)法,又称 q 检验;也常用Tukey法、Bonferroni校正法、Duncan的多重极差检

12、验。,Bonferroni校正法的思想是考虑到若以 m 代表 t 检验次数,每次使用水平进行比较,m 次比较均不犯类错误的概率为:,(1)m,总的检验犯第一类错误的概率为:,1(1)m,值很小的时,1(1)m m,以Pmin代表m次t检验中的最小 P 值,以P校正代表校正P 值,当P校正 mPmin时,总的检验水准近似是。所以,当总检验水准为时,进行多组间两两比较须坚持P校正=mPmin作为判断具有统计学意义的界值;换言之,只有 m 次 t 检验中的,才推断差异在总检验水准为下具有统计学意义,这就是Bonferroni标准,利用Bonferroni标准进行多组比较的方法,称为Bonferron

13、i校正法。,例5.3 已知表5-1资料满足方差分析的应用条件,试分析四种用药情况对小白鼠细胞免疫机能的影响是否相同。,本例资料一个研究因素,满足方差分析的应用条件,比较各组总体均数相等用单因素方差分析法。,H0:1=2=3=4即各总体均数相等,H1:各总体均数不全不等;=0.05,输出结果,第三节 配伍组设计资料的方差分析及多重比较,配伍组设计的多个样本均数比较,符合方差分析条件时,可用无重复数据的两因素方差分析(Two-way ANOVA)。两因素是指主要的处理因素和配伍因素。配伍组设计试验的结果按处理和配伍两个因素纵横排列构成多行多列资料,每个格子中仅有一个数据,故称无重复数据。,例5.4

14、 为了控制年龄因素对治愈某病所需时间的影响,采用了配伍组设计,选定5个年龄组,每组3个病人,随机分配到不同的处理组中去,资料如表6-2,试分析三种疗法治愈某病所需时间是是否相等。,一、配伍组设计资料的方差分析,处理组 H0:1=2=3,即不同疗法治愈天数的总体均数相等;H1:不同疗法治愈天数的总体均数有不等或全不相等。=0.05,配伍组H0:不同年龄治愈天数的总体均数相等;H1:不同年龄的治愈天数的总体均数有不等或全不等。=0.05,Analyze,General Linear Models,Univariate,Tests of Between-Subjects EffectsDepende

15、nt Variable:治愈天数,Multiple Comparisons,二、完全随机设计与配伍设计方差分析的比较,例5.2和例5.1不同的是多增加了“配伍组”。测定结果的变异除了不同处理(疗法)组的变异和随机误差外,还存在配伍组(不同年龄)变异,记为SS配伍,所以,配伍组设计的方差分析中,可将总变异分为三部分,即 SS总=SS处理+SS配伍+SS误差。自由度也相应分为三部分,即df总=df处理+df配伍+df误差。分别检验处理组间变异、配伍组间变异有无统计的意义。配伍组设计与分析的目的是为了减少误差。若配伍组间变异无统计的意义,则将配伍与误差合并为组内,为完全随机设计试验的方差分析。,表5

16、-3 完全随机设计与配伍设计方差分析的比较,。在MS处理恒定时,完全随机设计与配伍组设计方差分析的效率分别取于 MS组内与 MS误差的大小,而均方 MS 的大小是由离均差平方和 SS 和自由度df 来的,从离均差平方和 SS 来看,完全随机设计的 SS组内大于配伍设计的 SS误差,这可能使 MS组内 大于MS误差,这就是通常所说“多组比较时,完全随机设计的效率小于配伍设计”的主要原因。但是,从自由度df来看,df组内-df误差=k(n-1)-(k-1)(n-1)=n-1,完全随机设计的df组内比配伍设计的df误差大。自由度df增大带来两个问题:,1.在SS组内不变时,使MS组内减小,而MS处理

17、恒定时使F值增大;2.自由度df 增大时,F 界值缩小,从而P值较大,所以,从自由度 df 来看,完全随机设计方差分析的效率可能大于配伍设计。,综上所述,多组比较时,如果可选择完全随机设计与配伍设计时,应当从离均差平方和与自由度两方面综合考虑。可以通过预试验或根据文献资料,预估配伍因素结果影响较大,配伍组差异可能有显著意义时,才选择配伍设计。凡不具备配伍条件,估计配伍组差异小者,应选用完全随机设计。,P79第五节 析因设计方差分析,例5.6 某中医院用中药复方治疗高胆固醇症,将12例高胆固醇病人随机分为4组治疗:第一组用一般疗法;第二组在一般疗法外加用A药;第三组用一般疗法外加B药;第四组在一

18、般疗法外加A药和B药。一个月后观察胆固醇降低数(mg%)记录如表5-5,试检验A、B药是否有降胆固醇作用?两药有无交互作用?,表5-5 22析因设计不同用药降胆固醇量(mg%)A药 B药 不用 用不用 64 78 80 56 44 42 用 28 31 23 16 25 18,A、B两药各有用和不用两个水平,符合22析因设计,可以用22析因设计的方差分析检验A药与B药是否有作用以及二者之间是否有交互作用,药物间:H0:A、B 两种药物疗效相同;H1:A、B两种药物疗效不同。=0.05,交互作用间:H0:A、B两种药物无交互作用;H1:A、B两种药物有交互作用。=0.05,图5-10 例5.6的

19、方差分析结果,P81第七节 组内分组资料的方差分析,组内分组设计(hierarchical classification design)或称层次分组设计,亦称为系统分组设计或嵌套设计(nested design)。它是将受试对象按甲因素分为若干大组,每个大组再按乙因素分为若干小组,每个小组再按丙因素分为若干亚小组,如此依照不同因素将受试对象进行分组,再分组。这种设计的前提是每一受试对象具备一再分组的各种因素。,组内分组设计依分层因素的多少来分类,如只按甲因素分为若干大组,每个大组再按乙因素分为若干小组,属于两因素分组(两层次分组);如果还按丙因素再将每个小组分为若干亚小组,则属于三因素分组(三

20、层次分组);余类推。,最常用的是两层次分组,两层次分组设计中,划分大组的依据是侧重研究的因素,划分亚组的依据是次要因素。,两层次分组设计资料方差分析的基本思想是:假设(H0)各大组的总体均数相等,而且同大组内各亚组的总体均数相等。将总变异(离均差平方和SS总)按变异来源分为大组的离均差平方和SS大组,亚组的离均差平方和SS小组.及误差的离均差平方和SS误,并对各项离均差平方和计算自由度,计算各项的方差MS,进而算出F值,按F分布的规律,查F界值表得P,按所取检验水准作出推断结论。,常见的两层次分组方差分析法计算公式为:,SS误=SS总SS大组SS小组;df误=df总-df大组-df小;,MS=

21、SS/df(6.11),F大组=MS大组MS小组,F小组=MS小组MS误差(6.12),例5.8 研究,三个不同产地的中药当归不同部位(当归头为1号部位,当归身为2号部位,当归尾为3号部位)的M物质含量,测定结果见表6-4。本例中药当归M物质含量资料,每个产地又分不同部位,大组为产地,小组为部位,是组内分组的资料,对此资料可作两种分析:,表5-6 三个不同产地当归不同部位M物质含量(单位:mg/10g),不同产地的中药当归M物质含量是否相同;同一产地的中药当归不同部位M物质含量是否相同。这是含分层因素的资料,如使用SPSS11.5统计软件,建立数据文件L5.5.sav如图5-13,关于交互作用

22、的解释:交互作用是指一个因素不同水平间的效应受到另一因素影响。若一个因素的不同水平间的效应差因另一个因素水平影响而呈现较大幅度增加,其差别在统计学上有显著意义,可认为两因素有协同交互作用;若一个因素的不同水平间的效应差因另一个因素水平影响而呈现较大幅度下降,其差别在统计学上有显著意义,可认为两因素有拮抗交互作用;若一个因素在另一因素不同水平影响下,其不同水平效应差呈现等幅增加或降低,称为该效应不受另一因素影响,即两因素没有交互作用。在正交试验中可分析多种交互作用,如一级交互作用AB、二级交互作用ABC。中药研究和开发一般是选择没有交互作用的因素。,第八节 重复测量资料的方差分析,1重复测量资料

23、(repeated measure data)是针对同一受试对象(如人、动物、设备等)的相同观测指标,在p(p2。下同)个不同时间点,或身体上的p个对称部位进行多次测量所得的数据资料。重复测量设计通常要考虑处理因素的分组与重复测量的时间点(或身体上的对称部位等)两个因素。处理因素的分组可多个,不同受试对象随机分配到各组,明确规定重复测量的时间点(或身体上的对称部位等)。每个受试对象的同一个观测指标都具有各规定时间点的测量值(基线为实验前的测量值),这些观察值之间具有相关性,不独立。用于分析观察指标在不同时间点(或身体上的对称部位等)的变化特点。,前述交叉设计虽然是同一个受试对象在不同时期的观察

24、结果,但由于不同时期的处理因素已经改变,所以不能认为它们是重复测量设计。需要破坏试验对象的试验,不能进行重复测量设计。自身前后配对设计的计量资料,每个观察对象有两个时间点的观察值,是最简单的重复测量资料,因为同一观察对象治疗前后存在相关性,不能用独立样本 t 检验(即成组t检验)或独立样本的秩和检验,而可采用配对 t 检验或符号秩和检验。,2重复测量资料的方差分析 在重复测量资料的方差分析模型中,不同处理的重复测量方差分析将变异分解如下:,SS受试者间=SS处理间+SS受试者间误差;,df受试者间=df处理间+df受试者间误差(式5.13),df受试者间=gn 1,df处理间=g-1,df受试

25、者间误差=g(n-1)(式5-14),不同时间点与处理因素交互作用的方差分析将变异分解如下:,SS受试者内SS重复测量SS不同时间点+SS组内误差。,df总df重复测量df不同时间点+df组内误差(式5.15),df重复测量=gn(p-1),df不同时间点p-1,df交互作用(n-1)(p-1),,df组内误差g(n-1)(p-1)(式5.16),例5.9 为比较A、B药在6个月疗程中持续减肥的疗效,将10位身高160cm的女肥胖者随机分成2组,每组各5人,服药前、服药3个月和6个月的体重测量值(kg)如表,这是两组观察对象多时间点的重复测量资料,有三个检验假设:H0:服药前两组平均体重相同。

26、H0:服药3个月时的两组体重总体均数相等。H0:服药6个月时的两组体重总体均数相等。都用=0.05。,因同一受试者不同时间点的观察结果有相关,不能用将变异成分分解或消除不独立变异成分的方法进行统计分析,可用重复测量的资料的方差分析法。,第九节 定量反应结果的样本含量估计,1.两样本均数的比较 标准差为,两均数、比较,双侧检验时,估计每组样本含量n的计算公式为:n=22(u/2+u)2/(-)2(式5.17),例5.10 用新药降高血压病人胆固醇,规定用试验组与对照组相比,平均降低20mg/L以上才有推广价值,引用文献中胆固醇的标准差为30mg/L,规定0.05,0.1,估计需观察例数,因 20

27、,30,u0.05/2=1.96,u0.11.282,双侧检验时:,n=22(u/2+u)2/(-)2=2302(1.96+1.282)2/(20)2=47.29,n=22(u/2+u)2/(-)2=2302(1.645+1.282)2/(20)2=38.56,2治疗前后或配对计量资料的比较 每组容量的计算公式为n=d(u/2+u)/2(式5.18)式中为每对观察对象差值的标准差,为容许误差。,例5.11 用复方降压片治疗高血压病人,预试验结果,标准差为2.7kPa。要求治疗后比治疗前舒张压平均下降1.3kPa,取0.05,0.1,估计所需病人例数:,1.3,d2.7,u0.05/21.960,u0.011.282,计算得到,=45,需要病人45名。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号