《第8章_均数比较.ppt》由会员分享,可在线阅读,更多相关《第8章_均数比较.ppt(56页珍藏版)》请在三一办公上搜索。
1、第8章 均数比较,蔡德利黑龙江八一农垦大学资源与环境系TsaiD2004.10.20,本章主要内容,概述单组资料的均数比较Ttest过程两组资料的均数比较成组数据成对数据非参数检验两独立样本差别的秩和检验成对数据的秩和检验,概述,统计回顾:t检验是判断两个样本均数或样本均数和总体均数的差别有无统计学意义的假设检验方法。使用范围一般来自正态总体方差齐分类:单样本t检验两样本t检验(配对t检验、成组t检验),单组资料的均数比较,样本均数和总体均数比较的t检验形式(单变量分析):样本均数和总体均数差别的比较可以直接进行比较;也可以看成每个测量值与总体均数差值的均数和0的比较。可用前面介绍的三个(un
2、ivariate、means、summary)执行描述性统计分析功能的过程来完成。,单组资料的均数比较,Means过程实现单变量分布位置t检验,只需在proc means语句后添加t和probt两个选项;SAS给出样本均数与0比较的t检验值和t分布曲线下该t值对应的双侧尾部面积。univariate过程在默认状态下即可给出单变量分布位置的t检验结果。,单组资料的均数比较,示例08001(李春喜,王文林等编著生物统计学48页):某鱼塘水中含氧量,多年平均为4.5ml/L,现在该鱼塘设10个点采集水样,测定水的含氧量分别为:4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.
3、55,4.48,4.26ml/L,试检验该次抽样测定水中含氧量与多年平均值有无显著性差异。分析:样本容量n30(小样本),总体方差 未知时,要检验样本平均数 与总体平均数 的差异显著性,必须使用t检验法。假设,即本次测定的水中含氧量与多年平均值没有显著性差异。,单组资料的均数比较,/*SasProg08001.SAS*/data D08001;input x;d=x-4.5;cards;4.33 4.62 3.89 4.14 4.784.64 4.52 4.55 4.48 4.26;proc means n mean std stderr t probt;var d;run;,Means过程只
4、能对样本均数和0的差别进行比较,因此必须先在数据步对数据作适当的处理,也就是先将数据转化为原始数值与某已知数值(总体均数)的差,再对此差值进行统计分析。,单组资料的均数比较,运算结果:Mean=-0.0790000Std Dev=0.2669769 Std Error=0.0844255 t Value=0.94 Pr|t|=0.3738 p值:该t值对应的双侧尾部面积。推断:由于p值远大于0.05,所以无法拒绝H0,认为此次抽样测定的鱼塘水中含氧量与多年平均含氧量没有显著差别,样本均值与总体均值相差-0.079ml/L属于随机误差。,单组资料的均数比较,示例08002:通过以往大规模调查,已
5、知某地婴儿出生体重均数为3.30kg,今测得35名难产儿出生体重如下,请问该地难产儿出生体重与一般婴儿出生体重是否不同?3.83 3.28 4.05 3.62 3.49 2.86 3.91 4.24 3.20 4.30 3.39 3.54 4.16 2.79 3.25 3.14 3.44 3.11 3.14 3.16 3.80 3.87 3.29 3.23 3.18 3.63 3.48 3.48 3.87 3.50 3.53 2.95 3.72 3.52 3.36,单组资料的均数比较,/*SasProg08002.SAS*/data D08002;input x;cards;3.83 3.28
6、 4.05 3.62 3.49 2.86 3.91 4.24 3.20 4.30 3.39 3.54 4.16 2.79 3.25 3.14 3.44 3.11 3.14 3.16 3.80 3.87 3.29 3.23 3.18 3.63 3.48 3.48 3.87 3.50 3.53 2.95 3.72 3.52 3.36;proc univariate mu0=3.30 alpha=0.05;var x;histogram x/normal cbarline=green cfill=red barwidth=8 midpoints=2.75 to 4.35 by 0.2;run;,Pr
7、oc univariate语句后选项mu0=3.30用来指定univariate过程对样本进行分布位置的假设检验时的位置参数,以便进行样本均数和指定值之间差别的假设检验;alpha=0.05用来指定进行各种总体参数的估计时可信区间的置信水平。,单组资料的均数比较,结果 Tests for Location:Mu0=3.3 Test-Statistic-p Value-Students t t 3.048499 Pr|t|0.0044 Sign M 4.5 Pr=|M|0.1755 Signed Rank S 166 Pr=|S|0.0048Tests for Location是关于样本分布位置
8、的假设检验,这是我们此处关心的内容。大家可以看到,除一般的t检验外,univariate过程还给出了非参数检验方法的检验结果(符号检验和符号秩和检验)。,Ttest过程,Ttest过程Ttest过程可以进行单组样本、成组资料、配对资料均数比较的t检验。格式:Proc Ttest class variable;paired variables;by variables;var variables;freq variable;weight variable;Run;,Ttest过程,Ttest过程的选项,Ttest过程,Paired语句用来指定配对t检验中要进行比较的变量对。变量之间可用星号(*)
9、或冒号(:)连接。以星号连接的变量列表表示星号左侧的每一个变量将与星号右侧的每一个变量组成变量对。以冒号连接的变量列表表示其左侧的变量只与右侧相应排列位置上的变量组成变量对。冒号连接的两个变量列表必须包含相同个数的变量。比如:Paired a*b 组成变量对a-bPaired(a b)*(c d)组成变量对a-c a-d b-c b-dPaired(a1-a2):(b1-b2)组成变量对a1-b1 a2-b2,Ttest过程,示例08003:用Ttest过程分析示例08001数据。/*SasProg08003.SAS*/data D08003;input x;cards;4.33 4.62 3
10、.89 4.14 4.784.64 4.52 4.55 4.48 4.26;proc ttest h0=4.5 alpha=0.05;var x;run;,Ttest过程,结果(The TTEST Procedure)Statistics T-Tests,Ttest过程,示例08004:用Ttest过程分析示例08002数据。/*SasProg08004.SAS*/data D08004;input x;cards;3.83 3.28 4.05 3.62 3.49 2.86 3.91 4.24 3.20 4.30 3.39 3.54 4.16 2.79 3.25 3.14 3.44 3.11
11、3.14 3.16 3.80 3.87 3.29 3.23 3.18 3.63 3.48 3.48 3.87 3.50 3.53 2.95 3.72 3.52 3.36;proc ttest h0=3.30 alpha=0.05;var x;run;,两组资料的均数比较,两个变量均数比较的假设测验两个变量的均数显著性比较,其样本的来源有两种:完全随机取得的,也称为成组数据。特点是两个样本的各观测都是从各自的总体中抽取的,两个样本的观测之间没有任何联系,即两抽样样本彼此独立;配对法取得的,也称为成对数据或配对数据,要求两样本间配偶成对,每一对除随机地给予不同处理外,其他试验条件应尽量一致。,两组
12、资料的均数比较,成组数据的均数比较成组资料的t检验过程要涉及对分组变量的处理。Ttest过程具有直接进行近似t检验的功能,Satterthwaite法为默认方法,可选Cochran-Cox法进行近似t检验。,两组资料的均数比较,独立组样本t检验要求数据符合以下3个条件:观察值之间是独立的;每组观察值来自正态分布的总体;两个独立组的方差相等。当样本量较小(任何一组样本小于60)且两样本来自于正态总体时,应根据两总体方差是否相等而采取不同的分析方法。当两总体方差相等(方差齐)时,可采用通常的t检验法(合并方差法)进行分析;当两总体方差不等(方差不齐)时,可采取数据变换、近似t检验(即t检验)或非参
13、数检验的方法。,两组资料的均数比较,示例08005(西北农学院、华南农业大学主编农业化学研究法121页):水稻浅施硫铵、浅施硝铵两个处理,完全随机排列进行试验,试比较两种施氮肥方法的效果。浅施硫铵5次重复的亩产量(kg):247.65,255.85,261.20,257.40,255.40浅施硝铵5次重复的亩产量(kg):239.50,240.60,247.50,232.50,237.50,两组资料的均数比较,/*SasProg08005.SAS*/data D08005;input group x;cards;1 247.651 255.851 261.201 257.401 255.402
14、 239.502 240.602 247.502 232.502 237.50;,proc ttest h0=0 alpha=0.05 cochran ci=none;class group;var x;run;“H0=0”用来指定要与两组均数之差进行比较的数值。大多数情况下,问题是两组均数是否相同,即两均数之差是否为0,因此,多数情况下H0=0,这也是默认值。如果需要,也可以将H0=设置为其他值。Ci=none指定ttest过程不输出标准差的置信区间。,两组资料的均数比较,结果第1组和第2组均数差值的均数为15.98,置信区间(8.4006,23.559)。由于置信区间不包括0,可看出两组均
15、数不相等。T-Tests给出t检验分析结果,分别为合并方差法t检验、Satterthwaite法近似t检验、Cochran-Cox法近似t检验。第1种方法用于方差齐(Equal)时的检验,后2种用于方差不齐(Unequal)时的检验。Equality of Variances给出方差齐性检验(双侧F检验)结果,F=1.21,p=0.85910.05,所以两组数据总体方差相等,因此,应依据合差方差法来进行t检验。本例结论t=4.86,p=0.00130.05,所以拒绝原假设(均数相等),两处理间差异显著。,两组资料的均数比较,样本数目不等资料的均数比较成组数据的均数比较也可以处理各组样本数目不等
16、的资料。比如上例去掉浅施硝铵的第5个数据。从分析结果看,两种处理的均数仍存在显著差异。,两组资料的均数比较,示例08006:成绩分析2001年农业化学成绩(Mylib.Ac2001),分析男生和女生成绩是否有显著性差异。程序:proc ttest data=mylib.ac2001 cochran;var total;class sex;run;结果:男生26名,女生16名,平均分差8.63。方差齐性(F=1.15,p=0.8020)。合并方差|t|=2.80,p=0.00780.05,说明女生学习成绩显著地高于男生。,两组资料的均数比较,配对t检验:原理:检验差值d的总体均数是否为0。配对的
17、情况:同一对象处理前后的比较同一样本接受不同处理的比较配对的两个受试对象分别给予两种处理,两组资料的均数比较,/*SasProg08007.SAS*/data D08007;input x1 x2;d=x1-x2;cards;113 140 150 138 150 140 135 135128 135 100 120 110 147 120 114130 138 123 120;proc means n mean stderr t probt;var d;run;,与单组样本均数比较的t检验原理基本相同。可以使用univariate、means、summary、tabulate、ttest过程
18、。,两组资料的均数比较,示例08008(西北农学院、华南农业大学主编农业化学研究法123页):12个生产队小麦不施磷肥(x1)和施磷肥(20kg/亩,x2)产量数据,试做显著性检验。,两组资料的均数比较,数据文件SasData08001.txt程序/*SasProg08008.SAS*/data D08008;infile E:SASSASDataSasData08001.txt;input no x1 x2;proc ttest h0=0 alpha=0.05;paired x1*x2;run;结果:|t|=5.11,p=0.00030.05,施磷肥处理比不施磷肥处理具有显著性差异(产量显著
19、提高)。,两组资料的均数比较,示例08009:精准农业研究中,土壤采样方法为网格法,事先制定采样方案。田间采样时通过DGPS找到采样位置,在周围5m范围内采8个土芯混合作为一个混合样。今年在采样时,主要通过Ag132GPS接收器定位,同时也通过Mio168GPS接收器测定了位置,得到一组数据,试分析两组数据的差异。,两组资料的均数比较,数据文件SasSasDataField02_log.txt程序/*SasProg08009.Sas*/Data youyi.F02Log04;infile E:SasSasDataField02_log.txt;input no$latitude longitu
20、de Ag132Lat Ag132Lon Mio168Lat Mio168Lon;run;proc ttest alpha=0.01 h0=0;paired latitude*Ag132Lat Ag132Lat*Mio168Lat latitude*Mio168Lat longitude*Ag132lon Ag132lon*Mio168lon longitude*Mio168lon;run;,两组资料的均数比较,示例08010:将上例大地坐标(WGS 1984)数据转换成UTM投影数据,分析。数据文件Field02_log_Utm.txt,两组资料的均数比较,/*SasProg08010.Sa
21、s*/Data youyi.F02Utm04;infile E:SasSasDataField02_log_utm.txt;input no$x y Ag132x Ag132y Mio168x Mio168y;run;proc ttest alpha=0.01 h0=0;paired x*Ag132x Ag132x*Mio168x y*Ag132y Ag132y*Mio168y;run;,非参数检验,对于大多数参数统计分析方法,均要求数据服从特定的分布形态。对于两组或多组数据,还需要满足组间分布形态相同或组间方差相等的假设等等。如果数据不满足特定分析所需的前提条件,最终可归入非参数分析(non
22、-parametric statistic)处理方法的范围。,非参数检验,非参数统计分析方法又称为不拘分布的统计分析方法(distribution-free statistic)或无分布形式假定的统计分析方法(assumption free statistic)。非参数分析方法包括Wilcoxon秩和检验(rank sum test)、Kruskal-Wallis秩和检验、Friedman秩和检验等。两组独立样本的Wilcoxon秩和检验,有时被称为Mann-Whitney U检验。检验结果类似于t检验的非参数结果。,非参数检验,SAS中有一个专门用于非参数统计分析方法的过程Npar1way过
23、程。其他SAS过程,如Freq、Univariate过程等,也提供某些类型的非参数分析方法。大多数非参数分析方法对原始数据的秩次进行处理,而非原始数据本身。因此,可通过特定的SAS过程先得出数据的秩次并输出到数据集,然后对秩次数据进行参数分析。SAS中对数据进行编秩的过程为rank过程。,非参数检验,Npar1way过程对于总体分布位置差别或分布范围差别的比较通常是在原始反应变量的得分变换的基础上进行的,这些得分变换包括Wilcoxon、Median(中位数)、Van der Wearden、Savage、Siegel-Tukey、Ansari-Bradley、Klotz、Mood得分等。此外
24、,Npar1way过程还提供将原始变量值作为得分的假设测验方法。进行两组数据的比较时,假设测验以简单线性秩统计量(Simple linear rank statistic)为依据;而在进行多组数据比较时,假设测验则以单因素方差分析统计量为依据。,非参数检验,Npar1way过程的一般格式:PROC NPAR1WAY;BY variables;CLASS variable;EXACT statistic-options;FREQ variables;OUTPUT;VAR variables;RUN;,Class语句是必需的,其余语句均为可选项。Class语句用于指定一个分组变量,其水平数决定数据
25、的分组情况。,非参数检验,默认情况下(不列举任何选项):Npar1way过程对最新创建的数据集进行分析,将缺失数据排除在分析过程之外;执行方差分析过程(等同于ANOVA选项),对样本分布位置的差异进行检验(与选项WILCOXON,MEDIAN,SAVAGE以及VW等效),并进行经验分布函数检验(等同于EDF选项)。默认输出所有的统计结果,这恰恰说明了非参数检验方法的不完善。如果你无法判断用那个结果,那么只看Wilcoxon秩和检验的分析结果就够了。,非参数检验,Npar1way过程的选项,非参数检验,Npar1way过程的选项,非参数检验,Npar1way过程的exact语句exact语句要求
26、SAS对指定的统计量(选项)进行精确概率的计算。其后的统计量选项可为以下项目,分别对应相应的统计计算方式(可参见前表)。AB,KLOTZ,KS,MEDIAN,MOOD,SAVAGE,SCORES=DATA,ST,WILCOXON,VW等。运算选项为精确概率的计算过程指定一些控制项目,如选项“mc”要求以Monte Carlo方法计算精确概率。,两独立样本差别的秩和检验,示例08011来自两个样本A、B的测量数据,经检验知两样本方差不齐,试做非参数检验比较两组数据的差别。,两独立样本差别的秩和检验,/*SasProg08011.Sas*/Data D08011;do group=1 to 2;d
27、o i=1 to 8;input x;output;end;end;cards;7 14 22 36 40 48 63 983 5 6 10 17 18 20 39proc npar1way wilcoxon;class group;var x;run;,Group是分组变量,1代表A组,2代表B组。,两独立样本差别的秩和检验,结果解释:Wilcoxon Scores(Rank Sums)for Variable x Classified by Variable group:表示按照group分组的x变量的Wilcoxon秩和检验。Sum of Scores:Wilcoxon检验的得分和。是将
28、变量的所有值降序排列,并依次赋予秩,这些秩就是得分(最低分为1),然后将每组的得分相加,则是“秩和”。Expected Under H0:“两个独立组均值相等”的零假设下的Wilcoxon得分的期望值(理论值)。当两组观测相等时,这两个期望值也相等。,两独立样本差别的秩和检验,结果解释:Std Dev Under H0:零假设下Wilcoxon得分的标准偏差。Mean Score:每组均分。Wilcoxon Two-Sample Test:Wilcoxon双变量检验统计量。Normal Approximation:近似正态分布的统计量(即Z检验及相应的统计量Z)。实际上Z检验就是我们非常熟悉的
29、u检验,只不过是国内外的叫法不同罢了。标准分Z、低于标准分Z的单侧概率、低于标准分Z的双侧概率。t Approximation:近似t检验所得的统计量。Z includes a continuity correction of 0.5:正态分布近似检验的Z值是经过连续性校正所得的值,所用的校正量为0.5。,两独立样本差别的秩和检验,结果解释:Kruskal-Wallis Test:Kruskal-Wallis检验的结果(K-W检验法),PrChi-Square为0.0274,该值小于0.05,达显著水平,说明A、B两独立组平均数有显著差异。Npar1way过程以Wilcoxon秩和检验进行两样
30、本分布位置的比较时,如果两样本量相同,将以秩和较大者作为标准统计量进行概率的计算。但在两样本量不同时,以样本量较小的组的秩和作为目标统计量。,两独立样本差别的秩和检验,示例08012测得铅作业与非铅作业工人的血铅值(umol/L),问两组工人的血铅值有无差别。铅作业组 0.82 0.87 0.97 1.21 1.64 2.08 2.13非铅作业组0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.87 1.01,两独立样本差别的秩和检验,/*SasProg08012.Sas*/data D08012;group=1;if _n_7 then group=2;in
31、put value;cards;0.82 0.87 0.97 1.21 1.64 2.08 2.130.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.87 1.01;proc gchart;/*分组做条图观察数据的分布*/vbar value/group=group;proc npar1way data=wt4_3 WILCOXON;class group;var value;run;,成对数据的秩和检验,每一对观察值与其他观察值之间是独立的,但每组观察值不一定来自于正态分布的总体,且两个独立组的方差也未必相等时,必须进行成对数据差值的Wilcoxon秩和检验
32、。分析由Univariate过程完成。示例08013一些夫妻对海尔空调的打分值数据。,成对数据的秩和检验,/*SasProg08013.Sas*/Data D08013;input f m;diff=m-f;cards;169 170 102 96 67 74 206 178109 86 97 92 156 179 73 92 83 87;proc univariate;var diff;run;,成对数据的秩和检验,H0:成对差值与0差异不显著。结果:Signed Rank S=-1,表明Wilcoxon秩和为-1;Pr=|S|0.9375,这是成对差值Wilcoxon秩和检验的p值,该值大
33、于0.05;所以不能拒绝原假设,说明平均成对差值与0的差别不显著;各对夫妻对海尔空调的打分没有显著差异。,成对数据的秩和检验,示例08014采用配对设计,用某种放射线的A,B两种方式分别局部照射家兔的两个部位,观察放射性急性皮肤损伤程度,结果见表。试用符号秩检验比较A,B的损伤程度是否不同。,成对数据的秩和检验,/*SasProg08014.Sas*/data D08014;input x1 x2;d=x1-x2;cards;39 55 42 54 51 55 43 47 55 53 45 63 22 52 48 44 40 48 45 55 40 32 49 57;proc univariate loccount;var d;run;,LocCount选项指定SAS给出样本数据在系统指定位置参数(以mu0=选项进行设置,默认为0)两侧的分布情况,相当于对符号检验结果的进一步描述。,成对数据的秩和检验,分析结果符号检验的结果不能拒绝变量d的中位数为0的假设,但符号秩检验的结果则相反,拒绝了中位数为0的假设。这一点验证了符号秩检验的功效高于符号检验的事实。,成对数据的秩和检验,分析结果有关样本分布情况的描述,3个受试对象的差值大于0(此处mu0=0),9个小于0,12个不等于0。,