《均值比较与方差分析.ppt》由会员分享,可在线阅读,更多相关《均值比较与方差分析.ppt(67页珍藏版)》请在三一办公上搜索。
1、2014数学建模培训,第5讲 均值比较与方差分析,一、SPSS数据的录入与管理,2023/9/7,4,由于建立数据文件是SPSS分析的基础,所以本讲首先简要介绍数据的录入与管理。SPSS具有很强的数据处理和分析能力,它可以读取11种不同类型的外部文件,存储30种不同类型的数据文件。利用SPSS对数据进行分析,首先,2023/9/7,5,要建立数据文件。另外,有时还需要对已有数据文件进行编辑、管理,如变量、属性和文件的管理等。1.数据的录入与调用 下面用一个实例介绍建立数据文件和录入数据的方法。例1 现有15人的体检资料,试建立SPSS数据文件,并存为1_1.sav。,2023/9/7,6,体检
2、资料包含的信息有编号、姓名、文化程度、出生日期、体检日期、身高、体重、疾病名称。在SPSS中,录入数据时,首先要根据数据特征确定变量的名称、类型(宽度,小数)、标签、值等。本例中的变量特征如下:,2023/9/7,7,2023/9/7,8,数据录入过程与方法:(1)启动SPSS,选择“输入数据”,进入数据编辑器;(2)选择变量视图;(3)依次录入各变量的名称、类型(宽度,小数)、标签、值;(4)选择数据视图;(5)依次录入相应数据。,2023/9/7,9,保存后即生成.sav文件。如果SPSS需调用Excel文件,当数据较少时,可直接复制;当数据较多时,可通过:文件打开数据库新建查询Excel
3、 files流程调入Excel 数据。调入数据后,可按照前述方式对其分别定义变量各属性。,2023/9/7,10,调入Excel数据要特别注意第1行数据的变化。2.数据的管理 数据文件建立后,有时需要对变量进行管理,如插入变量、定义变量属性、复制变量属性等。数据管理主要通过“数据”菜单进行,请各位自行练习。,二、均值比较,2023/9/7,12,1.引言 在科学实验中常常要研究不同实验条件或方法对实验结果的影响。比如,几种不同药物对某种疾病的疗效;不同饲料对牲畜体重增长的效果等。研究上述问题的基本思路是比较不同实验条件或方法下样本均值间的差异。,2023/9/7,13,比较样本均值间的差异是否
4、具有统计学意义的常用方法有均值比较和方差分析。均值比较仅用于单因素两水平设计和单组设计中均值的检验,而方差分析可用于单因素多水平设计和多因素设计中均值的检验。简单地说,均值比较仅适用于两,2023/9/7,14,个样本均值的比较,而方差分析适用三个及以上样本均值的比较。2.均值比较的原理与步骤 均值比较采用假设检验原理,并设总体均为正态分布,比较步骤为:(1)提出假设 通常假设差异不显著。(2)构造检验统计量,2023/9/7,15,总体方差已知时,构造的统计量服从正态分析,称为Z检验。大多数情况下,总体方差未知,此时构造的统计量服从t分布,称为t检验。(3)确定显著性水平(拒真概率)显著性水
5、平 即为检验时犯拒真 错误概率的最大允许值,也就是说接受假设的正确率至少为。,2023/9/7,16,通常取。(4)计算检验统计量t0(5)作出推断(两种方法)用统计量若,则拒绝假设,即差异显著。用显著性概率P值(sig.)若显著性概率,则拒绝假设,即差异显著。,2023/9/7,17,2023/9/7,18,3.单一样本均值的t检验 单一样本均值的检验,即只对单一变量的均值进行检验,用于检验样本均值是否与给定的总体均值之间存在显著差异。例1 已知某年级15个学生身高数据如下,检验其平均身高是否与全年级平均身高165相同。,2023/9/7,19,解 分析-比较均值-单样本t检验。选身高入检验
6、变量,检验值设为165;选项中置信区间百分比默认为0.95,即。,2023/9/7,20,显然,在0.05水平下应接受假设,即15个学生的平均身高与年级平均身高无显著差异。,2023/9/7,21,4.独立样本均值的t检验 独立样本均值的检验用于检验两个来自独立正态总体的样本均值之间是否存在显著差异。例2 根据下列数据比较男生和女生的平均身高是否相等。解 本题首先要注意数据格式。可以设置三列数据。第一列为序,2023/9/7,22,号(字符型或数据型),第二列为身高(数值型),第三列为性别(字符型,字符1表示男生,字符0表示女生)。此时一定要在数据视图的“值”中进行值标签定义,如1=“男生”,
7、0=“女生”。分析-比较均值-独立样本t检验。,2023/9/7,23,选身高入检验变量,选性别入分组变量,并在定义组中定义组1,组2的值分别为1,0。其余默认,确定。,2023/9/7,24,F=0.843,P=0.3750.01,按0.01水平可认为男女生总体方差相等,应选择方差相等的结果。,2023/9/7,25,显然,在0.01水平下应拒绝假设,即男女生的平均身高有显著差异。,2023/9/7,26,5.配对样本均值的t检验 配对样本均值的检验用于检验两个具有配对关系的正态总体的样本均值之间是否存在显著差异。配对的两个样本值是一一对应的,且容量相同。例如,一组病人治疗前后身体的指标;一
8、个年级学生的期中和期末成绩。,2023/9/7,27,例3 根据下列数据比较期中和期末成绩是否相等。解 本题数据格式与例2不同。分析-比较均值-配对样本t检验。,2023/9/7,28,期中期末成绩高度相关且显著。拒绝假设,期中期末成绩差异明显。,三、方差分析,2023/9/7,30,1.方差分析及基本概念 在科学研究中,经常要分析多种因素对研究对象某些特征值的影响。例如,医学界研究几种药物对某种疾病的疗效;体育科研中研究训练方法训练时间和运动量对提高运动成绩的效果。方差分析就是研究各种因素对研究对象某种特征值影响大小的一种,2023/9/7,31,统计方法。下面通过一个例子简要介绍方差分析中
9、的相关概念。引例 一家超市要研究竞争者的数量对销售额是否有显著影响。抽取3家超市,竞争者数量按0个,1个,2个,3个以上分为4类,获得的年销售额如下表。试研究竞争者的数量对销售额,2023/9/7,32,是否有显著影响。研究对象即试验结果称为试验指标,简称指标,常用y表示,如本例中的销售额。,2023/9/7,33,在试验中要通过改变状态加以考察的因素称为因子,常用A,B,C,表示,如本例中的竞争者。因子在试验中所取的不同状态称为因子的水平,常用A1,A2,Ar表示,r称为因子A的水平数。本例中显然有4个水平。从平均销售额来看,好像竞争者,2023/9/7,34,个数对销售额有一定影响,但仔细
10、分析一下数据,问题就不那么简单。可以看到,在竞争者个数相同的条件下,不同超市的销售额也不完全一样。由于试验时已考虑超市的其它条件基本相同,产生这种差异的原因主要是试验过程中各种偶然因素,称之为试验误差。,2023/9/7,35,因此对不同竞争者个数超市平均销售额的差异应作仔细分析,以确定差异究竟是由试验误差引起的,还是由于竞争者个数不同引起的。如果差异是由试验误差引起的,则认为竞争者个数对销售额没有显著影响,简称因子不显著。如果不同水平下销售额的不同,,2023/9/7,36,除了误差影响外,主要是由水平不同造成的,则认为竞争者个数对销售额有显著影响,简称因子显著。2.方差分析基本思想 方差分
11、析的基本思想是:假设待比较的均值都相等,然后将总偏差平方和分解为效应平方和SA与误差平方和Se两部分,再利用SA 和Se 构造F 统,2023/9/7,37,计量进行假设检验,从而判定均值之间是否存在差异。由于检验统计量是根据组间方差和组内方差构造的,所以称此方法为方差分析。3.单因子方差分析 单因子方差分析研究一个因子的不同水平对指标是否有显著影响。,2023/9/7,38,单因子方差分析的步骤为:(1)提出假设 通常假设影响不显著。(2)构造检验统计量 方差分析构造的检验统计量服从F分布。(3)确定显著性水平 显著性水平 即为检验时犯错误,2023/9/7,39,的概率,也就是说接受假设的
12、正确率为。通常取。(4)计算检验统计量F0(5)作出推断 可以根据下列两种方法推断:用统计量若,则拒绝假设,即影响显著。,2023/9/7,40,用P值若,则拒绝假设,即影响显著。显著性水平 越小,显著性越高,且有如下规则:,2023/9/7,41,2023/9/7,42,例4 对引例进行方差分析。解(1)建立数据文件,格式为:数据为2列,第1列为因子的水平,第2列为对应的销售额。(2)分析-比较均值-单因素ANOVA。(3)选销售额为因变量,竞争者为因子。,2023/9/7,43,(4)在对比栏中选择“多项式(线性)”;在两两比较栏中选择“LSD”,其它默认;(5)在选项中可选择“方差同质性
13、检验”和“均值图”。,2023/9/7,44,因子分析要求各水平下总体方差相等,即方差齐性。本题中方差齐性检验统计量等于0.746,P=0.5540.1,通过检验,即可认为满足方差齐性。,2023/9/7,45,竞争者个数对销售额影响显著。,2023/9/7,46,2023/9/7,47,同时比较多个水平间指标差异是否显著称为多重比较。表中数据显示,0和1,0和3,1和3,2和3差异不显著,而0和2,1和2差异显著。均值图显示了均值的变化趋势,也从一定程度上验证了多重比较的结论。,2023/9/7,48,2023/9/7,49,4.多因子方差分析 多因子方差分析研究两个及以上因素是否对指标产生
14、显著影响。多因子方差分析不仅能分析多个因素对指标的独立影响,更能分析多个因素的交互作用能否对指标产生显著影响,进而找到有利于指标的最优组合。,2023/9/7,50,下面以两因子为例介绍多因子方差分析。在两因子分析中,不仅要通过试验数据分析因子A的r水平及因子B的s个水平对指标y是否有显著影响,有时还要考虑两个因子联合起来对指标y是否有显著影响,这种联合作用称为因子的交互作用,记为AB。,2023/9/7,51,若一个因子水平下的指标不受另一个因子不同水平的影响,则称这两个因子无交互作用。否则,称这两个因子有交互作用。无交互作用,2023/9/7,52,有交互作用 无交互作用时双因子方差分析的
15、步骤为:(1)提出假设 通常假设影响不显著。,2023/9/7,53,(2)构造检验统计量 构造的检验统计量服从F分布。(3)确定显著性水平(4)计算检验统计量(5)作出推断 有交互作用时双因子方差分析的步骤为:(1)提出假设,2023/9/7,54,通常假设影响不显著。(2)构造检验统计量 构造的检验统计量服从F分布。(3)确定显著性水平(4)计算检验统计量(5)作出推断 若,则在 水平下因子A显著;,2023/9/7,55,若,则在 水平下因子B显著;若,则在 水平下因子AB显著。例5 有4个品牌的电脑在5个地区销售,销售量见下表。试分析电脑品牌和销售地区对销售量的影响。解(1)建立数据文
16、件,格式为:,2023/9/7,56,数据为3列,第1列为销售量,第2,3列分别为地区和品牌。(2)分析-一般线性模型-单变量。注:这里的变量是指因变量。(3)选销售量为因变量,地区和品牌为固定因子。(4)模型选项中选“设定”,并将地区和品牌选入模型。,2023/9/7,57,(5)对比和绘制选项可以默认。(6)在两两比较选项中选地区或品牌进比较框,并选择LSD方法。(7)在选项栏中可选择输出“方差齐性检验”。,2023/9/7,58,有时,由于数据原因,SPSS无法进行方差齐性检验(如本例)。不过,一般认为,方差齐性检验不太重要,只要各组样本数量相等即可。,2023/9/7,59,地区不显著
17、,而品牌高度显著。,2023/9/7,60,2023/9/7,61,多重比较的解释同前。例5中并未考虑交互作用。若要考虑交互作用,则应选择全因子分析模型,但并不是任何数据都可以进行全因子分析,如例5。下面用例6说明如何进行交互作用分析。例6 将超市位置按商业区、居民,2023/9/7,62,区和写字楼分成3类,并在不同位置分别随机抽取3家超市,竞争者数量按0个,1个,2个,3个分为4类。试分析竞争者和超市位置对销售额的影响。解 在模型选项中默认全因子,在绘制选项中选竞争者数量为水平轴,选超市位置为单图,然后添加。,2023/9/7,63,本题中方差齐性检验统计量等于1.282,P=0.2920.1,通过检验,即可认为满足方差齐性。,2023/9/7,64,2023/9/7,65,竞争者数量和超市位置与销售额高度显著,但两者的交互作用与销售额一般显著。,2023/9/7,66,2023/9/7,67,从竞争者数量和超市位置交互影响折线图即轮廓图中可以看出,竞争者数量和超市位置的交互作用对销售额有一定的影响。,