vip课件-spss与统计分析.ppt

资源描述

《vip课件-spss与统计分析.ppt》由会员分享，可在线阅读，更多相关《vip课件-spss与统计分析.ppt（186页珍藏版）》请在三一办公上搜索。

1、SPSS与统计分析,刘广臣,内容概况,4.补充内容,以下以问题为线索举例讲解,3.高级统计（多元统计为主）,常见10类统计问题（以教育统计为例）,1）一般性统计频数、频率、均值、方差等；例如：抽样调查某地区家庭义务教育支出，其中问卷调查项目有家庭人口、父母受教育年限、子女人数、上学人数、家庭人均收入、家庭人均支出、教育支出、少数民族比例。要对整个抽样做统计，说明此地区上述指标情况，就要作出一般性统计。2）两总体间某类特征数据的差异显著性；例如：研究我国重点与非重点两类大学毕业生收入有无差异问题。3）多总体间某类特征数据的差异显著性；例如：研究具有博士学位、硕士学位和学士学位毕业生期望收入有无差

2、异问题。4）一个or多个因素对结果影响的显著性；例如：不同性别、不同地区、不同家庭背景的学生接受高等教育情况有无差异；教学手段与课外科研活动是否对学生学习成绩有影响。5）两个特征变量数据的相关性大小；例如：个人受教育年限与个人收入关系密切程度。,6）一变量vs另一or多个变量间的近似函数关系；例如：一个地区人均教育支出与人均GDP总值近似函数关系。7）某变量是否服从特定分布；例如：某校学生月生活费支出是否服从正态分布。8）如何将多个研究对象分类；例如：将我国31个省市按人均教育经费多少分为五大类。9）如何将多指标数据简化（降维）；例如：影响小学辍学率的因素有很多，比如人均国内生产总值、人均教育

3、经费、农民人均收入、当地文盲率等十几个因素，能否简化为几个综合因素（因子）。10）如何对研究对象综合排序。例如：衡量一个地区教育现代化水平有多个指标，而且这些指标量纲都不一样，现有几个地区，按教育现代化水平排序，如何进行？,SPSS VS 统计问题,a 定类（Category Scale）：只能计次例：按照性别将人口分为男、女两类，按肤色分为白种人、黄种人、棕种人、黑种人四类 b 定序（Ordinal Scale）：计次、排序例：人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。满意程度可分为非常满意、比较满意、没有不满、不满意、很不满意几类。c 定距（Interval Scale

4、）：计次、排序、加减最常见，如身高、体重等通常使用自然或物理单位作为计量尺度级别逐渐增高！,预备知识1：度量尺度（Measure）,统计学依据数据的度量尺度将数据划分为三大类：,定类数据名义级定序数据序次级定距数据间距级定比数据,定性数据,定量数据,注：SPSS中只区分三种测量尺度，即定类、定序和定距，定比尺度的分析技术和定距一般不再做严格区分,数据编辑窗口中的一行称为一个个案或记录（Case），所有个案组成SPSS数据文件的内容。数据编辑窗口的一列称为一个变量（Variable），每个变量都有一个名字，称为变量名，它是访问和分析SPSS每个变量的唯一标志。SPSS数据文件的结构就是对每个

5、变量及相关特征的描述。,SPSS数据的组织方式,案例：住房状况调查.sav,预备知识2：SPSS基础,数据建立与存储建立直接录入（先定义数据结构，再录入数据），示例间接导入Excel格式注意要关闭源文件示例1 data1.xls txt 注意第2步中是否有表头示例2 data1.txt特别注意导入后数据类型的核对！存储格式(.sav,.xls)示例住房状况调查.sav,第1类问题-描述统计,一般性统计频数、频率、均值、方差等；例如：抽样调查某地区家庭义务教育支出，其中问卷调查项目有家庭人口、父母受教育年限、子女人数、上学人数、家庭人均收入、家庭人均支出、教育支出、少数民族比例。要对

6、整个抽样做统计，说明此地区上述指标情况，就要作出一般性统计。,描述性统计分析是统计分析的第一步，做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析，但专门为该目的而设计的几个模块则集中在Analyze/Descriptive Statistics菜单中，包括：Frequencies：频数分析过程，特色是产生频数表（主要针对分类变量）及绘制统计图平均数、中位数、众数、方差、百分位、频数、峰度、偏度例：住房状况调查.sav，对不同性别进行频数分析Descriptives：数据描述过程，进行一般性的统计描述（主要针对数值型变量）（下页例题）,描述统计示例论文2,详参：

7、补充资料2-SPSS基本统计分析,SPSS中实现描述统计过程,研究问题 10个学生在某次数学、语文、化学考试中成绩如表3-6所示，试求学生在3门课程上的频数分布。,12,表3-6学生成绩,13,Data3.sav,变异系数（补充）,又称差异系数（coefficient of variation,CV）CV=标准差/均值(可手工计算)应用：比较测量单位不同的事物的差异程度；比较测量单位相同，均数相差悬殊数据的差异程度判断班内学习分化的情况,详细参见变异系数教育统计学与SPSS(范晓玲),练习,数据“data0.sav”中存放了某公司职工数据，请完成下列问题：1）试对该公司员工“当前薪金”进行描

8、述统计分析，即计算其平均值、中位数、众数、极差、最大值、最小值、标准差、方差。2）画出“当前薪金”的频数直方图，观察是否服从正态分布；,方法：均值检验例如：研究我国重点与非重点两类大学毕业生收入有无差异问题。在正态或近似正态分布的计量资料中，经常在使用统计描述过程分析后，还要进行组与组之间平均水平的比较。本节介绍的T检验方法，主要应用在两个样本间比较。如果需要比较两组以上样本均数的差别，这时就不能使用上述的T检验方法作两两间的比较。对于两组以上的均数比较，可以使用第下节中介绍的方差分析方法。,第2类问题-两总体间某类特征数据的差异显著性,统计方法,描述统计,推断统计,估计,参数检验,非参数检验

9、,假设检验的基本思想,1.事先对总体参数或分布形式作出某种假设，然后利用样本信息来判断原假设是否成立；2.采用逻辑上的反证法，依据统计上的小概率原理。,假设检验的步骤提出原假设（零假设）H0；确定适当的检验统计量；计算检验统计量的值发生的概率（P值）；给定显著性水平(软件默认0.05)；作出统计决策。P值(如0.05），接受原假设,务必熟记,20,Analyze-Compare Means”可用于均值检验，其子菜单中“One-sample T test”用于单一样本T检验“Independent-samples T test”用于两独立样本T检验“Baired-samples T test”用

10、于两配对样本T检验。,2.1 单一样本T检验,2.1.1 统计学上的定义和计算公式,定义：SPSS单样本T检验是检验某个变量的总体均值和某指定值之间是否存在显著差异。统计的前提样本总体服从正态分布。也就是说单样本本身无法比较，进行的是其均数与已知总体均数间的比较。,21,计算公式如下。单样本T检验的零假设为H0总体均值和指定检验值之间不存在显著差异。即H0:0采用T检验方法，按照下面公式计算T统计量：,22,23,2.1.2 SPSS中实现过程,研究问题分析某班级学生的某次考试数学成绩和全校的平均成绩75之间是否存在显著性差异（或是否可以认为本班成绩与全校平均成绩（75分）相同？）。数据存于

11、data9.sav。,24,实现步骤,图4-4“One-Sample T Test”设置框,25,4.1.3 结果和讨论,26,由于P=0.5890.05,接受原假设，可以认为本班成绩与全校平均成绩不存在显著差异。,2.2 两独立样本T检验,2.2.1 统计学上的定义和计算公式,定义：所谓独立样本是指两个样本之间彼此独立没有任何关联，两个独立样本各自接受相同的测量，研究者的主要目的是了解两个样本之间是否有显著差异存在。这个检验的前提如下。,27,两个样本应是互相独立的，即从一总体中抽取一批样本对从另一总体中抽取一批样本没有任何影响，两组样本个案数目可以不同，个案顺序可以随意调整。样本来自的两个

12、总体应该服从正态分布。,28,两独立样本T检验的零假设H0：两总体均值之间不存在显著差异即H0:1 2 在具体的计算中需要通过两步来完成：第一，利用F检验判断两总体的方差是否相同；第二，根据第一步的结果，决定T统计量和自由度计算公式，进而对T检验的结论作出判断。,29,1判断两个总体的方差是否相同,SPSS采用Levene F方法检验两总体方差是否相同。,30,SPSS自动检验,2根据第一步的结果，决定T统计量和自由度计算公式,（1）两总体方差未知且相同情况下，T统计量计算公式为,31,（2）两总体方差未知且不同情况下，T统计量计算公式为 T统计仍然服从T分布，但自由度采用修正的自由度，公式

13、为,32,从两种情况下的T统计量计算公式可以看出，如果待检验的两样本均值差异较小，t值较小，则说明两个样本的均值不存在显著差异；相反，t值越大，说明两样本的均值存在显著差异。,33,2.2.2 SPSS中实现过程,研究问题对12名来自城市的学生与14名来自农村的学生进行心理素质测验，试分析城市学生与农村学生心理素质有无显著差别。,34,数据存于data10.sav,其中1城市学生，2农村学生；p测验得分。,图4-6“Independent-Samples T Test”对话框,35,实现步骤,图4-7“Define Groups”对话框,36,2.2.3 结果和讨论,37,方差齐性检验中，p

14、=0.7910.05,接受原假设，可以认为方差相等（具有齐性），可以做t检验。t检验结果，p=0.017农村3.4350，可见城市学生好于农村。,如果方差检验不具有齐性，建议改用非参数检验,练习,研究问题分析A、B两所高校大一学生的高考数学成绩之间是否存在显著性差异。,38,表4-2两所学校学生的高考数学成绩表,请仿照独立样本T检验操作,2.3.1 统计学上的定义和计算公式,2.3 两配对样本T检验,定义：两配对样本T检验是根据样本数据对样本来自的两配对总体的均值是否有显著性差异进行推断。一般用于同一研究对象（或两配对对象）分别给予两种不同处理的效果比较，以及同一研究对象（或两配对对象）处理

15、前后的效果比较。前者推断两种效果有无差别，后者推断某种处理是否有效。,39,两配对样本T检验的前提要求如下。两个样本应是配对的。在应用领域中，主要的配对资料包括：具有年龄、性别、体重、病况等非处理因素相同或相似者。首先两个样本的观察数目相同，其次两样本的观察值顺序不能随意改变。样本来自的两个总体应服从正态分布。,40,两配对样本T检验的零假设H0：两总体均值之间不存在显著差异。即 H0:1-2 0 首先求出每对观察值的差值，得到差值序列；然后对差值求均值；最后检验差值序列的均值，即平均差是否与零有显著差异。如果平均差和零有显著差异，则认为两总体均值间存在显著差异；否则，认为两总体均值间不存在显

16、著差异。,41,42,SPSS将自动计算T值，由于该统计量服从n1个自由度的T分布，SPSS将根据T分布表给出t值对应的相伴概率值。如果相伴概率值小于或等于用户设想的显著性水平，则拒绝H0，认为两总体均值之间存在显著差异。相反，相伴概率大于显著性水平，则不拒绝H0，可以认为两总体均值之间不存在显著差异。,43,2.3.2 SPSS中实现过程,研究问题研究一个班同学在参加了暑期数学、化学培训班后，学习成绩是否有显著变化。数据如表4-3所示。,44,data11.sav,表4-3培训前后的成绩变化,45,实现步骤,图4-8“Pared-Samples T Test”对话框,46,2.3.3 结果

17、和讨论,47,表3中，双侧配对T检验结果，p=0.0460.05,拒绝原假设，差异显著，即参加数学辅导班前后学习成绩有显著差异，由均值看出，参加辅导班后成绩有所提升。,化学照办,练习,试通过比较引用减肥茶前后数据，判断该减肥茶的效果。减肥茶数据.sav,第3类问题-多总体间某类特征数据的差异显著性,方法：定性数据交叉列联表分析；定量数据方差分析例如：吸烟与肺癌关系研究具有博士学位、硕士学位和学士学位毕业生期望收入有无差异问题。,交叉分组下的频数分析,目的了解不同变量在不同水平下的数据分布情况例：学习成绩与性别有关联吗？(两变量)例：职业、性别、爱逛商店有关联吗？(三变量)分析的主要步骤产生

18、交叉列联表分析列联表中变量间的关系,交叉分组下的频数分析,检验的零假设是：行和列变量之间彼此独立，不存在显著的相关关系。SPSS将自动给出检验的相伴概率，如果相伴概率小于显著性水平0.05，那么应拒绝零假设，认为行列变量之间彼此相关。,实例：某医院色觉就诊情况如下表:试分析色盲与性别有关联吗,设置三个变量：是否色盲、性别、人数注意层次,重要！示例,定性数据-列联表分析,列联表.sav,实现步骤-设置权重变量！Data-Weight cases,图3-38“Weight Cases”对话框,53,注意：设置成功后，会在数据窗口右下角状态栏中显示“weight on”,图3-39 在菜单中选择“C

19、rosstabs”命令,54,图3-40“Crosstabs”对话框,55,结果和讨论,（1）先输出如下个案处理摘要表。,56,（2）下面所示表格是“色盲”变量和“性别”变量的交叉列联表结果表格。,57,（3）输出卡方统计结果表。,58,卡方检验中的Pearson 卡方值0.376，对应的p值0.540.05，接受原假设，即认为色盲与性别没有显著的关系（可以认为二者是相互独立的）。,练习,研究问题探讨吸烟与肺癌的关系。,59,3.1相关概念 1、影响因素的分类：在所有的影响因素中根据是否可以人为控制可以分为两类，一类是人为可以控制的因素，称为控制因素或控制变量，如种子品种的选定，施肥量的多少

20、；另一类因素是认为很难控制的因素，称为随机因素或随机变量，如气候和地域等影响因素。在很多情况下随机因素指的是实验过程中的抽样误差。2、控制变量的不同水平：控制变量的不同取值或水平，称为控制变量的不同水平。如甲品种、乙品种；10公斤化肥、20公斤化肥、30公斤化肥等。3、观测变量：受控制变量和随机变量影响的变量称为观测变量，如农作物的产量等。方差分析就是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量以及对观测变量有显著影响的各个控制变量其不同水平以及各水平的交互搭配是如何影响观测变量的一种分析方法。,定量数据-方差分析,3.2方差分析的原理方差分析认为，如果控制变

21、量的不同水平对观测变量产生了显著影响，那么它和随机变量共同作用必然使得观测变量值显著变动；反之，如果控制变量的不同水平没有对观测变量产生显著影响，那么观测变量值的变动就不明显，其变动可以归结为随机变量影响造成的。建立在观测变量各总体服从正态分布和同方差的假设之上，方差分析的问题就转化为在控制变量不同水平上的观测变量均值是否存在显著差异的推断问题了。综上所述，方差分析从对观测变量的方差分解入手，通过推断控制变量各水平下各观测变量的均值是否存在显著差异，分析控制变量是否给观测变量带来了显著影响，进而再对控制变量各个水平对观测变量影响的程度进行剖析。根据控制变量的个数可将方差分析分为单因素方差分析、

22、多因素方差分析；根据观测变量的个数可将方差分析分为一元方差分析（单因变量方差分析）和多元方差分析（多因变量方差分析）。,3.3单因素方差分析的基本思想 1、定义：单因素方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。例如：分析不同施肥量是否给农作物的产量产生显著影响；研究不同学历是否对工资收入产生显著影响等。2、观测变量方差的分解将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分，分别表示为：其中，SST为观测变量的总离差平方和；SSA为组间离差平方和，是由控制变量不同水平造成的观测变量的变差；SSE为组内平方和，是由抽样误差引起的观测变量的变差。,其中：

23、,3、比较观测变量总离差平方和各部分的比例在观测变量总离差平方和中，如果组间离差平方和所占比例较大，则说明观测变量的变动主要是由于控制变量引起的，可以主要由控制变量来解释，即控制变量给观测变量带来了显著影响。这里我们用F统计量来表示这种比例关系，如果控制变量的不同水平对观测变量造成了显著影响，那么观测变量总变差中控制变量所占的比例较大，则F值就比较大；反之，如果控制变量的不同水平对观测变量没有造成显著影响，那么观测变量总变差中控制变量所占的比例较小，则F值就比较小。,3.4 单因素方差分析的基本步骤提出原假设：控制变量不同水平下观测变量各总体的均值无显著差异原假设成立，即H0:1 2 3 4

24、备择假设成立，即H1:i(i=1，2，3，4)不全相等计算检验统计量和概率P值给定显著性水平与p值做比较：如果p值小于显著性水平，则应该拒绝原假设，反之就不能拒绝原假设。,3.5单因素方差分析的基本操作步骤在利用SPSS进行单因素方差分析时，应注意数据的组织形式。SPSS要求定义两个变量分别存放观测变量值和控制变量的水平值。基本操作步骤如下：1、选择菜单AnalyzeCompare meansOne-Way ANOVA，出现窗口,2、将观测变量选择到Dependent List框。3、将控制变量选择到Factor框。控制变量有几个不同的取值表示控制变量有几个水平。4、Option选项（非常

25、重要）Option选项用来对方差分析的前提条件进行检验。Homogeneity of variance test选项实现方差齐性检验；（要选中）其零假设是各水平下观测变量总体方差无显著性差异5、Post Hoc选项（当方差分析结果为存在显著差异时用）Post Hoc选项用来实现多重比较检验。在方差分析中，由于其前提所限，应用中多采用Equal Variances Assumed框中的方法（尽量不用方差不等时的情况，不完善！）。常用 LSD方法和S-N-K方法至此，SPSS便自动分解观测变量的方差，计算组间方差、组内方差、F统计量以及对应的概率p值，完成单因素方差分析的相关计算，并将结果显示到

26、输出窗口中。,3.6 单因素方差分析的应用举例某企业在制订某商品的广告策略时，对不同广告形式的广告效果（销售额）进行了评估。这里以商品销售额为观测变量，广告形式为控制变量，通过单因素方差分析方法对广告形式对销售额的影响进行方差分析。,广告与销售额.sav,结果解释（下页）：要求掌握！,注意数据格式！,（1）单因素方差分析的前提检验结果，也就是Homogeneity of variance test,69,注：p=0.5150.05，接受原假设，可以认为方差相等！因此可以进行方差分析,（2）方差分析表,70,P0.0010.05，拒绝原假设，即4种广告形式对销售额的影响有显著差异，到底是何差异

27、？继续进行多重比较操作演示,（3）多重比较-LSD法的结果,71,报纸和广播p=0.4120.05）,无显著差异；但与宣传品、体验间有显著差异以下类似；总体来看，宣传品与其余3中形式间存在显著差异，而且效果不如其他三种形式；其余3中形式间没有显著差异。从描述统计结果看，广播、报纸、体验的效果均优于宣传品，建议少采用该形式。,（4）多重比较-SNK法的结果,72,右半部分被分为2列，且体验、广播、报纸在一列，说明三者间差异不显著，而宣传品被单独划分一列，可见宣传品与其余3种形式差异显著。，从描述统计结果看法宣传品效果差于其他三种形式,练习,为研究三种不同饲料对生猪体重增加（wyh）的影响，将生

28、猪随机分成三组各喂养不同的饲料（sl），得到体重增加的数据存放在“生猪与饲料.sav”，试利用单因素方差分析考察不同饲料对生猪体重增加是否存在显著差异？如果存在显著差异，请通过多重比较探讨饲料间的优劣性。,练习3,西方国家有一种说法，认为精神病与月亮有关，月圆时，人盯着州亮看，看得太久，就会得精神病。中医也有一种说法，认为精神病与季节有关，特别是春季，人最容易得精神病。为了检验这两种说法是否有道理，对某地平均每日精神病发病人数统计如下：问:(1)季节对精神病是否有显著的影响?(=0.05)(2)月亮对精神病是否有显著的影响?(=0.05),data1.sav,data2.sav,第4类问题-一

29、个或多个因素对结果影响的显著性,方法：多元方差分析（略）例如：不同性别、不同地区、不同家庭背景的学生接受高等教育情况有无差异；教学手段与课外科研活动是否对学生学习成绩有影响。可参考张文彤高级篇（第2章征服一般线性模型下，2.1 Multivariate）,第5类问题-两个特征变量数据的相关性大小,方法：相关分析例如：个人受教育年限与个人收入关系密切程度。,相关关系概念,变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定（注：相关和回归的重要区别之一，相关关系用于变量间无明确因果关系，如年龄和血压）当变量 x 取某个值时，变量 y 的取值可能有几个各观测点分布在直线周围,相关

30、关系的类型,散点图,相关系数,r 的取值范围是-1,1|r|=1，为完全相关r=1，为完全正相关r=-1，为完全负正相关 r=0，不存在线性相关关系-1r0，为负相关 0r1，为正相关|r|越趋于1表示关系越密切；|r|越趋于0表示关系越不密切,相关系数的显著性检验,1.检验两个变量之间是否存在线性相关关系采用提出的 t 检验检验的步骤为提出假设：H0：；H1：0,计算检验的统计量：,确定显著性水平，并作出决策若tt，拒绝H0 若tt，不能拒绝H0,实际分析先画散点图,即H0为两总体无显著的线性相关关系,83,为了判断r对的代表性大小，需要对相关系数进行假设检验。（1）首先假设总体相关性为零

31、，即H0为两总体无显著的线性相关关系。（2）其次，计算相应的统计量，并得到对应的相伴概率值。如果相伴概率值小于或等于指定的显著性水平，则拒绝H0，认为两总体存在显著的线性相关关系；如果相伴概率值大于指定的显著性水平，则不能拒绝H0，认为两总体不存在显著的线性相关关系。,84,双变量关系强度测量的主要指标,红色情况常用,Pearson简单相关系数用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。,86,计算公式如下。Pearson简单相关系数计算公式为,87,对Pearson简单相关系数的统计检验是计算t统计量，公式为 t统计量服从

32、n2个自由度的t分布。,88,例,研究问题某班级学生数学和化学的期末考试成绩如表6-1所示，现要研究该班学生的数学和化学成绩之间是否具有相关性。,89,表6-1学生的数学和化学成绩,90,图6-4 在菜单中选择“Scatter/Dot”命令,散点图实现步骤,91,图6-5“Scatter/Dot”对话框,92,图6-6“Simple Scatterplot”对话框,93,图6-7 散点图,结果和讨论,94,显示基本呈线性相关关系，需进一步做相关分析,相关分析实现步骤,图6-1 在菜单中选择“Bivariate”命令,95,图6-2“Bivariate Correlations”对话框（一）,

33、96,图6-3“Bivariate Correlations：Options”对话框,97,8.2.3 结果和讨论,98,结果分析：1）从变量间线性相关性检验结果来看，p值0.001，拒绝原假设，即可以认为数学与化学成绩间存在显著的线性相关关系；2）Pearson简单相关系数为0.742，可以认为二者之间具有较强的线性相关性,练习,某农场通过试验取得某农作物产量与春季降雨量的数据，如表6-3所示。探讨降雨量与产量的相关性。,99,第6类问题-一变量vs另一（or多个）变量间的近似函数关系,方法：回归分析（一元、多元、Logistic等；线性、非线性）注：回归分析探讨的变量间一般具有因果关系；相

34、关分析则未必！,注意：原假设均认为系数等于0，故希望看到拒绝原假设！,回归分析检验策略,此细节根据自己情况而定,9.2.4 线性回归分析的基本操作（1）选择菜单AnalyzeRegressionLinear，出现窗口：,高校科研研究.sav,（2）选择被解释变量进入Dependent框。（3）选择一个或多个解释变量进入Independent(s)框。（4）在Method框中选择回归分析中解释变量的筛选策略。其中Enter表示所选变量强行进入回归方程，是SPSS默认的策略，通常用在一元线性回归分析中；Remove表示从回归方程中剔除所选变量；Stepwise表示逐步筛选策略；Backward表示

35、向后筛选策略；Forward表示向前筛选策略。,多元回归中才用到,（5）第三和第四步中确定的解释变量及变量筛选策略可放置在不同的块（Block）中。通常在回归分析中不止一组待进入方程的解释变量和相应的筛选策略，可以单击Next和Previous按钮设置多组解释变量和变量筛选策略并放置在不同的块中。（适用于探索性分析）（6）选择一个变量作为条件变量放到Selection Variable框中，并单击Rule按钮给定一个判断条件。只有变量值满足判定条件的样本才参与线性回归分析。（7）在Case Labels框中指定哪个变量作为样本数据点的标志变量，该变量的值将标在回归分析的输出图形中。,了解,9.

36、2.5 线性回归分析的其他操作1、Statistics按钮，出现的窗口可供用户选择更多的输出统计量。,了解,（1）Estimates：SPSS默认输出项，输出与回归系数相关的统计量。包括回归系数（偏回归系数）、回归系数标准误差、标准化回归系数、回归系数显著性检验的t统计量和概率p值，各解释变量的容忍度。（2）Confidence Intervals：输出每个非标准化回归系数95的置信区间。（3）Descriptive：输出各解释变量和被解释变量的均值、标准差、相关系数矩阵及单侧检验概率p值。,（4）Model fit：SPSS默认输出项，输出判定系数、调整的判定系数、回归方程的标准误差、回归方

37、程显著F检验的方程分析表。（5）R squared change：输出每个解释变量进入方程后引起的判定系数的变化量和F值的变化量。（6）Part and partial correlation：输出方程中各解释变量与被解释变量之间的简单相关、偏相关系数。,（7）Covariance matrix：输出方程中各解释变量间的相关系数、协方差以及各回归系数的方差。（8）Collinearity Diagnostics：多重共线性分析，输出各个解释变量的容忍度、方差膨胀因子、特征值、条件指标、方差比例等。（9）在Residual框中：Durbin-waston表示输出DW检验值；Casewise Di

38、agnostic表示输出标准化残差绝对值大于等于3（SPSS默认值）的样本数据的相关信息，包括预测值、残差、杠杆值等。,2、Options选项，出现的窗口可供用户设置多元线性回归分析中解释变量筛选的标准以及缺失值的处理方式。（包含常数项的选项！）3、Plot选项，出现的窗口用于对残差序列的分析。,自学,（1）窗口左边框中各变量名的含义是：DEPENDNT表示被解释变量，*ZPRED表示标准化预测值，*ZRESID表示标准化残差，*DRESID表示剔除残差，*ADJPRED表示调整的预测值，*SRESID表示学生化残差，*SDRESID表示剔除学生化残差。（2）绘制多对变量的散点图，可根据需要在

39、scatter框中定义散点图的纵坐标和横坐标变量。（3）在Standardized Residual Plots框中选择Histogram选项绘制标准化残差序列的直方图；选择Normal probability plot绘制标准化残差序列的正态分布累计概率图。选择Produce all partial plots选项表示依次绘制被解释变量和各个解释变量的散点图。,4、Save选项，该窗口将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中，并可同时生成XML格式的文件，便于分析结果的网络发布。（1）Predicted Values框中：保存非标准化预测值、标准化预测值、调整的预测值和预

40、测值的均值标准误差。（2）Distance框中：保存均值或个体预测值95（默认）置信区间的下限值和上限值。（3）Residual框中：保存非标准化残差、标准化残差等。（4）Influence Statistics框中：保存剔除第i个样本后统计量的变化量。5、WSL选项，采用加权最小二乘法替代普通最小二乘法估计回归参数，并指定一个变量作为权重变量。,合成纤维的强度与其拉伸倍数有关，测得试验数据如表1所示。求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。,120,一元线性回归例题（建议掌握）,求解,先画散点图 graphs/scatter,基本呈线性相关关系，可以进一步考虑一元线性回归分

41、析,1,如果不对任何选项进行操作，仅进行自变量、因变量选入，,则给出基本结果，如下,拟合优度：R2=0.972，说明拟合效果很好,回归方程显著性检验：P值0.001，拒绝原假设，即解释变量（自变量）与被解释变量（因变量）间具有显著的线性关系。,回归系数显著性检验：自变量对应P值0.001，拒绝原假设，即自变量变量与因变量间具有显著的线性关系。但常数项检验未通过，以下考虑改进模型（去掉常数项）,模型改进,取消此选项,改进结果,改进结果显示，决定系数明显增大（注：此指标越大越好，但并非为其是论，还有其他指标），回归方程显著检验通过，最终选择方程为Y=0.893x，可以进一步做预测，方法如下页,预测

42、拉伸倍数为12.5时的强度（求点预测和区间预测）,方法1：自行代入模型运算；方法2：软件计算，将自变量拉伸强度12.5，写入自变量的最后一行，如图：然后，在save中选择预测（点预测和区间预测），如下页图示,预测结果,预测结果在原始数据右侧显示，如图,点预测值,95%预测区间（10.13,12.18）,此例结束,以高校科研研究数据为例，建立回归方程研究，以课题总数为被解释变量，解释变量为投入人年数（X2）、受投入高级职称的人年数（X3）、投入科研事业费（X4）、专著数（X6）、论文数（X7）、获奖数（X8）。（1）解释变量采用强制进入策略（Enter），并做多重共线性检测。（2）解释变量采用向

43、后筛选策略让SPSS自动完成解释变量的选择。（3）解释变量采用逐步筛选策略让SPSS自动完成解释变量的选择。,多元线性回归举例（最好掌握）,多元略微复杂，本例仍采用最简操作（均采用默认选项），结果如下,结果显示：拟合优度较高，回归方程显著性检验通过，但回归系数显著性检验中，仅投入人年数通过，因此推测可能存在多重共线性，应考虑多重共线性诊断和更换变量选择策略。,多重共线性诊断，statistics/colineary dia.,共线性主要判断方法，如右表,本例诊断结果，可见共线性较为严重！考虑更新策略，如向后筛选或逐步筛选，继续做。,更改策略-向后筛选及结果,实际上，相当于做了多次回归分析！直

44、到满足条件的模型被找到为止！注：多元回归很难真正找到最优模型！,其他结果不再逐个分析；本结果最后显示，只保留了投入人年数一个变量！同时发现常数项检验仍未通过！可以考虑采用模型：y=0.492*x2-94.524也可以考虑，继续去掉常数项，自己完成。,本例结束,1、为研究收入和支出的关系，收集1978-2002年我国的年人均可支配收入和年人均消费性支出数据，研究收入与支出之间是否具有较强的线性关系。,练习,年人均消费支出和教育.sav,以年人均支出和教育数据为例，建立回归方程研究年人均消费支出、恩格尔系数、在外就餐、教育支出、住房人均使用面积受年人均可支配收入的影响。,练习,年人均消费支出和教育

45、.sav,曲线估计（建议掌握）,曲线估计概述变量间的相关关系中，并不总是表现出线性关系，非线性关系也是极为常见的。变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。本质线性关系是指变量关系形式上虽然呈非线性关系，但可通过变量变换为线性关系，并最终可通过线性回归分析建立线性模型。本质非线性关系是指变量关系不仅形式上呈非线性关系，而且也无法变换为线性关系。本节的曲线估计是解决本质线性关系问题的。,常见的本质线性模型有：1、二次曲线（Quadratic），方程为，变量变换后的方程为2、复合曲线（Compound），方程为，变量变换后的方程为3、增长曲线（Growth），方程为，变量变换后

46、的方程为,4、对数曲线（Logarithmic），方程为，变量变换后的线性方程为5、三次曲线（Cubic），方程为，变量变换后的方程为6、S曲线（S），方程为，变量变换后的方程为7、指数曲线（Exponential），方程为，变量变换后的线性方程为,8、逆函数（Inverse），方程为变量变换后的方程为9、幂函数（Power），方程为变量变换后的方程为10、逻辑函数（Logistic），方程为变量变换后的线性方程为,SPSS曲线估计中，首先，在不能明确究竟哪种模型更接近样本数据时，可在多种可选择的模型中选择几种模型；然后SPSS自动完成模型的参数估计，并输出回归方程显著性检验的F值和概率p值

47、、判定系数R2等统计量；最后，以判定系数为主要依据选择其中的最优模型，并进行预测分析等。另外，SPSS曲线估计还可以以时间为解释变量实现时间序列的简单回归分析和趋势外推分析。,曲线估计的基本操作可通过绘制并观察样本数据的散点图粗略确定被解释变量和解释变量之间的相关关系，为曲线拟合中的模型选择提供依据。SPSS曲线估计的基本操作步骤是：（1）选择菜单AnalyzeRegressionCurve Estimation，出现窗口如下页所示。（2）把被解释变量选到Dependent框中。,（3）曲线估计中的解释变量可以是相关因素变量也可是时间变量。如果解释变量为相关因素变量，则选择Variable选

48、项，并把一个解释变量指定到Independent框；如果选择Time参数则表示解释变量为时间变量。（4）在Models中选择几种模型。（5）选择Plot Models选项绘制回归线；选择Display ANOVA table输出各个模型的方差分析表和各回归系数显著性检验结果。至此，完成了曲线估计的操作，SPSS将根据选择的模型自动进行曲线估计，并将结果显示到输出窗口中。,应用举例1、教育支出的相关因素分析为研究居民家庭教育支出和消费性支出之间的关系，收集到1978年至2002年全国人均消费性支出和教育支出的数据。首先绘制教育支出和消费性支出的散点图。观察散点图发现两变量之间呈非线性关系，可尝

49、试选择二次、三次曲线、复合函数和幂函数模型，利用曲线估计进行本质线性模型分析。其中，教育支出为被解释变量，消费性支出为解释变量。,年人均消费支出和教育.sav,演示,2、分析和预测居民在外就餐的费用利用收集到1978年至2002年居民在外就餐消费的数据，对居民未来在外就餐的趋势进行分析和预测。首先绘制就餐费用的序列图，选择菜单GraphsSequence。得到的序列图表明自80年代以来居民在外就餐费用呈非线性增加，90年代中期以来增长速度明显加快，大致呈指数形式，可利用曲线估计进行分析。由于要进行预测，因此在曲线估计主窗口中要单击Save按钮，出现如下窗口：,年人均消费支出和教育.sav,S

50、ave Variables框中：Predicted values表示保存预测值；Residual表示保存残差；Prediction interval表示保存预测值默认95置信区间的上限和下限值。Predict cases框中：只有当解释变量为时间时才可选该框中的选项。Predict from estimation period through last case表示计算当前所有样本期内的预测值；Predict through表示计算指定样本期内的预测值，指定样本期在Observation框后输入。本例希望预测2003年和2004年的值，应在Observation框后输入27。,软件提供模型有限

展开阅读全文