《SPSS-回归分析PPT讲义.ppt》由会员分享,可在线阅读,更多相关《SPSS-回归分析PPT讲义.ppt(43页珍藏版)》请在三一办公上搜索。
1、,SPSS统计分析从基础到实践(第2版)联系Email:,第6讲 回归分析,6.1 回归分析概述,回归分析的概念 回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程。,X与Y1,X与Y2相关系数相等此时仅仅用相关系数描述它们的关系显然不够,回归分析分类按照经验公式的函数类型:线性回归和非线性回归。按自变量个数:一元回归和多元回归。按自变量和因变量的类型:一般的回归分析、含有哑变量的回归分析、Logistic回归分析。,回归分析的一般步骤对数据进行预处理,选择合适的变量进行回归分析。做散点图,观察变量间的趋势,初步选取回归分析方法。进行回归分析,拟合自变量与因变量之间的经
2、验公式。拟合完毕之后进行残差分析,检验模型是否恰当。利用拟合结果进行预测控制。,6.2 线性回归Linear过程,一元线性回归,多元线性回归注意:模型是否恰当,也需要进行假设检验。,回归分析的适用条件,多元回归分析的方法选择,注意:变量的选择不是单纯的数学问题,一定要结合实际问题的背景来处理。一定要认识到统计和传统数学的不同。传统数学是一门要求严密逻辑推理的学科。统计学作为一门从应用中发展起来的学科,一定不能脱离实际问题。否则,统计学也丧失了其存在的意义。,在十九世纪四、五十年代,苏格兰物理学家James D.Forbes,试图通过水的沸点来估计海拔高度。由于可以通过气压来估计海拔,他在阿尔卑
3、斯山以及苏格兰收集了沸点及海拔的数据如表所示。现在通过线形回归拟合气压与沸点的关系。,执行【Analyze】/【Regression】/【Linear】命令,弹出【Linear】对话框,结果解读模型拟合度检验,方差分析表,回归分析结果,残差统计量检验,雇员对其主管满意度的调查,结果解读 共线性检验,共线性检验指标,共线性检验结果,6.3曲线拟合,拟线性,是指变量之间的关系是非线性关系,但是可以通过一些特殊的变化使之线性化。譬如,非线性方程线性化,曲线拟合就是研究两变量间拟线性关系的一种方法。曲线拟合的基本步骤是首先选择一种常见的曲线模型及其数学表达式。然后对变量做变换使得曲线模型线性化,再利用
4、已知数据,用最小二乘的方法来估计模型中的参数。注意:利用曲线拟合的方法来估计两变量间的关系,必须选取恰当的曲线模型。模型的选取首先依赖于实际问题,同时也依赖于数据的特征。这一点可以通过作变量间的散点图来对两变量间的关系做一个预估计。在根据预估计结果选择恰当的统计模型。,曲线拟合的可选模型,已知有某次泥石流的各阵观测数据保存在如图所示的数据文件“nishiliu.sav”中,试拟合各阵泥石流泥面宽与泥深之间的关系。,执行【Analyze】/【Regression】/【Curve Estimation】命令,弹出【Curve Estimation】对话框,结果解读模型拟合度以及方差分析表同线性回归
5、类似二次模型拟合系数如下,三类模型的拟合曲线,6.4二分类变量Logistic回归,在Logistic回归模型中,因变量是定性变量。二分类变量的情况十分普遍。譬如致癌因素的研究中,收集了若干人的健康记录,包括年龄、性别、抽烟史、日常饮食及家庭病史等变量的数据。因变量为一个人得了癌症(Y=1),还是没有得癌症(Y=0)。在金融界,最关心的是企业的“健康”状况。自变量是公司的各项财务指标。而因变量即是公司的偿付能力(破产0,有偿付能力1)。,二分类变量Logistic回归简介,注意二分类变量Logistic回归其核心思想是对因变量二值取一的概率建模而不是直接预测其取值。拟合二分类变量的Logist
6、ic回归模型的参数问题可通过Logistic变换转换为拟合线性模型的参数。,诊断发现运营不良的金融商业机构 下表列出了66家公司的一些运营的财务比率,其中33家在2年后破产,另外33家在同期保持偿付能力。用变量X1、X2、X3拟合一个Logistic回归模型。,执行【Analyze】/【Regression】/【Binary Logistic】命令,弹出【Logistic】对话框,结果解读,代入Logistic函数,即得到Y=1的概率值表达式,其它分类变量回归简介因变量是多分类无序变量【Multinomial】过程因变量是多分类有序变量【Ordinal】过程自变量是分类变量,因变量是数值变量定
7、义哑元变量,6.5 非线性回归Nonlinear过程,非线性回归简介线性回归模型:回归参数是线性的,【Linear】过程。内蕴线性(拟线性)回归模型:其回归参数不是线性的,但是可以通过转换变为线性的参数,【Curve Estimation】过程。非线性回归模型:其回归参数不是线性的,也不能通过转换的方法将其变为线性的参数,【Nonlinear】过程。,棉花单株在不同时期的成铃数(Y)与初花后天数(X)存在非线性的关系,假设这一非线性关系可用Gompertz模型表示。某一棉花品种7月5日至9月3日每隔5天的单株成铃数观测值如表所示 试根据观测值拟合模型中的参数。,执行【Analyze】/【Regression】/【Nonlinear】命令,弹出如图所示的对话框。,结果解读 参数估计值,对应非线性模型的参数,注意:如何定义恰当的模型是解决问题的关键。这既依赖于模型中的数据特征,更依赖于模型中问题的实际背景。所以在用SPSS软件解决问题的时候一定不能脱离问题的实际背景及其统计意义。,感谢您的关注,