SPSS相关分析和回归分析.ppt

上传人:牧羊曲112 文档编号:5576215 上传时间:2023-07-29 格式:PPT 页数:50 大小:728.50KB
返回 下载 相关 举报
SPSS相关分析和回归分析.ppt_第1页
第1页 / 共50页
SPSS相关分析和回归分析.ppt_第2页
第2页 / 共50页
SPSS相关分析和回归分析.ppt_第3页
第3页 / 共50页
SPSS相关分析和回归分析.ppt_第4页
第4页 / 共50页
SPSS相关分析和回归分析.ppt_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《SPSS相关分析和回归分析.ppt》由会员分享,可在线阅读,更多相关《SPSS相关分析和回归分析.ppt(50页珍藏版)》请在三一办公上搜索。

1、SPSS相关分析与回归分析,本章内容,8.1 相关分析和回归分析概述8.2 相关分析8.3 偏相关分析8.4 线性回归分析8.5 曲线估计,8.1 相关分析和回归分析概述,客观事物之间的关系大致可归纳为两大类,即函数关系:指两事物之间的一种一一对应的关系,如商品的销售额和销售量之间的关系。相关关系(统计关系):指两事物之间的一种非一一对应的关系,例如家庭收入和支出、子女身高和父母身高之间的关系等。相关关系又分为线性相关和非线性相关。相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。,双变量关系强度测量的主要指标,8.2 相关分析,相关分析通过图形和数值两种方式,有效地揭示事物之间相

2、关关系的强弱程度和形式。8.2.1 散点图 它将数据以点的的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及他们的强弱程度和方向。,示例:corr.sav,8.2.2 相关系数 利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤:第一,计算样本相关系数r;相关系数r的取值在-1+1之间R0表示两变量存在正的线性相关关系;r0.8表示两变量有较强的线性关系;|r|0.3表示两变量之间的线性关系较弱第二,对样本来自的两总体是否存在显著的线性关系进行推断。,对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson简单相关系数、Spearman等级相

3、关系数和Kendall 相关系数等。8.2.2.1 Pearson简单相关系数(适用于两个变量都是数值型的数据)Pearson简单相关系数的检验统计量为:,8.2.2.2 Spearman等级相关系数,Spearman等级相关系数用来度量定序变量间的线性相关关系,设计思想与Pearson简单相关系数相同,只是数据为非定距的,故计算时并不直接采用原始数据,而是利用数据的秩,用两变量的秩 代替 代入Pearson简单相关系数计算公式中,于是其中的 和 的取值范围被限制在1和n之间,且可被简化为:,如果两变量的正相关性较强,它们秩的变化具有同步性,于是 的值较小,r趋向于1;如果两变量的正相关性较弱

4、,它们秩的变化不具有同步性,于是 的值较大,r趋向于0;在小样本下,在零假设成立时,Spearman等级相关系数服从Spearman分布;在大样本下,Spearman等级相关系数的检验统计量为Z统计量,定义为:Z统计量近似服从标准正态分布。,8.2.3 计算相关系数的基本操作,相关分析用于描述两个变量间关系的密切程度,其特点是变量不分主次,被置于同等的地位。在Analyze的下拉菜单Correlate命令项中有三个相关分析功能子命令Bivariate过程、Partial过程、Distances过程,分别对应着相关分析、偏相关分析和相似性测度(距离)的三个spss过程。Bivariate过程用于

5、进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的分析结果。Partial过程,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的偏相关系数。Distances过程用于对各样本点之间或各个变量之间进行相似性分析,一般不单独使用,而作为聚类分析和因子分析等的预分析。,Bivariate相关分析步骤,(1)选择菜单AnalyzeCorrelateBivariate,出现窗口:,(2)把参加计算相关系数的变量选到Variables框。(3)在Correlation Coefficents框中选择计算哪种相关系数。(4)在T

6、est of Significance框中选择输出相关系数检验的双边(Two-Tailed)概率p值或单边(One-Tailed)概率p值。(5)选中Flag significance correlation选项表示分析结果中除显示统计检验的概率p值外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。(6)在Option按钮中的Statistics选项中,选中Cross-product deviations and covariances表示输出两变量的离差平方和协方差。,8.2.4 相关分析应用举例 例1 为研究高等院校人文社会科学研究中立项课题数会受哪些因素的影响,收

7、集1999年31个省市自治区部分高校有关社科研究方面的数据,研究立项课题数(当年)与投入的具有高级职称的人年数(当年)、发表的论文数(上年)之间是否具有较强的线性关系。对该问题的研究可以采用相关分析的方法,首先可绘制矩阵散点图;其次可以计算Pearson简单相关系数。,例2:学生两科课程的名次排列,要求求其等级相关系数,检验其显著性,data10-03.sav,高校科研研究.sav,8.3 偏相关分析,8.3.1 偏相关分析和偏相关系数 上节中的相关系数是研究两变量间线性相关性的,若还存在其他因素影响,就相关系数本身来讲,它未必是两变量间线性相关强弱的真实体现,往往有夸大的趋势。例如,在研究商

8、品的需求量和价格、消费者收入之间的线性关系时,需求量和价格之间的相关关系实际还包含了消费者收入对价格和商品需求量的影响。在这种情况下,单纯利用相关系数来评价变量间的相关性显然是不准确的,而需要在剔除其他相关因素影响的条件下计算变量间的相关。偏相关的意义就在于此。,偏相关分析也称净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性关系,所采用的工具是偏相关系数。控制变量个数为1时,偏相关系数称一阶偏相关;当控制两个变量时,偏相关系数称为二阶偏相关;当控制变量的个数为0时,偏相关系数称为零阶偏相关,也就是简单相关系数。,利用偏相关系数进行分析的步骤,第一,计算样本的偏相关系数 假设有三

9、个变量y、x1和x2,在分析x1和y之间的净相关时,当控制了x2的线性作用后,x1和y之间的一阶偏相关定义为:偏相关系数的取值范围及大小含义与相关系数相同。,第二,对样本来自的两总体是否存在显著的净相关进行推断检验统计量为:其中,r为偏相关系数,n为样本数,q为阶数。T统计量服从n-q-2个自由度的t分布。,8.3.2 偏相关分析的基本操作,1.选择菜单AnalyzeCorrelatePartial,2.把参与分析的变量选择到Variables框中。3.选择一个或多个控制变量到Controlling for框中。4.在Test of Significance框中选择输出偏相关检验的双尾概率p值

10、或单尾概率p值。5.在Option按钮中的Statistics选项中,选中Zero-order Correlations表示输出零阶偏相关系数。至此,SPSS将自动进行偏相关分析和统计检验,并将结果显示到输出窗口。,8.3.3 偏相关分析的应用举例,上节中研究高校立项课题总数影响因素的相关分析中发现,发现立项课题数与论文数之间有较强正线性相关关系,但应看到这种关系中可能掺入了投入高级职称的人年数的影响,因此,为研究立项课题总数和发表论文数之间的净相关系数,可以将投入高级职称的人年数加以控制,进行偏相关分析。,高校科研研究.sav,回归分析概述,(一)回归分析理解(1)“回归”的含义galton

11、研究研究父亲身高和儿子身高的关系时的独特发现.(2)回归线的获得方式一:局部平均 回归曲线上的点给出了相应于每一个x(父亲)值的y(儿子)平均数的估计(3)回归线的获得方式二:拟和函数使数据拟和于某条曲线;通过若干参数描述该曲线;利用已知数据在一定的统计准则下找出参数的估计值(得到回归曲线的近似);,8.4 线性回归分析,回归分析概述,(二)回归分析的基本步骤(1)确定自变量和因变量(父亲身高关于儿子身高的回归与儿子身高关于父亲身高的回归是不同的).(2)从样本数据出发确定变量之间的数学关系式,并对回归方程的各个参数进行估计.(3)对回归方程进行各种统计检验.(4)利用回归方程进行预测.,线性

12、回归分析概述,(三)参数估计的准则目标:回归线上的观察值与预测值之间的距离总和达到最小最小二乘法(利用最小二乘法拟和的回归直线与样本数据点在垂直方向上的偏离程度最低),一元线性回归分析,(一)一元回归方程:y=0+1x0为常数项;1为y对x回归系数,即:x每变动一个单位所引起的y的平均变动(二)一元回归分析的步骤利用样本数据建立回归方程回归方程的拟和优度检验回归方程的显著性检验(t检验和F检验)残差分析预测,一元线性回归方程的检验,(一)拟和优度检验:(1)目的:检验样本观察点聚集在回归直线周围的密集程度,评价回归方程对样本数据点的拟和程度。(2)思路:因为:因变量取值的变化受两个因素的影响自

13、变量不同取值的影响其他因素的影响于是:因变量总变差=自变量引起的+其他因素引起的即:因变量总变差=回归方程可解释的+不可解释的可证明:因变量总离差平方和=回归平方和+剩余平方和,一元线性回归方程的检验,(一)拟和优度检验:(3)统计量:判定系数R2=SSR/SST=1-SSE/SST.R2体现了回归方程所能解释的因变量变差的比例;1-R2则体现了因变量总变差中,回归方程所无法解释的比例。R2越接近于1,则说明回归平方和占了因变量总变差平方和的绝大部分比例,因变量的变差主要由自变量的不同取值造成,回归方程对样本数据点拟合得好在一元回归中R2=r2;因此,从这个意义上讲,判定系数能够比较好地反映回

14、归直线对样本数据的代表程度和线性相关性。,一元线性回归方程的检验,(二)回归方程的显著性检验:F检验(1)目的:检验自变量与因变量之间的线性关系是否显著,是否可用线性模型来表示.(2)H0:=0 即:回归系数与0无显著差异(3)利用F检验,构造F统计量:F=平均的回归平方和/平均的剩余平方和F(1,n-1-1)如果F值较大,则说明自变量造成的因变量的线性变动远大于随机因素对因变量的影响,自变量于因变量之间的线性关系较显著(4)计算F统计量的值和相伴概率p(5)判断p=a:拒绝H0,即:回归系数与0有显著差异,自变量与因变量之间存在显著的线性关系。反之,不能拒绝H0,一元线性回归方程的检验,(三

15、)回归系数的显著性检验:t检验(1)目的:检验自变量对因变量的线性影响是否显著.(2)H0:=0 即:回归系数与0无显著差异(3)利用t检验,构造t统计量:其中:Sy是回归方程标准误差(Standard Error)的估计值,由均方误差开方后得到,反映了回归方程无法解释样本数据点的程度或偏离样本数据点的程度如果回归系数的标准误差较小,必然得到一个相对较大的t值,表明该自变量x解释因变量线性变化的能力较强(4)计算t统计量的值和相伴概率p(5)判断,一元线性回归方程的检验,(四)t检验与F检验的关系一元回归中,F检验与t检验一致,即:F=t2,两种检验可以相互替代(六)F统计量和R2值的关系如果

16、回归方程的拟合优度高,F统计量就越显著。F统计量越显著,回归方程的拟合优度就会越高。,一元线性回归分析操作,(一)基本操作步骤(1)菜单选项:Analyze-regression-linear(2)选择一个变量为因变量进入dependent框(3)选择一个变量为自变量进入independent框(4)enter:所选变量全部进入回归方程(默认方法)(5)对样本进行筛选(selection variable)利用满足一定条件的样本数据进行回归分析(6)指定作图时各数据点的标志变量(case labels),一元线性回归分析操作,(二)statistics选项(1)基本统计量输出Estimates

17、:默认.显示回归系数相关统计量.confidence intervals:每个非标准化的回归系数95%的置信区间.Descriptive:各变量均值、标准差和相关系数单侧检验概率.Model fit:默认.判定系数、估计标准误差、方差分析表、容忍度(2)Residual框中的残差分析Durbin-waston:D-W值casewise diagnostic:异常值(奇异值)检测(输出预测值及残差和标准化残差),一元线性回归分析操作,(三)plot选项:图形分析.Standardize residual plots:绘制残差序列直方图和累计概率图,检测残差的正态性绘制指定序列的散点图,检测残差的

18、随机性、异方差性ZPRED:标准化预测值 ZRESID:标准化残差SRESID:学生化残差produce all partial plot:绘制因变量和所有自变量之间的散点图,线性回归方程的残差分析,(一)残差序列的正态性检验:绘制标准化残差的直方图或累计概率图(二)残差序列的随机性检验绘制残差和预测值的散点图,应随机分布在经过零的一条直线上下,线性回归方程的残差分析,(三)残差序列独立性检验:残差序列是否存在后期值与前期值相关的现象,利用D.W(Durbin-Watson)检验d-w=0:残差序列存在完全正自相关;d-w=4:残差序列存在完全负自相关;0d-w2:残差序列存在某种程度的正自相

19、关;2d-w4:残差序列存在某种程度的负自相关;d-w=2:残差序列不存在自相关.残差序列不存在自相关,可以认为回归方程基本概括了因变量的变化;否则,认为可能一些与因变量相关的因素没有引入回归方程或回归模型不合适或滞后性周期性的影响.,线性回归方程的预测,(一)点估计y0(二)区间估计,x0为xi的均值时,预测区间最小,精度最高.x0越远离均值,预测区间越大,精度越低.,回归分析检验策略,例 萨尔金德爱上统计学P176,Chapter 15 Data Set 1.sav,8.4.5 应用举例,例 以高校科研研究数据为例,建立回归方程研究 1、课题总数受论文数的影响 2、以课题总数为被解释变量,

20、解释变量为投入人年数(X2)、受投入高级职称的人年数(X3)、投入科研事业费(X4)、专著数(X6)、论文数(X7)、获奖数(X8)。(1)解释变量采用强制进入策略(Enter),并做多重共线性检测。(2)解释变量采用向后筛选策略让SPSS自动完成解释变量的选择。(3)解释变量采用逐步筛选策略让SPSS自动完成解释变量的选择。,8.5 曲线估计,8.5.1 曲线估计概述 变量间的相关关系中,并不总是表现出线性关系,非线性关系也是极为常见的。变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。本质线性关系是指变量关系形式上虽然呈非线性关系,但可通过变量变换为线性关系,并最终可通过线性回归

21、分析建立线性模型。本质非线性关系是指变量关系不仅形式上呈非线性关系,而且也无法变换为线性关系。本节的曲线估计是解决本质线性关系问题的。,常见的本质线性模型有:1、二次曲线(Quadratic),方程为,变量变换后的方程为2、复合曲线(Compound),方程为,变量变换后的方程为3、增长曲线(Growth),方程为,变量变换后的方程为,4、对数曲线(Logarithmic),方程为,变量变换后的线性方程为5、三次曲线(Cubic),方程为,变量变换后的方程为6、S曲线(S),方程为,变量变换后的方程为7、指数曲线(Exponential),方程为,变量变换后的线性方程为,8、逆函数(Inver

22、se),方程为变量变换后的方程为9、幂函数(Power),方程为变量变换后的方程为10、逻辑函数(Logistic),方程为 变量变换后的线性方程为,SPSS曲线估计中,首先,在不能明确究竟哪种模型更接近样本数据时,可在多种可选择的模型中选择几种模型;然后SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率p值、判定系数R2等统计量;最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。另外,SPSS曲线估计还可以以时间为解释变量实现时间序列的简单回归分析和趋势外推分析。,8.5.2 曲线估计的基本操作 可通过绘制并观察样本数据的散点图粗略确定被解释变量和解释变量之间

23、的相关关系,为曲线拟合中的模型选择提供依据。SPSS曲线估计的基本操作步骤是:(1)选择菜单AnalyzeRegressionCurve Estimation,出现窗口如下页所示。(2)把被解释变量选到Dependent框中。,(3)曲线估计中的解释变量可以是相关因素变量也可是时间变量。如果解释变量为相关因素变量,则选择Variable选项,并把一个解释变量指定到Independent框;如果选择Time参数则表示解释变量为时间变量。(4)在Models中选择几种模型。(5)选择Plot Models选项绘制回归线;选择Display ANOVA table输出各个模型的方差分析表和各回归系数

24、显著性检验结果。至此,完成了曲线估计的操作,SPSS将根据选择的模型自动进行曲线估计,并将结果显示到输出窗口中。,8.5.3 应用举例Sike.sav,Save Variables框中:Predicted values表示保存预测值;Residual表示保存残差;Prediction interval表示保存预测值默认95置信区间的上限和下限值。Predict cases框中:只有当解释变量为时间时才可选该框中的选项。Predict from estimation period through last case表示计算当前所有样本期内的预测值;Predict through表示计算指定样本期内的预测值,指定样本期在Observation框后输入。本例希望预测2003年和2004年的值,应在Observation框后输入27。,Thank you,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号