《医学统计学直线相关与回归实习.ppt》由会员分享,可在线阅读,更多相关《医学统计学直线相关与回归实习.ppt(62页珍藏版)》请在三一办公上搜索。
1、相关和回归,主讲教师 张俊辉,目的和要求:,熟悉相关和回归的SPSS操作过程掌握结果的分析和解释,内容,双变量关联性分析 直线相关(重点)秩相关(适用条件)分类变量的关联性分析直线回归(重点),SPSS软件中:,双变量关联性分析 Analyze Correlate Bivariate直线回归Analyze Regression Linear,直线相关Linear correlation,直线相关的定义,统计学上两个随机变量之间呈直线趋势的关系被称为直线相关,又称简单相关。直线相关系数(linear correlation coefficient):定量描述两变量间直线关系的方向和密切程度的指标
2、。又称Pearson 积矩相关系数(Pearson product moment coefficient)总体相关系数,样本相关系数r,直线相关的具体步骤,1.考察数据的分布,即分析变量x和y的正态性。2.绘制散点图,看有无线性趋势。3.计算样本相关系数。4.总体相关系数的假设检验t检验和查表法。,例13.1 某医师测量了15名正常成年人的体重(kg)与CT双肾体积(ml)大小,如下表。据此回答两变量是否有关联?其方向与密切程度如何?,第一步:数据录入,设置两个变量:x体重()y 肾总体积(mL),1.正态性检验,Analyze Descriptive Statistics ExploreDe
3、pendent list:x yPlots:Normality plots with tests,正态性检验,第二步:统计分析,正态性检验结果,P0.10,服从正态分布,第二步:统计分析,2.绘制散点图 Graphs Scatter Simple,Graphs Scatter Simple,简单散点图,Simple Scatterplot 对话框,应变量y,自变量x,从图中可见,体重和肾总体积有比较明显的直线相关趋势,也没有发现影响过强的异常点,可以进行相关分析。,3.相关性分析:AnalyzeCorrelateBivariate,Bivariate 对话框,默认,x和y的相关系数 r=0.8
4、75对r假设检验的 P0.001,秩相关的适用条件,不服从双变量正态分布 用等级资料表示的原始资料 总体分布未知或边界不确定的资料,秩相关(练习),教材 例13.4,数据录入与Pearson相关完全相同,只是分析时的选项要选择Spearman相关,1、数据录入:设置x和y两个变量,设置两个变量:x舒张压y 夜间最低血氧 含量分级,2、秩相关操作,x y同时选入,选择Spearman,3、秩相关结果,x和y的相关系数 rs=0.897对r假设检验的 P0.001,分类变量的关联性分析,教材 例13.7,Descriptive Statistics Crosstabs Chi-square 是否有
5、关联Contingency coeficient列联系数,计算列联系数,列联系数=0.355,P0.001,直线回归Linear Regression,直线回归含义,用直线回归方程描述成对观测数据中两变量间的数量依存关系,直线回归方程:x为自变量(independent variable),也称为解释变量(explanatory variable)y为因变量(dependent variable),也称为应变量(response variable),直线回归方程,直线回归方程:为当 x取某一值时应变量y的平均估计值 a为截距(intercept),即当 x=0 时y的平均估计值 b为回归系数(
6、regression coefficient),即直线的斜率,表示x改变一个单位时y的平均改变量。,直线回归方程,直线回归分析目的在于找出一条最能代表这些数据关系的直线,用直线方程来描述两变量的回归关系。最小二乘法原理:实测点到直线的纵向距离平方之和达到最小。,直线回归的统计推断,对的两种假设检验方法包括:t检验 方差分析,H0:=0,即无直线关系H1:0,即有直线关系,方差分析的基本思想,将全部数据的离均差平方和SS总分解成若干部分,其自由度也做相应的分解。,方差分析法的原理:对应变量y的离均差平方和进行分解,直线回归的统计推断,P(x,y),0,残差,回归,总变异,因变量y的离均差平方和分
7、解示意图,Y的均值,实测值y,估计值,的分解,上述三段的数学表达式为:将等式两端平方后再求和,最后得到:即SS总(lYY)=SS回+SS残,:总离均差平方和,即不考虑y与x回归关系的y的总 变异:回归平方和,即y的总变异中可以用y与x的回归关 系所解释的部分。值越大,说明回归效果越好。:残差平方和,即y的总变异中无法用y与x的回归关 系解释的部分,反映随机误差。在散点图中,各实 测点离回归直线越近,SS残 越小,说明直线回归 的估计误差越小。,自由度的分解,构造F统计量,方差分析表,本例,1.建立检验假设,确定检验水准,2.计算检验统计量,3.确定P值,作出统计推断,P0.01,按照0.05检
8、验水准拒绝H0。回归方程有统计学意义,可以认为腹腔内脂肪面积与腰围之间有直线回归关系。,直线回归的步骤:,1.考察数据的分布,即分析y变量的正态性。2.作散点图,确定有无线性趋势。3.建立直线回归方程。4.对方程及其参数进行估计与假设检验。5.绘制回归直线。,例14.1 某研究欲探讨男性腰围与腹腔内脂肪面积的关系,对20名男性志愿受试者测量其腰围(cm),并采用磁共振成像法测量其腹腔内脂肪面积(cm2),结果如表14.1所示。试建立腹腔内脂肪面积(y)和腰围(x)的直线回归方程。,第一步:数据录入,设置两个变量:x腰围(cm)y 腹腔内脂肪面积(cm2),与直线相关相同,注意区分x和y,第二步
9、:统计分析,1.绘制散点图Graphs Scatter SimpleY Axis框:yX Axis框:x,从图中可见,腰围和腹腔内脂肪面积有比较明显的线性趋势,也没有发现影响过强的异常点,可以进行回归分析。,2.直线回归分析:AnalyzeRegression Linear,应变量y,自变量x,点击,Statistics对话框,默认,计算相关系数、决定系数等,要勾选,计算回归系数的置信区间,默认,计算回归系数及假设检验,第三步:结果解释,介绍了模型拟合优度的情况:相关系数r=0.762 决定系数R2=SS回/SS总=0.581 剩余标准差(残差标准差)Syx=13.0353,模型总结,决定系数
10、(coefficient of determination),反映了回归贡献的相对程度,即在因变量y的总变异中用y与x回归关系所能解释的比例。在实际应用中,常用决定系数来反映回归的实际效果。值越大,说明方程拟合的效果越好。本例决定系数为0.581,说明男性的腰围信息可以解释其腹腔内脂肪面积变异的58.1%,还有剩余的41.9%的信息需要通过腰围以外的其它因素来加以解释。,F=24.924 P 0.001 按0.05的检验水准拒绝H0接受H1,回归方程有统计学意义,可以认为腹腔内脂肪面积与腰围之间有直线回归关系。,结果解释,回归方程的方差分析,1.截距a=-96.392,回归系数b=2.1112.tb=4.992,P0.001,结论同前(F检验)。3.写出直线回归方程:,回归系数的假设检验等价于相关系数的结果,结果解释,回归系数的假设检验:t检验,故所求回归方程为:,b=2.11053表明腹腔内脂肪面积随腰围增加而增加,且腰围每增加1cm,腹腔内脂肪面积增加2.11053cm2,4.绘制回归直线,Analyze Curve Estimation,Curve Estimation 对话框,应变量y,自变量x,Thank you!,