《7相关与回归.ppt》由会员分享,可在线阅读,更多相关《7相关与回归.ppt(67页珍藏版)》请在三一办公上搜索。
1、相关与回归,王怡温州医学院环境与公共卫生学院Email:,知识点回顾,在医学科学研究中,常常要分析两个变量之间的关系,例如身高和体重、年龄和血压、体温和脉搏、药物剂量和疗效等问题,因此涉及到研究两个变量的相互关系。这时就涉及到两个变量之间的相关与回归。,积差相关系数,又称Pearson相关系数:定量描述线性相关程度好坏的常用指标,只适用于两变量呈线性相关时。特点:相关系数r 是一个无单位的量值,且-1 0 为正相关,r 0 为负相关;r 越接近于1,说明相关性越好;越接近于0,相关性越差。Spearman等级相关系数:当数据不满足条件双变量正态时。,知识点回顾,连续变量的相关指标(最常见),G
2、amma统计量:描述有序分类变量数据联系强度的指标,以下指标都是基于Gamma统计量衍生出来的。Kendalls Tau-b:反映两个有序分类变量的一致性。Kendalls Tau-c:对Kendalls Tau-b进行了校正。,知识点回顾,有序变量的相关指标,列联系数:基于2值得出Phi and Cramers V:也是基于2值得出Lambda 系数:用于反映自变量对因变量的预测效果不确定系数,名义变量的相关指标,知识点回顾,国家安全生产监督管理总局化学品登记中心,应急预案的编制步骤,1.编制准备:成立编写小组选择预案编制小组成员应考虑如下因素:必须具有相应的工作能力、奉献精神和权力;必须具
3、备必要的专业技术知识;必须是预案编制过程各相关方的代表;各成员必须目标一致、相互合作。预案编制小组代表可来自以下职能部门:安全、环保、操作和生产、保卫、工程、技术服务、维修保养、医疗、环境、人事以及相关政府部门的代表。,国家安全生产监督管理总局化学品登记中心,危险辨识和风险评价 危险辨识:识别和描述危险源及其特点的过程,其要素包括:源、事件、后果、概率 原则:横向到边、纵向到底、不留死角 危险辨识的关键任务:识别可能引发事故的材料、系统、生产过程或场所的特征;辨识可能出现的事故后果。危险辨识方法:材料性质分析:毒性、燃烧性、爆炸性、稳定性以及活性反应性。生产工艺和条件 安全评价和分析方法 重大
4、危险源辨识 利用经验,国家安全生产监督管理总局化学品登记中心,危险辨识内容包括以下几个方面:厂址和环境条件 厂区平面布置 功能分区(生产、管理、辅助生产、生活区)布置;高温有害物质、噪声、辐射、易燃、易爆、危险品设施布置;工艺流程布置;建筑物布置;风向、安全距离、卫生防护距离等;建(构)筑物 辨识和分析建筑物的结构、防火、防爆、朝向、采光、运输通道以及生产辅助设施;,Eta Kappa 值OR、RR等,其他相关指标,知识点回顾,实际上,在Crosstabs 过程的statistics 子对话框 中提供了非常整齐的相关分析指标体系。,相关分析简介,除了Crosstab过程的statistics
5、子对话框外,SPSS还在analyze菜单的correlation中提供了几个更专业的相关分析过程:,Bivariate 过程:最常用。Partial 过程:专门进行偏相关分析。Distances 过程:一般不单独使用,而用于因子分析、聚类分析和多维尺度分析的预分析。,相关分析简介,例1 在某克山病区测量12名健康儿童头发中的硒含量与血液中的硒含量,其结果如下。(数据文件见Si.sav),12名健康儿童的发硒与血硒的测量值(单位:1000ppm),简单相关分析Bivariate 过程,简单相关分析,双变量正态性判断,简单相关分析,结果分析,发硒值和血硒值均服从正态分布。,首先绘制散点图,结果如
6、下:,简单相关分析,两变量间存在线性相关趋势没有发现明显的异常值,简单相关分析,选入希望进行相关分析的变量,选择相关分析指标,简单相关分析,简单相关分析,结果分析,Pearson相关系数为0.880,且具有统计学意义,表明发硒和血硒有非常密切的关系,随着血硒的增加,发硒也随之增加。,简单相关分析,利用上述对话框可以计算秩相关系数,即spearman相关系数,对原始数据分布不作要求,利用两变量的秩次关系作线性相关分析,适用范围更广,但效能也较低。,简单相关分析,结果分析,对上面的例子计算秩相关系数的结果显示,秩相关系数为0.919,P 值0.001。,简单相关分析,上述对话框可用于计算kenda
7、lls等级相关系数,适用于两变量均为有序分类的情况。,简单相关分析,结果分析,对上面的例子计算等级相关系数,结果显示,等级相关系数为0.800,P 值0.001。,前面介绍的相关分析是分析两个计量资料间的关系,在计算积差相关系数、Spearman 相关系数和Kendalls相关系数的时候,都没有考虑第三方的影响,这就导致可能对事物的解释出现偏差。偏相关分析可以在控制其他变量的影响的情况下分析两个变量的相关性。,偏相关分析Partial 过程,例2 现已测得20名糖尿病人的血糖(y,mmol/L)、胰岛素(x1,mU/L)及生长激素(x2,g/L)的测量数据,见数据集pcorr.sav。试分析糖
8、尿病人血糖浓度与生长激素浓度间有无相关关系。,偏相关分析,偏相关分析,偏相关分析,选择需要在偏相关分析时进行控制的变量。,选择Zero-order correlations 复选框,则可以给出包括协变量在内所有变量两两相关的系数阵。,偏相关分析,偏相关分析,结果分析,可见,控制了胰岛素的影响后,血糖和生长激素之间的关系无统计学意义。,包括协变量在内所有变量两两相关的系数阵。,距离分析Distance 过程,简单相关和偏相关有一个共同点,那就是对所分析的数据背景应当有一定程度的了解。但有时会遇到一种情况,在分析之前对数据所代表的专业背景知识了解尚不充分,本身就属于探索性的研究,这时往往就需要先对
9、几个指标或者案例的差异性、相似程度进行考察,以先对数据有一个初步的了解,然后再根据结果考虑如何进行深入的分析。,例3 仍以例1数据为例,进一步作回归分析,计算发硒与血硒之间的回归方程。,分析:与相关分析类似,在回归分析之前首先要考虑的问题是两变量是否存在某种趋势,通过前面的散点图已经得到了肯定的结论,因此直接进行回归分析。,简单回归分析,绘制散点图如下:,简单回归分析,两变量间存在线性趋势没有发现明显的异常值,简单回归分析,选择应变量,选择自变量,简单回归分析,简单回归分析,结果分析,对各自变量纳入模型情况的汇总,本例只有一个自变量。,简单回归分析,结果分析,对模型的简单汇总,即对回归方程拟合
10、情况的描述。本例决定系数为0.774。,简单回归分析,结果分析,对模型进行方差分析的结果,说明模型具有统计学意义。,简单回归分析,结果分析,给出了回归方程中的常数项、回归系数的估计值和检验结果,可写出回归方程如下:血硒值-6.9430.239发硒值,最重要,多重线性回归分析,例4:27名糖尿病人的血清总胆固醇(x1)、甘油三脂(x2)、空腹胰岛素(x3)、糖化血红蛋白(x4)、空腹血糖(y)的测量值列于下表中,试建立血糖与其它几项指标关系的多重线性回归方程,数据见DM.sav。,27名糖尿病患者的血糖及有关变量的测量结果,多重线性回归分析,Step1:绘制散点图矩阵,多重线性回归分析,Step
11、2:多重线性回归的参数估计及假设检验,多重线性回归分析,结果分析,给出了自变量进入模型的方式,此处尚未涉及变量筛选问题,因为四个变量是被强行纳入模型的(Method为Enter)。,多重线性回归分析,结果分析,模型拟合优度情况的检验,结果显示,复相关系数为0.775,决定系数为0.601,调整的决定系数为0.528,还输出了剩余标准差。,多重线性回归分析,结果分析,回归模型的假设检验结果,显示F8.278,P0.001,说明所建立的回归模型是有统计学意义的,至少有一个自变量的回归系数不为0。,多重线性回归分析,结果分析,给出了模型的常数项以及四个自变量的偏回归系数及其检验结果,可以写出回归方程
12、如下:,多重线性回归分析,主要结果,自变量的选择,一般来说,多重线性回归方程中自变量个数的多少应事先由专业人员和统计学家根据专业知识和经验确定。实际应用中,自变量的个数往往难以事先确定。自变量选择的不合适(过多或过少)往往会大幅度降低回归模型的精度,为此应将回归效果显著的自变量选入方程,将不显著的自变量从方程中剔除。如何合理选择自变量就显得尤为重要!,多重线性回归分析,逐步回归分析,逐步回归分析,输出SPSS在逐步回归过程中拟合的2个步骤中,每一步引入模型的变量情况。,结果分析,逐步回归分析,结果分析,分别输出拟合的2个模型中,拟合优度情况的检验结果:复相关系数、决定系数、调整的决定系数以及剩
13、余标准差。,逐步回归分析,结果分析,给出了各个拟合模型的常数项以及各自变量的偏回归系数及其检验结果。,逐步回归分析,例题中逐步回归模型回归系数的估计及检验结果,逐步回归分析,结果分析,建立“最优”回归方程为:,结果表明:血糖的变化与总胆固醇和糖化血红蛋白有线性回归关系。由标准化回归系数看出,糖化血红蛋白对空腹血糖的影响最大。,逐步回归分析,结果分析,回归模型的前提假设(LINE),线性(Linear)散点图、残差图独立性(Independent)根据专业知识判断正态性(Normal)残差的直方图或正态概率图方差齐性(Equal variance)X、Y的散点图或残差的散点图,知识点回顾:,残差
14、分析,模型适用条件的检验因变量与自变量之间存在线性关系的检验(以例1为例),残差分析,模型适用条件的检验独立性的检验,通过Linear Regression过程的statistics按钮中的Durbin-Watson检验进行判断。若自变量数少于4个,统计量接近2,基本上可以肯定残差间相互独立。仍以例1为例,结果如下。,残差分析,模型适用条件的检验方差齐性的检验,残差分析,模型适用条件的检验正态性的检验,绘制残差的直方图及PP图的复选框,残差分析,模型适用条件的检验正态性的检验结果,小 结,相关系数r 表示两变量间的直线相关程度,r 值的范围为-11。r 为正表示X与Y之间为正相关,r为负表示负
15、相关。r 接近于0表示两变量间关系不密切。但r 有抽样误差,故算得相关系数之后,必须检验相应的总体相关系数是否为0。,小 结,研究中一般只涉及直线相关关系,但从理论上讲,可以进行变量间的曲线相关分析;如果希望扣除其他变量的影响,可以进行偏相关分析;如果变量不满足线性相关分析的适用条件,则可以进行Spearman秩相关分析。,小 结,回归模型的建立步骤,绘制散点图,观察变量间的趋势。(不能随意省略)考察数据分布,进行必要的预处理。进行直线回归分析。残差分析。(最重要和直观的方法是图示法)强影响点的诊断和多重共线性的判断。,小 结,在意义和应用上,回归反映两变量间的依存关系,相关反映两变量间的相互
16、关系。在资料要求上,相关要求X与Y都是随机变量,而且服从双变量正态分布,这种资料若进行回归分析,一般称为型回归模型。而回归要求应变量Y是随机变量,服从正态分布,自变量是固定的非随机变量,建立的模型称为型回归模型。,相关与回归既有区别又有联系。,相关系数和回归系数的正负号相同,假设检验一致。对同一样本,两者的t值等价。由于r 的假设检验可直接查表,较为简单,而b的假设检验较复杂,故可用r 的假设检验代替b的假设检验。回归与相关可以相互解释:r2 SS回SS总 即相关系数的平方是应变量Y的总变异中归因于X的部分。r2又称确定系数(determinant coefficient)。,小 结,练习,练习,