《线性相关与回归.ppt》由会员分享,可在线阅读,更多相关《线性相关与回归.ppt(61页珍藏版)》请在三一办公上搜索。
1、线性相关与回归,直线相关 相关系数 样本相关系数的计算 相关系数的假设检验 总体相关系数的区间估计 应用相关系数时应注意的问题,直线回归 建立直线回归方程的基本原理 建立直线回归方程的步骤回归系数的假设检验 直线回归方程的用途 等级相关 曲线回归,直线相关,直线相关 称简单相关。用于研究两个随机变量与之间相关关系及密切程度。适用于双变量正态分布(bivariate normal distribution)资料。两变量X、Y间的相关关系可用散点图直观说明,而相关分析就是用相关系数对这种关系给以定量的描述。,相关系数 直线相关系数又称积差相关系数(coefficient of product-mo
2、ment correlation),简称相关系数。创用于F.Y.Edgeworth(1892),样本相关系数用r表示,总体相关系数用表示。,样本相关系数的计算 相关系数的计算公式为:,例9-1测得某地岁儿童10人的体重(kg)与体表面积(103cm2)资料见下表,试以此样本资料计算体重与体表面积的相关系数。,相关系数的假设检验 根据样本计算出的相关系数r,是总体相关系数的估计值。从=0(无直线相关)的总体中抽取样本,其r不一定为0。因此,得到r0后,由于存在抽样误差,则有必要检验r是否来自=0的总体,以判定两变量间是否有直线相关关系。,在进行假设检验时,无效假设H0为:=0,即两变量间无直线相
3、关关系;备择假设H1为:0,两变量间有直线相关关系。常用的假设检验方法是t检验,检验统计量t值的计算公式如下:,例9-2 就例9-1资料,问某地4岁儿童体重与体表面积间是否有直线关系?,H0:0,两变量间无直线相关关系;H1:0,两变量间有直线相关关系。0.05。,本例n=10,r=0.9579,按下式计算t值:查附表(t界值表),得P0.001,按=0.05水准拒绝H0,接受H1,故可以认为某地4岁儿童体重与体表面积呈正直线相关关系。,同样地,也可按=n-2直接查(r界值表)求P值。因为,所以,结论同t检验,P0.001,总体相关系数的区间估计 总体相关系数0时,从这样的总体中抽样计算出的样
4、本相关系数r不服从正态分布,此时,若对r按下式作Z变换(反双曲正切变换),则Z近似服从标准差为 的正态分布。故可以按正态分布原理求出Z的1-可信区间,再对Z的可信区间作反变换(双曲正切变换)得总体相关系数的1-可信区间。,反双曲正切变换:或,Z的1-可信区间计算公式:缩写,的1-可信区间计算公式:缩写,例9-3 已求得某地4岁儿童10人的体重与体表面积的相关系数(即样本相关系数),r=0.9579,求总体相关系数(即某地4岁儿童的体重与体表面积的相关系数)的95%的可信区间。,Z的95%可信区间为:的1-可信区间为:所以求得的95%可信区间为(0.8271,0.9903),其统计学意义为按95
5、%的可信程度得到的总体相关系数可能存在的一个范围。,应用相关系数时应注意的问题,1样本相关系数与总体相关系数间存在抽样误差,所以求得样本相关系数后应进行假设检验。2有相关关系不等于因果关系。有无因果关系还需结合专业知识进一步研究。3在实际工作中要区别相关的统计学意义与相关强度。相关有统计学意义指该样本相关系数r来自=0的总体概率很小,而相关强度表示两变量间相互关系的密切程度,用值的大小来反映。,直线回归,直线回归 直线回归分析是研究两变量X、Y数量上线性依存关系的一种统计分析方法。它要求应变量Y服从正态分布;自变量X是一个可以精确测量和严格控制的变量,也可以是一个服从正态分布的变量。直线回归分
6、析的任务就是求解X、Y变量的回归方程,并用此方程来反映X、Y两变量的线性依存关系。,建立直线回归方程的基本原理 在散点图中可以设想出无数条直线代表这些点的直线趋势,但是在这些直线中,我们希望找出一条最具代表性的直线,如果有一条直线它满足散点图上的每一点到该直线的纵向距离的平方和最小即最小(此即数学上的最小二乘法原理)这样一个条件,那么我们认为这样一条直线是最有代表性的。该直线回归方程的表达式为:,式中X为自变量,(读hat)为应变量Y的估计值。a为直线在Y轴上的截距,即X=0时的值。b为直线的斜率,称为回归系数,表示X变动一个单位时,平均变动的单位数。,在满足最小二乘法原理,即 最小的前提下,
7、用微积分学知识可推出a、b的计算公式为:,建立直线回归方程的步骤 1用实测数据绘制散点图 2计算回归系数b与截距a,,下面以例9-1资料说明建立直线回归方程的具体步骤:,过点(12,5.3832)与(15,6.0990)可在直角坐标系上作直线。若纵坐标、横坐标无折断时,将此直线左端延长与纵轴相交,交点的纵坐标必然等于截距a,同时所绘直线必然通过。这两点可以用来核对直线绘制是否正确。,回归系数的假设检验 样本回归系数b是总体回归系数的估计值。从=0(无直线回归关系)的总体中抽取样本,由于存在抽样误差,其b不一定等于0。因此,得到b0后,必须检验b是否来自=0的总体,以判定两变量间是否存在直线回归
8、关系。,回归系数的假设检验常用t检验,检验统计量值的计算公式为:,仍以例9-1资料说明建立直线回归方程后对回归系数的假设检验步骤:根据对例9-1资料进行回归分析的结果可得到如下数据:,1 建立检验假设并确定检验水准H0:0,即体重与体表面积间无直 线回归关系;H1:0,即体重与体表面积间有直 线回归关系。=0.05。,2.计算检验统计量,3.确定P值,作出推断结论 查附表(t界值表):因为,,故P0.001,所以按=0.05水准拒绝H0,接受H1。说明体重与体表面积间存在直线回归关系。这里值得注意的是:对同一资料,相关系数与回归系数的假设检验是等价的,即。,直线回归方程的用途 1两变量间存在直
9、线关系时,直线方程可定量地描述两变量间的线性依存关系。2根据直线回归方程由已知变量值估计未知变量值:如统计预测。,应用直线回归方程时应注意的问题 1求出样本资料的直线回归方程后应进行假设检验。2应用直线回归方程时,要注意方程只适用于自变量X的样本数据波动范围,不能任意外延其应用范围。,等级相关,等级相关 第一节介绍的积差相关系数适用于双变量正态分布的资料,但有时其中一个甚至两个变量都不服从正态分布,这时需用非参数相关分析方法。,本节介绍由spearman提出的秩相关分析方法。本方法适用于下列情况:不服从双变量正态分布而不宜作积差相关分析的资料;总体分布类型未知的资料;原始数据是按等级分类的资料
10、。,例9-2 某医院调查了12例病人的血小板浓度和出血症状两方面的资料,试以此样本资料计算秩相关系数。,表中出血症状是按等级分类的资料,称为等级资料,所以应采用秩相关系数来描述血小板浓度与出血症状之间的关系。本资料中出血症状这一变量相同秩次较多,有11个,占总观察病例数的91.7%(11/12)。秩相关系数计算步骤为:,若相同秩次总数不多于观察总例数的25%,可以采用简易公式计算秩相关系数,此时,要计算出di2,本例已计算出,计算过程及结果见表9-2第(7)和第(8)列,=402.5,n=12。代入简易公式式即可计算出秩相关系数=1-6402.5/(123-12)=-0.4073,,此例简易公
11、式计算出的秩相关系数的绝对值明显小于校正式计算值,这是由于本例相同秩次总数太多(多于25%)所致,所以对相同秩次出现次数较多的资料,计算秩相关系数时勿必用简易公式计算,以免产生较大的误差。,曲线回归,曲线回归 在医学研究中经常遇到两变量间不呈直线关系的资料,所以我们就无法直接应用直线回归分析来研究这种类型的资料;但是,我们可以通过适当的变量变换,使不呈直线关系的资料直线化(rectification)。曲线直线化扩大了直线回归的应用范围,,1曲线拟合(curve fitting)曲线直线化是曲线拟合的重要手段之一。对于某些非线性资料,可通过适当的变量变换使之直线化,用直线回归分析方法求出a、b
12、的大小,再还原为原始变量,即可得到拟合的曲线方程。,2直接使用变量变换后的直线回归 在卫生检验工作中,若两变量呈曲线趋势,常对变量进行变量变换使之直线化,然后求出新变量的直线化回归方程,绘制标准曲线(工作曲线),直接用于指导实践。,曲线拟合步骤 选定曲线类型 变量变换 按最小二乘法原理求直线化方程将直线化的方程转换为曲线方程,作曲线图。,选定曲线类型 先在坐标纸上绘制散点图,结合专业知识选取恰当的曲线类型。比如两变量间当变量X(自变量)增大,Y(应变量)随之增大(或减少)得越来越快。这时可拟合指数曲线或对数曲线。,变量变换 若曲线类型是指数曲线,只须对Y进行对数变换;若曲线类型是对数曲线,只须
13、对X进行取对数变换。变换后都分别使两变量间呈直线关系。,如指数曲线:Y=e(A+BX),若两边取自然对数后,有Y=A+BX(此处Y代表lnY),说明Y与X存在直线关系,所以我们可以对Y取对数变换后进行直线回归分析。,如对数曲线:Y=A+BlnX,X0,若对X进行取对数变换,有Y=A+BX(此处X代表lnX),说明Y与X存在直线关系,所以我们可以对X取对数变换后进行直线回归分析。,按最小二乘法原理求直线化方程 根据前面介绍的直线回归分析方法,求出变量变换后的直线回归方程Y=a+bX(Y和X是原始变量Y和X经适当变量变换后的新变量)。在卫生检验工作中,可直接应用此直线化方程而不必将它还原为曲线方程。,将直线化的方程转换为曲线方程,作曲线图。曲线直线化的关键是找到使曲线函数直线化的变量变换方法,而后的计算分析方法与前述的直线回归分析方法完全相同,故在本节不作具体实例介绍。,相关与回归分析流程图,