《医学统计课件人卫6版第十一章线性相关与回归.ppt》由会员分享,可在线阅读,更多相关《医学统计课件人卫6版第十一章线性相关与回归.ppt(29页珍藏版)》请在三一办公上搜索。
1、第十一章 直线相关与回归,线性相关线性回归,一、线性相关,(一)概念:如果两个随机变量中,一个变量由小到大变化时,另一个变量也相应地由小到大(或由大到小)地变化,并且测得两变量组成的坐标点在直角坐标系中呈直线趋势,就称这两个变量存在直线相关关系。线性相关,直线相关(1inear correlation)又称简单相关(simple correlation),要求两个变量均为正态分布(normal distribution)资料。一般来说,两个变量都是随机变动的,不分主次,处于同等地位。,一、线性相关,两变量间的直线相关关系用相关系数 r 描述。直线相关的性质可由散点图直观地说明。见图10-2,(
2、a)0r1(b)-1r0(c)r=1(d)r=-1,(e)r=0(f)r=0(g)r=0(h)r=0图10-2 相关系数示意,一、线性相关,一、线性相关,(二)相关系数的意义及计算用r表示样本相关系数,表示总体相关系数。它是说明有直线关系的两变量间,相关关系密切程度和相关方向的统计指标。计算:,一、线性相关,(二)相关系数的意义及计算相关系数没有单位,其值-1r1。当两变量呈同向变化时,0r1,为正相关;两变量呈反向变化,-1r0,为负相关;r0为零相关,表示无直线相关关系;两变量呈同向或反向变化且点子分布在一条直线上,|r|1为完全相关。例1 根据下表资料,试计算8岁健康男孩体重与心脏横径的
3、相关系数。,表1.13名8岁健康男童体重与心脏横径的关系,已算得,lXX=80.2692,lYY=4.1923,lXY=16.3846,一、线性相关,(三)相关系数的假设检验相关系数r是样本相关系数,它只是总体相关系数 的估计值。即使从=0的总体作随机抽样,由于抽样误差的影响,所得 r 值也不一定等于零。故当计算算出 r 值后,接着应做=0的假设检验,以判断两变量的总体是否有直线相关关系。,一、线性相关,(三)相关系数的假设检验1.常用t 检验:假设 H0:=0 H1:0,已知 n=13,r=0.8932,一、直线相关,(三)相关系数的假设检验2.查表法:按 查P210 附表11(r界值表),
4、-,二、直线回归,(一)直线回归的概念直线回归(linear regression)是用直线回归方程表示两个数量变量间依存关系的统计分析方法,属双变量分析的范畴。如果某一个变量随着另一个变量的变化而变化,并且它们的变化在直角坐标系中呈直线趋势,就可以用一个直线方程来定量地描述它们之间的数量依存关系,这就是直线回归分析。,二、直线回归,(一)直线回归的概念直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为因变量(dependent variable)和自变量(independent variable),习惯上分别用y和x来表示。,二、直线回归,(二)直线回归分析
5、的应用条件1.两变量的变化趋势呈直线趋势(linear);2.因变量y属于正态随机变量(normal distribution);3.对于I型回归要求对于每个选定的x,y都有一个正态分布的总体,并且这些总体的方差都相等(equal variance);对于II型回归,要求x、y均服从正态分布。,二、直线回归,(三)直线回归分析的一般步骤 1.将n个观察单位的变量对(x,y)在直角坐标系中绘制散点图,若呈直线趋势,则可拟合直线回归方程。2.求回归方程的回归系数和截矩。3.写出回归方程,画出回归直线。4.对回归方程进行假设检验。,二、直线回归,(四)直线回归方程及其求法 直线回归方程其中 b 称为
6、回归系数(coefficient of regression),含义为当x每变化1个单位时,因变量Y平均变化的单数;a称为截矩(intercept),为回归直线或其延长线与 y 轴交点的纵坐标。直线回归方程的求法:,式中lxy为X、Y的离均差积和,lxx为X的离均差平方和;,二、直线回归,(五)直线回归方程的假设检验 回归系数的检验亦即是回归关系的检验,又称回归方程的检验,其目的是检验求得的回归方程在总体中是否成立,即是否样本代表的总体也有直线回归关系。即使X、Y的总体回归系数为零,由于抽样误差的原因,其样本回归系数b也不一定为零,因此,需作是否为零的假设检验。,二、直线回归,(五)直线回归方
7、程的假设检验 方法有以下两种:1.方差分析:基本思想是将应变量Y的总变异SS总分解为SS回归和SS剩余,然后利用F检验来判断回归方程是否成立。SS总即 为Y的离均差平方和,反映未考虑X与Y的回归关系时Y的变异,其意义可通过下图加以说明。,P(X,Y),图1.应变量Y的平方和划分示意图,Y,X,任一点P的纵坐标被回归直线与均数 截成三段,表示实测点P与回归直线的纵向距离,即实际值Y与估计值 之差,称为剩余或残差。,即Y估计值 与均数 之差,它与回归系数的大小有关。|b|值越大,也越大,反之亦然。当b=0时,回归直线不能使残差减小。,SS总=SS回+SS剩 SS回为回归平方和,它反映在Y的总变异中
8、由于X与Y的直线关系而使Y变异减小的部分,也就是在总平方和中可以用X解释的部分。SS回越大,说明回归效果越好,即SS总中可用X与Y线性关系解释的变异越多。SS剩为剩余平方和,它反映X对Y的线性影响之外的一切因素对Y的变异的作用,也就是在总平方和SS总中无法用X解释的部分。在散点图中,各实测点离回归直线越近,SS剩也就越小,说明直线回归的估计误差越小。,SS剩=SS总-SS回,总=回+剩 总=n-1,回=1,剩=n-2,二、直线回归,(五)直线回归方程的假设检验 2.t检验:作b与的比较判断回归方程是否成立。实际应用中,由于相关系数的检验简单并与之等价,故一般用相关系数r的检验来代替回归系数b的
9、检验。,说明:两种检验方法是等价的,F=t2,直线回归方程的应用,1.定量描述两变量之间的依存关系:对回归系数b进行假设检验时,若,可认为两变量间存在直线回归关系,则直线回归方程即为两个变量间依存关系的定量表达式。2.利用回归方程进行预测:把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到个体Y值的容许区间。3.利用回归方程进行统计控制:规定Y值的变化,通过控制X的范围来实现统计控制的目标,所以统计控制是利用回归方程进行的逆估计。,应用直线相关和回归应注意的问题,1.作直线相关和回归分析要有实际意义;2.在进行分析之前,应先绘制散点图,当其分布有直线趋势时,才适宜作直
10、线相关回归分析。散点图还能提示资料有无异常点。3.两变量间存在直线相关关系,并不一定是因果关系,可能是伴随关系;4.直线回归方程的适用范围一般以自变量的取值范围为限,在此范围内求出的估计值称内插;超此范围所得称外延。若无充分理由应避免外延。5.相关系数假设检验中的概率P的大小只反映结论的可靠性,不能说明相关关系的密切程度。,直线相关与回归的区别与联系,(一)区别1.资料要求不同:相关要求两个变量是双变量正态分布;回归要求应变量Y服从正态分布,而自变量X是能精确测量和严格控制的变量。2.统计意义不同:相关反映两变量间的伴随关系这种关系是相互的,对等的;不一定有因果关系;回归则反映两变量间的依存关
11、系,有自变量与应变量之分,一般将“因”或较易测定、变异较小者定为自变量。这种依存关系可能是因果关系或从属关系。3.分析目的不同:相关分析的目的是把两变量间直线关系的密切程度及方向用一统计指标表示出来;回归分析的目的则是把自变量与应变量间的关系用函数公式定量表达出来。,直线相关与回归的区别与联系,(二)联系1.变量间关系的方向一致:对同一资料,其r与b的正负号一致。2.假设检验等价:对同一样本,t r=t b,由于t b计算较复杂,实际中常以r的假设检验代替对b的检验。3.r与b值可相互换算4.用回归解释相关:相关系数的平方 r2 称为决定系数,r2 是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分,其大小取决于 r2。回归平方和越接近总平方和,则 r2 越接近1,说明引入相关的效果越好,反之,则说明引入相关的效果不好或意义不大。,另外,也可从回归的角度对相关程度做进一步的了解。如r=0.5时,虽按检验水准认为两变量有相关关系(r=0.5,n=100时,t=5.715,t0.05,100=1.984,P0.05,认为相关有显著性)且相关较密切,但r2=0.25,表示SS回归在SS总中占的比例很小,说明两变量间的相关关系实际意义不大(即回归效果并不好)。,讨论:单项选择题,