相关与回归.ppt

上传人:仙人指路1688 文档编号:2971349 上传时间:2023-03-06 格式:PPT 页数:41 大小:1.61MB
返回 下载 相关 举报
相关与回归.ppt_第1页
第1页 / 共41页
相关与回归.ppt_第2页
第2页 / 共41页
相关与回归.ppt_第3页
第3页 / 共41页
相关与回归.ppt_第4页
第4页 / 共41页
相关与回归.ppt_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《相关与回归.ppt》由会员分享,可在线阅读,更多相关《相关与回归.ppt(41页珍藏版)》请在三一办公上搜索。

1、直线相关与回归,中山大学公共卫生学院医学统计与流行病学系林爱华,主要内容,直线相关 等级相关 直线回归 直线相关与回归的区别与联系,前面我们讨论了对单个变量的统计分析方法,着重于比较该单个变量的组间差别。医学研究中常需分析变量间的关系,如血压与年龄。,相关(correlation)与回归(regression)是研究两个或多个随机变量之间相互关系的重要的统计分析方法,应用广泛。,相关是研究随机变量之间相互联系的密切程度和方向。回归是研究随机变量之间的数量依存关系。,本章介绍两个变量间的直线回归与相关,及等级相关。,第一节 直线相关,一、直线相关的概念:当两指标间不独立则为相关,即某一指标的取值

2、与另一指标的取值多少有关。探讨两个正态分布的随机变量有无直线关系时,统计学中用一个统计量描述直线相关的密切程度和方向,这个统计量称相关系数,记为r。相关系数的绝对值必然在0到1之间,即:,相关系数的大小表示相关的密切程度,例:体重与肺活量,胸围与肺活量相关系数的符号表示相关的方向,例:身高与体重,年龄与钙的吸收量,从研究总体随机抽取n个对象,每个对象观察X和Y两项指标,或者从已经配成对子的研究总体中随机抽取n对对象,每对对象观察同一指标。要求:独立随机的成对样本,并且X 和Y来自正态总体,这样的研究所获得的资料就可以做直线相关分析。,二.相关分析的资料来源:,例12-1 某医生随机抽查了12名

3、糖尿病患者的空腹血糖及胰岛素值,数据见下表,试做相关分析。,三、直线相关的统计描述:1散点图:,考察相关性最简单而直观的办法是散点图。以两条互相垂直的座标轴分别表示两个变量,n对观察值对应于座标平面的n个点,便构成一幅散点图。本资料绘制成散点图(Scatter plot)如下:,2.相关系数的计算:,(分子决定正负号),本例,,代入公式,得,根据例12-1的资料,散点图已观察两变量之间有直线趋势,现计算相关系数。,四相关系数的假设检验:常用方法有t 检验和查表法。,(一)t 检验:1.检验假设:H0:=0 H1:0=0.05,Sr为相关系数r的标准误自由度为,2.计算检验统计量:,3确定P值和

4、判断结果:=12-2=10,查t值表t0.01(10)=3.169,本例的tr=4.392 t0.01(10),P0.01,按=0.05的水准,拒绝H0,接受H1,认为糖尿病患者血糖和胰岛素之间存在负的直线相关关系。,根据自由度,查相关系数r界值表,查出r0.05(),若r r0.05(),则认为P0.05,不拒绝H0。若r r0.05(),则认为P0.05,拒绝H0,接受H1。本例=12-2=10,查r界值表,r0.05(10)=0.576,r0.01(10)=0.708,r=0.8115 r0.01(13),P0.01,按=0.05的水准,按=0.05的水准,拒绝H0,接受H1,与t检验结

5、论相同。,(二)查表法:,第二节 Spearman等级相关,线性相关适用于双变量正态分布,在实际应用中,当资料不符合上述条件时,可采用等级相关推断其相关性。不服从双变量正态分布。总体分布类型未知。等级资料。,1.等级相关系数rs的计算:,将成对的两组变量的观察值分别由小到大编秩次,当观察值相同时,取平均秩次,然后对秩次进行积差相关分析。式中X、Y分别为每对观察值X、Y的秩次。,例12-3 某医师测得一组患者血小板数及出血程度的资料如下表12-2,试分析二者之间的关系。,计算等级相关系数的步骤如下:(1)将每个变量的观察值分别由小到大排列编秩,当观察值相同时,取平均秩次。,(2)求Spearma

6、n等级相关系数。,2.Spearman等级相关系数的假设检验:,H0:S=0 H1:S 0=0.05 本例n=10,rs=-0.7539,查rs界值表得:rs(10,0.02)=0.745,rs rs(10,0.02),则P0.02,按=0.05水准,拒绝H0,接受H1,认为rs有统计学意义,说明患者血小板数与出血程度呈负的等级相关关系。,第三节 直线回归,随着所探索问题的深入,研究者通常更感兴趣于其中的一个变量如何定量地影响另一变量的取值,如医学研究中常需要从某项指标估算另一项指标,如果这指标分别是测量变量X 和Y,我们希望由X 推算Y的值。我们称X为自变量,Y则称为依赖于X 的因变量。如果

7、Y与X的关系呈线性时,我们可以用直线回归(linear regression)描述两者的关系。,100多年前,有位英国遗传学家(Galton)注意到当父亲身高很高时,他的儿子的身高一般不会比父亲身高更高。同样如果父亲很矮,他的儿子也一般不会比父亲矮,而会向一般人的均值靠拢。当时这位英国遗传学家将这现象称为回归,现在将这概念引伸到随机变量有向回归线集中的趋势。,一、回归的概念:,即观察值不是全落在回归线上,而是散布在回归线周围。但离回归线越近,观察值越多,偏离较远的观察值极少,这种不完全呈函数关系,但又有一定数量的关系的现象称回归。,二、直线回归的统计描述:(一)散点图:见图12-2。,(二)直

8、线回归的方程:,式中a,b是决定回归直线的两个系数。a为截距(intercept),b为回归系数,即直线的斜率(slope)。b的统计学意义:X每增加(减)一个单位,Y平均改变b个单位。,怎样的最好地代表了所有的Y,需要有个标准。经典的标准是最小二乘(least squares)原则:即每个观察点距离回归直线的纵向距离的平方和最小,即 最小。,直线回归方程的求解:最小二乘原理,保证各实测点距回归直线的纵向距离平方和最小。,例12-2 仍以例12-1的资料为例,已计算得糖尿病患者血糖和胰岛素之间存在负的相关关系,试继续进行直线回归分析。1.绘制散点图:见图1。2.计算基本数据:,=228.25=

9、-74.308,=17.76=10.308,3.建立回归方程:,4.直线回归方程的图示:为了进行直观分析,可按求出的回归方程在方格坐标纸上作图。在自变量X的实测范围内任取相距较远且易读数的两个X值,代入上式。如上例取X1=10.3,得Y1=12.74;取X2=25.0,得Y2=7.95。在图上确定(10.3,12.74)和(25.0,7.95)两个点,以直线连接,即得到直线回归方程的图形,见图12-2。,1.建立检验假设:H0:=0,H1:0,=0.05 2.计算统计量t:=n-2 为回归系数的标准误。,三、回归系数的假设检验:样本回归系数的假设检验(t检验):,为各观察值y 距回归线()的标

10、准差,反映x 的影响被扣除后y 的变异,故称为剩余标准差。,3确定P值,判断结果:按,查t 值表,t0.01(10)=3.169,tb t0.01(13),P0.01,按=0.05水准,拒绝H0,接受H1,认为糖尿病患者血糖和胰岛素之间存在负的直线回归关系。,四、回归方程的应用:,1.描述两个变量之间的数量依存关系。2.利用回归方程进行预测:由X预测Y的值。3.利用回归方程进行控制:由Y值控制X的取值范围。已知空气氮氧化物(Y)的污染与汽车流量(X)的回归关系,当确定Y的标准后,控制X的值。,第四节 直线相关与回归分析的关系,1.区别:资料上:相关要求X与Y为随机变量,且X和Y服从正态分布(双

11、变量正态分布)。回归要求Y为随机变量,服从正态分布;X可人为取值,称型回归。X与Y为随机变量,均服从正态分布;称型回归。,一、直线回归与相关的区别和联系:,应用上:说明变量间的依存变化关系用回归;说明变量间的相互变化关系用相关。,2.联系:(1)同一组资料,r与b正负号一致。(2)同一样本,tr=tb。(3)用回归解释相关。,(r2为确定系数。),二、应用相关与回归分析时应注意的问题:,1要求应变量Y服从正态分布,通常自变量X为可以精确测量或严格控制的因素。2.进行相关与回归分析时要有实际意义。3.相关关系不一定是因果关系,也可能仅是表面上的伴随关系。4.不能只根据相关系数绝对值的大小来推断两事物现象之间有无相关以及相关的密切程度,而必须进行相关系数的假设检验。,5.不要把相关系数有统计学意义误解为两事物或现象相关的密切程度。6回归方程一般只适用于自变量X实测数据的范围内,不能随意外推。7进行回归和相关分析之前,最好先绘制散点图,观察坐标点的分布趋势是否呈直线,再考虑是否应选择线性相关或回归分析方法;另外,还要观察有无异常点(outlier),即远离其它众散点的观察点。,The EndThanks,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号