《两变量间相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《两变量间相关与回归分析.ppt(57页珍藏版)》请在三一办公上搜索。
1、第十一章 两变量间相关与回归分析,对一个变量的每个可能取值,另一个变量都有完全确定的值与之对应,则称这两个变量之间的关系呈现函数关系,称确定性关系。若两变量之间确实存在着某种关系,但这种关系不是一一对应的函数关系,称非确定性关系。,第一节 直线相关,一、直线相关的概念 描述两个变量相互关系最简单的统计方法就是直线相关分析:两个变量是否有直线相关关系?如果有直线相关关系,那么它们之间的关系是正相关还是负相关?相关程度如何?,散点图,图11-1 两变量相关关系示意图,二、相关系数的定义与计算,相关系数(correlation coefficient)又称为积差相关系数(coefficient of
2、 product moment correlation)、皮尔逊相关系数(Pearsons correlation coefficient)、简单相关系数(simple correlation coefficient)等,以符号r表示样本相关系数,表示总体相关系数。它说明具有直线关系的两个变量,相关关系的密切程度与相关方向的指标。其值为r。,计算公式,三、相关分析的步骤,例11-1某医师测得10名3岁儿童的体表面积(m2)与体重(kg)原始资料见表11-1第2、3栏,试分析三岁儿童体表面积与体重间的相关关系。,计算步骤如下:,1、绘制散点图:,2、相关系数的计算,4、相关系数的假设检验,四、相
3、关分析中应注意的问题,(1)进行相关分析的资料应有实际意义。(2)相关系数的计算适用双变量正态分布资料(3)进行相关分析前应先绘制散点图。,图11-3 异常点对相关分析的影响,(4)相关关系不完全等同于因果关系。(5)实际工作中计算出的相关系数仅是样本 相关系数(6)不要把相关系数的假设检验结果误认为 两事物或现象间相关的密切程度。,(7)要注意资料的同质性。,图11-4样本来自不同总体时对相关性的影响,data li11_1;input x y;cards;11.00.528311.80.529912.00.535812.30.529213.10.560213.70.601414.40.58
4、3014.90.610215.20.607516.00.6411;proc corr;var x y;run;proc plot;plot y*x=*;run;,第二节 直线回归,相关分析是描述两变量之间相互关系 回归分析是分析两变量间是否有依存关系一、直线回归方程a称为截距,b称之为斜率或回归系数,表示当自变量X每改变一个单位,因变量Y平均变动的单位数。,最小二乘法:,二、实例求解回归方程例11-2某地测得10名3岁儿童的体表面积(m2)与体重(kg)资料见表11-1第2、3栏,试求3岁儿童由体重推算体表面积的回归方程。,二、实例求解回归方程,1、绘制散点图。2、计算 77.55946-13
5、4.45.7266/10b 0.02385 1831.24-(134.4)2/10,3.绘制回归线,图11-5 三岁儿童的体表面积与体重的回归线,三、直线回归方程的假设检验,1、回归系数的假设检验方差分析,F=89.024,P0.01,拒绝H0,接受H1,回归方程有统计学意义,故可认为小儿体表面积与体重之间有直线回归关系存在。2、回归系数的假设检验t检验,SY.X为剩余标准差,P0.01,四、直线回归方程的应用,1、描述两变量间的依存关系2、利用回归方程进行预测 所谓利用回归方程进行预测就是把自变量代入回归方程,对应变量进行估计,可求出因变量取值的波动范围,即个体Y值的预测区间(predict
6、ion interval,PI)。当X为某定值时,Y的1-预测区间为:,SY为总体中当X为某定值时Y的标准差,例12-3:例12-2所得的回归方程:,若已知某岁儿童的体重为13.5kg,试估计该儿童体表面积:,3、利用回归方程进行统计控制,统计控制是利用回归方程进行逆估计,如要求因变量Y在一定范围内波动,可以通过控制自变量X的取值来实现。,data li11_2;input x y;cards;11.00.5283 11.80.5299 12.00.5358 12.30.5292 13.10.5602 13.70.601414.40.5830 14.90.6102 15.20.6075 16.
7、00.6411;proc reg;model y=x/stb P/*输出y的实测值、预测值及其误差、残差*/Clm/*输出预测值均值的95%的置信区间*/cli;/*输出y的95%的预测区间*/Run;,五、直线回归分析中应注意的问题,1、进行回归分析要有实际意义。2、注意直线回归分析的条件。线性 独 立性 正态性 方差齐性 3、结果的正确解释:不能混淆P值与回归系 数的意义。4、线性回归应用时应考虑其实测范围。,第三节 直线回归与直线相关分析的区别与联系,一、直线回归与直线相关分析的区别 1.资料要求不同。2.应用目的不同。3.统计意义不同二、直线回归与直线相关分析的联系 1.正负符号一致
8、2.假设检验等价 3.r与b可换算 4.用回归解释相关:决定系数=,第四节 秩相关,一、Spearman等级相关系数,二、假设检验,例12-5 某保险公司在18个地区开展大病住院医疗保险,收集到表11-2(1)、(2)、(4)栏统计资料。资料中X表示承保深度(参保人数对该地区人口数的比例,%),Y表示因大病住院赔付系数(住院赔付额对保费收入的比例,%)。现欲研究大病住院医疗保险承保深度与赔付系数间的关系。,data li11_5;input x y;cards;8.31.0 2.54.24.03.8 6.92.49.80.8 6.63.45.52.8 7.53.98.21.5 2.13.19.
9、01.4 6.23.6;proc corr spearman;var x y;run;,曲线拟合,二、曲线拟合的一般步骤,依据分析目的确定自变量X和应变量Y之后,根据两变量散点图呈现的趋势,结合专业知识及以往经验选择合适的曲线形式。选用适当的估计方法求得回归方程。曲线直线化作最小二乘拟合,非线性最小二乘法,利用统计软件中的一些数值算法直接求得Y和X关系的估计方程。,可结合散点图试配几种不同形式的曲线方程并计算其R2,一般来说R2较大时拟合效果较好。为了单纯地得到较大的R2,模型的形式可能会很复杂,甚至使其中的参数无法解释实际意义。要充分考虑专业知识,结合实际解释和应用效果来确定最终的曲线。,例
10、1:对数曲线拟合,某研究者以已知浓度免疫球蛋白A(lgA,g/ml)作火箭电泳,测得火箭高度(cm)如下表,试采用恰当的回归方程描述火箭高度Y与lgA浓度X之间的关系。,对数曲线,data dsh;input x y;x1=log10(x);cards;0.20 7.60 0.40 12.30 0.60 15.70 0.80 18.201.00 18.70 1.20 21.40 1.40 22.60 1.60 23.80;proc reg;model y=x1;/*曲线直线化法*/run;,data dsh2;input x y;cards;0.20 7.60 0.40 12.30 0.60
11、15.70 0.80 18.201.00 18.70 1.20 21.40 1.40 22.60 1.60 23.80;proc nlin;parms a=0 b=0;model y=a+b*log10(x);run;,例2:指数曲线拟合,例某疾病防治站重复治疗钩虫病病人的次数(X)与复查阳性率(y)资料如下。根据散点图用合适的曲线回归方程来拟合此资料。X 1 2 3 4 5 6 7 8Y 63.9 36.0 17.1 10.5 7.3 4.5 2.8 1.7,指数曲线,data zhsh;input x y;cards;1 63.92 36.03 17.14 10.55 7.36 4.57
12、2.88 1.7;proc nlin;parms a=0 b=0;modely=exp(a+b*x);proc plot;plot y*x=*;run;,例3:抛物线拟合:,大气污染对日光紫外线辐射的影响研究时间X 9 10 11 12 13 14 15紫外线强度Y.47.57.68.73.67.55.38,data pwx;input x y;cards;9 0.47 10 0.57 11 0.68 12 0.73 13 0.67 14 0.55 15 0.38;proc nlin;parms a=0 b=0 c=0;model y=a+b*x+c*x*2;proc plot;plot y*x=+;run;,常见的几种 曲线拟合,