《《相关回归分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《相关回归分析》PPT课件.ppt(31页珍藏版)》请在三一办公上搜索。
1、相关与回归分析,一、相关分析一种事物与另一种事物的相互联系程度 及性质的分析。前面已经讲过:次数资料X2独立性检验,就是一种相关分析。连续性资料相关分析。相关两个具有相互依存的现象,一种现象的数值常常 伴随另一种现象的数值变化,呈现相偕变异,称 为相关。,相关分析,相关形式,相关程度,直线相关曲线相关矩阵相关,相关系数衡量现象间相互关系的尺度。决定系数衡量相关程度的尺度,不表示 相关性质。,相关系数0 1 正相关现象间变量关系成正比。0-1 负相关现象间变量关系成反比。0 无关独立事件。1 直接相关,(x-x)(y-y)=0 无关,(x-x)(y-y)0,(x-x)(y-y)=1,(x-x)(
2、y-y)=0无关,(x-x)(y-y)0,(x-x)(y-y)=-1,由于:(x-x)(y-y)统计学上称为乘积和能反映两个 变量的联系程度,但受N的影响很大。所以:把乘积和标准化。标准化的方法是:把离差转换成标准差,再除以N.1 X-X Y-Y得:r N,(X)(Y),1 X-X Y-Y N(X)(Y)N N,1(X-X)(Y-Y)N XY N,(X-X)(Y-Y)XY,(X-X)(Y-Y)(X-X)2(Y-Y)2,因为:(X-X)(Y-Y)X(Y-Y)-X(Y-Y)=XY-XY-XY+XY Y X X Y=XY-X n-Y n+n n X Y X Y X Y=XY-n-n+n,X Y所以:
3、XY-n r(X)2(Y)2(X2 n)(Y2 n),例:用凯氏定氮法(KP)和染料结合法(DBC)两种方法测定水 稻籽粒蛋白质含量如表,求两种方法的相关系数。第一步:列表、求出X、X2、Y、Y2、XY,将数据代入公式,得:,2、决定系数即相关系数的平方。这是统计学上规定的,目的是防止对相关程度作夸大的解释。它只表示相关程度,而不表示相关性质。上例中的决定系数为:r0.953 则:r20.90823、简单相关系数的显著性检验:X-X 因为:t X r p 1 r2 所以:tr Sr 定义:Sr=n 2 由于单个样本的相关系数的显著性检验是:H0:p 0 HA:p 0 以总体无相关为出发点的,r
4、 r p r 1 r2 所以:tr Sr Sr n 2,0.935上例中:r 1 0.9082 trSr 102 8.90t0.01,8 3.355 8.90 3.355 p 0.01,相关系数显著性检验:方法二(ra值查表法t r值的转换)我们已知:r r r ta sr(1-r2)/(n-2)=(1-r2)/df r2 r2df平方后得:t2(1-r2)/df r2df/(1-r2)1-r2移项:t2(1-r2)r2df t2t2r2r2df t2r2dft2r2 t2r2(dft2)t2 t2 r2df+t2 rdf+t2,上例中:r0.935 n 10 df10-28 t0.01,83
5、.355 3.3552所以:r8+3.3552 0.7646以上的计算已列于表12中(416页)查a0.01,剩余自由度8得:r0.01,80.765现在:0.9350.765 p0.01 否定H0,接受HA。相关极显著。,4、r z值变换:当:0时,r的抽样分布不是正态的,例如:n8时r的抽样分布:因此,必须将r转换成z值后才符合正态分布。转换的方法是:1、先求出相关系数离1的偏差比值:即:(1+r)/(1-r)2、进行平方根转换:即:(1+r)/(1-r)(1+r)/(1-r)1/2,3、进行对数转换:即:ln(1+r)/(1-r)1/2 这就是著名的Fisher Z值变换公式 所以:Z=
6、ln(1+r)/(1-r)1/2 ln(1+r)/(1-r)=1/2 ln(1+r)-ln(1-r)折合成常用对数:Z=1.1513log(1+r)-log(1-r)这种转换已经制成了表格(附表13,p462页,书中的表格不全,有些转换还必须计算)。例:1)、r0.62 n14 2)、r0.4699 n103 查表得:Z0.51 3)、r0.83 n14 4)、r0.81 n11解:1)当r0.62时,Z=1/2 ln(1+0.62)-ln(1-0.62)=0.7250 2)当r0.83时,Z=1/2ln(1+0.8)ln(1-0.8)=1.1881 3)当r0.81时,Z=1/2ln(1+0
7、.81)ln(1-0.81)=1.1270,5、r z 转换后的显著性检验:根据零假设的不同,将有三种情况:H0:=0,HA:0 r z转换后 u测验的三种情况 H0:=m,HA:m H0:1=2 HA:1 2,因为r z值后资料已服从正态分布,所以采用u测验。,、H0:=0(总体无相关),HA:0(总体有相关)例:287页(6.15)已知r0.62 n14 问:相关是否显著?(单个样本的显著性检验,样本比总体)方法一:t测验法:r r 0.62 tSr(1-r2)/(n-2)(1-0.622)/(14-2)2.7374 查t值表:t0.05,122.179;t0.01,123.055 2.7
8、3742.179 P0.05 否定H0,接受HA,相关显著。,方法二:查r值表法:查附表12:(461页)n 2 12 k 1(单个样本)R0.05,120.532 r0.01,120.661 0.620.532 P1.96 p0.05 否定H0,接受HA,相关显著。,、H0:P1=P2(两样本相关系数相等)HA:P1P2例:6.17 P288页:r10.83 n114 r20.81 n211问:两个相关系数之间的差异是否显著?解:当:r10.83时,Z1 1/2ln(1+0.83)-ln(1-0.83)1.1881 当:r20.81时,Z2 1/2ln(1+0.81)-ln(1-0.0.81
9、)1.1270 Z1-Z2 U=1/(n1-3)+1/(n2-3)=1/(14-3)+1/(11-3)=0.1315因为:U0.05(双侧)1.96 0.13150.05结论:接受H0:P1=P2 r1与r2两个相关系数间的差异不显著。,6、相关系数的合并:a、必须是相关系数间无显著差异才能合并。合并的原则:b、不是将r值平均,而是将Z值加权平均。Z值加权平均的公式为:(n3)Z Z 自由度上例(p288页,例6.17)r Z dfn3(n3)Z r10.83 Z1=1.1881 14-3=11 13.0691 r20.81 Z2=1.1270 11-3=8 9.0160 df19(n3)Z2
10、2.0851(n3)Z 22.0851 Z 自由度=19=1.1624 1+r因为:Z=1/2ln(1-r)所以:2Z=ln(1+r)/(1-r),取反对数:(1+r)/(1-r)antiln(2Z)1+rantiln(2Z)(1-r)1+r antiln(2Z)-antiln(2Z)r r+antiln(2Z)r antiln(2Z)-1 rantiln(2Z)+1=antiln(2Z)-1 antiln(2Z)-1 antiln(21.1624)-1 r antiln(2Z)+1 antiln(21.1624)+1 0.8218所以:水稻籽粒蛋白质含量与赖氨酸含量两个相关系数合并 后的相关
11、系数是:r0.8218。再举一个合并相关系数的例子:例:调查我国18岁男子264人,肺活量与身高的:r10.395 同龄女子37人,肺活量与身高:r20.269。问:18岁的青年男女,肺活量与身高的相关系数是多少?,首先将r值转换成Z值:r Z df(n3)Zr10.395 Z1=1/2ln(1+0.395)-(1-0.395)=0.4177 264-3261 109.0197r20.269 Z2=1/2ln(1+0.269)-(1-0.269)=0.2758 37-334 9.3772 df295 118.3969(n3)Z 118.3969 Z 自由度=295=0.4013 antiln(
12、2Z)-1 antiln(20.4013)-1 r antiln(2Z)+1 antiln(20.4013)+1 0.3811结论:18岁青年男女的肺活量与身高的相关系数是0.3811。,7、多个相关系数差异显著性的X2检验法:H0:P1=P2=P3=Pi HA:P1P2P3Pi例:统计工人、农民、医生、教师四种不同职业的人的年龄 和血压的相关系数资料如下:职业 r n n3 Z(n3)Z工人 r10.6421 163 160 Z1=1/2ln(1+0.6421)-ln(1-0.6421)=0.7617 121.8720农民 r20.6372 79 76 Z2=1/2ln(1+0.6372)-
13、ln(1-0.6372)=0.7534 57.2584教师 r30.7921 182 179 Z3=1/2ln(1+0.7921)-ln(1-0.7921)=1.0770 192.7830医生 r40.6764 54 51 Z4=1/2ln(1+0.6764)-ln(1-0.6764)=0.8224 41.9424=466=412.8558(n3)Z 412.8558 Z 自由度=466=0.8660X2=(Zi-Z)2(ni3)(0.7617-0.8860)2160+(0.7534-0.8860)276+(1.0770-0.8860)2179+(0.8224-0.8660)251 10.54
14、48,查表:X20.05,3=7.815 X20.01,3=11.345 10.54487.815 P0.05结论:否定H0,接受HA。相关系数间的差异显著。说明年龄与血压的相关因不同的职业而异。8、组内相关:简单相关也叫组间相关。是研究性质上不同的两种 现象间的关系。组内相关成对的观察单位研究同一现象间的关系(性质上相同)例如:成对染色体长度间的相关。动物孪生个体体重间的相关。由于两个观察值性质相同,具体观察时难于区别究竟哪一个属于X,哪一个属于Y,所以理论上取平均值。,设:n对观察值,故:观察总数2n X+Y 其重量的平均数为:XY=2n 将平均数代入相关系数公式,可以导出:2(X-XY)
15、(Y-XY)r(X-XY)2+(Y-XY)2例:10胎孪生牡羊产后一个月体重间的组内相关。(见下表),XY=(X+Y)/2n(290+310)/21030 2(X-XY)(Y-XY)2114 r(X-XY)2+(Y-XY)2 216+146 0.6298显著性检验:,三种检验方法U测验最灵敏,9、组内相关的推广应用:如:研究三胞胎、四胞胎体重间的相关,其公式为:X+Y+M XYM=MN M表示变量的个数 M(X-XYM)(Y-XYM)(M-XYM)r=(X-XYM)2+(Y-XYM)2+(M-XYM)210、等级相关用等级表示的变数的相关研究(成对的等 级变数之间的相关研究)。如:鸡蛋的大小与
16、蛋壳颜色深浅的相关 植物花的颜色与开花迟早的相关,只能用等级表示,例:甲乙两个水稻品种在13个地区种植的产量等级:,d221.5 6d2 621.5rk=1-n(n2-1)1-13(132-1)0.9409 等级相关系数只是一种粗略的估计。11、净相关(偏相关)净相关是组内相关研究的一种 特殊研究方法。特殊在,每次 固定其它的变量,而只研究其 中的一对变量。这样,可排除 其它变量因素的干扰,得到的 相关系数仅反应两个变量的相 关,故称净相关。之所以称偏,是根据偏回归系数而来的。一级净相关有三个变量,每次固定一个,研究其中两 个。因而有C31=3个一级净相关:,r12,3 r13,2 r23,1
17、 二级净相关有四个变量,每次固定两个,研究其中两个。因而有C42=6个二级净相关:r12,34 r13,24 r14,23 r34,12 r24,13 r23,14 二级以上净相关研究计算烦琐,实用价值也不大。一般研究上应用较多的是一级净相关。其公式为:r12r13r23 r12,3(1-r132)(1-r232)r13r12r23 r13,2(1-r122)(1-r232)r23r12r13 r23,1(1-r122)(1-r132),例:橡胶树病情指数与最冷月平均温度及一月份平均温度 13年的资料。,第二步:求简单相关系数:x1x2x1x2/nr12x12-(x1)2/nx22-(x2)2
18、/n 5978.41371.9201.3/13(15580.23371.92/13)(3132.49201.32/13)0.7954r130.7716r230.8693第三步:求净相关系数:r12r13r23 0.79540.77160.8693 r12,3(1-r132)(1-r232)(10.77162)(10.88932)0.3964 r13r12r23 0.77160.79540.8693 r13,2(1-r122)(1-r232)(10.79542)(10.86932)0.2676 r23r12r13 0.86930.79540.7716 r23,1(1-r122)(1-r132)(
19、10.79542)(10.77162)0.6629,比较:简单相关(组间相关)净相关(组内相关)r120.7954 r12,30.3954 r130.7716 r13,20.2627 r230.8693 r23,10.6629 由于受另一变量的影响 消除了另一变量的影响 夸大了两者的相关密切 是合理的衡量相关的尺度。程度。第四步:净相关系数显著性检验(U测验法)当:r12,30.3954时,z1/2ln(1+0.3954)ln(10.3954)0.4182 Uz/1/(n3)zn30.4182/(10-3)1.3225 U0.05(双侧)1.96 1.32250.05 结论:接受H0,相关不显
20、著。即:橡胶树的病情指数与最冷月平均气温关系不密切。,当:r13,20.2627时 z1/2ln(1+0.2627)ln(10.2627)0.2690 U0.269013-30.8507 0.85070.05结论:接受H0,相关不显著。即:橡胶树的病情指数与一月份平均气温关系不密切。当:r23,10.6629时,z1/2ln(1+0.6629)ln(10.6629)0.7980 U0.0.798013-32.5234 U0.05(双侧)1.96 U0.01(双侧)2.576 2.52341.96 P0.05结论:否定HO,接受HA,相关显著。即:最冷月平均气温与一月份平均气温的相关显著。,12
21、、复相关又称多元相关。即某种现象(依变量)与某 些现象(自变量)的综合相关。如:水稻的产量5月份降雨量 6月份降雨量 7月份降雨量 家畜日增重家畜年龄1岁 家畜年龄2岁 家畜年龄3岁R1,23m=1-(1-r122)(1-r13,22)(1-r14,232)(1-r1m,23(m-1)上例中:已知:r120.7954 r13,20.2627则:R1,23=1-(1-0.79542)(1-0.26272)=0.8112,显著性检验:(U测验)当:r0.8112时,z1/2ln(1+0.8112)ln(10.8112)1.1305 U=1.1305133 3.575 U0.01(双侧)2.576 3.5752.576 P0.01结论:否定HO,接受HA.即:橡胶树的发病指数与最冷月平均温度和一月份平均 温度的复相关极显著。,