《相关分析》PPT课件.ppt

上传人:小飞机 文档编号:5558028 上传时间:2023-07-20 格式:PPT 页数:78 大小:724.50KB
返回 下载 相关 举报
《相关分析》PPT课件.ppt_第1页
第1页 / 共78页
《相关分析》PPT课件.ppt_第2页
第2页 / 共78页
《相关分析》PPT课件.ppt_第3页
第3页 / 共78页
《相关分析》PPT课件.ppt_第4页
第4页 / 共78页
《相关分析》PPT课件.ppt_第5页
第5页 / 共78页
点击查看更多>>
资源描述

《《相关分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《相关分析》PPT课件.ppt(78页珍藏版)》请在三一办公上搜索。

1、Linear correlation线性相关,两指标间的直线相关,柏建岭,Department of Epidemiology&Biostatistics,School of Public Health Nanjing Medical University,直线相关分析(linear correlation analysis),问题的提出 the Relationship 确定性关系与相关关系相关关系散点图Pearson相关系数相关系数的计算相关系数的性质相关关系示意图相关系数的含义相关系数的假设检验总体相关系数的区间估计相关分析的正确应用,1.问题的提出,以往方法的局限仅限于考察一个观察指标

2、,问题的提出,人的体重往往随着身高的增加而增加。二者之间是否存在某种关联?如果存在,可否用身高来推测体重的多少?儿童所能发出的最长音调往往和年龄有关。同样,是否可以建立年龄和音调长度的数量关系?人的肺活量往往随着胸围的增加而增加。举重运动员所能举起的最大重量是否与他的体重有关?,联系与相互影响是普遍的现象,2 确定性关系与相关关系,2 确定性关系与相关关系,2 确定性关系与相关关系,确定性的函数关系:两变量间的函数关系。,随机性的相关关系:两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。,圆的周长与半径的关系:C2R 速度、时间与路程的关系:LST,青少年身高与年龄的关系;体重与体表

3、面积的关系;,相关关系与确定性关系(2),当对事物的规律了解加深时,相关关系可以转变为确定性关系。父亲患白化病X,(X=是,否);子女患白化病Y,(Y=是,否);X与Y的关系不确定。,当母亲患白化病时,X与Y的关系确定:X=是,则Y=是;X=否,则Y=否。(父亲为异常基因的携带者出外。),3 相关关系,当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关(correlation)。两个变量有共变现象,称为有相关关系。,若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positive correlation);若一个变量增加时,另一个变量减少,变化趋势

4、是反向的,则称为负相关(negative correlation)。,3 相关关系,直线相关(linear correlation),又称简单相关,用以描述两个呈正态分布的变量之间的线性共变关系,常简称为相关。,直线相关的概念,4 Scatter plot(or scatter diagram)is a graph in which the paired(x,y)sample data are plotted with a horizontal x axis and a vertical y axis.Each individual(x,y)pair is plotted as a singl

5、e point.,散点图(Scatter plot)在平面直角坐标系上标识两变量(x,y)间关系的统计图。,例 10名3岁男童体重与体表面积的关系,编号 体重(X,kg)体表面积(Y,103cm2)111.05.283211.85.299312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.075 1016.06.411 合计134.457.266,10名3岁男童体重与体表面积散点图,体重(kg),X,体表面积Y(103cm2),散点图的特点,总的趋势:体表面积随体重的增加而增加。总的趋势:直线,无弯曲度。部分观察

6、点的分布有时并不反映这个总趋势,甚至和总趋势相背离。绝大部分散点分布在一条不太宽的倾斜的“带状”区域内,反映两定量指标间的相关关系用 Pearson 相关系数,r。(Pearson correlation coefficient)用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标.,5 Pearson相关系数,5 Pearson相关系数,X 的离均差平方和:Y 的离均差平方和:X与Y 间的离均差积和:,以下资料选自Galton的一项研究,目的是探讨成年时身高是否与两岁时的身高(单位:英寸)有关。,6 相关系数的计算,6 相关系数的计算,6 相关系数的计算,例 10名3岁男童体重

7、与体表面积的关系,编号 体重(X,kg)体表面积(Y,103cm2)111.05.283211.85.299312.05.358412.35.292513.15.602613.76.014714.45.830814.96.102915.26.075 1016.06.411 合计133.457.266,相关系数的计算,7 相关系数的性质,-1 r 1r0为正相关r0为负相关r0为零相关或无相关相关系数绝对值越大,两变量间相关程度越密切;相关系数越接近于0,表示相关越不密切。,8 相关关系示意图,r=-1,-1r 0,r=0,直线相关的图示与相关系数的关系,0r 1,r=1,相关系数的正负示意图,

8、体重(kg),X,肺活量Y(L),相关系数的大小示意图,r=1,0 r 1,r=0,9 相关系数的含义(了解),协方差(covariance,COV):两个变量与其均值离差乘积的平均数,是相互关系的一种度量。,样本协方差:,9 相关系数的含义(了解),对协方差的理解,协方差为大的正值时,表示强的正相关。,对协方差的理解,协方差接近于零时,表示很小或没有线性相关关系。,对协方差的理解,协方差为大的负值时,表示强的负相关。,对协方差的理解,cm,kg,mm,kg,大于,基本结论:协方差受计量单位影响,从而不能真实反映相关的程度。,相关系数:协方差与两变量标准差乘积的比值,是没有量纲的、标准化的协方

9、差。,协方差,标准差,X,Y,10 相关系数的假设检验,0,H 0:0,体重与体表面积无相关关系;H 1:0,体重与体表面积有相关关系。=0.05。t 服从自由度为n-2的 t 分布。,相关系数的假设检验,相关系数的假设检验,自由度102,P0.001拒绝H0,接受H1。可以认为3岁男童体重与体表面积之间有正相关关系。,11 总体相关系数的区间估计,从相关系数不等于0的总体中抽样,样本相关系数的分布是偏态的。,相关系数的抽样分布(=-0.8),相关系数的抽样分布(=0),相关系数的抽样分布(=0.8),R.A.Fisher(1921)的 z 变换,z 近似服从均数为,标准差为 的正态分布。,相

10、关系数的z 值的抽样分布(=-0.8),相关系数的z 值的抽样分布(=0),相关系数的z 值的抽样分布(=0.8),相关系数的可信区间估计,将 r 变换为 z;根据 z 服从正态分布,估计 z 的可信区间;再将 z 变换回 r。,相关系数的可信区间估计,Fishers 变换 r z 正态近似 Fishers 反变换 的95CI z的95CI,定性资料的相关,配对四格表的Pearson点相关系数列联系数(contingency coefficient),四格表的列联系数,甲法乙法 a b c d-1 rn+1,例 两种方法观察舌象结果的相关性,某中医师采用两种方法观察舌象200例,观察结果如下,

11、试分析两种观察方法的结果有无联系?甲法 乙法 84(a)16(b)20(c)80(d),列联表的列联系数,Cramr修正列联系数:R,C分别是列联表的行数和列数。2是列联表的2检验。0 rC 1,例 两种血型系统的相关性,某人按两种血型系统统计某地6094人的血型分布,结果见表,问两种血型的分布间有无关系?ABO MN血型 血型 MNMN 合计O4314909021823A3884108001598B4955879502032AB137179325641 合计1451166629776094,2为列联表的2。,列联系数的假设检验,等价于列联表的构成比的假设检验。,等级资料的相关(了解),Spe

12、arman等级相关将各变量X,Y分别编秩RX,RY;计算RX与RY的Pearson相关;所得结果即为Spearman等级相关rS。-1rs1,例 抗白指数与临床疗效的关系,某研究所用野百合治疗白血病,并作抗白血病指数(简称抗白指数)及疗效的分析,问抗白指数与临床疗效间有无关系?病例号 抗白指数X 临床疗效Y(1)(2)12+23+39+410+511+630735845955+1070+11881290,RX(3)123456789101112,RY(4)99911.511.53336.56.533,RX(3)123456789101112,RY(4)99911.511.53336.56.53

13、3,rs=-0.6894,等级资料的相关(了解),等级相关的假设检验,H 0:S0,抗白指数与疗效无相关关系;H 1:S0,抗白指数与疗效有相关关系。=0.05。当n50时,用查“等级相关界值表”;当n50时,用 t 检验:t 服从自由度为n-2的 t 分布。,资料的假设检验,本例 n=12,查界值表,得:rs(0.05,12)=0.587即,若 H0 成立,则等级相关系数有95%的可能在(-0.587,0.587)之间。现 rs=-0.6894,故 P 0.05。可以认为,抗白指数与疗效有等级相关关系。,例 母亲文化程度与儿童智商的关系,母亲文化程度 儿童智商等级(Y)合计(X)中下中等中上

14、上等 小学2281303136 初中5723613526454高中或中专1111210517245大专及以上1410722 合计9143328053857rs=0.2261,大样本时的等级相关检验,本例 n=857,大于50,用 t 检验:P0.01。可以认为,母亲文化程度与儿童智商等级间存在相关关系,母亲文化程度越高,儿童智商等级亦高。,相关关系不等于因果关系;相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;极端值可能影响相关系数;注意相关关系成立的数据范围;警惕虚假相关。,12 相关分析的正确应用,定量资料在进行相关分析(Pearson相关)前,需作散点图,从散点图的

15、趋势判断是否可以作线性相关分析;,12 相关分析的正确应用,某地160名20岁男子身高与体重散点图(双变量正态分布),成都市男中小学生12个年龄组的平均身高,紫外光对新生小鼠背皮ATP酶阳性的郎格汉斯细胞(LC)照射不同时间的细胞密度(个/mm3),某肿瘤病人的生存率,大白鼠进食量(X,g)与体重增加(Y,g)的关系,免疫球蛋白A(IgA,g)与火箭电泳高度(Y,mm)的关系,26名病人的胃液的pH值及尿中亚硝酸盐浓度的散点图,尿中亚硝酸盐的浓度,胃液的pH值,建湖县19781985年疟疾逐月发病数,月份,月发病人数,我国19401988年间不同月份的男性婴儿死亡率()的季节性分析,男性婴儿死亡率(),月份,识别离群值;,P,Q,图10.5 离群值对相关的影响,12 相关分析的正确应用,排除间杂性。,(a),(b),样本甲观察点 样本乙观察点,图10.6 样本的间杂性对相关性的误导,12 相关分析的正确应用,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号