《双变量关联性分析.ppt》由会员分享,可在线阅读,更多相关《双变量关联性分析.ppt(67页珍藏版)》请在三一办公上搜索。
1、2023/5/21,1,双变量关联性分析,第十二章,广东医学院公共卫生学院流行病与统计学教研室,2023/5/21,2,第一节 直线相关,医学上许多现象之间都有相互联系,例如:身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。,一直线相关 Linear correlation,相关与回归就是用于研究和解释两个变量之间相互关系的。相关分析用于分析两变量间相互联系的密切程度及相关方向。回归分析适用于分析变量间的依存关系;用一个自变量
2、的值来估计另一个应变量的值。,2023/5/21,5,前面描述性统计及假设检验只涉及到一个变量,如体重、红细胞数、血压下降值等,着重于描述某一变量的统计特征或比较该变量的组间差别。在大量的医学问题研究中常常还要分析两个随机变量之间的关系,如体重与肺活量、年龄与血压之间是否存在线性联系,此联系是正向还是负向以及联系的程度如何?,2023/5/21,6,如果两个连续型变量 X和 Y 都随机变动且不分主次,可通过线性相关(linear correlation)分析来估计它们之间可能存在的线性联系的方向与程度。两个随机变量 X 和 Y,可以是对同一观察单位同时测量 X 与 Y 的数值,也可以是测量成对
3、观察单位的同一变量或不同变量的数值,而产生一对观察值。,直线相关(linear correlation)又称简单相关(simple correlation)或 Pearson 相关分析,用于研究具有直线关系的两个变量间相关关系的密切程度与相关方向的一种统计分析方法,用于双变量正态分布资料(要求两个变量均服从正态分布),在线性相关分析中,两个变量X 和Y的值总是成对的出现,记为(X1,Y1)、(X2,Y2)(Xn,Yn),这些观察值在直角坐标系中形成一幅散点图,这种散点图可以简单而直观的表示两变量间的线性关系,例如 为研究中年女性体重指数和收缩压之间的关系,随机测量了16名40岁以上的女性的体重
4、指数和收缩压,见表13-1,试绘制散点图。,实 例,解:以体重指数为变量X,收缩压为变量Y作散点图,见下图。可见,体重指数与收缩压有比较密切的线性相关关系。,某地方病研究所调查了 8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的相关关系。表14-1 8名正常儿童的年龄 X(岁)与尿肌酐含量 Y(mmol/24h),实 例,2023/5/21,14,一、概述,概念 又称简单相关或Pearson相关分析,用于研究具有直线关系的两个变量间相关关系的密切程度与相关方向的一种统计分析方法应用条件 要求两个变量均服从正态分布(双变量正态分布),2023/5/21
5、,15,相关系数的意义及计算 又称积差相关系数或Pearson相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标 r 表示样本相关系数,表示总体相关系数,2023/5/21,16,没有单位,取值介于-1与1之间相关方向用正负号表示相关的密切程度用绝对值表示,相关系数,说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标.r 表示样本相关系数,表示总体相关系数,-1 r 1,r 的计算结果说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质或方向(正负号)。,相关分析的目的在于通过相关系数r来描述和度量两变量线性联系的程度和方向。r0 正相关 r0 负
6、相关 r=0 零相关 零相关即两变量间无关。样本相关系数不等于零,并不表示总体相关系数不等于零,还要作显著性检验。,2023/5/21,19,相关关系图示,2023/5/21,20,r无单位,-1 r 1 r 值为正 正相关 r 值为负 负相关|r|=1-完全相关 r=0-零相关,2023/5/21,21,相关关系密切程度的判断 低度相关 中度相关 高度相关,相关系数的计算:,X和Y的离均差积和,X的离均差平方和,y的离均差平方和,其中,为X 的离均差平方和 为Y 的离均差平方和 为X和Y 的离均差积和,2023/5/21,25,【例12-1】2000年测得某地16名7岁男孩体重与胸围资料,见
7、表12-1。,表12-1 2000年某地16名7岁男孩体重与胸围资料,2023/5/21,26,散点图,图12-2 2000年某地16名7岁男孩体重与胸围散点图,2023/5/21,27,计算例12-1中体重与胸围间相关系数计算基础数据,并列成相关系数计算表求出、(见表12-2)代入公式,求出相关系数 值,2023/5/21,28,表12-2 2000年某地16名7岁男孩体重与胸围相关系数计算表,2023/5/21,29,2023/5/21,30,r0原因:由于抽样误差引起,=0 存在相关关系,0,二、相关系数的假设检验,2023/5/21,31,查表法 根据自由度=n-2,查附表14,将所得
8、 r 值与某概率水平(如0.05)对应的 r 界值相比较,若 r 值小于 r 界值,则P大于相应的概率水平,反之,P小于相应的概率水平,然后作出推断,2023/5/21,32,t 检验方法,2023/5/21,33,【检验步骤】1.建立检验假设,确定检验水准,2023/5/21,34,2.计算检验统计量 值,2023/5/21,35,3.确定P值,做出统计推断,按自由度=n-2=16-2=14,查附表4,得P0.001,按=0.05水准,拒绝H0,接受H1,差异有统计学意义,可认为2000年该地7岁男孩体重与胸围之间有相关关系,三、相关分析中应用注意的问题,相关分析资料要求两变量x、y都应是来
9、自正态分布总体;进行相关分析前应先绘制散点图。只有散点有线性趋势时,才可作相关分析;样本含量小只能推断两变量间有无直线关系,但不能推断其相关的密切程度;而要推断其相关的程度,样本含量必须足够大。,相关分析是用相关系数来描述两个变量间相 互关系的密切程度和方向,相关关系不一定 是因果关系,也可能是伴随关系r=0只能说X与Y之间无线性关系,并不能说 X与Y之间无任何关系。进行相关回归分析要 有实际意义,不可把毫无关系的两个事物或 现象用来作相关回归分析。,不能只根据r 的绝对值的大小来判断相关的密切程度。例如有两个样本:r1=0.601,v1=6;r2=0.401,v2=40。不能根据r1 r2
10、就说r1比 r2相关更密切。因为查附表13-1,前一样本得 P 0.05,后一样本P 0.01,按检验水准a=0.05,前者可认为无相关而后者有相关,可见正确推断有无相关必须经过假设检验。,2023/5/21,40,前面讨论的线性相关用于描述两个随机变量X与Y之间线性联系的程度,结论所反映的是它们相互之间的关系,两变量并无主次之分,2023/5/21,41,随着所探索问题的深入,研究者通常更感兴趣于其中的一个变量如何定量地影响另一变量的取值:例如医学研究中常需要从某项指标估算另一项指标,如果这指标分别是测量变量X和Y,我们希望由X推算Y的值。我们称X为自变量,Y则称为依赖于X的因变量。如果Y与
11、X的关系呈线性时,我们可以用线性回归(linear regression)描述两者的关系。,2023/5/21,42,第二节 等级相关(秩相关,Spearman相关),2023/5/21,43,一、适用条件,不服从双变量正态分布而不宜作积差相关分析(Pearson 相关)总体分布型未知开口型或半开口型的资料原始数据是用等级表示,2023/5/21,44,二、方法步骤,编秩、求秩次的差值d计算等级相关系数:,d 每对观察值xi,yi所对应的秩次之差n 为对子数rs 样本秩相关系数,2023/5/21,45,2023/5/21,46,2023/5/21,47,当x或y中相同秩次较多时,宜对,进行校
12、正:,t为x或y中相同秩次的个数,2023/5/21,48,是总体等级相关系数 的估计值,当 时,可查 界值表(p350)作出判断,存在着抽样误差,故计算出 后,,需作,是否为0的假设检验:,当n50时,可用正态近似法进行检验检验统计量z的计算公式为:,2023/5/21,49,补充例题,2023/5/21,50,2023/5/21,51,第三节 列联表的关联性分析,【例12-4】某研究者欲研究幽门螺杆菌感染(Hp)与家庭成员胃病史的关联性,随机抽取599例慢性胃炎或胃溃疡的患者,分成家庭成员有胃病史组和家庭成员无胃病史组,结果家庭成员有胃病史组182例,Hp阳性125例;家庭成员无胃病史组4
13、17例,Hp阳性198例。,2023/5/21,52,2023/5/21,53,两样本率比较与两分类变量关联性的对比二者2检验公式、理论频数计算和自由度的计算应用条件等完全相同。形式相同,是从不同角度推导的,2023/5/21,54,研究目的、设计方案、数据结构以及对结果的解释都是不同的 两样本率比较检验的是两个样本率所代表的未知的两总体率是否相同分类变量关联性分析是要检验两个分类变量是否独立,二者之间是否存在关联,2023/5/21,55,一、22列联表的关联性分析,【检验步骤】1.建立检验假设,确定检验水准 H0:Hp与家庭成员胃病史之间互相独立 H1:Hp与家庭成员胃病史之间互相关联=0
14、.05,2023/5/21,56,2.计算检验统计量 值,2023/5/21,57,3.确定P值,做出统计推断,查附表9,0.005P0.01,按=0.05水准,拒绝H0,接受H1,差异有统计学意义,可认为幽门螺杆菌感染(Hp)与家庭成员胃病史之间有关联,2023/5/21,58,计算关联系数Pearson列联系数(contingency coefficient),2023/5/21,59,列联系数c(用于行列数相同):Cramer 校正v(用于行列数不同):,2023/5/21,60,二、配对设计22表的关联性分析,【例12-5】有56份咽喉涂抹标本,把每份标本一分为二,按同样的条件分别接种
15、在甲、乙两种白喉杆菌培养基上,观察白喉杆菌生长的情况,结果见表12-5。实验者欲研究甲乙两种培养基的结果有无关联,用配对2检验(或McNemar检验)对资料进行了分析,得2=11.25,查2界值表,P 0.05,认为甲乙两种培养基的结果有关联,2023/5/21,61,2023/5/21,62,当比较甲乙两种方法测定结果的阳性率是否有差别时,可采用配对2 检验(或McNemar检验)当了解甲乙两法测定结果之间有无相关关系时,应采用普通四格表的检验。,2023/5/21,63,【检验步骤】1.建立检验假设,确定检验水准 H0:两种培养基的结果之间互相独立 H1:两种培养基的结果之间互相关联=0.05,2023/5/21,64,2.计算检验统计量 值,2023/5/21,65,3.确定P值,做出统计推断,查附表9,P0.005,按=0.05水准,拒绝H0,接受H1,差异有统计学意义,可认为两种培养基的结果之间有关联,2023/5/21,66,小 结,1、直线相关的概念和应用2、相关系数的计算和意义3、等级相关的分析4、列联表资料的关联分析及应用,谢谢大家,