《《相关与偏相关》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《相关与偏相关》PPT课件.ppt(43页珍藏版)》请在三一办公上搜索。
1、相关与偏相关,医学上,许多现象之间也都有相互联系,例如:身高与体重、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。这里,体温和脉搏的关系就比产前检查与婴儿体重之间的关系密切得多,而体重和身高的关系则介与二者之间。另外,可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。,相关就是用于研究和解释两个变量之间相互关系的。,相关与偏相关,3,主要内容,第一节 直线相关第二节 偏相关第三节 小 结,第一节 直线相关,Linear
2、 Correlation,为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,一、相关的类型,正相关 负相关 完全正相关 完全负相关 称零相关,二、相关系数,样本的相关系数用r(correlation coefficient)相关系数r的值在-1和1之间,但可以是此范围内的任何值。正相关时,r值在0和1之间,散点云图是斜向上的,这时一个变量增加,另一个变量也增
3、加;负相关时,r值在-1和0之间,散点云图是斜向下的,此时一个变量增加,另一个变量将减少。r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。,三、相关系数的计算公式,r的计算结果说明了两个变量X与Y之间关联的密切程度(绝对值大小)与关联的性质(正负号)。,一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关?分析问题:目的、变量、关系,待
4、产妇尿雌三醇含量与产儿体重关系,相关与偏相关,11,计算结果,从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61。,问题:我们能否得出结论说明待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61?为什么?,相关与偏相关,13,四、相关系数的假设检验,上例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。所以,要判断该样本的r是否有意义,需与总体相关系数=0进行比较
5、,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。,相关与偏相关,14,对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下:,=n-2,H0:=0 H1:0=0.05 r=0.61,n=31,代入公式 t=,=n-2=31-2=29,t=4.14,查t值表,=2.756,查t值表,=2.756,上述计算t=4.142.756,由t所推断的P值小于0.01,按=0.05水准拒绝,接受,认为临产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。,SPSS计算,1.做散点图:标题、标目、散点GRAPHS-SCATT
6、ERT-SIMPLE-DEFIND双击TITLE加标题、标目2.相关分析 ANALYZE-CORRELATION BIVARIATE-VARIABLES,相关与偏相关,17,相关与偏相关,18,五、直线相关的应用,前面我们已经讲过,相关是研究两个变量间的相互关系,而且这种相互关系是用相关系数反应的。在确实存在相关关系的前提下,如果r的绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;如果r绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大帮助。一般说来,当样本量较大(n100),并对r进行假设检验,有统计学意义时,r的绝对值
7、大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值大于0.2,小于等于0.4时,则两个变量低度相关。,例题:某地29名13岁男童身高X1(cm)、体重X2(kg)和肺活量Y(ml),请用该资料计算身高与肺活量,体重与肺活量的相关关系。,第二节 偏相关,一、概念,当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。,二、偏相关系数,偏相关系数是用来衡量任何两个变量之间的关系的大小。,相关与偏相关,22,三、选择不同的方法计算相关系数
8、,Pearson:双变量正态分布资料,连续变量Kendall:资料不服从双变量正态分布或 总体分布未知,等级资料。Spearman:等级资料。,相关与偏相关,23,Analyze-Correlation-Partial把分析变量选入 Variable 框把控制变量选入 Controlling for 框点击 Options点击 Statistics:选择 Mean and standard deviation Zero-order correlation Continue OK,四、SPSS操作步骤,相关与偏相关,24,Variable Mean Standard Dev CasesX1(身高
9、)152.5759 8.3622 29Y(肺活量)2206.8966 448.5541 29X2(体重)37.3069 5.6704 29,结 果:,相关与偏相关,25,身高与肺活量的简单相关系数,1、身高与肺活量的简单相关系数,相关与偏相关,26,2、体重与肺活量的简单相关系数,相关与偏相关,27,3、身高与体重的简单相关系数,相关与偏相关,28,4、体重为控制变量,身高与肺活量的偏相关系数,P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.X2(体重)Y(肺活量)X1(身高)Y(肺活量)1
10、.0000.2361(0)(26)P=.P=.226X1(身高).2361 1.0000(26)(0)P=.226 P=.,相关与偏相关,29,P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.X1(身高)Y(肺活量)X2(体重)Y 1.0000.4152(0)(26)P=.P=.028X2.4152 1.0000(26)(0)P=.028 P=.,5、身高作为控制变量,肺活量与体重的偏相关系数,应用相关注意事项,1.实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作
11、相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加慌谬。2.相关关系 相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素 年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。,3.利用散点图对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关分析。4.变量范围相关分析和回归方程仅适用于样本的原始数据范围之
12、内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。,相关与偏相关,32,第三节 小结,一、基本概念二、分析计算,1.为了了解某地2029岁健康女性血红蛋白的正常值范围,现随机调查了该地2000名2029岁的健康女性,并对其血红蛋白进行测量,请问本次调查的总体是 A该地所有2029的健康女性 B该地所有2029的健康女性的血红蛋白测量值 C抽取的这2000名2029岁女性 D抽取的这2000名2029岁女性的血红蛋白测量值,选择最佳答案,2.各观察值加同一数后:A.均数不变,标准差改变 B.均数改变,标准差不变C.二者均不变 D.均改变3.用均数和标准差可全面描述:A.正偏态资料
13、B.负偏态资料 C.正态分布和近似正态分布 D.任何分布4.正态分布曲线下,从均数u 到u+1.96的面积为;A.95%B.45%C.97.5%D.47.5%,5.按=0.10水准做t检验,P0.10,不能认为两总体均数不相等,此时若推断有错,其错误的概率为()。A大于0.10 B,而未知 C小于0.10 D1-,而未知6某地正常成年男子红细胞的普查结果,均数为480万/mm3,标准差为41.0万/mm3,后者反映()A个体变异 B抽样误差 C总体均数不同 D均数间变异,7.两个样本均数比较,经t检验,差异有显著 性,p越小,说明()A两样本均数差别越大 B两总体差别越大C越有理由认为两总体均
14、数不同D越有理由认为两样本均数不同,是非判断:1标准误是一种特殊的标准差,其表示抽样误差的大小。2N一定时,测量值的离散程度越小,用样本均数估计总体均数的抽样误差就越小。3假设检验的目的是要判断两个样本均数的差别有多大。,思考:1.标准差和标准误有何区别和联系?2.可信区间和参考值范围有何不同?3.一类错误和二类错误的区别4.方差分析的基本思想是什么?,相关与偏相关,39,分析计算,要求:注意应用条件,选择合 适的计算程序在计算机上计算出结果会看结果完整的书写出来,相关与偏相关,40,1.1976年美国8岁男孩的平均身高为146厘米,标准差为8厘米,估计在该研究中有%多少的男孩平均身高在138
15、与154之间?又有多少在130到162之间?,相关与偏相关,41,2.随机将20只雌性中年大鼠均分为甲、乙两组,甲组大鼠不接受任何处理(即空白对照),乙组中的每只大鼠接受3mg/kg的内毒素,分别测得两组大鼠的肌酐(mol/L)数据,请问肌酐水平与内毒素有无关系?甲组:55,33,51,24,34,54,59,69,34,61乙组:75,60,100,83,82,65,50,70,64,72,相关与偏相关,42,3.某职业病防治所对31例石棉矿工中的石棉肺患者、可疑患者和非患者进行了用力肺活量测定。问三组石棉矿工的用力肺活量有无差别?(肺活量.SAV)4.某厂医务室测定了10名氟作业工人工前、工中和工后4小时的尿氟浓度(umol/L),问氟作业工人在三个不同时间的尿氟浓度有无差别?,相关与偏相关,43,祝大家成功!,