《教育与心理统计课件第五章相关关系.ppt》由会员分享,可在线阅读,更多相关《教育与心理统计课件第五章相关关系.ppt(39页珍藏版)》请在三一办公上搜索。
1、现代心理与教育统计学,南昌大学教育学院心理 李力,第五章 相关关系,一、相关、相关关系与散点图二、积差相关三、等级相关四、质与量相关五、品质相关六、相关系数的选用与解释,一、相关、相关关系与散点图,1、相关的意义,事物之间的相互关系 因果关系(两种事物)共变关系(三种事物)相关关系(两种事物),相关的含义事物之间存在关系,但又不能直接做因果关系解释时,称事物间的联系为相关。判断两个因素或变量之间是否有关系,定量地研究这些关系,称为相关分析。,相关的类别:正相关:两个变量向相同的方向变化.即一个变量增加,另一个变量也增加.负相关:两个变量向相反的方向变化.即一个变量增加,另一个变量反而减少.零相
2、关:两列变量之间没有关系,即6一列变量变动时,另一列变量作无规律变动。,2、相关系数两列变量间相关程度的数字表现形式,即用来表示相关系数强度的指标。P(总体)r(样本),不相关,相互独立正相关负相关完全正相关完全负相关,越接近1,表示两个变量的相关程度越密切,称高相关。越接近0,表示两个变量的相关程度越疏松,称低相关。,3、相关散点图直观地显示了两个事物的成对观测值之间是否存在相关,存在什么样的相关以及相关程度,几种相关散点图:,曲线相关 线性正相关,R=-1,R=1,线性负相关 零相关,二、积差相关,英国 Pearson,1、定义公式,若记 则,2、积差相关适用条件,要求成对数据 两列变量各
3、自总体的分布都是正态 两个相关的变量是连续变量,也即两列数据都是测量数据 两列变量之间的关系是直线性的,如果是非直线性的双列变量,不能计算线性相关。判断两列变量之间的相关是否为直线式,可作相关散点图进行初步分析,也可查阅已有研究结果论证。,3、计算公式,4、标准分数的计算公式,实例:书P116(例5-1),5、相关系数的合并意义:来自同一总体的多个样本的相关系数的合成。步骤:(1)将各样本的r 转换成费舍Z分数,见附表8。(2)求每一样本的Z分数之和(3)求平均Z分数,例子:P123(例5-2),三、等级相关,(一)斯皮尔曼等级相关(Spearmans Rank Correlation Cof
4、ficient)斯皮尔曼等级相关是等级相关的一种,适用于只有两列变量,而且是属于等级变量性质具有线性关系的资料 其中:N 成对数 D=Rx-Ry 对偶等级之差,请注意:尽可能不出现相同等级,即不能并列排名,否则误差大,1、定义公式:,2、相同等级计算方法(1)将连续变量转化为等级变量求相关两个变量排序的方式要一致遇到相同等级时,要求他们的等级平均值例:X 100 98 97 97 93 93 93 90 等级 1 2 3.5 3.5 6 6 6 8,(2)校正公式,其中:,其中:D:对偶等级差n:各变量相同等级数,例子:P128(例5-5)3、计算条件(1)必须成对数据(2)必须都是等级变量(
5、3)正态条件不明或非正态时,转为等级求r,(二)肯德尔等级相关(Kendall Rank Correlation Cofficient),1、肯德尔W系数(1)适用资料 肯德尔W系数又称为肯德尔和谐系数(the Kendall cofficient of concordance)是表示多列等级变量相关程度的一种方法。这种资料的获得一般采用等级评定的方法,即让K个被试(或称评价者)对N件事物或作品进行等级评定,这样便可得到K列从1到N的等级变量资料;另一种情况是一个评价者先后K次评价N件事物或作品,采用等级评定的方法,这样,同样得到K列从1到N的等级变量资料。对这样的K列等级变量资料求相关,用肯
6、德尔W系数。,*用于三个或三个以上变量等级的相关系数,即求几个变量的一致性或和谐性,(2)肯德尔W系数计算公式基本公式:,其中:,Ri:每一件被评价事物的K个等级之和N:被评价事物的件数即等级数K:评价者的数目或等级变量的列数 R:评价等级和的平均数,校正公式(出现相同等级的计算),例子:P132(例5-7),2、肯德尔U系数(1)适用资料评价者采用对偶比较的方法,将N件事物两两配对,然后对每一对中两事物进行比较,择优选择,优者记1,非优者记0,最后整理成相对应的评价结果。(2)计算公式,其中:N:被评事物的数目,即等级数K:评价者的数目rij:对偶比较记录表格中的择优分数,例子:书P133(
7、5-8),四、质与量相关,定义:需要计算相关的两更变量一列为等比或等距的测量数据,另一列是按性质划分的类别,欲求这样两列变量的直线相关,称之为质量相关,包括点二列相关、二列(双列)相关及多系列相关。*质量相关是研究连续变量与二分变量的相关关系。,有一种变量,只有两个取值,称为二分变量(1、0)人为划分为两个取值,称人为二分变量(及格、不及格)若有等级之分,称二分等级变量若无等级之分,称二分称名变量(男、女),1、点二列相关,(1)适用资料两列变量,一列为来自正态分布的等距或等比测量数据的连续变量,另一列变量是二分称名变量或整体不服从正态的二分等级变量,(2)公式及计算(P136)*该相关系数的
8、正负号无意义,只根据绝对值的大小加以解释。,2、二列相关,(1)适用资料两列变量,都为连续变量均属于正态分布,一列变量等距或等比,另一列为人为的二分变量。(2)公式及计算单项选择题用点二列,主观题评分用二列。,q,p,y,例,下表为10名考生一次测验的卷面总分和一道问答题的得分,试求该问答题的区分度(该问答题满分为10分,因此得6分和6分以上则认为该题通过),解:问答题得分被人为划为通过、不通过两类,本题应求双列相关。根据题意可得:,3、多列相关,(1)适用资料:适合处理两列正态变量资料,其中一列为等距或等比变量的测量数据,另一列被人为分为多种类别,称为名义变量。分为三类就叫作三列相关,四类就
9、叫做四类相关。(2)公式及计算见(P140),五、品质相关,1、品质相关用于表示RC(行列)表的两个变量之间的关联程度。可用于心理测验的编制,进行项目分析2、这种相关因两个变量(因素)只划分为不同的品质类别,故而得名。一般对计数数据,而非测量数据,即使是测量数据,也人为地分为几个类别。3、主要有四分(格)相关、相关、列联表相关等。,1、四分相关,(1)适用资料四分相关适用于计算两个变量都是连续且每个变量都被人为分为两种类型这样的测量数据之间的相关。计算四分相关首先要将资料整理成四格表。四格表是二个因素(变量),每个变量各有两项分类。四格表的二因素都是连续的正态变量,只是人为将其按一定标准划分为
10、两个不同的类别(2)计算公式:P143,2、系数,(1)适用资料 两个相互关联的变量分布都是真正的二分变量,其系数用符号表示。求取系数可以运用列联表来计算,因此系数又叫列联系数。适用资料是除四分相关之外的四格表(计数)资料,是表示两因素两项分类资料相关程度最常用的一种相关系数。,(2)计算公式完全正相关全体个案落在四格表中的a、d中;完全负相关全体个案落在四格表中的b、c中;零相关表示均匀分配。当值小于0.3时,表示相关较弱,当值大于0.6时,表示相关较强。除常用系数,也用Q系数或归结系数。,3、列联表相关,(1)列联相关又称均方相依系数、接触系数等,一般用C表示。(2)它是二因素的RC列联表
11、资料求得,故称为列联相关。当数据属于RC表的计数资料,欲分析所研究的二因素之间的相关程度,就要应用列联相关,(3)公式:(4)另外当双变量的测量数据整理成次数分布表后,也可用列联相关系数表示两变量的相关程度。此时,当分组数目R5,C5,而且样本N又较大,计算的列联相关系数C与积差相关系数r很接近。,六、相关系数的选用与解释,如何选择合适的相关系数1、选择计算相关系数的方法主要取决于要处理的数据的性质以及某一相关系数需要满足的假设条件2、总的来说,为了选择一个合适的相关系数进行相关分析,要分下面几个步骤考虑考虑每种测量所产生的数据类型要对第一种测量数据和第二种测量数据的类型依次做出判断确定采用哪
12、一种相关系数。至于两个测量数据哪个为第一,哪个标为第二,没有差别,相关系数值的解释1、相关系数是一个指标值,它表示两个变量之间的相关程度2、相关系数不是等距的测量值,因此在比较相关程度时,不能用倍数关系说明,只能说绝对值大者比绝对值小者相关更密切一些。3、相关系数值的大小表明了两列测量数据相互间的相关程度,并可以预测。4、当两个变量之间的关系受到其他变量的影响时,两者之间的高强度相关很可能是一种假象:虚假相关或伪相关5、偏相关与半偏相关6、在纯理论研究中,即使是很小的相关,如果在统计上有显著性,也能够说明心理规律,但这并不表明有显著性就就有高相关7、特别注意:证实两个变量之间存在相关关系,并不
13、一定说明一个变量的变化会引起另外一个变量发生变化,即“相关关系不是因果关系”。相关值较大的两类事物之间,不一定存在因果关系,相关意义的理解1.相关的意义要看确定系数R22.相关系数0.3以下,为低相关,有理论意义而无实际意义3.相关系数0.4-0.6,为中等相关,既有有理论意义,也有实际意义4.相关系数0.7以上,为高相关,理论意义与 实际意义都很大.,相关分析的发展聚类分析,多组相关指标的简缩聚类分析(cluster analysis)又称分类分析、群聚分析、集群分析,是将所观测的事物,或观测事物的指标进行分类的一种统计分析方法。样品聚类-Q型聚类:根据样品(事物或被试)之间的“距离”。,指
14、标聚类-R型聚类:用指标之间的相关系数,。如果被施测的团体一定,可对测试指标进行聚类,从众多指标中找出一些有代表性的指标。这样可以减少指标,优化指标。,相关分析的发展因素分析,多组相关背后因素的探索它是从众多可观测“变量”根据其相关情况,概括和推论出少数不可观测的“潜变量”(又称因素),目的在于用最少的因素去概括和解释大量的观测事实,并建立起最简洁的,基本的概念系统,以揭示事物之间的本质联系的一种统计分析方法。,探索性因素分析主要是从一组杂乱无章的数据对其又缺乏理论认识找出共同属性,以建立新的理论假设或发展新的理论构架;验证性因素分析的目的则在于验证已有的理论构架对其已有理论上的认识。,作业,1、下表是平时两次考试的成绩分数,假设其分布为正态,分别用积差相关与等级相关方法计算相关系数,并回答,就这份资料用哪种相关法更恰当?4、假设两变量为线性关系,对下列各种情况各应使用何种方法计算相关系数?(1)两列变量是等距或等比变量,且均为正态分布。(2)两列变量是等距或等比变量,但不为正态分布。(3)一列变量为正态连续变量,另一列变量为正态连续变量但被人为分为两类。(4)一列为正态连续变量,另一列变量为二分称名变量。,