《第五章相关系数ppt课件.ppt》由会员分享,可在线阅读,更多相关《第五章相关系数ppt课件.ppt(78页珍藏版)》请在三一办公上搜索。
1、第五章 相关系数,一、相关概述二、积差相关三、其他相关四、相关系数的解释和应用,财富与健康,宗教与长寿,一、相关概述,(一)含义:事物或现象之间的相互关系。,想一想:相关关系 VS 函数关系,城门失火殃及池鱼,失之毫厘谬以千里,蝴蝶效应,一、相关概述,(二)种类,一、相关概述,(三)相关散布图1.形成2. 关注的内容 整体形态(方向、相关强度)、异常值,一、相关概述,(三)相关散布图3. 用途(1)是否相关,一、相关概述,(三)相关散布图3. 用途(2)是否线性相关,一、相关概述,(三)相关散布图3. 用途(3)线性相关程度,一、相关概述,(三)相关散布图3. 用途(4)相关变化方向,正相关,
2、负相关,一、相关概述,(三)相关散布图练习:P72 四 1,一、相关概述,(三)相关散布图,二、相关系数的测定,相关系数 含义: 度量变量之间关系强度的一个统计量。 对两个变量之间线性相关强度的度量称为简单相关系数。表示符号 总体: 样本:r,二、相关系数的测定,(一)积差相关(皮尔逊相关Pearsons correlation coefficient ) 1. 公式:,学习P57,例1,二、相关系数的测定,2. 注意事项:(1)r值范围(-1,+1)(2)绝对值反映相关程度(3)正、负并非价值判断(4)只能表示线性相关(5)改变计量单位,相关系数不变(6)受异常值影响较大(7)r接近于0,并
3、不一定不相关,有可能是非线性相关。,二、相关系数的测定,猜一猜:,二、相关系数的测定,想一想,R or W?,二、相关系数的测定,3. 练习,r1=0.99254r2=0.48107,二、相关系数的测定,R=0.994,二、相关系数的测定,积差相关系数的合并,二、相关系数的测定,决定系数相关系数的平方,二、相关系数的测定,(二)等级相关1. 斯皮尔曼等级相关(1)公式,公式中:RX为变量X的等级数, RY为变量Y的等级数, D为两变量的等级数之差,即D=RX-RY n为样本的容量,例:10个高三学生学习潜能测验(X)与自学能力测验(Y)成绩,二、相关系数的测定,例:10个高三学生学习潜能测验(
4、X)与自学能力测验(Y)成绩,二、相关系数的测定,二、相关系数的测定,(2)适用条件:等级测量数据:两组变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料;总体不一定呈正态分布;样本数量不受30限制。,二、相关系数的测定,想一想:如果分数相同,应该如何分等级?当出现相同分数的数据时,用它们所占等级位置的平均数作为它们的等级。,例:10个学生初一与初二数学成绩斯皮尔曼等级相关系数计算表,二、相关系数的测定,二、相关系数的测定,例:某工厂对工人的业务进行了一次考试,欲研究考试成绩与每月产量之间是否有联系,若随机抽选了一个样本,其考试成绩和产量数字如下表:,r0.676,r
5、R=1,斯皮尔曼等级相关系数的精确程度比皮尔逊相关系数要低!等级相关反映的是两变量等级间的相关,并不反映两变量间的数值关系!,560580,二、相关系数的测定,Spearman相关系数应用举例:某班级父亲受教育水平和母亲受教育水平的相关性?斯皮尔曼相关系数:0.718解释?,r = - 0.29,2. 肯德尔和谐系数肯德尔和谐系数常以r表示,适用于多列等级变量的资料。可以反映多个等级变量变化的一致性。,二、相关系数的测定,肯德尔和谐系数的计算公式,公式中: rW表示肯德尔和谐系数 K表示等级评定者的数目,即变量数 n为被等级评定的对象的数目 Ri为被评定对象获得的K个等级之和 R 为所有Ri的
6、算数平均数 SSR为R的离差平方和,即,二、相关系数的测定,4位教师对6位学生作文竞赛的名次排列,例:4位教师对6位学生作文竞赛的名次排列次序如表所示。问4位教师评定的一致性程度如何?,二、相关系数的测定,4位教师对6位学生作文竞赛名次排列的肯德尔和谐系数计算表,二、相关系数的测定,有相同等级时,需要用肯德尔和谐系数的修正公式计算rW系数。,公式中: t为相同等级的数目。,二、相关系数的测定,P63 例6,表 存在相同等级时肯德尔和谐系数计算表,二、相关系数的测定,Tips,二、相关系数的测定,肯德尔和谐系数W值介于0与1之间,计算值都为正值,若表示相关方向,可从实际资料中进行分析。一般而言,
7、如果涉及到使用肯德尔和谐系数来评价评分者的信度,即评分者的一致性,则需要W值达到0.8以上。,3.点二列相关和二列相关(1)点二列相关(point-biserial correlation)适用条件:一个变量为正态、连续变量,另一个变量为真正的二分名义变量,这两个变量之间的相关,称为点二列相关。,二、相关系数的测定,点二列相关系数的计算公式:,公式中: 是与二分称名变量的一个值对应的连续变量的平均数 是与二分称名变量的另一个值对应的连续变量的平均数 p 和q分别是二分称名变量的两个值各自所占的比例,p+q=1 St 是连续变量的标准差,二、相关系数的测定,五岁幼儿投掷砂袋成绩,例:18个五岁幼
8、儿掷砂袋,问性别与投掷成绩的相关情况如何?,二、相关系数的测定,五岁幼儿性别与投掷砂袋点二列相关计算表,代入公式计算:,P64 例7,二、相关系数的测定,二、相关系数的测定,4. 二列相关计算公式,公式中: 是与二分称名变量的一个值对应的连续变量的平均数 是与二分称名变量的另一个值对应的连续变量的平均数 p 和q分别是二分称名变量的两个值各自所占的比例,p+q=1 St 是连续变量的标准差 Y为正态曲线下与p相对应的纵高线,二、相关系数的测定,4. 二列相关适用条件:两列变量均为正态连续变量,其中一列被人为的划分为二分变量,N应比较大。,解:因为语文测验总分与作文分数都为正态连续变量,而作文分
9、数被人为地分为两类,所以,要计算作文与语文总分的相关,应当采用二列相关公式。,由p=0.60查附表1,,根据表中数据计算得,p=0.60, q=0.40,解:因为语文测验总分与作文分数都为正态连续变量,而作文分数被人为地分为两类,所以,要计算作文与语文总分的相关,应当采用二列相关公式。,由p=0.60查附表1,,根据表中数据计算得,p=0.60, q=0.40,得Y=0.3863,5. 相关当两个变量都是二分称名变量,这两个变量之间的关系可以用相关来讨论。相关系数用 表示。,当两个变量都各分为两类时,数据在统计表中占有四个单元格,因此这类统计表又称为四格表。相关适用于四格表。,二、相关系数的测
10、定,四格表的一般形式,相关,相关系数计算公式,巧记公式:,相关,例题: 某区为研究性别与学习数学的关系,随机抽取100名学生,以数学成绩85分为线进行分类,求性别与数学成绩间的相关系数。,100名学生成绩分布表,即性别与数学成绩间的相关系数为0.065。,1. 概念及公式的使用条件 当两列变量都是正态连续变量,而且呈直线关系,只是两列变量都被人为地变成二分变量,表示这两列变量之间的相关称为四分相关。,(二) 四分相关,2.四分相关的计算方法 计算两列变量之间的四分相关,最常用的方法是皮尔逊提出的余弦法,其公式为:,解:将上表中的数据代入公式里,得,例如:下表的数据是根据377名学生在数学和物理
11、两门课的考试成绩整理而成的。两门课的成绩为正态连续变量,只是分成了及格和不及格两类,试计算这两门课成绩的相关系数,=cos73.013=0.2919,线性相关小结,案例:我们发现吸烟的青少年犯罪率高于不吸烟的。进一步的研究显示:吸烟量越大,犯罪率越高。如何解释这个现象呢(1)吸烟影响判断力,进而导致行为偏差。(2)行为偏差令人沮丧,进而导致青少年借烟消愁。(3)家庭管教不严的青少年容易学会吸烟;家教不严的青少年容易出现行为偏差。,1.的取值介于 -1与1之间, r 的取值范围是 -1,12. 在大多数情况下,|,即与的样本观测值之间存在着一定的线性关系,当时,与为正相关,当时,与为负相关。 |
12、的数值愈接近于1,表示X与Y直线相关程度愈高; |的数值愈接近于0,表示X与Y直线相关程度愈低。,一、相关系数的解释,第三节 相关系数的解释与应用,3. 如果|=1,则表明与完全线性相关,当=1时,称为完全正相关, 而=-1时,称为完全负相关。4.是对变量之间线性相关关系的度量 =0只是表明两个变量之间不存在线性关系,它并不意味着与之间不存在其他类型的关系。,通常判断的标准是: |0.3 称为微弱相关0.3 |0.5 称为低度相关0.5 |0.8 称为显著相关0.8 |1 称为高度相关或强相关,相关系数取值及其意义,r,附加说明: (1)两变量间存在相关,仅意味着变量间有关联,并不一定是因果关
13、系。 (2)相关系数不是等距的测量单位。 r是一个比值,不是由相等单位度量而来,不能进行加、减、乘、除运算。 如r1=0.25,r2=0.5,r3=0.75,不能认为r1=r3-r2 或r2=2r1。 (3)相关系数受变量取值区间大小及观测值个数的影响较大。,变量的取值区间越大,观测值个数越多,相关系数受抽样误差的影响越小,结果就越可靠,如果数据较少,本不相关的两列变量,计算的结果可能相关,如学生的身高与学习成绩。本课程所举例题,数据较少,仅为说明计算方法时较方便。,(4)相关系数在特定情况下使用才具有意义。 如高中生身高与体重的相关系数用在儿童身上就没有意义。,(5)通过实际观测值计算的相关
14、系数,须经过显著性检验确定其是否有意义。,三、相关系数的其它解释和应用,(一)难度(二)区分度(三)信度(四)效度,一、难度,试卷或试题的难度,就是指考生在完成试题或试卷是所遇到的困难程度。描述考生作答一个试题或一份试卷所遇到的困难程度的量,叫难度系数。可以用以下两种方法计算:1. 用得分率表示:2.用失分率表示:,注意: 试卷相对难度设计的目的是调控考生成绩的分布,使之尽可能接近于正态分布。经测算,难度为0.5时可满足上述要求,此时标准差应该控制在1/6满分位附近。,二、区分度,二、区分度,例题,二、区分度,注意:区分度:-1+1之间,越大越好,0.4以上很好,0.3-0.39之间比较好,0
15、.2-0.29之间需要修改,0.2一下要淘汰。,三、信度,三、信度,三、信度,三、信度,rhh=0.75rxx=2rhh/(1+rhh)=0.86,四、效度,效度是一个测试能够测试出它所要测试的东西的程度,即测试结果与测试目标的符合程度。测试的效度一般可分为以下几类:(1)逻辑效度(内容效度)(2)效标关联效度(准则效度)(3)结构效度(建构效度),四、效度,四、效度,量化后的内容效度的值介于0与1之间,值越大表示内容效度越高。一般考试的效度应在0.4到0.7之间,大规模考试要求效度在0.9以上。,三种效度证据,效标关联效度,信度与效度的关系,效度与信度的关系为:信 度是效度的必要条件,但不是充分条件。一个测量的效度要高,其信度必须高,而一个测量的信度高时,效度并不一定高。,