效度概念的演进、新进展及效度的估计方法.ppt

资源描述

《效度概念的演进、新进展及效度的估计方法.ppt》由会员分享，可在线阅读，更多相关《效度概念的演进、新进展及效度的估计方法.ppt（38页珍藏版）》请在三一办公上搜索。

1、效度概念的演进、新进展及效度的估计方法,一、效度概念的演进及其新进展,效度作为对测验工具的质量进行评价的一个非常重要的指标，经历了一个历史的演进过程。伴随着测量理论和实践的发展，效度由一个单薄的相关系数发展成为一个内涵丰富的、多维的概念系统。之所以称其为概念系统是因为它涉及的不再只是测验的某一个方面或环节，而是包括了测验全过程的多个方面，从测验编制所依据的理论到测验内容本身，从分数解释的价值内涵到测验实施可能带来的社会后果，效度的概念已经逐渐演变成为一个对整个测验过程的质量进行全面监控的体系。效度概念的变迁不仅反映了测量理论本身的发展，而且表明人们对测验的全过程所采取的态度越来越谨填、客观和科

2、学，以及越来越精确的要求。,1.效度概念发展的第一个阶段：相关即有效2.效度概念发展的第二个阶段：效度有多种类型3.效度概念发展的第三个阶段：效度是一元且多维的,（一）第一阶段：相关即有效,时间：20世纪50年代之前主要代表人物：Hull Bingham Guilford Gu1Liksen。主要观点：相关即有效。Bingham(1937):测验的成绩与采用其它客观方法进行度量所得结果之间的相关就是效度。Guilford(1946):只要一个测验与某事物相关，那么对于该事物来说它就是有效的。,（二）第二阶段：效度有多种类型,时间：20世纪50年代到70年代。不同的学者针对不同性质的测验或测验

3、过程的不同方面，提出了效度的多种类型。1.内容效度测验最早用途，是评定个体在指定的内容领域已经学会了什么成就测验。而评价成就测验，一般是把测验内容与测验所要评定的内容领域相比较。2.效标效度测验发展到第二阶段，重点转向预测。现在或将来某个时候，不同的个体在一定的情境中会怎样反应?同一个体在不同的指定情境中又会怎样反应?3.结构效度测验发展到第三阶段，出现两种主要趋向:(1)加强理论研究;(2)心理学理论与通过经验和实验的假设检验之间密切联系。这两种趋向使人们认识到结构在描述和理解人类行为中的重要性，测验的编制必须考虑结构效度。,1954年，美国心理学会关于心理测验和诊断的技术建议一书对当

4、时流行的各种效度概念进行了归纳概括，列举了四种类型的效度:预测效度同时效度构想效度内容效度 1966年，美国心理学会、美国教育研究学会和国家教育测量委员会联合出版的教育与心理测验的标准和指南中，将效度类型进一步简化为：效标关联效度构想效度内容效度该阶段的特点：出现了各种与特定测验目的相联系的效度类型。特点：美中效度都与特定的目的相联系人们普遍认为，不同的测验有不同的效度要求，比如成就测验更重视内容效度，能力测验强调效标关联效度，而人格测验则突出构想效度等。,（三）第三阶段：效度是一元且多维的,时间：20世纪70年代到现在 1.两大特点不同效度类型统合起来，逐渐形成一个统一而丰富的

5、概念。效度只有一个，但证明效度的证据却可以来自很多方面，可以从内容、效标以及构想等多种渠道寻求支持。构想效度反映了效度概念最为本质的要求，其他效度都是统摄于其下的。它已经成为一个统合各方面效度证据的综合性概念。对效度本身解释力的反思。泛泛地谈论某一测量工具的效度是不负责任的，因为效度指的是事实和理论对由测验分数所得解释的支持程度。被评估的是对测验成绩所作的解释，而不是测验本身。,在这阶段，作出突出贡献的是美国学者Sam Messick，他于1989年提出的效度理论，极大地深化和推动了人们对效度概念的认识和理解。Sam Messick认为，效度是一种总体性的、评价性的判断，代表了理论原理在多大程

6、度上证明了由测验成绩所得解释的充分性和恰当性。将效度划分为多种类型的传统做法得到的效度是支离破碎的、不完整的，而且这种做法缺乏对测验成绩的价值内涵和社会后果的考虑。新的、一元的效度概念将这些方面统合起来组成一个更为全面的构想效度理论。,2.构想效度的六个方面,Sam Messick的效度理论,第一，内容方面。主要涉及内容的相关性和代表性两个问题。第二，实在性方面(the substantive aspect)。即测验应保证所引发生的心理加工过程有代表性，应该提供实验证据证明被试在任务完成过程中确实运用了设想的心理加工过程。第三，结构方面。要求测验的评分模式与待测构想的内在结构相一致。即评分模式

7、应该最大程度的反映行为表现背后所隐含的结构关系。第四，概括化方面，即分数意义的适用范围和界限。第五，外部方面。即测验成绩与其它测验结果之间的关系在多大程度上反映了待测构想的理论预期。(辐合型的相关模式和区分型的相关模式)。第六，后果方面。该方面关注测验使用的价值含义和社会含义，旨在收集用于评价分数解释和使用结果方面的各种证据。,构想效度的这六个方面紧紧围绕着测验的各个环节展开。收集效度证据的来源包括但并不限于:基于测验内容的证据、基于反应过程的证据、基于内部结构的证据、基于测验分数与其它变量之间关系的证据，基于测验后果的证据。总之，收集构想效度证据的过程就是对测验从编制到解释、再到使用后果的整

8、个程序进行拷问的过程，测验的方方面面都得到了检验。,回顾效度概念的演变历史，我们不难发现:对于效度的确认从最初作为研究过程最后环节的相关检验发展为一个持续不断的动态过程。运用各种技术不断地评价、质疑和检查由测验结果所作推论和解释的有效性成为整个研究过程中不可或缺的组成部分。,对于这一历程，我们可以从研究内容和研究方法两个角度加以总结：一方面，效度研究所包括的内容越来越丰富：从测验与效标之间的简单相关到多种效度类型，再到一元且多维的构想效度，现阶段的效度已经足以容纳所有可能为分数的解释提供支持的证据。另一方面，随着研究内容的丰富化，研究方法也日益多样化。不但要有统计学的方法以及专家的判断，甚至引

9、人了认知心理学的方法和生理心理学的方法作为支撑。构想效度所涉及诸多方面的不同性质要求综合运用多种定性的和定量的方法加以解决。这也是近些年来越来越多的学者倡导量的研究和质的研究并重的原因之一。,二、如何分析测验的内容效度,在分析内容效度时，应当特别注意以下三个问题：1.仅仅检查测验内容，尚不足以建立测验的内容效度（1）这里涉及到对项目总体进行合适取样的问题。务必系统分析测验所要测量的行为领域，以便弄清测验项目是否以恰当的比例包括所有的内容。人们很容易偏重于行为领域中比较适合于编制客观性项目的那一类内容。（2）内容效度中的“内容”必须是广义的。例如，教育测验应该不仅包括学科知识内容，而且包括各种教

10、学目标，例如应用原理、解释数据以及事实知识等。（3）内容效度取决于什么。内容效度不是简单地取决于项目内容的表面的适当性，而是取决于个体对测验项目的反应与所考虑的行为领域的实质性对应关系。,（一）分析内容效度应注意的问题,2.测验所取样的行为领域不宜过于概化例如，一个拼写测验，采用多项选择题，它当然可以测量识别拼对和拼错单词的能力，但是不能理所当然地假设这个测验也测量正确听写的能力、作文中的拼错率以及其他方面的拼写能力。3.测验分数中可能包括无关因素例如，一个测量数学能力的测验，可能过度受到言语理解能力的影响，或者一个测量机械能力的测验，也可能过度受到完成简单日常工作的速度的影响。,1.逻辑

11、法（专家判断）2.统计法克仑巴赫法再测法 3.经验法,（二）内容效度的评估方法,1.内容效度特别适用于教育成就测验据此能够回答成就测验的效度的两个基本问题:测验覆盖了规定的知识和技能的代表性样本吗?测验分数不受无关因素的影响吗?内容效度尤其适合于领域参照测验。领域参照测验的分数，一般以内容意义来解释，因此内容效度显然是有效使用这类测验的必要条件。,（三）内容效度的应用,2.内容效度也适用于某些对员工进行选拔和分类的职业测验如果测验内容是取自实际工作，或者是实际工作所需要的知识和技能时，内容效度尤为合适。美国从八十年代起，广泛采用这种方法来编制联邦政府和州政府公务员测验 3.内容效度通常

12、并不适合于能力倾向测验和人格测验虽然编制任何测验都应该考虑测验内容的恰当性和代表性。但是，相比成就测验，能力倾向测验和人格测验与所取样的行为领域的内在相似性大为降低。所以，这些测验的内容只能显示某些假设，而这种假设指导测验编制者选择某种内容来测量规定的心理属性。为了建立测验效度，需要采用效标效度和结构效度的方法在经验上证实这类假设。,三、如何分析测验的效标效度,（一）效标效度的含义与种类,1.含义定义：测验对效标预测的有效性理想效标的条件:有效性。可靠性。操作性。实用性。2.种类：同时效度和预测效度美国心理学会在1985年制定的测验标准中，根据效标和测验之间的时间关系，把效标效度再分为

13、同时效度(concurrent validity)和预测效度(predictive validity)。美国心理学会前主席、当代著名心理学家安妮.安娜斯塔西(Anne Anastasi)指出，预测效度和同时效度之间的逻辑区分，不是根据时间而是根据测验目标。测验的同时效度多用于诊断现在的状态，而测验的预测效度则预测将来的结果。,一个测验有多少种具体用途，理论上就可以根据多少种效标进行效度分析。安娜斯塔西在1997年把它们分为以下7种类型。1.学业成就(academic achievement)对一般智力测验进行效度分析时，最常用的一种效标是学业成就。正是出于这种原因，往往把智力测验更确切地描述为

14、学业能力倾向的测量。用作效标度量的具体指标包括在校成绩、成就测验分数、升级或毕业记录、某种荣誉或奖励，以及教师对学生的智力评定等。种种学业成就指标，提供从小学一年级到大学和研究生的所有教育水平的效标数据，它们也可以用于某些多重能力倾向测验和人格测验的效标。,（二）七种效标类型,2.特殊训练课程成绩(performance in specialized training)特殊能力倾向测验的常用效标是特殊训练课程的成绩。例如：机械能力倾向测验可以根据工艺课程的期终成绩进行效度分析。在音乐或美术学院的成绩，也可以用来对音乐或美术能力倾向测验进行效度分析。训练成绩作为效标，其具体指标可以是完成训练后所

15、实施的成就测验的成绩、正式评定的等级、指导教师的评定、成功完成训练或被中途淘汰等。,3.实际工作表现(job performance)对于许多测验目的来说，最令人满意的效标度量是实际工作表现的追踪记录。这种效标：主要用于特殊能力测验的效度分析；有时也用于一般智力测验和人格测验的效度分析；也常用于具体工作的专门化测验。所谓的“工作”，在水平和种类上大不相同，包括商业工作、工业工作、专业工作、军事工作等。即使名称相同的工作，其性质在不同的组织中也有所差异，所以采用工作效标来分析效度时，不仅应该报告所用的具体的效标度量，而且应该报告员工从事的工作的职责。,4.对照组(contrasted soups

16、)对照组一般是一个合成效标，它反映日常生活中累积的、不可控制的选择影响。这种效标最终是根据某特定团体之内的幸存者与淘汰者。例如，把音乐学院学生的分数与未经选择的大学生的分数相比较，就可以得出音乐能力倾向测验的效度。当然，选取对照组，可以根据任何效标，例如学校成绩、评定或工作表现，只要选择效标度量分布的两端就行。在人格测验的效度分析中，也经常使用对照组方法。例如：分析一个社交特质测验的效度，可以把推销员的测验分数与工程技术员的测验分数相比较；兴趣测验经常采用各种不同职业对照组进行效度分析；态度测验有时也采用其他对照组进行效度分析，例如政治团体、宗教团体、地理团体，以及众所周知在某些问题上代表不同

17、观点的特别团体。,5.精神病诊断(psychiatric diagnosis)精神病诊断既是人格测验选择项目的基础，也是人格测验效度分析的证据。精神病诊断应该是根据长期的观察和详尽的个案史，而不是根据仓促的会谈或检查，这样就有理由认为，在表示个体情绪状态方面，精神病诊断确是一种令人满意的效标。,6.评定(ratings)评定包括学校教师、专业课程的指导教师、工作单位的管理人员等作出的某些评定。另外还有学校咨询人员对学生的评定，或由同学、同一俱乐部成员以及其他团体会员作出的评定。评定不仅只是获得学业成绩、专业训练的成绩、工作成功等效标资料的一种辅助方法，而且评定本身就是一种重要的效标度量。在这种

18、情况下，评定并不局限于评价具体成就，还包括观察者关于心理测验所要测量的某种特质而作出的个人判断。因此，可以根据诚实、支配性、创造力、领导能力等特性，来评定效度样本的被试。评定几乎可以用于每一类测验的效度分析，特别适用于人格测验，因为人格测验的客观性效标难以找到。当然，应该严格控制条件，想方设法减少常见的判断误差，以提高评定的精确性。,7.先前己有的测验(previously available tests)一个新测验同先前己有的测验的相关，也经常作为测验效度的证据。如果新测验比先前测验更简单、更省时，就完全可以把先前测验作为一种效标的度量。纸笔测验可以用先前己有的操作测验作为效标。同样，团体测

19、验可以用个别测验作为效标。例如，斯坦福比内量表反复作为各种团体智力测验的效度分析的效标。,20世纪90年代以来，美国心理学界普遍重视心理测验的效标效度分析。首先确定某种学习或工作的主要结构，然后选择或编制心理测验，而测验的分数一定要评定所需结构，这样就能卓有成效地研究心理测验的效标效度。笔者认为，这点值得我国教育学和心理学界有关人员的关注、思考和借鉴。,四、如何分析测验的结构效度,（一）发展变化(developmental changes),发展变化是指年龄差异，即测验分数是否随着实际年龄的增长而增加。一般认为各种能力在儿童期随年龄而增加，如果测验有效，测验分数也应该随年龄而增加。年龄差异效标

20、特别适合于智力测验，斯比测验即为一例。年龄差异效标不适合于那些年龄变化不一致或不明确的心理机能。例如，人格测验就很少使用年龄差异效标。年龄差异只是智力测验结构效度的必要条件而不是充分条件。因此，如果测验分数没有随着年龄而增加，这个结果明确表明测验不是能力样本的有效测量;另一方面，如果证明测验测量了随着年龄而增加的某种东西，这并不能准确界定测验所包括的领域。解释年龄差异效标应该注意该测验特定的文化背景。由于不同的文化培养和发展不同的行为特性，因而，一种文化背景下某种行为的年龄差异效标，不能假设普遍适用于其他文化背景。,（二）与其他测验的相关(correlations with other tes

21、ts),一个新测验与类似的己有测验之间的相关，有时可以用来证明新测验与其他测验大体测量相同的行为领域。与效标效度中得出的相关不同，这些相关应该适度，而不是太高。如果新测验与己有测验的相关太高，而又没有另外的优点，例如简单或易于实施，那么就没有必要编制这个新测验。与其他测验的相关还有另一种用途，就是表示新测验相对不受某些无关因素的影响。例如人格测验与一般智力测验或阅读理解测验之间，不应该有高相关。因此，与这些测验的相关，可以作为人格测验的间接证据或反证。在这种情况下，高相关会使测验效度受到怀疑。然而，低相关本身也不能保证测验效度。,（三）因素分析(factor analysis),因素分析的基本

22、思想是，根据测验的相关系数表把变量分组，使得同一组的变量间的相关较高，不同组的变量间的相关较低;每组变量就代表一个因素即基本结构。因素分析的主要目的是，将用于描述每个被试表现的变量的数目，从最初较多的分测验数目减少到几种因素，从而简化对行为的描述。因素效度实际上是该测验与一组测验所共有的特性的相关，这组变量包括测验资料和非测验资料，因此可以利用其他的效标度量来探究一个特定测验的因素组成，并定义它所测量的共同特质。,（四）内部一致性(internal consistency),内部一致性方法尤其适合于人格测验的效度分析。这种方法中的效标恰恰是自身测验的总分。有时也采用对照组方法的一种改变形式，即

23、根据测验总分来选取高分组和低分组，然后比较高分组和低分组在每个项目上的成绩。如果高分组的通过率没有显著大于低分组，则该项目无效。相关方法也可用于这种目的。例如，可以计算每个项目上“通过或失败”与测验总分的二列相关，只保留与测验显著相关的那些项目。许多智力测验由若干分测验组成，例如词汇、理解、积木、拼图等，内部一致性效标的另一种用法是分测验分数与测验总分的相关，与总分相关太低的分测验应淘汰或修改。,（五）幅合效度和区别效度(convergent and discriminant validity),坎贝尔(D.T.Campbell,1960)指出，为了证实结构效度，我们必须表明，一个测验不仅与理

24、论上应该相关的那些变量具有高相关，而且与理论上应该区别的那些变量具有低相关。坎贝尔和菲斯克()把前者称为幅合效度，把后者称为区别效度。例如，一个数量推理测验与后来数学课成绩的较高的相关，就是幅合效度;而同一个测验与阅读理解测验分数的较低的相关，则为区别效度。区别效度特别适用于人格测验的效度分析，因为无关变量会以多种方式影响人格测验的分数。,坎贝尔和菲斯克提出一种适合于幅合效度和区别效度双重分析的方法，称之为多重特质多重方法矩阵。这种方法必须采用两种或以上的方法来测量两种或以上的特质。例如：用自陈问卷、投射技术、同伴评定等三种方法来测量支配性、社交性、成就动机等三种人格特质，分别计算4种系数：使

25、用相同方法测量相同特质的相关系数信度系数；使用不同方法测量相同特质的相关系数效度系数；使用相同方法测量不同特质的相关系数方法系数；使用不同方法测量不同特质的相关系数交互作用系数。对于令人满意的结构效度来说，效度系数应该分别显著高于后两种相关系数。,坎贝尔和菲斯克的多特质多方法矩阵,（六）实验干预(experimental interventions)通过实验来研究经过选择的变量对测验分数的影响，是提供结构效度资料的另一种方法。对被试实施焦虑倾向测验，随后让被试置身于一种唤起焦虑的情境，例如在干扰和紧张条件下参加考试。然后计算最初的焦虑测验分数与考试期间和考试之后焦虑表现的生理等指标之间的相关

26、。要评价关于焦虑测验的一种不同的假设，可以在焦虑体验前后分别实施测验，再看后测分数是否显著提高。,（七）结构方程建模(structural equation modeling)结构方程建模使用回归方程，根据假设的因果模型中的自变量来预测因变量。由于使用偏相关得出回归系数，因此考虑到变量之间的所有相关，以及测量误差和取样误差，甚至另外的没有测量到的因果变量。另外，结构方程建模计算结构之间典型的因果关系，而不是计算孤立测量的变量之间的因果关系。例如，评价学生的数学态度，可以采用若干指标，诸如兴趣、目标定向、数学能力倾向的自我概念，以及其他有关的情感变量等。这些指标之间的共同方差就界定学生数学态度的一种结构，它本身与随后的数学成绩有关。如此使用结构，各个指标的误差方差和特定方差相互抵消，因而提供更为稳定和可靠的估计值。,

展开阅读全文