《人事测评质量分析》PPT课件.ppt

资源描述

《《人事测评质量分析》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《人事测评质量分析》PPT课件.ppt（53页珍藏版）》请在三一办公上搜索。

1、第五章人事测评质量分析,一项测评是否可靠、可信？一项测评是否准确、有用？一项测评是否公正、公平？一项测评是否经济、合理？,本章教学内容：,5-1 测量的信度5-1-1 信度及其影响因素5-2-2 信度的评估方法5-2 测量的效度5-2-1 效度及其影响因素5-2-2 效度的评估方法,5-1 测量的信度,信度是标准化人事测量的基本要求之一，如果测量工具的信度不理想，测量结果就无法被认为能代表应试者的一致、稳定和可靠的行为表现，就可能误导对应试者的评价。5-1-1 信度及其影响因素5-2-2 信度的评估方法,5-1-1 信度及其影响因素,如果我们用一个游标卡尺来测量一个钢管的外直径，每次测量时都

2、难免会有一定的误差。首先，游标卡尺作为一种测量工具是有一定精度限制的，也就是说，测量工具本身存在误差。当然这种误差是必然存在的，而且误差是在一定范围中有规律的变动的，这种误差在测量工作中被称之为系统误差（systematic error）。其次，我们每一次测量都可能出现操作上的差异，或者由于不可预见的外界因素的影响，产生测量误差。这些误差是很难控制的，而且无规律可循，有时大有时小，这种误差被称为随机误差（random error）。前者在一定程度上可以控制，而后者很难控制.1、信度的概念2、信度的计算3、信度的作用4、信度的影响因素,1、信度的概念,信度（reliability）信度是标示测验

3、一致性高低的统计指标。主要指测量结果的可靠性或一致性，可以定义为测验结果不受测验情境或测验过程中无关变量影响的程度。,2 信度的计算：信度系数,信度指标的一般公式：测验分数=真实分数+测量误差或者：X=T+e信度的高低通常以相关系数表示，称为信度系数（reliability coefficient）。信度系数一般是同一样本所得的两组资料的相关，因此有：测验分数方差=真实分数方差+误差分数方差X2=T2+e2信度系数：rxx=T2/X2=T2/（T2+e2）信度系数即是真实分数方差（变异数）与测验分数总方差（变异数）之比。,3、信度的作用,测验信度要能够区分出：导致一致性的因素：个体稳定的特性

4、（测量对象）导致不一致性的因素：可能影响测验，但又与测验对象没有关系的个体和环境的特性在人事测量中，对信度系数进行确定通常有以下作用：解释真实分数与实得分数之间的相关说明可以接受的信度水平,解释真实分数与实得分数之间的相关,信度可以解释为总的方差（标准差的平方的缩略语）中有多少比例是由真实分数的方差决定的，即测量分数的变化中有多少是真正反映了被测者分数的变化。例如：当rxx=0.90时，我们可以说，实得分数中有90%的方差是来自真实分数的变化，仅有10%是来自测量的误差。信度系数的分布是从的正数范围，代表了从缺乏信度到完全可信的所有状况。思考：如果rxx=1.00表示什么？rxx=0.00表

5、示什么？,说明可以接受的信度水平,信度的理想水平是1.00，但是实际上是达不到的。一般能力与成就测验的信度系数在0.90以上；人格、兴趣等测验的信度通常在之间。一般来说，当rxx 0.70时，可用于团体间比较；当rxx 0.85时，可用于鉴别个人。,几种心理测验的信度系数,4、信度的影响因素,受试者个体持久而泛化的特性：进行测验的一般技能水平理解测验指示语的一般能力水平进行类似测验的一般的人格特质受试者个体持久而特殊的特性：进行某项测验（或其形式）需要的特殊的技能、能力和特质；以及稳定的反映定势；对某个测验项目内容的熟悉程度受试者个体短时而泛化的特性：健康、疲劳、动机、情绪状态、测验自如

6、性；温度、光亮、通风等测验外部条件,受试者个体短时而特殊的特性对特殊测验的理解，测验所需要的特殊技巧；为做测验所进行的练习；对测验项目内容的注意、记忆等的飘忽不定。影响测验过程和解释的外部因素系统改变测验条件；对测验的各种限制；干扰程度；指示语的清晰度；受试者在个性、性别、种族等与测验主试的交互作用；对测验结果的不一致或有偏差的评判。无法解释的变化（随机因素）猜测、运气，以及暂时的干扰,4、信度的影响因素,5-2-2 信度的评估方法,针对不同的误差来源，信度可以有不同的确定方法。,1、重测信度(test-retest reliability),又称为稳定性系数，是采用重测法计算信度的方法，即用

7、同一测验在不同时间对同一对象施测两次，两次测量分数的相关系数即为重测系数。人事测量所测查的特质中，有相当多的内容具有一定的稳定性，如人格、能力倾向等，因此，对于这些内容而言，重测信度对于衡量测量工具的质量是很重要的指标。例如：如果用一个智力测验测量某人的智力，第一天测量得到100分，表示智力中等；第二天测量却变成了150分，这个分数意味着这个人在一夜之间变成了天才，如果没有特殊原因，这种事绝对是小概率事件，不太可能发生，可信度极低。不能用这个结果帮助决策。,在日常生活中，你也许常常到市场上去买东西。如果你买了5斤瘦肉后觉得比上次少了点，没有那么重，那么你可以自己再用称称一下。如果也是5斤，那么

8、你可能就会觉得确实有5斤。这是因为两次称得的结果完全一致，变异度为0。人的素质测评没有这么简单，因为素质本身又是无法精确定义，因而我们常常把对个体测评结果的准确性检验，置于群体测评结果的相互关系之中，转化为两次位置关系的一致性分析。当同一对象的测评结果以同样的测评方式再次获得后，其顺序位置关系变异很小时，则说明测评结果比较准确。例如：在技能测评中A分数88，在全体被测者中排名第一。这是否可靠可信？我们可以再测一次，结果A分数95，还是排名第一，而且其他被测的位置顺序变化很小。这时我们可以说第一次的技能测评结果是可靠的（信度高）。,重测信度的考察对象,重测信度所考察的误差来源是时间的变化所带来的

9、随机影响（气候、噪音的干扰、疾病、疲劳、情绪的影响等），根据重测相关系数的高低，可以得知测量结果在经过一段时间之后的稳定程度。重测信度表示测量能够应用于不同时间的程度，信度越高说明测量结果受环境中日常的随机因素影响越小，测量结果越稳定、可靠。评估重测信度时，要注意重测间隔的时间，时间太短被试对测试题记忆犹新，必然会造成假性相关；时间太长，测验结果又会受应试者的身心特质改变的影响，使相关系数降低。间隔时间的长短必须根据测验的性质和目的来确定。如果希望测量结果能预测较长时间的变化，则重测间隔时间应该长一些。例如人格测验一般间隔2-6个月比较合适。,应用重测信度应注意：,重测信度一般只反映由随机因素

10、导致的变化，而不反映被测者行为的长久变化。例如被测者智力的发展与能力的提高，不是重测信度考察的因素。这些因素导致的重测相关系数的降低，不能说明测验的重测信度低。不同行为受随即误差影响不同。例如手指敏捷性就比言语理解力更容易受疲劳、环境等因素的影响。因此必须分析测量目的和了解所预测的行为。当测量的行为或特质较为稳定时，重测信度的解释才有效。只有不大容易受重复影响的测验，如感觉-运动测验或人格测验，才比较适合用重测法计算信度系数。因为被测者一旦知道答案就不容易忘记，从而造成假性相关。,2、复本信度(alternative-form reliability),又称为等值性系数，它是以两个测验复本（功

11、能等值但题目内容不同）来测量同一对象，然后求得被测者在这两个测验上得分的相关系数。复本信度反映了两个测验复本在内容上的等值性程度。复本信度考虑的是内容取样误差的影响问题，计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。例如同样是测量数学运算能力的测验，如果一个测验复本侧重于考核加减法的运算，而另一个复本侧重乘除法的运算，两者之间的相关必定不会抬高，即复本信度低，说明必定有一项测验复本的取样有问题。,优点：能够避免重测信度的一些问题，如记忆效果、练习效应等；适用于进行长期追踪研究或调查某些干涉变量对测验成绩的影响；减少了辅导或作弊的可能性。缺点：如果测量的行为受练习的影响

12、，复本信度只能减少而不能消除这种影响；有些测验的性质会由于重复测量而发生改变，例如某些问题解决型的测验，如果掌握了解题原则就有可能产生迁移，尤其当复本只是在题目具体内容上有改变时，这种正迁移的作用会很强；有些测验很难找到复本。,3、一致性信度consistency reliability,一致性信度又称为同质性信度，是指一个测评活分测评中各个题目所测内容的一致性。同质性是保证测评只测量同一特质的必要条件。也就是说，评估一组测验题目内部一致性程度，对于确定测验题目是否测量了同一事物很重要。如果同质性差，则表示测评混淆了不同的测评内容，其结果就无从判断究竟是否反映了被测者的某一特质。如果被测者在第

13、一个项目上比其他人分数高，在第二个项目上又比其他人高，在第三个项目上也比其他人高相反另一个人在第一个项目上比其他人分数低，在第二个项目上又比其他人分数低，在第三个项目上也比其他人分数低那么毫无疑问，我们会认为测评结果比较可靠。,一致性信度的作用,重测信度和复本信度分别注重考虑测量跨时间的一致性（稳定性）和跨形式的一致性（等值性），而内部一致性信度用内部一致性系数表示，主要反映的是测验内部题目之间的关系，考察测验的各个题目是否测量了相同的内容或特质。同质性的测验，其结果的解释较为明确。例如：在一个同质性的语言逻辑推理能力测验中，应试者的得分可以反映其语言逻辑推理能力的高低；而如果一个测验既包含有

14、测查逻辑推理能力的试题，又含有测查数量分析能力的试题，那么在应试者得分低的情况下，就无法说明被测者到底哪种能力不足。,一致性信度应用实例,例如：在人格测评中，乐观情绪特质和外向特质是两个容易混淆的内容，这就要求测评设计时能够找到相应的题目把二者区分开来。再例如：在考察管理技能时，预测和决策、监督和控制等都是不太容易区分的，对题目设计的要求就相当高，否则就会把不同技能混淆，导致结论错误和用人失误。在设计测评题目时，所有测评题目都要保证只测量一种特质或内容，如果需要在一个测评中测量不同内容，就应该将测评设计为几个分测评进行分别测评。例如16PF人格测评就包括16个分测评，每个分测评量表只对一种人格

15、特质进行测评。,一致性信度的计算方法,分半信度项目折半分析，是通过将测验分成两半，计算这两半测验之间的相关性而获得的信度系数。通常的方法是在测验实施后将测验分为等值的两半，并分别计算每位被测者在两半测验上的得分，再求出这两个分数的相关系数。这个相关系数就代表了两半侧眼内容取样的一致性程度。同质性信度系数分析，是指测验内部的各题目在多大程度上考察了同一内容，即所有测验题目测量的只是单一特质或内容，表现为所有测验题目得分的一致性。,4、评分者信度（raters reliability）,在有些测量情形中，评分者的评判也是误差的来源之一。例如投射测验、创造力测验、无领导小组讨论、管理者情境模拟等，都

16、依赖于评分者的判断，这种判断的主观性往往造成不同评分者的评分很不一致，因此有必要考虑评分者信度。评分者信度是指不同评分者对同一对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷，由两个独立的评分者打分，再求每份答卷两个评判分数的相关系数。评分者的评分越一致，评分者信度越高。（等级相关）,信度小结：,各种信度评估的适用情景：重测信度评估侧重考察测评跨时间的一致性和稳定性；复本信度评估侧重考察测评跨形式的一致性和等值性；内部一致性信度评估主要反映的是一个测评内部题目之间的关系，揭示测评的各个题目是否测量了相同的内容或特质。评分者信度评估主要是考察评分者的主观误差。,思考题：,与对某人品

17、德测评分数的可靠性进行考察，随机抽取其中10个被试的分数，分别是：74、71、80、85、76、77、77、68、74、74，再次测评后10个被试的分数分别是：82、75、81、89、82、89、88、84、80、87。请问可以用什么方法评价测评的可靠性？如果一个部门的三个经理分别给部门的几十位员工考核，你认为应当怎样检查三位评分者评定的可靠性？某面试考官对被试的7项素质进行测评，总共面试了8位被测者，其评定等级如下表，请考评一下这位面试考官的面试结果是否可靠？,5-2 测量的效度,5-2-1 效度及其影响因素1、效度的概念2、效度与信度的关系3、效度的作用4、效度的影响因素5-2-2 效度的

18、评估方法1、内容效度content validity2、效标关联效度criterion-related validity3、构想效度construct validity,1、效度的概念,1、效度的概念测量结果的效度就是指测量的有效性，是与测量目的有关的真实变异数与总变异数的百分比。一般被定义为测验能测量到所要测量东西的程度。在评价任何测验时这都是最重要的考虑。“效度指从分数进行推论的证据的程度。”英国教育和心理测验标准,2 效度与信度的关系,二者的区别：信度与效度的差别在于所考虑的误差不同。信度考虑的是随机误差的影响；效度考虑的误差包括随即误差和对测验目的无关的变量引起的系统误差。例如游标卡尺

19、的精度，可能由于设计原因或者工具制作工艺、刻度刻画、金属材料的温度特性等因素的影响，卡尺对长度的反映会出现误差。这些误差现象是由于测量工具本身的原因造成的，具有稳定性，不管什么人、什么时间使用都会出现。而另一方面，每次使用卡尺，不同的人造成的误差不同，这种误差是随机误差，是偶然性的不稳定的，属于信度考察的内容，指的是测量结果的一致性如何。二者的联系：信度是效度的必要条件，但不是充分条件。换句话说，信度高不一定效度必然高。但效度高必定信度高。,3、效度的作用,就好像用磅秤测量身高，每次测量的结果都很一直稳定（信度很高），但它并不能代表身高，也就是说其测量值并不反映身高这一属性（效度很低），所以说

20、，磅秤不是身高这一测量对象的适宜测量工具。例如一个数学测验可能对学生的数学成绩的预测效度很好，但对学生整体智力的预测效度就没有那么好，对学生的性格可能根本就没有预测效度。,4、效度的影响因素,一个测验效度的高低，很大程度上取决于该测验受无关因素影响的程度。凡是能造成测验结果误差的因素，都会影响测验效度。测验题目的质量：难易程度、暗示性、题意表达、试题内容取样的代表性实施测验时的干扰因素：指导语、计分错误被试的影响因素：反应定势、测验动机、情绪测验的长度：增加测验题目往往能增加测验的信度和效度。,5-2-2 效度的评估方法,对测量效度的考察反映在下面两个问题之中：该测验能够很好的预测我们感兴趣的

21、成绩吗？该测验真正测量的是什么？第一个问题集中于效标，也就是判断一个测验预测的成功性的标准。这就要求建立测验成绩与那个标准之间的关系。（预测效度）第二个问题集中于测验，要求明确关于测验所测量目标的内在理论或心理构想。（内容效度）,测验效度不能按笼统的方式去测量，而只能根据测验所考虑的特定用途去测量，在决定是否使用测验时，我们需要了解从已知测验结果做出某种推论的有效性，也就是说，我们是证实测验的有效性，还是证实我们希望对测验结果进行推论的有效性。对于一个特定问题，测量目的决定了所用的效度评定方法，问题是关于使用测验成绩来预测在校标上的成绩，还是关于研究测验实际测量的内容或构想。,1、内容效度co

22、ntent validity,内容效度是一个测验实际测到的内容与所要测量的内容之间的吻合程度，是检查测验内容是否是所预测量的行为领域的代表性取样的指标。如高中物理包括力学、电学、光学、热学以及原子物理学5个方面。在实际工作中我们编制的测验不可能包含所要测量的行为领域的全部可能的材料或情境，只能选择一个有代表性的样本，通过观察被试对个别题目的反应，来推测他的总体行为表现。应用范围：主要应用于成就测验、职业选拔测验。不适合能力倾向测验和人格测验。,内容效度的评价可以回答：该测验是否是应考察的某种技能和知识的代表性样本测验成绩是否不受无关因素的影响内容效度对效标参照测验尤为重要，因为在校标参照测验中

23、，被试的表现往往以测验内容来解释。,确定内容效度的方法,蓝图对照分析法：1999年全国硕士研究生入学考试英语试卷结构框架专家比较判断法：CnN2N2（N为专家总数，n为肯定人数）,2、效标关联效度（同时）,效标关联效度又称为效标效度，指测评结果与某种标准结果的一致性程度，反映的是测验分数与外在标准（效标）的相关程度，即测验分数对个体的效标行为表现进行预测的有效性程度。把一组人的测评分数和其绩效分数求出相关就可以得到同时效度例如一个机械能力倾向测验，其效度的标准（效标）可以是成为机械师之后的表现；对于一个管理能力测验而言，其效标可以是将来从事管理工作的绩效。效标关联效度往往用于预测性测验，在这些

24、测验中，测验分数一般用于甄选决策，只有当证明测验分数确实能够预测所研究的行为时，这种决策才可能正确。,效标效度的种类,根据效标结果与测评分数获得的时间是否相同可分为预测效度和同时效度。同时效度的效标材料可以和测验分数差不多同时收集。预测效度的效标资料是在测量结束后相隔一段时间才取得的，它反映的是由测验分数对任一段时间间隔后被试行为表现的预测程度。适用于对人员进行选拔、分类、安置的人事测量，这些测量需要对应试者将来的工作绩效进行可靠的预测。二者的差异根源不在于收集效标的时间，而是在于预测目的的不同，预测效度多用于预测未来的结果，同时效度多用于诊断现在的状态。“某人成功了吗？”或“某人患病了吗？”

25、“某人会成功吗？”或“某人会患病吗？”,常见效标种类,学术成就前提是“智力高的人，学术成就应该越大”。如：在校成绩、学历、研究成果等。特殊训练成绩能力倾向测验成绩常用某种特殊训练中取得的成绩做效标。如：言语智商用语文成绩做效标；机械能力用技术培训成绩做效标等。实际工作表现团体特征用两个在效标表现上有差别的团体比较他们在预测源分数上的差别。如：一个音乐倾向测验的效度，可以由比较音乐学院学生的分数与一般大学生分数获得。等级评定结果前期测评结果,3、构想效度construct validity,构想效度是指测验能够测量到理论上的构想或特质的程度。所谓构想通常指一些抽象的、假设性的概念或特质，如智力、

26、创造力、言语流畅性、焦虑等。这些构想无法直接观察。但是每个构想都有其心理上的理论基础和客观现实性，可以通过各种可观察的材料加以确定。例如言语流畅性可以通过语速、语句间的逻辑性、口误的数量等可观察的指标进行确定。适用范围：适用于智力测验、人格测验等。,确定构想效度的方法,1、提出理论假设，并将其分解成细目；2、依据理论框架，推演出有关测验成绩的假设（操作化定义）；3、用逻辑的和实证的方法来验证假设（排除法、咨询法、相关法、逻辑分析法、多元分析法）。例如：韦克斯勒首先假设“智力是一个人去理解和应付他周围世界的总的才能”，然后，他依据这一定义，编制11个分测验从十几个方面来说明智力，编好测验又从多个

27、角度加以验证，最后，用因素分析法验证，该测验实际测量了三类共同因素，即A因素（言语理解）、B因素（知觉组织）、C因素（记忆和注意集中）。,5-3 项目分析,项目分析是指根据试测结果对组成测验的各个题目（项目）进行分析，从而评价题目好坏、对题目进行筛选的程序和方法。通过项目分析，对测验题目进行选择和修改，可以提高测验的信度和效度。了解项目分析的概念和方法，能够帮助测验使用者评价现有的各种测验。定性分析：主要考虑内容效度，即题目表达的恰当性和有效性等方面。定量分析：主要考察题目难度和鉴别度是否适当。,5-3-1 测量的难度分析,难度分析就是对题目的难度进行估计以确定适宜的难度，难度的指标通常以“通

28、过率”表示，即答对或通过该题目的人数百分比。通过人数越多题目越容易。测验难度的确定，要依据测验的目的、性质和题目的形式而定。测验目的：难度极大或难度极小时，都不容易区分个体差异。难度中等的题目比较适合区分个体差异。测验作用：选拔性测验应使难度接近录取率。题目形式：选择题的难度一般应大于概率水平（如四选一题目难度0.63最合适）；是非题难度应该为0.75最合适。,5-3-2 测量的鉴别度分析,项目鉴别度是指测验项目对于所测查的心理特性的鉴别能力和区分程度，可以从项目效度和内部一致性方面进行考虑。项目效度分析主要以效标为依据，考察被试在每个试题上的反应与其在效标上表现的相关程度，即每个试题所测查的

29、行为是否反映了被试在效标上的表现。内部一致性分析有时进行项目分析难以找到合适的效标，这是就用测验总分代替效标，考察每个试题与总分的一致性。,5-3-3 测验的公平性分析,掷色子或扔硬币帮助做决策你认为公平吗？结果的公平性：在职业选拔中，结果公平指选用了“最好”的人。如何定义“最好”以及怎样确保“最好”能够被测量决定结果的公平性，这主要由测验的技术性方面来确定，是测验过程和测量效标过程二者的函数。过程的公平性：指的是某些人的测验分数受到误差的影响不会与其他人显著不同。因为受测者的表现总是发生在一定情境中，测验成绩必然反映一定情境的作用。测验选择时要考虑文化、语言因素测验实施时要公平对待每个受测者

30、监测不同群体的成绩分布是否存在显著差异，是合理原因造成的还是另有隐情。,5-3-4 测验的经济效益分析,效用分析在选拔性测评中，需要计算因录取率提升和生产效率上升而带来的价值。在招聘测评中要计算通过测评技术提高的工作效率和录用准确性带来的价值。,各种测评方法在四项指标上的比较：,测评方法效度公平性可用性成本,智力测验中等0.49 中等高低性向与能力测定中等0.27 高中等低个性与兴趣测定中等高低中等面谈低0.09 中等高中等工作模拟高0.54 高低高情景练习中等低中等个人资料高0.30 中等高低同行评定高0.49 中等低低自我介绍低0.15 高中等低推荐信低0.23 高低评价中心高0.43 高低高,各类测评方法预测效度比较,各种测评方法的特点比较,管理干部测评方法与适用性调查,

展开阅读全文