《人才测评与开发》PPT课件.ppt

资源描述

《《人才测评与开发》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《人才测评与开发》PPT课件.ppt（165页珍藏版）》请在三一办公上搜索。

1、人才测评与开发,2011年4月,目录,一、人才测评概述,二、人才测评原理,三、人才测评内容与方法（岗位胜任素质）,四、心理测验,五、面试方法与应用,六、评价中心与应用,七、测评应用相关问题,理论篇,方法篇,应用篇,理论篇,一、人才测评概述,二、人才测评原理,三、人才测评内容与方法（岗位胜任素质）,理论篇之一,一、人才测评概述,1、人才测评简介,对人的知识水平、能力及其倾向、工作技能、个性特征和发展潜力，实施测量和评鉴的人事管理活动。一门融现代心理学、测量学、社会学、统计学、行为科学及计算机技术于一体的综合性科学。人才测评是人事管理的基础环节，科学评价人员是一切人事工作的起点。,2、人才测评定义

2、,*月度考核80分，表现中等，比较优秀,3、人才测评历史,尧舜西周皇帝用“试射”来选拔人才隋始至清中叶推行的科举考试刘劭所著的人物志年德国心理学家冯特设立了世界上第一个心理实验室；心理测验从早期的心理缺陷诊断，后来演变为心理评价，从教育领域拓展到社会管理的其它领域，为学生升学、就业、人才选拔、晋升、培训等提供指导和服务，在西方已成为一个重要的产业。,4、人才测评一般方法,简历分析-基本背景（过去和现在）；,4、人才测评一般方法,纸笔考试-知识（基本的测评）；,4、人才测评一般方法,心理测验-形由心生标准测验：既定试题、答案的分析智力测验能力倾向测验人格测验其它心理素质测验，如兴趣测验、价值观

3、测验、态度测评等标准化的心理测验同样具有使用方便、经济、客观等特点投射测验：投射测验主要用于对人格、动机等内容的测量,4、人才测评一般方法,面试-沟通结构化面试：针对岗位、确定题目、不同人员同一标准评价非结构化面：面试者随机,4、人才测评一般方法,情景模拟文件框作业无领导小组讨论管理游戏角色扮演,4、人才测评一般方法,评价中心：1：2人员组合、不同方法不同标准不同人员的结合；只是一个过程，而不是一种方法；,5、人才测评应用,人才测评服务于企业人力资源管理的多个环节：招聘选拔培养与晋升岗位胜任力考察企业管理风格与能力考察企业文化考察人力资源普查培训诊断与辅导员工职业生涯规

4、划组织诊断,5、人才测评应用,招聘与选拔：我们可以根据您的岗位要求设计招聘方案。使出类拔萃者从众多求职者中脱颖而出，并对聘用的人员制定发展建议。1.人员的基本素质评价2.人员的岗位胜任力评价3.人员的发展潜能评估4.聘用与晋升的选择性排序5.人才的发展使用建议,5、人才测评应用,培训：通过人才测评，根据企业发展方向找到员工认知及能力的欠缺点，以确定培训的内容。测评结果可作为人才开发的起点。1.人员基本素质评价2.能立及认知心理状况3.目前工作现状4.培训计划需求5.实施培训,5、人才测评应用,员工发展与职业规划：通过测评分析员工的潜力，根据企业特点寻找其最适合的发展目标 1人才与职位的匹配程

5、度2目前情况下如何发挥积极性与岗位共同发展3人员发展计划及步骤 4员工职业生涯发展规划5人员发展与企业发展的结合,5、人才测评应用,组织诊断：1.企业人力资源整体状况评价2.企业具有发展潜力的潜在人才的识别 3.企业人力资源改善及发展建议,理论篇之二,二、人才测评原理,1人事测评前提、假设和理论,人员素质测评的前提个体差异的客观性与普遍性生理差异（生理指标）心理差异（心理指标）工作的差异性工作性质：领导/管理/操作工作内容：what who when工作环境:where工作要求：how(K/S/A/O),心理现象,心理过程,个性心理,认识过程（记忆、思维、想象、语言等）,情感过程（情绪、情感和

6、情操）,意志过程（克服困难、完成任务）,个性倾向性需要、动机、兴趣、理想、信念、价值观、世界观,个性心理特征能力、气质和性格,心理差异的表现,有的人感知敏锐、思维深刻、想像丰富，有的人则相反，有的人记忆快且保持长久，有的人则记得慢且易遗忘，有的人长于形象思维，有的人则长于抽象思维等。有的人性情温和、不易发脾气，有的人反应迅速、情感外向，有的人则反应迟缓、情感内向。有的人经常活泼愉快，有的人却多愁善感，有的人怯懦软弱，有的人机智果断，有的人优柔不决等。,思考：,既然人与人之间是有差别的，工作与工作之间也是有差别的，那么怎样实现二者的最佳结合呢？什么是工作中的最优配置？能力工作要求激励不足能力工

7、作要求绩效低下能力=工作要求双赢用什么方法可以实现二者的最佳匹配？逐个试用费时费力经验估计误差增大科学测评效果相对最优,人事测评假设,假设1：个体每一个行为表现，都是其相应的心理素质在特定环境刺激下的特定反应。简言之，行为表现与心理素质之间存在相关关系。B=f（Q.E）假设2：特定的心理素质具有稳定性。素质是一种相对稳定的组织系统，使个体对这些不同的刺激做出一致的反应行为。概括地说，就是特定的心理素质具有稳定性。（不同情境、时间、活动）,例如：,一个人喜欢阅读机械杂志，喜欢看各种机器运转，热心为别人修理钟表和自行车，我们就此推断他具有机械兴趣。有人爱上网，有人爱唱歌，有人爱跳舞，有人爱阅读小

8、说，有人爱赚钱，有人爱漂亮，我们说他们兴趣不同。有的人感知敏锐、思维深刻、想像丰富，有的人则相反，有的人记忆快且保持长久，有的人则记得慢且易遗忘，有的人长于形象思维，有的人则长于抽象思维等，这些方面表现了人们在能力和智力方面的差异。有的人性情温和、不易发脾气，有的人反应迅速、情感外向，有的人则反应迟缓、情感内向，这些方面表现气质方面差异。有的人经常活泼愉快，有的人却多愁善感，有的人怯懦软弱，有的人机智果断，有的人优柔不决等，这些构成了性格方面的差异。,例如：,具有机械兴趣的人，喜欢阅读机械杂志，喜欢看各种机器运转，热心为别人修理钟表和自行车。喜爱音乐的人，不但爱听歌，还爱唱歌，玩乐器，还会关

9、心音乐动向等等。个性外向开朗的人，不但善于与人交往，热情奔放，活泼健谈，有时显得轻率，而且遇到挫折不会悲观失望，能够快速调整状态，恢复自信。个性内向的人，关注自身，行事谨慎，深思熟虑，不善交际。价值观崇尚真、善、美的人，表现为对美好事物的追求、欣赏、维护，以及自觉抵制和拒绝那些丑恶、虚伪的事物。,结论：由于人的行为表现与稳定的心理素质存在着相关关系，表现出较为明显的一致性，因此，心理素质可以通过行为表现进行测量！,测评理论基础（略）心理学理论：特质理论（卡特尔、艾森克、大五）神经质、外倾性、开放性、宜人性和尽责性。人职匹配：现实、研究、企业、社会、艺术、传统测量学理论：经典测量学理论（真分数理

10、论）、项目反应理论统计学理论：概率、相关和回归、因素分析,2 测评编制的一般程序,是一种方法，是在标准的情况下取出个体行为来进行分析和描述，以准确把握个体差异的过程。确定测验的目的制定编题计划设计测验项目试测与项目分析合成测验测验标准化信度和效度编写测验说明书,A、确定测验的目的明确测验对象：年龄、智力水平、文化背景及阅读水平明确测验目标：测量什么：能力、人格、成就？目标具体化（操作化定义）p38明确测验用途选拔？配置？考核？诊断？取材范围和试题难度,例如：选拔性测评中要考虑，影响未来工作绩效的主要因素是什么（性格、态度、能力），如果是能力，还要进一步思考，是一般能力还是特殊技能？,不同的测评

11、目的会影响受测者的心理感受，例如选拔性测评常常引发焦虑，导致测验成绩不稳定，因此，在了解测评目的的基础上选择和设计恰当的测评形式是很重要的。测量形式和工具会因测量内容的不同而不同。测验形式的选择很大程度上由测评目的决定，在评价性测评中一般使用最高作为测量；在促进自我了解测评中一般使用典型典型测量；在选拔性测评中一般使用难度测验或速度测验等。,B、制定编题计划总体设计，指出测验内容结构和项目形式，以及对每一个内容、目标的重视程度。用途：编制阶段，确定项目的多少和种类，确定内容是否有遗漏；记分,2009年全国硕士研究生入学考试英语试卷结构基本框架,C、设计测验项目（item）收集测验资料资料丰富性

12、内容代表性。理论、术语、临床材料、其他测验项目资料普遍性机会公平性。教学大纲和教材为题目来源。选择项目形式内容的表现形式测验目的和材料性质。概念、原理简答题；综合运用论述；解决问题计算、操作；判断、辨别选择受测团体的特点。幼儿口头、语言缺陷操作其他情景因素。人数、时间、经费编写修订项目（编写、编辑、修改）范围与计划一致；数量要多，已备筛选；难度适当；项目的说明清楚,资料来源,已出版的标准测验。最简单、最直接的方法是从已经出版的各种标准测验中选择合适的题目。理论和专家的经验。理论和专家经验可以作为测验题目的来源之一，比如编制态度量表，就可以将理论上对态度的类型、性质维度、定义等描述转换为测验题目

13、。临床观察和记录。,个人绩效评价量表请参照上级主管或同事对自己的评价，在下面各项目上用1-7等分评价自己的工作和表现，各个分数代表的含义如下所示。数字越大，表示工作和表现越优秀。非常糟糕很差比较差中等比较好良好非常优秀 1.积极提出创新建议改善整个部门的总体工作质量 2.在工作中投入了很大的努力 3.认真负责地执行交给的任务 4.积极协助上级开展工作 5.自愿承担那些没有正式分派的任务 6.在其他同事不在岗时愿意接替他们的任务 7.当别的同事工作负担增加时，会提供帮助 8.遵守公司的规章制度 9.与同事愉快地合作.,D、编写项目原则,内容方面。首先，要求项目的内容符合测验的目的；其

14、次，内容取样要有代表性；第三，项目间内容相互独立，互不牵连。文字方面。使用语言要准确，语句要简明扼要，最好一句话说明一个概念，尽量少使用双重否定句。理解方面。项目应有确切的答案，项目的内容不要超出受测团体的知识水平和理解能力，项目格式要容易理解。社会敏感性方面。应尽量避开社会敏感性问题，如涉及社会禁忌或个人隐私的项目不应使用。,1、请问您最近一个月使用什么品牌的化妆品？请问您最近一段时间使用什么品牌的化妆品？,2、您是否认为使用电脑数字技术制作的广告更具有吸引力？,3、您觉得这种新款轿车的加速性能和制动性能怎么样？,4、人们认为长虹牌彩电质量不错，您觉得怎样？,5、您觉得这种产品的新包装不美观

15、吗？,用词不够通俗,不应诱导,提问内容尽可能确切,不应包含多个问题,不应否定式提问,E、试测与项目分析试测对象来自将来正式测验准备用的群体；实施过程与情景与正式测试类似；时限放宽；记录被试的反应情况，如不同时限完成的人数、题意有无歧义。项目分析（后面专节）F、合成测验（选择合适项目、合理编排）测验项目的选择：区分度和难度适当测验项目的编排并列直进式混合螺旋式编制复本（等值）：一种测验需要两个以上的等值型测量的是同一心理特质内容范围相同，但不重复题型相同，题量相等，难度相当,霍兰德职业性向职业能力倾向的自我测定,G、测验标准化施测过程统一指导语（项目说明和被试如何反应）影响被试反应态度与方法时限

16、：通常97%的被试在规定时间内完成全部测验。测验评分：客观题；主观题。及时清楚记录。标准答案或典型特征比较记分分数合成（项目分测验总分）测验分数解释（后面专节）,填写要求：1、请您在所选择答案的题号上画圈。2、对只许选择一个答案的问题只能画一个圈；对可选择多个答案的问题，请在你认为合适的答案上画圈。3、需填写数字的题目在留出的横线上填写。4、对于表格中选择答案的题目，在所选择的栏目内画勾。5、对注明要求您自己填写的内容，请在规定的地方填写上您的意见。,开头部分,填写说明：明确填写问卷的要求和方法。,H、信度、效度（后面专节）信度效度I、编写测验说明书目的、功能；理论背景；实施方法、时限、答案和

17、记分方法；常模表；信度、效度资料。,3 项目分析,类型定性分析：包括考虑内容、题目编写的恰当性和有效性等（经验和训练）定量分析：难度和区分度分析项目难度分析难度（difficulty）的意义。难度，指项目的难易程度。在最高作为测验中，称为“难度”，而在典型作为测验中，则指“通俗性”。两者都是指在总体中，能够正确或确切回答某项目的人数。若大部分被试都能答对，难度小；反之，难度大。难度的相对性。难度大小除了与所测内容本身难易程度有关外，还与测验编制技术和被试的知识经验有关。由于表达不清或被试没有学过，本来容易的项目可能变得较难。,难度的计算二分法记分项目的难度（是非、选择题）通过率 P=R/N P

18、为难度指标，R为答对项目的人数，N为全体人数难度值越大，难度越小；反之，越大。极端分组法（总分最高、最低27%）人数多P=（PH+PL）/2多项选择题CP=（KP1）/（K1）p44例题校正后难度值低于校正前的难度值,非二分法记分项目的难度（论述、简答题）P=X/Xmax X为所有被试在该项目上的平均得分，Xmax为该项目的满分。,测验难度水平的确定效标参照测验、掌握测验：不考虑难度；（期末考试、驾照）选拔测验：难度=录取率；对于选择题来说，难度一般应大于猜测概率；（如四选一题目难度0.625最合适；是非题难度应该为0.75最合适）(n+1)/2n 无论是速度测验，还是难度测验，一般都应防

19、止被试得满分，因为满分的意义是不明确的。大体而言，难度为0.50时最理想，此时项目具有最大的区分能力。但在实际操作中，让所有项目难度都到达0.50困难很大，而且也不必要，一般只需使项目的平均难度接近0.50，而各个项目的难度在0.50 0.20之间变化。,难度对测验的影响,（1）测验难度影响测验分数的分布形态难度大，正偏态难度低，负偏态（2）题目过难或过易，结果差距小，测验意义不大。,项目区分度区分度的意义。区分度（discrimination）是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。区分度高的项目能将不同水平的被试区分开来，即水平高的得高分；反之，得低分。项目的区分度是测验

20、是否有效的“指示器”。区分度与题目难度直接相关。调整难度是提高试题区分度的方法。P46区分度与被试的水平密切相关。试题难度小于或等于实际水平区分度较好。基本原理：水平高的倾向答对题目，反之，倾向答错题目。因此，区分度高的试题能区分水平高低；反之，则不能。,区分度指数（index of discrimination，D）的计算D=PH PL取值范围：-1+1极端组的划分27%规则。一般情况下，取上下25%33%均可。样本少时，可以取50%由于计算机的方便使用，可以上下50%作为划分高低组的标准，或者多分几组，对区分度和难度作详细分析。因为只取上下两端，只利用了一部分资料，浪费了很多信息，有可能得

21、出错误结论。,项目区分度评价标准,相关法（选择、是非）p为项目通过率，q=1-p，为通过该项目的被试的总分平均值，为未通过该项目的被试的总分平均值，st为全体被试总分标准差。,P=9/16=0.5625,q=0.4375Xp=(55+78+36)/9=63.78Xq=(66+18+45)/7=54.71X=(55+78+36)/16=59.81D=0.2297,难度和区分度的关系p47,难度和区分度都是针对一定团体而言的。一般来说，较难的项目对高水平被试区分度高，较易的项目对低水平被试的区分度高。,项目特征曲线（item characteristic curve,ICC）,项目特征曲线描述了被

22、试在某项目上的通过率。曲线坡度越陡，鉴别力越好，预测的误差越小。,率概的目项答回确正,1.00,0.00,0.50,低中高能力,鉴别力较好,低中高能力,鉴别力为负,鉴别力较低,难度不同的3个项目的ICC,多项选择中每个选项的ICC,你如何解释下述现象？,一个很聪明的孩子，测得智商是80分一个学习很好的学生，考试成绩为60分一个人缘很好的人，人际关系测量低于常模值,4信度和效度分析,4.1测量误差(measurement error)测验分数=真实分数+测量误差或者：X=T+e误差定义测量中与目的无关的因素所产生的不准确或不一致的结果。是变量测量值和真实值之间的差距。,误差类型测量误差

23、可分为两大类：随机误差(random error)；指的是由偶然因素引起的无规律的误差，它导致测量结果围绕某一个值产生不一致或不稳定的变化。影响测量的一致性和准确性。系统误差(systematic error)。指的是某种无关的固定因素引起的有规律性变化的误差，它导致测量结果偏离真值，但每次偏离的方向和大小是稳定的，不会影响测验结果的一致性。影响测量的准确性。,误差来源测验本身。项目取样（代表性、数量；是非选择题猜测；用词模棱两可）施测过程。环境（温度、光线、桌面高低、噪音）、时间安排不当、主试、意外干扰、评分计分（题型、阅卷者情绪）。被试。（最为复杂）应试动机。影响答题态度、注意力、持久性、

24、答题速度焦虑紧张的情绪体验（能力、自信、接受测试频率负相关；关系重大正相关；不了解指导语和测试目的）p50测验经验。练习效应。测验重复使用时反应倾向速度测验（时间有限，题量大，求快求准）是非题（选是或非的倾向）选择题（某个位置或长项目）人格测验（掩饰）生理因素,4.2测量的信度(reliability)信度定义指的是测量数据的可靠性程度，即在类似条件下重复测量能否给出一致的和稳定的测量结果。信度的理想水平是1.00，但是实际上是达不到的。一般来说，要求rxx 0.70。一般能力与成就测验的信度系数在0.90以上；人格、兴趣等测验的信度通常在之间。一般来说，当rxx 0.70时，可用于团体间比较

25、；当rxx 0.85时，可用于鉴别个人。,一般了解知识,信度与误差关系。测验分数方差=真实分数方差+误差分数方差 X2=T2+e2信度系数：rxx=T2/X2=T2/（T2+e2）=1 e2/X2信度可以解释为总的方差（标准差的平方的缩略语）中有多少比例是由真实分数的方差决定的，即测量分数的变化中有多少是真正反映了被测者分数的变化。例如：当rxx=0.90时，我们可以说，实得分数中有90%的方差是来自真实分数的变化，仅有10%是来自测量的误差。,信度的测评方法（1）重测信度（Test-Retest Reliability）p51定义：同一量表，同一被试群体，在不同时间，两次施测，求其相关。实质

26、：表示测验结果前后出现的稳定性。故称之为稳定性系数（Coefficient of Stability）形式：施测适当时间再施测。反映时间变异,计算公式例如：如果用一个智力测验测量某人的智力，第一天测量得到100分，表示智力中等；第二天测量却变成了150分，这个分数意味着这个人在一夜之间变成了天才，如果没有特殊原因，这种事绝对是小概率事件，不太可能发生，可信度极低。,评估重测信度时，要注意重测间隔的时间由于受试对象是人，两次测试的时间间隔应足够长，否则受试人对上次测试的记忆会影响第二次测试的回答，使两次测试获得不真实的高相关性。两次测试的时间间隔也应足够近，否则待测的素质可能在这期间受某些影响而

27、发生变化，这样两次测试的真实值可能变化。年幼儿童，间隔要小；年长群体，间隔可大。智力测验的间隔不能太短，成就测验的间隔不能太长。一般间隔时间不超过六个月。（即不能让被试记住上一次测验的内容，又不能让其素质发生变化，或对所学知识产生遗忘）。实际研究中这一时间间隔通常取两个星期。,应用重测信度应注意：,重测信度一般只反映由随机因素导致的变化，而不反映被测者行为的长久变化。例如被测者智力的发展与能力的提高，不是重测信度考察的因素。这些因素导致的重测相关系数的降低，不能说明测验的重测信度低。当测量的行为或特质较为稳定时，重测信度的解释才有效。如人格测验，才比较适合用重测法计算信度系数。,（2）复本信度

28、(alternative-form reliability)又称为等值性系数，它是以两个测验复本（功能等值但题目内容不同）来测量同一对象，然后求得被测者在这两个测验上得分的相关系数。复本信度反映了两个测验复本在内容上的等值性程度。例如同样是测量数学运算能力的测验，如果一个测验复本侧重于考核加减法的运算，而另一个复本侧重乘除法的运算，两者之间的相关必定不会太高，即复本信度低，说明必定有一项测验复本的取样有问题。同时连续施测。形式：复本A最短时间复本B时间间隔施测形式：复本A适当时间复本B,复本等值要符合下列条件：,各份测验测量的是同一种心理特性。各份测验具有相同的内容和形式。各份测验的题目不应重

29、复。各份测验题目数量相等，难度和区分度大体相同。各份测验的分数分布（平均数和标准差）大致相等。,计算公式其中，N为测评结果的被试人数，D为同一被试两次成绩名次的差。p52例题内容不同，能够避免重测信度的一些问题，如记忆效果、练习效应等，同时不会降低被试兴趣；但复本编制较难。,（3）折半信度（Split-Half Reliability）定义：在测验没有复本且只能实施一次的情况下，可将测验项目分成对等的两半，根据被试在这两半测验中所得的分数计算相关系数，即得折半信度。计算折半信度先要对测验分半。一般按照奇偶来分半。公式为了使两半基本等值，可将项目按由易到难的顺序排列编号，然后按奇数和偶数序号将项

30、目分半。要注意使那些性质相同、联系紧密的项目分在相同的一半，否则会使信度值偏高。,（4）内部一致性信度（internal consistency reliability）库德理查森（Kuder-Richardson）的KR20。P为通过某项目的比例，q为没有通过的比例，S为测验总分数的标准差。适用于最高作为测试例如，某项机械能力测验中有一个3项目的子测验，这3个项目试测时回答正确的比例分别是.80、.70、.50，总分数标准差是.90，则信度为？,一致性系数Cronbach alpha系数项目的一致性程度和项目结构的良好性。运用最为广泛。当项目内部结构不良或内容十分异质时，不宜使用。主要适用

31、于典型作为测试,（5）评分者信度（raters reliability）在有些测量情形中，评分者的评判也是误差的来源之一。例如面试、观察评定、投射测验、创造力测验、无领导小组讨论、管理者情境模拟等，都依赖于评分者的判断，这种判断的主观性往往造成不同评分者的评分很不一致，因此有必要考虑评分者信度。评分者信度是指不同评分者对同一对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷，由两个独立的评分者打分，再求两个评判分数的相关系数。评分者的评分越一致，评分者信度越高。如果评分者在三人以上，而且又采用等级记分时，就需要用肯德尔和谐系数来求评分者信度。,肯德尔和谐系数n为评定者人数，m为项目

32、个数，Ri为第i个项目上所有被试等级或分数之和。,3位教师对四道题目的评分如下，分析这3位教师评分的一致性,提高可靠性（信度）的方法（1）增加测试长度，即增加度量项目的个数。(同质、难度相当)测验越长，则试题取样或内容取样越恰当测验越长，测验结果越不易受猜测的影响（2）被测因素在被试中的差异越大，测试越可靠。与被测素质方面差异小的受试对象相比，对被测属性方面差异大的受试对象进行测试，更易做出可靠的测量；（3）通过提供准确的讲解和适宜的测试环境，来减小受试者犯错误的可能性，从而提高测量的可靠性。在调查中提出问题时要注意只问那些被调查者可能知道答案的问题。对可靠性的最大威胁在于人们会对本来一无所

33、知或一知半解的问题所给出一个确定的回答。,例：如果某一个素质测评有10个项目，信度为.65。若将项目增加道60个项目，信度为？如果要将该测评的信度提高到.70，需要增加多少个项目？,斯皮尔曼布朗公式,（4）测验的难度任何以相关系数表示的信度系数都会受到样本团体分数分布的影响。分数分布越广，信度系数就相对越高，分数分布越窄，信度系数就会越低。测验的难度也会对信度产生影响。如果一个测验的难度太低，测验分数会非常集中并聚在高分端，即出现天花板效应；如果难度太大，所有分数都集中在低分端，出现地板效应，都会使测量到的分数分布太窄，导致信度降低。只有当测验的难度水平能够使测验分数分布范围最大时，测验的信度

34、才会比较理想。一般来说，当所有被试的平均分为测验总分的一半，并且分数从零分到满分分布时，测量的信度最高。,各种信度评估的适用情景：重测信度评估侧重考察测评跨时间的一致性和稳定性；复本信度评估侧重考察测评跨形式的一致性和等值性；内部一致性信度评估主要反映的是一个测评内部题目之间的关系，揭示测评的各个题目是否测量了相同的内容或特质。评分者信度评估主要是考察评分者的主观误差。,课堂作业与对某人品德测评分数的可靠性进行考察，随机抽取其中10个被试的分数，分别是：74、71、80、85、76、77、77、68、74、74，再次测评后10个被试的分数分别是：82、75、81、89、82、89、88、84、

35、80、87。请问可以用什么方法评价测评的可靠性？可靠性是多少？假设两次测评是等值的复本，计算复本信度假设上述20个人的分数为20道题目的分数，前10道题为奇数项题目，后10道题为偶数项题目，计算该量表的折半信度。,思考:我们如何知道我们有多高？有两个工具：尺子/秤尺子的数据与我们的目测更一致，而秤盘的数据则与我们的目测不一致。因此，尺子是测量身高的有效工具效度。什么材料的尺子？钢铁（热胀冷缩）涉及到一致性的问题。信度,4.3效度内涵效度是评价测量工具好坏的重要标准之一。较高的效度是一个良好的测量工具最重要的特性，是必要条件，也是选择和评价测量工具质量的重要依据。一般来说，效度的作用比信度的作用

36、更为重要。测量结果的效度就是指测量的有效性和正确性，即能够测量到所要测量目标的程度，反映了测量结果对测量目标的体现程度。效度的高低只有程度上的差别，不存在完全没有或完全有的情况。,效度的特性,效度具有相对性效度都是针对特定用途而言的，效度并没有普遍意义上泛指的效度值。数学测验数学成绩；整体智力；性格。效度具有连续性效度不是“全”或“无”的离散变量，它只是一个连续变量，测验的有效性只有程度上的差别。,对效度的考察反映在下面问题之中：该测验真正测量的是什么？该测验能够很好的预测我们感兴趣的结果吗？结果适用的范围第一个问题集中于测验，要求明确关于测验所测量目标的内在理论或心理构想。（构想或构思效度

37、）第二个问题集中于效标，也就是判断一个测验预测的成功性的标准。这就要求建立测验成绩与那个标准之间的关系。（效标效度）,研究有效性的类别,研究的有效性（Validity）主要分为三种：构思有效性（Construct Validity，简称C.V.）；内部有效性（Internal Validity，简称I.V.）外部有效性（External Validity，简称E.V.）,各种有效性的定义,构思有效性是指理论中的抽象概念在多大程度上在实际研究中成功地进行了操作化，即操作变量在何种程度上体现了它想要体现的理论概念的真正含义。内部有效性是指在多大程度上研究允许得出两个变量之间是因果关系的推断。外部有

38、效性是指在多大程度上可以将对特定研究样本和在特定研究环境下所得到的研究结果推广到理论假设中所明确的总体和环境中去，因而又可称为可推广性（generalibility）。,概念的多操作化定义,三种有效性之间的关系,构想或构思效度construct validity构想效度是指测验能够测量到理论上的构想或素质的程度。所谓构想通常指一些抽象的、假设性的概念或特质，如智力、创造力、言语流畅性、焦虑等。这些构想无法直接观察。但是每个构想都有其心理上的理论基础和客观现实性，可以通过各种可观察的材料加以确定。例如言语流畅性可以通过语速、语句间的逻辑性、口误的数量等可观察的指标进行确定。适用范围：适用于智力测

39、验、人格测验等。例如：韦克斯勒首先假设“智力是一个人去理解和应付他周围世界的总的才能”，然后，他依据这一定义，编制11个分测验从十几个方面来说明智力，编好测验又从多个角度加以验证，最后，用因素分析法验证，该测验实际测量了三类共同因素，即A因素（言语理解）、B因素（知觉组织）、C因素（记忆和注意集中）。,效度研究趋势聚合（会聚）效度（Convergent Validity）运用不同测量方法测量同一特征时结果相似程度，应该足够大辨别（差别/区分）效度（Discriminant Validity）运用相同测量方法测量不同特征时辨别不同特征的程度，应该足够小,多特征多方法矩阵（multi-traits

40、 multi-methods，MTMM）,多特征多方法矩阵说明,矩阵元素表示分别用不同的方法对不同的属性进行度量的结果之间的相关系数。矩阵由4种元素分块组成，分别在分块左上角用数字标识：可靠性对角；有效性对角；异属性同方法三角形；异方法三角形。通过分析各分块中的数据可以对度量的可靠性、会聚有效性和差别有效性进行评价。,卷面效度（Face validity)测评工具（量表）要测量的东西看上去象它所要测的东西。最高作为测量，表面效度越高越好典型作为测量，表面效度越低越好内容效度（content validity）内容效度是一份试卷所测量的内容是否代表它应该测量的内容。是检查测验内容是否是所预测量

41、的行为领域的代表性取样的指标。如高中物理包括力学、电学、光学、热学以及原子物理学5个方面。在实际工作中我们编制的测验不可能包含所要测量的行为领域的全部可能的材料或情境，只能选择一个有代表性的样本，通过观察被试对个别题目的反应，来推测他的总体行为表现。,内部效度效标关联效度criterion-related validity效标关联效度又称为效标效度，指测评结果与某种标准结果的一致性程度，反映的是测验分数与外在标准（效标）的相关程度，即测验分数对个体的效标行为表现进行预测的有效性程度。认知能力（预测指标）学习成绩（效标是考察测验效用的外在参照标准。）,机械能力倾向测验,管理能力测验,管理绩效,机

42、械师绩效,预测效度,常见效标,学术成就特殊训练成绩实际工作表现等级评定,确定效标效度的方法,相关法。问题：相关系数的平方表示什么？命中率：根据测验所做的正确决定的比率。效度系数：是最常用的效度指标。它是以相关系数来表示的。决定性系数：效度系数的平方就是决定性系数，它表示测验正确预测或解释的效标的方差占总方差的比例。,效度系数,信度和效度关系二者的区别：信度与效度的差别在于所考虑的误差不同。信度考虑的是随机误差的影响；效度考虑的误差包括随即误差和对测验目的无关的变量引起的系统误差。信度（可靠性）是效度（有效性）的必要非充分条件。一般有下述四种关系：（1）有效的测量一定是可靠的测量。（2）无

43、效的测量可能可靠，也可能不可靠。（3）可靠的测量，既可能有效，也可能无效。（4）不可靠的测量一定是无效的。,5 测评结果报告及分数的解释,人事测量的主要目的是获得应试者的各种反应信息（赋值），人事评价是利用这些反应信息对个体素质或特点作出评价的过程（分数的解释）。如果有人告诉你：“我的英语测验得18分”，你可能会有什么反应？有一人身高为170厘米，体重为65千克，究竟是身高还是体重在各自的分布中较高？,5.1原始分数与导出分数原始分数（raw score）：通过实施测量和对测量结果计分（将应试者的反应与标准答案相比较）可以直接获得测量原始分数。没有附加的可解释的资料，任何心理测验的原始分数都是

44、没有太大意义的。不同测验的原始分不能相互比较，因为它们的价值不一样。单说某人正确解决了15道数学推理测验题，在词汇测验中能够再认34个单词或者在57秒之内成功组装了一个机械物体，并不能给我们提供关于他在这方面能力的精确信息。如果一个女孩在一份词汇测验中得40分，而在数学推理测验中得20分（原始分数），能说她词汇好于数学吗？我们并不了解原始分数的实际含义，它们之间也不能直接比较。,原始分数的校正公式1:Xc=R+O/kXc=校正分数;R=正确回答的得分;O=被忽略的题数；K=题目的选项数公式2:Xc=R-W/(k-1)Xc=校正分数;R=正确回答数;W=错误数;K=题目选项数,被试做对题数

45、忽略题数错误数修正分数（1）修正分数（2）-甲 14 0 6 14+0/4=14 14-6/3=12 乙 14 6 0 14+6/4=15.5 14-0/3=14 丙 14 3 3 14+3/4=14.75 14-3/3=13-,解决途径导出分数为了更精确的理解个体原始测量分数的确切意义，通常需要将原始分数转化为一些导出分数（按照统计学的原理，从原始分数转换而来的具有一定参照点和单位的测验量表的数值，也就是与原始分数等值的量表分数）。人事测量的目的在于根据特定标准评价和比较被测者各方面素质及其差异，只有通过与一定的标准进行比较，原始分数才能获得有意义的解释。评价标准分为两种：绝对标准通常是

46、希望达到的外在目标，相对稳定，不会因测量对象的改变而改变。相对标准通常代表某一群体内部真正的成绩，不稳定，会随着测量对象（测量对象所属群体不同）的改变而改变。,根据相对标准进行分数的解释称为常模参照解释，指测量的原始分数通过与某个参照团体的分数进行比较，并以该分数在这个团体中的相对等级或相对高低位置来描述应试者的素质或特点，以得到可供比较的导出分数的过程。根据绝对标准进行分数的解释称为效标参照解释，指依据外在标准对应试者分数进行解释的过程。二者的根本区别在于测量成绩所参照的标准：常模参照解释是将被测者的成绩与同类群体的其他人的成绩进行比较，而效标参照解释是将被测者成绩与外在效标进行比较。,实施

47、一项机械技术考试之后，如将应试者的成绩与其他人的成绩进行比较，可以知道该应试者的机械技术知识是优秀、一般还是较差，这就是常模参照的分数解释；如果将应试者的成绩与机械师分级的标准（外在标准）进行比较，就可以知道该应试者是否达到了某一级机械师的水平，这就是效标参照的分数解释。驾照考试的分数解释属于哪一种？英语过级考试与期末考试的分数解释属于哪一种？公务员考试的分数解释属于哪一种？,导出分数的作用指出个体在参照群体中的位置，以便参照他人对这一个体进行评价。使对个体在不同测验中的成绩的比较成为可能。导出分数能够以相同单位来表示测验成绩，能参照相同或近似的常模团体在不同的测验中的成绩情况，于是个体在多种

48、测验中的成绩情况就可以比较了。,常模（norm）：上述用作比较的团体叫做常模团体（具有某种共同特征的人所组成的一个群体），常模团体的分数分布叫做常模。一般用测验分数的平均数(值)和标准差来表示。常模作为比较的标准，其有效、可靠与否取决于常模所依据的样本群体（标准化样组）是怎样被选出来的。例如：要为某种测验建立18岁的常模，最可靠的方法是将具有这一测量对象（心理特征）的18岁个体个个加以测量。但是由于时间、人数、经济的限制，这是不可能做到的，所以通常只能抽取具有这个研究特征的人群总体的一部分以代表总体，这个代表总体的样本通常被称作标准化样组。,标准化样组选择的条件要选择一个能代表总体的样组在方

49、法上很有讲究。有几条原则能保证获得一个标准化的样组。1.充分考虑到与测验有关的变量（文化、国家、地域、种族、年龄，性别，地区，受教育程度，职业/社会经济地位、智力等）2.规模要适当；3.选择合适的抽样方法,补充：常模的建立途径,简单随机抽样：将抽样范围中的每个人或每个抽样单位编号，随机选择，每个抽样单位都有相同的机会作为常模团体中的一部分。等距抽样：以被试某些与测量特征无关的特征（电话号码、学号）将被试按一定顺序排列，随机确定一个起点从总体中抽取1/K被试，列表中第K个就成为样本组成中的被试。分层随机抽样：研究者事先确定某些类型的被试必须在样本中占一定的比例，然后按比例随机抽取各种类型的被试样

50、本。整群抽样：以自然组合单位构成被试团体（班级、工厂、医院）时，可以一以整群为单位随机抽样，被选中的单位团体将全部进入样本。,常模意义任何个体的原始分数可以参照从标准化样组得来的分数分布，找到其在分布中的位置：他的分数和标准化样组的平均情况一致吗？是稍低于平均数，还是进入了分布的高端？从而得到该测验分数的相对意义。常模不同，分数的解释也就不同，所以在解释常模参照分数时，首先要了解：“他参加的是什么测验？”例如：一个人参加小学数学考试与参加大学数学考试的成绩肯定不一样，相对常模分数的分布位置也不一样。,常模的类型发展性常模表示某一年龄心理发展的平均水平，用于衡量被试已经达到的发展水平。智龄、年级

展开阅读全文