《心理咨询师(基础知识)—心理测量学.ppt》由会员分享,可在线阅读,更多相关《心理咨询师(基础知识)—心理测量学.ppt(177页珍藏版)》请在三一办公上搜索。
1、心理测量学,心理咨询师(基础知识)心理测量学,内容提示,第一章 心理测量的历史回顾第二章 心理测量与测验的一般介绍第三章 测验的信度第四章 测验的效度第五章 项目分析第六章 测验的常模第七章 测验编制的一般程序第八章 心理测验的使用,第一章 心理测量的历史回顾,心理咨询师(基础知识)心理测量学,心理测量三个前提,要肯定心理的可测性,正视心理的差异;要确定对何种心理特征进行测量,对待测或可测的内容进行理论说明;要形成具体的测量方法,即把内容操作化。能测测什么怎么测 中国古代的心理测量在这三个方面均有卓越的贡献。,一、中国古代的心理测量思想和实践,孔子的个体心理差异思想孟子的“心理可测”思想我国古
2、代先哲的“知人之法”汉代考试、隋唐以后的科举考试民间的“抓物试儿”(周岁试儿、抓周)智力游戏工具:九连环、七巧版,孔子的个性差异思想,性相近,习相远。唯上知与下愚不移。中人以上,可以语上也。中人以下,不可以语上也。孔子论语,孟子的心理测评思想,权,然后知轻重;度,然后可以知长短;物皆然,心为甚。孟子凡物之存在必有其数量。桑代克 凡有数量的东西都可以测量。麦柯尔,六韬选将篇:“知有八征”,周武王:如何知道“士之高下”太公曰:知有八征一曰问之以言以观其辞二曰穷之以辞以观其变三曰与之以间谍以观其诚四曰明白显问以观其德五曰使之以财以观其廉六曰试之以色以观其贞七曰告之以难以观其勇八曰醉之以酒以观其态,诸
3、葛亮的“知人七法”,美恶既殊,情貌不一,有温良而为诈者,有外恭而内欺者,有外勇而内怯者,有尽力而不忠者。,知人之道,有七焉:一曰,问之以是非而观其志;二曰,穷之以辞辩而观其变;三曰,咨之以计谋而观其识;四曰,告之以祸难而观其勇;五曰,醉之以酒而观其性;六曰,临之以利而观其廉;七曰,期之以事而观其信。诸葛亮文集之知人性,明清的科举考试制度:过程与步骤,初步考试:童试:州县督学考试合格后称“秀才”。岁试,每年考一次,这是一个选优的过程。科试:每三年一次,确定参加乡试的资格。正式考试(三场):乡试:每三年一次,考中后称“举人”。有资格做县令会试:乡试下一年二月份举行,考中后称“进士”。进士每年的名额
4、大概有300名左右殿试:会试后第二个月进行,皇帝在太和殿亲自考试,考中分一、二、三甲,可直接做官,分别为状元、榜眼、探花。,中国民间的“抓物试儿”(周岁试儿、抓周),江南风俗,儿生一期,为制新衣,盥浴装饰。男则用弓矢纸笔。女则刀尺针镂,并加饮食之物及珍宝服玩,置之儿前,观其发意所取,以验贪廉智愚,名之为试儿。颜之推颜氏家训风操篇,中国古代的“九连环”,要解开“九连环套”,至少需要移动诸环341次。九连环可追溯至秦昭王时期。现在已成为国内外的一种益智游戏工具。,中国古代的七巧板,七巧板的发明可能在18世纪初,源于蝶几。在欧洲,大约在1805年出版的新编中国儿童谜解中有24幅七 巧图,并附有一份木
5、制的七巧板。随后,1810年在法国,1818年在德国 和美国都纷纷出版了关于七巧板的书。,二、西方心理测量的历史回顾,早期对智力落后儿童的分类和训练的关注冯特和实验心理学对心理测验的影响高尔顿的贡献卡特尔和早期心理测验比奈和世界上第一个智力测验团体测验的产生,沈干和智力落后儿童诊断方法,欧美国家迫于社会人道主义思想与舆论的压力,为了使低能者能寻找到维生的职业,一些地方官员与工厂主订约,每雇佣20名童工,必须同时带雇1名低能者。为了设法使低能者尽可能适应工厂技术的要求,法国医生沈干(E.Seguin)开始训练智力落后的儿童,并于1837年创办了第一所专门教育智力落后的儿童的学校。1846年出版白
6、痴:用生理学方法进行诊断和治疗非常重视感官训练、肌肉训练,发展感觉与精细动作。还发明了很多测验和训练工具,如沈氏拼图板。(测什么、怎么测),冯特和实验心理学对心理测量的影响,1879年,德国心理学家冯特在莱比锡大学建立了世界上第一个心理实验室。实验心理学的主要目标是要寻求人类行为和心理的共同规律,并不关心个体差异。它把实验中不同被试对同一刺激的反应差异看作是一种误差。,实验心理对心理测验的影响(测什么、怎么测)实验心理学中测量感觉和简单反应时的方法,成为测量个体心理差异的项目和工具。实验心理学中严格控制实验条件的要求,称为心理测验标准化的基本要求。,高尔顿(Francis Galton),英国
7、科学家和探险家。著有遗传的天才:它的规律与后果(1869)、英国的科学家们:他们的秉赋与教养(1874)、人类的能力及其发展的研究(1883)(能测、怎么测),重视个体差异研究,重视运用测量来收集证据。设计了很多测量工具,并在1884年设立人体测量实验室,在此后6年内测量了9337人。倡导运用数学方法处理和分析心理学研究资料。提出人类的许多心理特性的表现呈正态分布。提出相关概念,其学生皮尔逊发明积差相关法。,高尔顿对心理测量的贡献,卡特尔对心理测量的贡献与局限,美国心理学家卡特尔(James McKeen Cattell,18601944),早年师从冯特,与高尔顿有过密切交往,深受两人影响。,
8、1890年,他在心理杂志上发表心理测验与测量一文。首次提出“心理测验”这个术语,并报告了他编制的一套能力测验的应用结果。(测什么、怎么测)其测验主要是测定感觉敏锐性、短时记忆、动作灵敏性,还不是真正意义上的智力和能力测验。,比奈和世界上第一个智力测验量表,比奈(Alfred Binet,1857-1911),法国心理学家,智力测验的创始人。主要从事智力心理学研究,著有推理心理学(1886)、语句的记忆(1895)、智力的实验研究(1903)。(能测、测什么、怎么测),他主张用测验法去辨别有心理缺陷的儿童。1905年,他与助手西蒙(T.Simon)发表诊断异常儿童智力的新方法,介绍了世界上第一个
9、智力测验。,团体测验的产生,比奈智力测验及其各国的修订本属于个别测验,一个主试一次只能测验一个被试,测验的效率较低。1917年美国参加第一次世界大战,美国心理学会受命成立了一个委员会研究心理学如何为战争服务。要对100多万新兵进行快速分类,只能用团体施测方法。军事心理学家参考有所有可以得到的测验材料,尤其是阿瑟奥蒂斯(Arthur S.Otis)未发表的团体智力测验,最后编制出“军队甲种测验”(文字测验)和“军队乙种测验”(非文字测验)。可用于大规模的团体施测。战后,两种测验在修订后被广泛运用于社会各个领域。,旧中国教育与心理测验的发展和停滞“五四”前后至1928年:昌盛时期1929年至194
10、9:缓慢发展新中国的心理测验的停滞与发展1949-1978:停止发展1979至今:重新发展高考命题标准化翻译、引介西方教育与心理测验理论修订西方心理测验量表的中国版本编制中国自己的心理测验量表(很少)当前我国心理测验发展状况本土化,三、心理测量和测验在我国的发展,第二章 心理测量与测验的一般介绍,一、测量的基本问题二、心理测量的基本概念三、测验的种类四、纠正错误的测验观 五、心理测验的应用六、心理测验的具体分类,心理咨询师(基础知识)心理测量学,问题引入,我们日常生活中哪些运用了测量?女人考验男人是否真正爱她?,生病(询问的次数,照顾的时间、次数)关心(打电话的次数、沟通的时间、提醒早睡的次数
11、、吃醋的次数、主动关心还是被动关心、眼神火辣度、做早饭的频率、做家务的次数)争吵次数专一度(赚钱多少;花钱数;发脾气的容忍度;先挂电话的次数;煲电话粥时长;看美女的时间、次数)浪漫度(玫瑰花的数量、次数;旅游的次数),一、测量的基本问题,(一)测量定义定义:根据一定的法则用数字对事物加以确定。(1)事物(测量对象):我们所感兴趣的东西,特指引起兴趣的事物的属性或特征。(2)数字(测量的结果):描写事物属性的数字或符号。(3)法则:即为依据、规律、规则、理论等,即测量时给属性分派的标准或依据。它是测量中最关键也是最困难的工作。,法则的好坏取决于:制定规则的程序所要测量的事物属性本身是否易于建立规
12、则及规则是否便于操作,(二)测量的要素,测量的要素:参照点与单位1、参照点 绝对零点:轻重、长短 相对零点:海拔、智力2、单位 有确定的定义 有相等的价值,(三)四种测量水平和测量量表,量表:在一个定有参照点和单位的连续体上把事物的属性表现出来,这个连续体称为量表。名称量表:根据事物的某一特点,对事物属性进行分类,并用数字或符号表示,例如:性别、国籍;等级量表:根据事物的某一特点,将事物属性分成等级,并用数字表示,例如:高矮、胖瘦;等距量表:对事物属性的划分是等距的,即单位是等值的,但没有绝对零点,例如:海拔、摄氏度;等比量表:对事物属性的划分是等比的,即单位是等值的,且有绝对零点,例如:长度
13、、重量。,四种测量水平的测量量表,四种测量量表在三个维度上的表现,(四)直接测量与间接测量,1、直接测量:直接测到事物属性的测量。(生理、物理、化学等)2、间接测量:间接测到事物属性的测量。(心理属性)人心可测,但只能测外显行为。问题:如何对外显行为进行测量,如测谎?,二、心理测量的基本概念,心理测量:根据一定的法则用数字对人的行为加以确定,即依据一定的心理学理论,使用一定的操作程序,给人的行为和心理属性确定出一种数量化的价值。心理测量的特点:间接性:无法直接测量人的心理,只能测量人的外显行为。例如,一个人喜欢阅读机械杂质,喜欢看各种机器运转,热心为别人修理自行车等等,由此一系列的外显行为,我
14、们便可能推论此人具有机械兴趣的特质。相对性:对人的行为进行比较,没有绝对的标准,所有心理测量都是在看每个人处在这个序列的什么位置。客观性:测验的标准化,包括测验的编制、施测、计分、分数转换、结果分析、解释等。,心理测量是属于哪一种水平的测量?,心理测量,不论是对智力,还是对能力倾向或人格的测量,都只具有等级量表的特征。测验分数一般只能显示个体智力、能力、人格上的等级位次,而没有一个相等的单位,所以不是等距量表只能是等级量表。但是由于多数心理特征具有常态分布的特征,且没有绝对零点,所以可以把测量后直接得到的原始分数转化为常态分布下的标准分数,把量表当作等距量表来处理。,三、心理测验的种类,(一)
15、按测验的功能分类智力测验评估人的一般智力水平,如逻辑思维能力、创造力、记忆能力等特殊能力测验评估人的特殊潜在能力,如音乐、绘画、机械技巧等人格测验评估人的个性心理特征,如性格、气质、态度、情绪、动机、信念等,(二)按测验材料的性质分类,文字测验(语言测验)优点:施测方便,适合团体测试缺点:受文化程度的影响操作测验(非语言测试)优点:不受文化程度的影响缺点:不能团体测试,在时间上不经济,(三)按测验的严谨程度分类,客观测验直接呈现刺激的词句、图形等,意义明确,无须发挥想象力来猜测和遐想投射测验刺激没有明确意义,对受测者的反应没有明确规定,需要发挥想象力,(四)按测验的方式分类,个别测验(测验者和
16、被测者一对一)优点:对被试的反应有较多的观察和控制机会,结果比较可靠缺点:时间不经济团体测验(一个测验者同时测多个被试)优点:时间经济,对主试要求不高缺点:被试在测验中的行为不宜控制。结果不一定可靠。,(五)按测验的要求分类,最高行为测验要求受测者尽可能做出最好的回答,例如,智力测验、特殊能力测验典型行为测验要求受测者按通常的习惯方式做出反应,没有正确答案,例如,各种人格测验,四、纠正错误的测验观,一、错误的测验观测验万能论测验无用论心理测验即智力测验二、正确的测验观心理测验是重要的心理学研究方法之一,是决策的辅助工具心理测验作为研究和测量工具尚不完善,五、心理测验的应用,军事领域(国外应用广
17、泛)企业领域(人员选拔和分配)心理咨询领域(心理诊断、效果评估)教育领域(智力及学习能力评估)心理学研究中(调查研究的基础),心理咨询领域的应用,智力测验求助者有可疑智力障碍时使用(韦氏)人格测验有助于咨询师对求助者人格特征的了解,以及是否属于精神异常范围(16PF、MMPI)心理评定量表检查求助者是否存在某方面心理障碍,并可以反应病情的演变(SCL-90、SAS、SDS),六、心理测验的具体种类,1、人格测试量表 艾森克人格测试(EPQ)卡特尔16项个性因素测试(16PF)气质测试 性向测试 明尼苏达(MMPI)多相人格测试 心境投射测验,2、智力测试量表 韦氏智力 测验(儿童)画人智力测验
18、 瑞文智力测验 韦氏智力测验(成人)幼儿智力测验 比内-西蒙智力测验,3、心理健康量表 90症状清单(SCL-90)抑郁自评量表(SDS)康奈尔医学指数焦虑自评量表(SAS)简明精神病量表 社会功能缺陷评定量表,4、心理状态测量量表 成人人际关系量表 成人心理压力量表 社会适应能力量表 心理适应性量表 社会支持问卷 防御方式问卷 情商测试(EQ),5、学生心理专用量表 提高学习能力因素诊断测验 小学生心理健康综合测量量表 学习障碍的鉴别 中学生心理健康综合测量 中学生学习态度与态度测验,6、人力资源管理量表社会适应能力诊断量表 职业能力倾向测验心理发展状态测验 行动潜力测验 个人风格测评问卷
19、员工健康状况测评,员工素质测评 工作环境测评量表 职业满意度量表 人力资源管理能力测评 成功商数测试 霍兰德职业兴趣量表,7、婚姻心理控制源量表 艾森克性心理健康测验 恋爱方式测验 夫妻生活健康测验 婚姻安全界线检测问卷 婚恋测试量表 婚姻质量测试,8、儿童心理测验与量表 儿童行为量表(CBCL)父母养育方式评价量表 亲子关系与父母角色测量量表 亲子关系诊断测验 托马斯婴儿气质问卷 幼儿智力测验量表 康纳尔父母量表,第三章 测验的信度,一、信度的概念二、信度评估的方法三、影响信度的因素,心理咨询师(基础知识)心理测量学,本章重点,信度是评价测验优劣的重要指标,了解信度的相关知识是编制优质高效测
20、验的前提。通过本章的学习我们可解决三个问题:一、明确信度的理论定义及操作定义;(难点)二、掌握几种常模参照测验的信度估计方法;(重点)三、了解影响信度的因素,在信度估计时尽量避免由此造成的误差。,一、信度的概念,信度是对测量一致性程度的估计,是测量稳定性、可靠性的表征。真正能够使用的测验量表和问卷一般都必须具有较高的信度。能力与学习成就测验的信度系数应该达到0.90以上;性格、兴趣、价值观等人格测验的信度系数应该达到0.80以上。当rxx0.70时,不能用测验对个人作评价,也不能在团体间作比较;当rxx0.75时,可用于团体间比较;当rxx 0.85时,可用于鉴别个人。,信度是一个理论上构想的
21、概念,在实际应用时,通常以同一样本所得的两组资料的相关,作为测量一致性的指标。因为测验分数的误差来源不同,估计信度的方法也不同,故每一种信度系数只能说明信度的不同方面,因而具有不同的意义。,二、信度的估计方法,重测信度复本信度内部一致性信度分半信度和同质性信度评分者信度,重测信度(稳定性系数)(一)定义与计算定义 用同一种测验,对同一组受试者,前后施测两次,再根据受试者两次测验分数计算其相关系数,即得再测信度。即 测验 再测验 此种信度能表示两次测验结果有无变动,反映测验分数的稳定程度,故又称稳定性系数。时间间隔两周到四周为宜,一般不超过半年。,时距,(二)误差来源 1.测验本身:测验所测的特
22、性本身就不稳定,例如情绪。2.被试方面:成熟、知识的发展并非人人都等量增长,且练习因素、记忆效果也存在个体差异。3.施测情境:偶发因素的干扰,如计时错误,情绪波动,健康状况,动机变化等。重测信度高,说明分数受被试状况和测验情境变化影响小。这里题目取样并不影响重测信度。,(三)使用重测信度的优缺点(优点)能提供有关测验结果是否随时间而变异的资料,可作为预测受测者将来行为的依据。(缺点)容易受练习和记忆的影响,前后两次施测间隔的长短必须适度;第一次尝试所发现的错误也可能导致第二次反应的变化而增加误差变异。,复本信度(等值系数)(一)定义与计算 1.定义 根据一组被试在两个平行(等值)测验上的得分计
23、算相关系数。即 测验复份A 测验复份B 因为它反映的是两个测验之间的等值程度,故又称等值系数。,最短时距,(二)误差来源 1.测验两种形式是否等值:(1)测题取样是否匹配;(2)格式是否相同;(3)内容、难度、标准差等是否一致。2.被试方面情绪波动、动机变化等。3.测验情境的变化,偶发因素的干扰。,(三)等值测验应符合的条件 等值测验可避免重测法的缺点,但所使用的必须是真正的复本。复本应符合以下条件:1.各份测验测量的是同一种心理特性;2.各份测验具有相同的内容和形式;3.各份测验的题目不应有重复的地方;4.各份测验题目数量相等,并且有大体相等的难度、区分度;5.分数分布(平均数和差异度)大致
24、相等。,(四)使用复本信度的局限 只能减少但不能完全消除练习和记忆的影响。由于第二个测验只改变了题目的具体内容,已经掌握的解题原则,可以很容易地迁移到同类问题。对许多测验来说,建立复本是十分困难的。,(一)定义和计算 在测验无复本且只能施测一次的情况下,通常用分半法估计信度,即将测题分成对等的两半,根据各人在这两半测验的分数,用皮尔逊积差相关公式计算其相关系数,作为信度指标。分半信度考察的是两半题目之间的一致性,故这种信度系数也称内部一致性系数。计算分半信度仍然可用积差相关方法。,分半信度,(二)分半的方法 要计算分半信度,首先是如何将测验分半,以便得到最接近的可比较的两半。通常采用奇偶分半法
25、。使用此方法应注意:1一组解决同一问题或互相有牵连的题目应尽量安排在同一半内。2当试卷中有任选题时不宜使用分半法,速度测验也不宜用。,同质性信度(一)同质性的含义 所谓同质性指的是测验内部题目间的一致性。即测验里各题得分为正相关(测验里各题得分相关为零或负叫异质)。题目内部的一致性主要受两方面变异的影响:1内容的一致性;2所研究的行为的同质性。,评分者信度 考察评分者信度的方法是:随机抽取相当份数的试卷,由两位或多位评分者按记分规则分别给分,然后根据每份试卷的分数计算其相关系数,即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达到0.90以上,才认为评分是客观的。,几种信度估计方
26、法的总结比较,三、影响信度的因素,分数分布范围测验长度测验的难度间隔时间,随机误差变异越大,信度越低。除前面谈到的几种误差来源外,还有以下几个因素会影响信度系数的大小:(一)被试样本(分数分布范围)信度系数受分数的分布范围(全距)的影响,而分数范围与被试团体的异质程度有关。一个团体越异质,其分数范围越大,信度系数也就越高。相反,相对同质的团体分数则较为均匀。,图中大方框显示的是一个较大的异质团体在两次施测中的分数分布,显然有很高的正相关.在小方框中显示的是一个高度同质的亚团体,两次分数几乎呈随机变化,相关接近于零。,(二)测验长度 一般说来,在一个测验中增加同质的题目,可以使信度提高。即测验越
27、长,信度越高。这是因为测验加长,加大了分数分布的范围,可能改进项目取样的代表性,从而能更好地反映受测者的真实水平。即测验的项目越多,在每个项目上的随机误差就可以互相抵消。,(三)测验难度的影响要使信度达到最高,能产生最广分数分布的难度水平方为合适。通常这个难度为0.5。洛德提出选择题的理想平均难度是:五选题0.70、四选题0.74、三选题0.77、是非题0.85。(四)间隔时间间隔时间越短,信度系数越大;间隔时间越长,受外界影响越大,信度系数越小。,本章小结,信度又叫可靠性。指的是测量的一致性程度。一个好的测验必须稳定可靠,即多次测量结果要保持一致。信度是个理论上构想的概念,大部分的信度指标都
28、以相关系数表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标。信度与误差变异之间有密切的关系。随机误差越大,信度越低。被试样本、测验长度、测验难度及间隔时间都会影响信度的估计。,第四章 测量的效度,一、效度的概念二、评估效度的方法三、效度的功能四、影响效度的因素,心理咨询师(基础知识)心理测量学,本章中要学习另一个问题,即测验结果是否准确,测验是否测到了要测的东西、测到多少的问题。测验的效度越高,说明测验测到要测的东西的程度越高,也就是测验的结果越准确。测验的效度主要是为了回答两个问题:一、测验要测量什么特性?二、它对所要测量的特征测量到什么程度?,一、效度的概念,(一)效度的
29、含义 效度就是一个测验对其所要测量的特性测量到什么程度的估计,即是指一个心理测验的准确性。,(二)效度的性质相对性效度是对一定的测验目标来说的,或者说测验只有用于与测验目标一致的目的和场合才会有效连续性效度只有程度上的不同效度是针对测验结果的,效度与信度的关系,信度是效度的必要条件,但非充分条件信度高,效度未必高效度高,信度必高效度是测量的最终目的效度受到系统误差和随机误差的影响,二、评估效度的方法,效度验证(validation):收集证据来检验效度的工作过程。根据测验的目的,收集证据的方法和证据的来源不尽相同,即效度验证的途径不同,最终获得的效度也有差异。效度的种类大致有三种内容效度、结构
30、效度、效标效度,内容效度,(一)内容效度的含义内容效度:评估测题是否充分代表了所要测量的内容范围,即测验题目在有关内容或行为范围取样的适当性,关注的是测验内容。(二)内容效度的评估方法专家评判统计分析法,1、界定所要研究行为的领域/范围(比如在成就测验里就用教学目标表来界定行为领域)2、选择一组在该领域具有资格的专家(非测验编制者)3、提供测题与行为领域匹配的结构化框架(请专家根据匹配的框架匹配的规则,来评定测题与行为领域是否匹配以及匹配的程度)4、收集并总结通过匹配过程得到的数据(判定题目与行为领域匹配的情况、测验与行为领域匹配的情况),专家评判的基本程序,双向细目表典型的教学目标表,双向细
31、目表既是编制测题所依循的框架,又是专家评判测题是否具有内容效度的参照对象,(三)内容效度的特性内容效度与表面效度的区别表面效度是测验使用者或被试主观认为测验有效的程度,并不是测验理论意义上的效度;内容效度是由资深评判者详尽地、系统地对测验作评价而建立的,两者判断依据和标准不同。最高行为测验要求有较高的表面效度,以使受测者有较强的动机、尽量努力完成;相反,典型行为测验却要求较低的表面效度,降低反应偏差。,结构效度,(一)结构效度的定义结构效度就是测验测量到其所欲测量的结构或特质的程度。(二)结构效度的估计方法对测验本身的分析测验间的相互比较效标效度的研究证明实验法和观察法,对测验本身的分析,测验
32、的内容效度可以作为结构效度的证据测验的内部一致性指标可以推断测验是测量单一特质还是多种特质,从而为评估测验构想效度提供依据分析受测者对题目的反应特点(社会赞许和道德倾向)也可以作为结构效度的证据,测验间的相互比较,相容效度最简单的是计算两种测验之间得分的相关,其中一个测验是待研究效度的,另一个是已有效度证据的成熟的测验,两者之间测量同一心理特质。相关越高,说明新测验所测量的特质和旧测验所测量的特质的一致性程度越高。区分效度与测量不同心理特质的测验无相关,效标效度,(一)效标效度的定义1、效标某种能够显示测验欲测特征的变量,是检验测验效度的参照标准。比如把大学期间的学习成绩作为大学入学考试的效标
33、,把实际的智力(学业成绩)表现作为智力测验的效标,把工作能力作为人事招聘测验的效标等等。,好的效标的必备条件,效标测量本身必须有效效标必须有较高的信度、稳定可靠,不随时间等因素变化效标可以客观地加以测量,可用数据等级来表示效标测量的方法简单、省时省力,经济实用。,常用的准则,学业成绩等级评定临床诊断专门的训练成绩实际的工作表现其他现成的有效测验,(二)准则关联效度的估计方法相关法区分法命中率法,相关法,评估效标效度最常用的方法,即求测验分数与效标分数之间的相关,这一相关系数就称为效度系数。计算方法积差相关法点二列相关二列相关多系列相关,区分法计算重叠量,检验测验分数能否有效地区分由效标所定义的
34、团体的一种方法。分析由效标分数区分的高分组与低分组在测验分数分布上的重叠量。重叠量越小,说明分数的差异越大,那么测验分数有效地区分了由效标所定义的团体特性,故测验的效度越好;反之,重叠量越大,说明分数的差异越小,测验效度越差。,命中率法(预测测验vs效标测验),当测验用来做取舍的依据时,用正确决定的比例作为效度指标的一种方法。总命中率通过预测测验正确录取的人员和正确拒绝的人员数量占总体的比例正命中率正确录取人员占被录取人员数量的比例正命中率的高低随着临界分数(预测测验划分标准)的高低变化,临界分数越高,正命中率越高;临界分数越低,则正命中率也越低。,三、效度的功能,预测误差预测效标分数预测效标
35、指数,四、影响效度的因素,测验本身的因素测验实施和计分方面被试的主观方面样本团体的性质效标的性质,测验本身的因素,测题中所用词汇和句型不能过于困难测题的意思应该清楚测题应该适合所要测量的学习结果测题中不能提供额外线索测题的编制要合理选择题的正确答案不能有明显的组型测题数目不可太少测题难度适当,测验实施和计分方面,样组的代表性、规模、异质性测验情景、意外干扰主试是否严格按指导手册的要求进行测试、否按测验规定的测试时间进行测试指导语是否清楚明白计分是否客观、标准,被试的主观方面,兴趣和动机情绪和态度身体健康状况测验经验,样本团体的性质,样本的异质性样本团体越异质,分数分布范围越大,测验效度就越高干
36、涉变量对于不同性质的团体,同一测验的效度会有很大的不同这些性质包括年龄、性别、教育水平、智力、动机、兴趣、职业和任何其他有关的特征,效标的性质,效标测量本身的可靠性即效标测验的信度,对评价测验的效度有影响如果效标测量的信度不可靠,与之相关的测验测量的信度也就失去了可靠性,第五章 项目分析,一、项目的难度二、项目的区分度三、难度与区分度之间的关系四、项目分析实例,心理咨询师(基础知识)心理测量学,本章重点,测验项目难度的意义及其计算方法;测验项目区分度的意义及其计算方法;难度和区分度的关系;项目分析实例,引 言,项目分析就是对组成测验的每个测题进行分析。质的分析指的是内容效度分析,分析项目的内容
37、和形式。量的分析则采用统计方法来分析项目的品质。,一、项目的难度,定义:题目难易程度的指标。估计项目难度的方法(一)二值记分项目 1.通过率 P:项目的难度指标;R:答对该 题的人数;N:总人数。注意:P值越小,难度越大。,估计难度的方法,2.极端分组法将被试依照测验总分从低到高排列,分成二组,总分高端取27%被试-高分组,总分低端取27%被试-低分组;分别计算高分组和低分组的通过率;求项目难度,计算公式:,估计难度的方法,(二)非二值记分项目 计算难度的公式:全体考生在该题上的平均分:该题的满分,难度水平的确定,(一)测验目的和性质效标参照测验、掌握测验:不考虑难度;选拔测验:难度=录取率;
38、无论是速度测验,还是难度测验,一般都应防止被试得满分,因为满分的意义是不明确的。(二)项目的难度对于选择题来说,难度值一般应大于猜测概率;例如,对于是非题而言,其难度值应该为0.75最合适;而对于四选一的题目,其难度值约为0.63最合适。,难度水平的确定,(三)测验的难度测验的难度直接依赖于组成测验的项目的难度。大体而言,难度为0.50时最理想,此时项目具有最大的鉴别力。但在实际操作中,让所有项目难度都到达0.50困难很大,而且也不必要,一般只需使项目的平均难度接近0.50,而各个项目的难度在0.500.20之间变化。,难度水平的确定,(三)测验的难度测验难度影响测验分数的分布难度大,正偏态难
39、度小,负偏态,二、项目的区分度,(一)定义:指的是测验项目对于某种心理特质不同水平的被试反应差异的区分程度和鉴别能力,故又称为鉴别力。(二)项目鉴别力(D)的取值范围:-1.00-1.00 D为正值称作积极区分,D越大,项目的鉴别力越好 D为负值称为消极区分(负鉴别力)D为0称无区分作用,项目鉴别指数与评价标准,二、项目区分度的估计方法,(一)项目鉴别指数法:较适合于二值记分项目当效标分数是连续变量时,可将分数从高到低排列,取两端27被试分别作为高分组和低分组。(二)方差法方差大,数据分散,鉴别力好(三)相关系数指标项目与总分相关 项目之间相关,理想状态下,每个项目应该与测量同一构想的其他项目
40、之间高度相关,并且与测量不同构想的其他项目之间不存在相关。,三、难度和区分度的关系,分析:难度越接近0.50,项目潜在的区分度越大,而难度D越接近1.00或0时,项目潜在区分度越小。,四、项目分析实例,选取有代表性的样组,按规定程序预测测验分数:按总分从高到低排序,高、低分组各27同一测题,高分组,低分组通过人数比率分别求出难度,鉴别力分别登记各选项中的人数分布:比较高分组,低分组在每题答案上的反应。根据统计结果修改测题,例题1,例题2,例题2解析,第六章 测量的常模,一、常模团体二、常模的类型三、常模分数的表示方法,心理咨询师(基础知识)心理测量学,引言,为了使测验获得的原始分数本身具有意义
41、,使不同测验的分数可以相互比较,就必须将原始分数转换成导出分数。心理测量中的导出分数通常用参照常模的办法解释其意义。常模的获得有赖于常模团体的测验结果。,一、常模团体,定义:常模团体是由具有某种共同特征的人所组成的一个群体,或者是该群体的一个标准化样组。常模团体的条件群体的构成必须明确界定常模团体必须是所测群体的代表性样本样本的大小要适当总体数目小,只有几十人,需要100%的样本;如果总体数目大,相应的样本也大,一般最低不小于30或100个;全国性常模,一般应有2000-3000人为宜标准化样组是一定时空的产物,取样的方法,简单随机抽样最简单的抽样方法,将抽样范围中的每个人或单位编号,随机选择
42、;系统抽样将被试按一定的规则排列,研究者确定一个随机的起始点,每K个被试选择一个;分层随机抽样研究者事先决定某些类型的被试在样本中所占的比例,然后按照简单随机抽样的方法选择;整群抽样以自然组合的单位为随机抽取对象,如班级、工厂等。,常模与常模分数,常模:一种比较的标准量数,由标准化测试结果计算而来,它是心理测验时用于比较和解释测验结果的参照分数标准。分为:全国常模、区域常模、特殊常模常模分数常模分数是施测常模团体或标准化样组后,将受测者的原始分数按一定规则转换出来的导出分数导出分数具有一定的参照点和单位,可以进行比较,二、常模的类型,(一)发展常模人的许多心理特质如智力、技能等,是随着时间以有
43、规律的方式发展的,所以可将个人的成绩与各种发展水平的人的平均表现相比较。根据这种平均表现所制成的量表就是发展常模,亦称年龄量表。可分为:发展顺序量表智力年龄年级当量,发展顺序量表,最早的一个婴幼儿发展测验是美国心理学家盖塞尔编制的发展程序表。表中按月份显示儿童在运动、适应性、语言、社会性等方面的大致发展水平。例如,4周能控制眼睛运动;16周能使头保持平衡;28周能抓握东西;40周能控制躯干,坐立爬行等后来,有人把皮亚杰在研究中所采用的一些作业和问题组成了标准化量表,用来研究儿童在每一发展阶段的特性,以提供儿童实际能做什么的信息,并对儿童的行为做质的描述。例如,5岁能理解质量守恒;6岁会掌握重量
44、守恒;7岁有容量守恒概念等。,智力年龄以年级评价智力水平,智龄是基础年龄与在较高年龄水平的题目上获得的附加月份之和。年龄量表-直接计算智力年龄例:一个5岁的儿童完成了该年龄组的6个题目,并且完成了6岁组的3个题目(1个题目相当于2个月的智龄),则该儿童的智力年龄是多少?年龄常模-根据标准化样组建立比较的标准例如,标准化样组中,8岁孩子的平均原始分数将代表8岁常模,如果一个被试的原始分数等于8岁的平均原始分,那么他的智龄便为8岁。智龄单位并不保持恒等。例如,一个4岁孩子智力迟滞一年,将相当于12岁孩子智力迟滞3岁。,年级当量以年级评价智力水平,年级当量是把学生的测验成绩与各年级学生的平均成绩比较
45、,看他相当于几年级的水平。年级量表可以用年级月数来表示,一年当中学生在校的时间约为10个月,所以年级当量4.0就表示四年级开始时的平均成绩,而4.5则表示学年中间(即第五个月时)的平均成绩;年级常模可以从计算各年级学生在某份测验上的平均原始分数而得。例如,标准化常模样组中四年级学生正确解答某一数学测验问题数目平均为23,那么原始分数23便相当于4年级的年级当量。,发展常模的总评,优点以智龄或年级当量作为单位来报告分数易于被人理解;可以与同等团体做直接比较;为个人内比较与纵向比较提供了基础;缺点只适用于所测特质随年龄或年级发生系统变化的情况,因此仅适用于年纪小的儿童,对成人不适用;由于人的行为发
46、展受教育与经验的影响,因此发展量表只适用于典型环境下成长的儿童;发展量表的单位不相等;,补充:比率智商,求法与意义即智力年龄与实际年龄之比:IQ=MA/CA100IQ为智力商数,简称智商;MA为智力年龄;CA为实际年龄存在的问题(1)计算高年龄组智商时应该用何实际年龄作为除数;(2)智力生长不是直线而是曲线,补充:离差智商,计算公式:IQ=100+15Z=100+15(X-M)/SDIQ为离差智商;X受测者的量表分数;M受测者所在年龄水平的平均量表分数;SD受测者所在年龄水平的量表分数的标准差,智力年龄、比率智商、离差智商优缺点比较,智力年龄优点:首次作为测量智力的单位被提出,使得智力测验的结
47、果变得简单明白和有意义;缺点:不能用来比较实龄不同的儿童智力的高低。比率智商优点:比率智商能表示智力的相对高低,不同实龄的儿童的智力水平的高低能够进行比较;缺点:比率智商的基本假定是智力发展和年龄增长呈正比,是一种直线关系,但实际上当年龄增大时就不是这种情况了。离差智商优点:能够解决由于实际上智力发展和年龄增长非直线关系带来的比率智商不准确的问题,是智力测验结果方法上的改革;缺点:由于常态化分布,使得对于智力极低者打分偏高,而智力极高者打分偏低。,(二)百分位常模,1、百分等级百分等级是在常模团体中低于该分数的人数百分比。它指的是个体在常模团体中的相对位置,百分等级越低,个体所处的地位越差。例
48、如:在一次测验中,有60%的分数低于80分,那么80分这个原始分数就相当于(?)百分等级。百分量表的优点:使不同测验的结果在某种程度上可以比较,把中位数用作主要的参照点,使外行人容易理解。,2、百分位数百分位数是指处于某一百分比例的人对应的测验分数是多少例如,挑选得分高的20%的受测者,必须求出相当于80百分等级的测验分数。3、四分位数和十分位数四分位数相当于百分等级的25%、50%、和75%对应的三个百分点分成的四段十分位数也可以依次类推,1%-10%为第一段,91%-100%为第十段。,(三)标准分数常模,标准分数是将原始分数与平均数的距离以标准差为单位表示出来的量表。标准分数可以通过线性
49、转换,也可以通过非线性转换得到。1、一般标准分数(线性转换)2、常态化的标准分数(非线性转换)3、标准分数的转化,1、一般标准分数,标准分数Z是原始分数与平均分数的离差以标准差为单位的分数。(1)标准分数的性质以平均数为0,标准差为1的量表来表示;Z分数为正或负,表示某原始分数是落在平均数之上或是平均数之下;由于该量表是以标准差为单位,所以它是一个等距量表原始分数转换成标准分数是线性转换,Z分布的形状与原始分布的形状相似。,2、线性转换的标准分数,1、T分数 T=50+10Z2、离差智商:是一种以年龄组为样本计算而得的标准分数,为使其与传统的比率智商基本一致,韦克斯勒将离差智商的平均数定为10
50、0,标准差定为15。3、标准九分数:是以5为平均数,以2为标准差的量表,3、非线性转换的标准分数,原始分数如果不是常态分布,一个简单的方法是先把原始分数转化为百分等级,而后再把百分等级转换为常态分布上相应的Z分数。它以常态分布为基础,从而迫使分数的分布成为常态分布。由这种方式得来的分数便是常态化标准分数。,标准分常模之间的关系,原始分数,百分等级 常态Z分数,一般Z分数(线性转换),T分数,离差智商,标准九分数,其他标准分数转化,三、常模分数的表示方法,转化表法最简单、最基本的表示常模的方法可以将原始分数直接对照转换表转换为导出分数,从而得到有意义的分数和解释剖面图法将测验分数的转换关系用图形