【教学课件】第五章心理测量学.ppt

上传人:小飞机 文档编号:5662693 上传时间:2023-08-07 格式:PPT 页数:243 大小:750KB
返回 下载 相关 举报
【教学课件】第五章心理测量学.ppt_第1页
第1页 / 共243页
【教学课件】第五章心理测量学.ppt_第2页
第2页 / 共243页
【教学课件】第五章心理测量学.ppt_第3页
第3页 / 共243页
【教学课件】第五章心理测量学.ppt_第4页
第4页 / 共243页
【教学课件】第五章心理测量学.ppt_第5页
第5页 / 共243页
点击查看更多>>
资源描述

《【教学课件】第五章心理测量学.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第五章心理测量学.ppt(243页珍藏版)》请在三一办公上搜索。

1、第五章 心理测量学,刘衔华(教授、副院长)衡阳师范学院教育科学学院,第一单元 测量与测量量表,一、什么是测量测量就是依据一定的法则用数字对事物加以确定。三个主要的元素:(1)事物;(2)数字;(3)法则。,所谓“事物”,指的是我们要测量的对象,更准确地说,就是引起我们兴趣的事物的属性或特征。所谓“数字”,是代表某一事物或事物某一属性的量。区分性1与2等级性或位次性3 2 1等距性 321、211可加性所谓“法则”,代表的是测量所依据的方法和规则,真题,50、关于测量,正确的说法是()。P324(A)测量就是心理测量(B)就是依据一定的法则用数字对事物加以确定(C)就是用数字来描述事物的法则(D

2、)就是用一些题目或数字来描述事物的属性,二、测量要素,(一)参照点确定事物的量,必须有一个计算的起点参照点有两种:绝对零点人定的参照点,即相对零点(二)单位好的单位必须具备两个条件:确定的意义相同的价值,真题,101、任何测量都应该具备的要素是()。P325(A)量表(B)参照点(C)等级(D)单位,三、测量量表,斯蒂文斯(SSStevens)将测量从低级到高级分成四种水平,即命名量表、顺序量表、等距量表和等比量表(一)命名量表如1代表男,2代表女,(二)顺序量表如学生的考试名次、工资级别、能力等级、对某事物的喜爱程度等。数字仅表示等级,并不表示某种属性的真正量或绝对值。,真题,55、我们通常

3、将学生的考试结果按名次排除,这些名次属于()变量。P326(A)命名(B)顺序(C)等距(D)等比,(三)等距量表有相等的单位,没有绝对的零点数值可以相互做加、减运算0度并不意味着没有温度,(四)等比量表 可以做加、减、乘、除运算。心理测量是在顺序量表上进行的。,真题,50、其数值可以进行加、减、乘、除运算的量表是()。P326(A)命名量表(B)顺序量表(C)等距量表(D)等比量表,第二单元 心理测验的基本概念,一、心理测验的定义二、心理测验的性质,一、心理测验的定义,所谓心理测验,就是依据心理学理论,使用一定的操作程序,通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点

4、做出推论和数量化分析的一种科学手段。,二、心理测验的性质,(一)间接性特质是构成人格的最小单位,是激发与知道个体的各种反应的恒常的心理结构。(二)心理测量的相对性,(三)客观性测验的刺激是客观的。对反应的量化是客观的。对结果的推论是客观的。,第三单元 心理测验的分类,一、按测验的功能分类二、按测验材料的性质分类三、按测验材科的严谨程度分类四、按测验的方式分类五、按测验的要求分类,一、按测验的功能分类,(一)智力测验(二)特殊能力测验(三)人格测验,二、按测验材料的性质分类,(一)文字测验(二)操作测验也称非文字测验。,三、按测验材科的严谨程度分类,(一)客观测验(二)投射测验,四、按测验的方式

5、分类,(一)个别测验(二)团体测验,五、按测验的要求分类,(一)最高作为测验(二)典型行为测验,真题,110、按测验的要求分类,可将测验分为()。P330(A)最高作为测验(B)典型行为测验(C)主观测验(D)客观测验,第四单元 纠正错误的测验观,一、错误的测验观二、正确的测验观,心理测验的意义,错误的测验观 万能论无用论等同智力测验,正确的测验观 研究方法决策辅助工具尚不完善,真题,58、错误的测验观不包括()。P330(A)测验万能论(B)测验无用论(C)心理测验即智力测验(D)测验是辅助工具,真题,103、正确的测验观包括()。P331(A)心理测验是重要的心理学研究方法之一,是决策的辅

6、助工具(B)做心理测验时态度要正确(C)心理测验作为研究方法和测量工具尚不完整(D)“一考定终身”说明心理测验非常重要,第五单元 心理咨询中的应用,心理特性和行为问题的正确评估和诊断。三类心理测验 智力测验人格测验心理评定量表,真题,104、人格测验包括()。P332(A)EPQ(B)MMPI(C)16PF(D)CRT,第六单元 心理测验的发展史,专栏 中国古代的心理测验思想一、科学心理测验的产生与发展高尔顿(FGalton)卡特尔比内(ABinet)二、现代心理测验在我国的发展,一、科学心理测验的产生与发展,高尔顿(FGalton)提出人的不同气质特点和智能是按身体特点的不同而遗传的。为了研

7、究差异的遗传性,便设计了测量差异的方法。为心理测验奠定了统计学基础。他第一个提出了相关的概念,卡特尔的贡献:心理测验第一次出现于心理学文献中 心理学应立足于实验与测量心理测验应有一个统一的标准,比内(ABinet)P147-12世界上第一个正式的心理测验。,20世纪以后,心理测验主要有以下几个方面的发展:1操作测验的发展2团体智力测验的发展3能力倾向测验的发展4人格测验的发展,二、现代心理测验在我国的发展,近些年来我国的心理学家正在致力于测验本土化,第二节 测验的常模,第一单元 常模团体,一、常模团体的性质常模团体是由具有某种共同特征的人所组成的一个群体,或者是该群体的一个样本。常模的选择主要

8、是基于对测验将要施测的总体的认识,常模团体必须能够代表该总体。包括:确定一般总体、确定目标总体、确定样本。,二、常模团体的条件,(一)群体的构成必须明确界定(二)常模团体必须是所测群体的代表性样本(三)样本的大小要适当在实际工作中,应从经济的或实用的可能性和减少误差这两方面来综合考虑样本的大小一般最低不小于30或100个。全国性常模,一般应有20003000人为宜。样本大小适当的关键是样本要有代表性。(四)标准化样组是一定时空的产物在选择合适常模时,要注意选择较为新近的常模。,真题,50、常模样本量一般不小于()。P337(A)100或500(B)800或1000(C)20或25(D)30或1

9、00,真题,51、样本大小适当的关键是样本要有()。P337(A)代表性(B)特殊性(C)相关性(D)可比性,三、取样的方法,取样即从目标人群中选择有代表性的样本。,下列几种抽样方法:,(一)简单随机抽样(二)系统抽样(三)分组抽样(四)分层抽样,真题,58、常用的抽样方法不包括()。P337(A)简单随机抽样(B)系统抽样(C)分层抽样(D)标准化抽样,(一)简单随机抽样 按照随机表顺序选择被试构成样本,(二)系统抽样系统抽样的关键是计算组距 系统抽样要求目标总体无序可排,也无等级结构存在。,真题,51、系统抽样法的关键是计算()。P337(A)样本量(B)总体(C)随机数(D)组距,真题,

10、103、系统抽样要求()。P337(A)目标总体有序可排(B)存在等级结构(C)目标总体无序可排(D)无等级结构存在,(三)分组抽样先将群体进行分组,再在组内进行随机取样。,(四)分层抽样采用分层抽样时,总体被分为同质的、互不重迭的若干子总体(层),然后,在每一个层中独立地抽取样本。,四、常模分数与常模,(一)常模分数常模分数就是施测常模样本被试后,将被试者的原始分数按一定规则转换出来的导出分数。导出分数的特性:与原始分数等值有意义等单位带参照点,真题,105、导出分数的特性是()。P338(A)与原始分数等值(B)等单位(C)具有意义(D)具有参照点,(二)常模常模分数构成的分布,就是通常所

11、说的常模(norm),它是解释心理测验分数的基础。常模有一般常模与特殊常模之分。对于某些特殊的群体来说,情况很具有特殊,我们就需要制定特殊特殊常模,第二单元 常模的类型,一、发展常模,亦称年龄量表在年龄量表中,个人的分数指出他的行为在按正常途径发展方面处于什么样的发展水平。发展顺序量表可以告诉人们某儿童的发育与其年龄相比正常超前滞后,(一)发展顺序量表最早的一个范例是葛塞尔发展程序表按月份显示儿童在运动水平、适应性、语言、社会性四个方面的大致发展水平。16周,能使头保持平衡,皮亚杰最著名的工作就是对守恒概念的研究。通常儿童到5岁时才会理解质量守恒;6岁才会掌握重量守恒;7岁时才有容量守恒概念。

12、,(二)智力年龄比内-西蒙量表中首先使用智力年龄的概念。一个儿童在年龄量表上所得的分数,就是最能代表他的智力水平的年龄。这种分数叫做智力年龄,简称智龄。,吴天敏修订的比内-西蒙量表中,每个年龄都有6个测题,答对每题则得智龄2个月某儿童通过了4岁组的全部题目,5岁组通过3题,6岁组通过2题,7岁组通过1题,其智龄为5岁智龄=基础年龄与在较高年龄水平的题目上获得的附加月份之和。,(三)年级当量也称年级量表,测验结果说明被试属于哪一年级的水平。常模样本中6年级的算术平均分为35,某儿童在算术测验中也得35分,那么就有“该儿童的算术是6年级水平”,二、百分位常模,百分位常模包括百分等级和百分点(Per

13、centile rank and point)、四分位数(quartiles)和十分位数(deciles)。P161-151,(一)百分等级,一个测验分数的百分等级是指在常模样本中低于这个分数的人数百分比。55的百分等级表示在常模样本中有55%的人比这个分数低,真题,52、百分等级55的分数表示在常模本中有55的人比这个分数()。P340(A)低(B)相等(C)高(D)以上都不正确,百分等级(低于某个原始分数的累计人数得到该分数的人数的一半)/N100 王红在30名同学中物理成绩是80分,排列第五名,则其百分等级为85 R是原始分数排列顺序,n是总人数,(二)百分点(百分位数),在分数量表上,

14、相对于某一百分等级的分数点就叫百分点或百分位数。,高考的最高分为650,其百分等级为100,最低分为105,百分等级为1,要录取20%的学生进入大学,百分等级为80的百分位数540,(三)四分位数和十分位数,四分位数是将量表分成四等份,相当于百分等级的25%、50%和75%对应的三个点分成的四段。*P149-36十分位数是将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为10等份,与9个分割点上相对应的数据称为十分位数。1%10%为第一段,三、标准分常模,常见的标准分数有:z分数、Z分数、T分数、标准九分数、离差智商(IQ)等。标准分数可以通过线性转换,也可以通过非线性转换得到,(

15、一)线性转换的标准分数,(公式5-2)其中X为任一原始分数,为样本平均数,SD为样本标准差。Z=A+Bz(公式5-3)加上一个常数(A)是为了去掉负值,乘以一个常数(B)是为了使单位变小从而去掉小数点。,真题,52、式中SD为()。P342(A)任一原始分数(B)样本平均数(C)样本标准差(D)标准分数,真题,60、Z=A+Bz式中为转换后的标准分数,A、B为根据需要指定的常数。加上一个常数是为了去掉(),乘以一个常数是为了使单位变小从而去掉小数点。P342(A)整数(B)小数(C)负值(D)分值,(二)非线性转换的标准分数,当原始分数不是常态分布时,也可以使之常态化,这一转换过程就是非线性的

16、常态化过程主要是将原始分数转化为百分等级,再将百分等级转化为常态分布上相应的离均值,并可以表示为任何平均数和标准差。,真题,52、当原始分数不是常态分布时,也可以使之常态化,这一转换过程是()。P342(A)线性的(B)非线性的(C)直接的(D)间接的,当以50为平均数(即加上一个常数50),以10为标准差(乘以一个常数10)来表示时,通常叫做T分数,即:T50+10(公式5-4)最早使用T分数的是麦柯尔标准九分(standard nine)是另一较知名的标准分数系统,其量表是个9级的分数量表。它是以5为平均数,以2为标准差的一个分数量表标准十分平均数为5,标准差为1.5;标准二十分平均数为1

17、0,标准差为3。,真题,61、标准十分,平均数为(),标准差为()。P342(A)6,2(B)5.5;1.5(C)6,1.5(D)7,1.5,四、智商及其意义,若心理年龄高于其生理年龄,则智力较一般儿童高,若心理年龄低于其生理年龄,则智力较一般儿童低。但在使用中发现,单纯用心理年龄来表示智力高低的方法缺乏不同年龄儿童间的可比性,(一)比率智商,比率智商(IQ)被定义为心理年龄(MA)与实足年龄(CA)之比。(公式5-5)由于个体智力增长是一个由快到慢再到停止的过程,即心理年龄与实足年龄并不同步增长,所以比率智商并不适合于年龄较大的被试,(二)离差智商,是一种以年龄组为样本计算而得的标准分数韦克

18、斯勒将离差智商的平均数定为100,标准差定为15。离差智商建立在统计学的基础之上,离差智商表示的是个体智力在年龄组中所处的位置,因而是表示智力高低的一种理想的指标(公式5-6)从不同测验获得的离差智商只有当标准差相同或接近时才可以比较,真题,51、韦克斯勒将离差智商的平均数定为100,标准差定为()。P343(A)17(B)15(C)11(D)13,真题,50、()表示的是个体智力在年龄组中所处的位置。P343(A)离差智商(B)比率智商(C)百分等级(D)标准九分数,真题,62、是()的计算公式。P343(A)比率智商(B)标准分数(C)标准差(D)离差智商,专栏 几种导出分数间的相互关系,

19、第三单元 常模分数的表示方法,一、转换表法最简单而且最基本的表示常模的方法就是转换表,有时也叫常模表。测验的使用者利用转换表可将原始分数转换为与其对应的导出分数,从而对测验的分数作出有意义的解释。二、剖面图剖面图是将测验分数的转换关系用图形表示出来。从剖面图上可以很直观地看出被试在各个分测验上的表现及其相对的位置。,真题,63、最简单而且最基本的表示常模的方法是(),有时也叫常模表。P345(A)转换表(B)分布表(C)对照表(D)都不是,真题,53、()可以将测验分数的转换关系用图形表示出来,便于直观地看出被试者在各个分测验上的表现及其相对位置。P346(A)条形图(B)直方图(C)剖面图(

20、D)饼状图,补充,常模的构成要素为:原始分数、导出分数、对常模团体的有关描述。发展量表中的年龄量表最基本的假设是所测量的特质随年龄有系统地改变。所以,它的基本要素是:一组可以区分不同年龄组的题目、一个常模团体、常模表。,第三节 测验的信度,第一单元 信度的概念,一、信度的定义信度是指同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。,信度只受随机误差的影响。在测量理论中,信度被定义为:一组测量分数的真分数方差与总方差(实得分数的方差)的比率。即:(公式59),真题,55、信度只受()的影响。P348(A)系统误差(B)随机误差(C)恒定效应(D)概化作用,二

21、、信度的指标,(一)信度系数与信度指数(公式5-11)信度指数的平方就是信度系数。P151-61(二)测量标准误(所有样本均值的标准差)(公式5-13)信度越高,标准误越小;信度越低,标准误越大。,真题,104、公式中Se(即SE)为测量的标准误,SX是所得分数的标准差,rxx为测验的信度系数。从公式中可以看出,测量的标准误与信度之间的关系是()。P349(A)信度越低,标准误越小(B)信度越低,标准误越大(C)信度越高,标准误越大(D)信度越高,标准误越小,第二单元 信度评估的方法,一、重测信度二、复本信度三、内部一致性信度四、评分者信度,一、重测信度(testretest reliabll

22、ity),使用同一测验,在同样条件下对同一组被试者前后施测两次测验,求两次得分间的相关系数,叫重测信度,又称稳定性系数。由于人的多数心理特征如智力、性格、兴趣等,具有相对的稳定性,间隔一段时间,不会有很大变化。,真题,102、使用同一测验,在同样条件下对同一组被试者前后施测两次测验,求两次得分间的相关系数同,叫(),又称()。P350(A)复本信度(B)重测信度(C)稳定性系数(D)分半信度,一般是两周到四周较宜,间隔时间最好不超过六个月。,二、复本信度(alternateform liability),以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数

23、复本信度反映的是测验在内容上的等值性,故又称等值性系数。,真题,59、复本信度又称等值性系数。它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数。复本信度反映的是测验在()上的等值性。P350(A)时间(B)题目(C)评分(D)内容,如果两个复本的施测相隔一段时间,则称重测复本信度或稳定与等值系数。复本信度局限性:其一,如果测量的行为易受练习的影响,则复本信度只能减少而不能完全消除这种影响;其二,由于第二个测验只改变了题目的内容,已经掌握的解题原则,可以很容易地迁移到同类问题。最后,对于许多测验来说,建立复本是十分困难的。,三、内部一致性信度,(一)

24、分半信度(splithalf reliability)通常是在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。这个相关系数就代表了两半测验内容取样的一致程度(公式5-14)式中为 一半分数的相关系数,为测验在原长度时的信度估计值。,真题(,53、斯皮尔曼一布朗公式:式中rhh为()的相关系数,rxx为测验在原长度时的信度估计值。P351(A)全测验(B)原测验(C)两半测验间(D)全部分数,(二)同质性信度(homogeneity reliability)代表测验内部所有题目间的一致性。即使所有题目看起来好像测量同一特质,但相关很低或为

25、负相关时,则测验为异质的。,真题,53、同质性信度主要代表测验内部()间的一致性。P351(A)两半测验(B)所有题目(C)题目与分测验(D)分测验,真题,54、同质性信度主要代表测验内部()间的一致性。P351(A)两半测验(B)题目与分测验(C)所有题目(D)分测验,库德-理查逊公式只适用于答对一题记一分,答错无分的测题(0,1记分)-是非题,不适用于多重记分的测题,四、评分者信度,随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。一般要求在成对的受过训练的评分者之间平均一致性达0.90以上,才认为评分是客观的。P152-68实际

26、上有多少误差的来源,便有多少估计信度的方法。,真题,52、一般要求在成对的受过训练的评分者之间平均一致性达到()以上,才认为评分是客观的。P351(A)0.70(B)0.80(C)0.90(D)1.00,第三单元 信度与测验分数的解释,一、解释真分数与实得分数的相关二、确定信度可以接受的水平三、解释个人分数的意义四、比较不同测验分数的差异,一、解释真分数与实得分数的相关,在极端的情况下,如有rxx1.00,则表示完全没有测量误差,所有的变异均来自真实分数;若有rxx0,则所有的变异和差别都反映的是测量误差。,二、确定信度可以接受的水平,一般原则是:当rxx0.70时,测验不能用于对个人做出评价

27、或预测,而且不能作团体比较;P152-69当0.70rxx 0.85时,可用于团体比较;当rxx0.85时,才能用来鉴别或预测个人成绩或作为。,三、解释个人分数的意义,两个作用其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。人们一般采用95%的或然率(概率)水平,其置信区间为:(公式5-16)大约有95%的可能性真分数落在所得分数1.96Se的范围内,或有5%的可能性落在范围之外。,四、比较不同测验分数的差异,差异分数的标准误公式为:(公式517)甲被试在韦氏成人智力测验中言语智商为102,操作智商为110。已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测

28、验和操作测验的分半信度分别为0.87和0.88,那么其操作智商不显著高于言语智商,第四单元 影响信度的因素,一、样本特征一般而言,若获得信度的取样团体较为异质的话,往往会高估测验的信度,相反则会低估测验的信度。(一)样本团体异质性的影响(二)样本团体平均能力水平的影响对于不同水平的团体,题目具有不同的难度,每个题目在难度上的微小差异累计起来便会影响信度。,真题,54、一般而言,若获得信度的取样团体较为异质的话,往往会()测验的信度。P354(A)高估(B)低估(C)忽略(D)不清楚,真题,55、若取样团体较为异质的话,一般会()测验的信度。P354(A)高估(B)低估(C)提升(D)降低,真题

29、,52、对于不同平均能力水平的团体,题目的()会影响信度系数。P354(A)难度(B)长度(C)信度(D)效度,二、测验长度一般来说,在一个测验中增加同质的题目,可以便信度提高。第一,测验越长,测验的测题取样或内容取样就越有代表性。第二,测验越长,被试的猜测因素影响就越小。增加测验长度的效果应遵循报酬递减率原则 有时反而会引起被试的疲劳和反感而降低可靠性。,一个包括40个题目的测验信度为0.80,欲将信度提高到0.90,问至少需要增加60个题目,三、测验难度洛德(Lord)提出在学绩测验中,为了保证其可靠性,各类选择题的理想平均难度为:五择一测题,0.70;四择一测题,0.74;三择一测题,0

30、.77;是非题,0.85。四、时间间隔以再测法或复本法求信度,两次测验相隔时间越短,其信度系数越大;,真题,53、以再测法或复本法求信度,两次测验相隔时间越短,其信度系数()。P355(A)越大(B)越低(C)越小(D)不变,第四节 测验的效度,一、效度的定义,效度是指所测量的与所要测量的心理特点之间符合的程度,或者简单地说是指一个心理测验的准确性。在测验理论中,效度被定义为在一组测量中,与测量目标有关的方差(或称有效方差)与总方差的比率,即:(公式5-21),真题,54、在测验理论中,效度被定义为在一组测量中,与测量目标有关的真实方差与()的比率。P357(A)系统误差(B)误差(C)随机误

31、差(D)总方差,二、效度的性质,(一)效度具有相对性在评鉴测验的效度时,必须考虑其目的与功能。(二)效度具有连续性,真题,102、效度具有相对性,因此在评鉴测验的效度时,必须考虑测验的()。P357(A)信度(B)目的(C)功能(D)长度,信度和效度的关系,一、信度是效度的必要而非充分条件二、效度是受信度制约的,第二单元 效度评估的方法,美国心理学会在1974年所发行的教育与心理测量之标准一书中将效度分为三大类:即内容效度、构想效度和效标效度。,一、内容效度(contentrelated validity),(一)什么是内容效度内容效度指的是测验题目对有关内容或行为取样的适用性,从而确定测验是

32、否是所欲测量的行为领域的代表性取样。,(二)内容效度的评估方法,1.专家判断法最常用的方法是请有关专家对测验题目与原定内容的符合性做出判断,看测验的题目是否代表规定的内容。又称“逻辑效度”。,真题,55、内容效度有时又称()。P359(A)构想效度(B)效标效度(C)区分效度(D)逻辑效度,为了使内容效度的确定过程更为客观,弥补不同专家对同一测验的判断可能不一致,可采用如下几个步骤:(1)定义好测验内容的总体范围(2)编制双向细目表(3)制定评定量表来测量测验的整个效度,2统计分析法例如计算两个评分者之间评定的一致性两个测验复本上得分之相关 再测法 3经验推测法,真题,105、内容效度的评估方

33、法有()。P359(A)专家判断法(B)双向细目表法(C)统计分析法(D)经验推测法,(三)内容效度的特性,表面效度是由外行对测验作表面上的检查确定的在编制测验时,表面效度是一个必须考虑的特性。例如,最高行为的测验要求有较高的表面效度,真题,54、在编制测验时,表面效度是要考虑的重要特性。如果编制最高行为测验,除了内容效度,也要求有()。P360(A)较高的表面效度(B)较好的专家判断(C)较好的外行判断(D)主观性,二、构想效度,(一)什么是构想效度构思效度,还有人叫结构效度。它主要涉及的是心理学的理论概念问题 指测验能够测量到理论上的构想或特质的程度测验的结果是否能证实或解释某一理论的假设

34、、术语或构想,解释的程度如何。,(二)构想效度的估计方法,1对测验本身的分析构思效度的证据测验的内容效度 测验的内部一致性指标 分析被试者对题目的反应特点,2测验间的相互比较相容效度计算两种测验之间得分的相关,其中一个测验是有研究效度的,另一个是已有效度证据的成熟的测验,但两者测量的是同一种心理特质。假如相关高,说明新测验所测量的特质确实是老测验所反映的特质或行为,这种方法叫相容效度区分效度 因素分析法,3效标效度的研究证明4实验法和观察法证实,真题,105、构想效度的估计方法包括()。P361(A)对测验本身的分析(B)测验间的相互比较(C)效标效度的研究证明(D)实验法和观察法证实,三、效

35、标效度,(一)什么是效标效度被预测的行为是检验效度的标准,简称效标。根据效标资料是否与测验分数同时获得,又可分为同时效度和预测效度两类。,一个好的效标必须具备以下条件:,(1)效标必须能最有效地反映测验的目标,即效标测量本身必须有效;(2)效标必须具有较高的信度,稳定可靠,不随时间等因素而变化;(3)效标可以客观地加以测量,可用数据或等级来表示;(4)效标测量的方法简单,省时省力,经济实用。,(二)效标效度的评估方法,1相关法:积差相关法 点二列相关二列相关贾斯朋(Juspen)多系列相关 2区分法:区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。,3命中率法:正确的预测(决定

36、)为命中,命中的情况包括:预测成功而且实际也成功 预测失败且实际上也失败,真题,64、()是检验测验分数能否有效的区分由效标所定义的团体的一种方法。P363(A)相关法(B)区分法(C)命中率法(D)失误法,真题,105、效标的主要评估方法有()。P363(A)命中率法(B)区分法(C)失误法(D)相关法,第三单元 效度的功能,一、预测误差效度系数常常以决定性系数来表示,意旨相关系数的平方,它表示测验正确预测或解释的效标的方差占总方差的比例。*P154-84标准误 即决定系数二、预测效标分数(公式5-26)是预测的效标分数,真题,55、式中 是()。P365(A)预测的效标分数(B)纵轴的截距

37、(C)斜率(D)测验分数,三、预测效度指数E值大小表明使用测验比盲目猜测能减少多少误差如果一个测验的效度系数为0.80,E40,这表明由于该测验的使用,使得我们在估计被试的效标分数时减少了40%的误差。,第四单元 影响效度的因素,一、测验本身的因素,1测验材料必须对整个内容具有代表性;2测题设计时应尽量避免容易引起误差的题型(如是非题);3测题难度要适中,具有较高的区分度;4测验长度要恰当,即要有一定的测题量;5测题的排列按先易后难顺序。,真题,110、要保证测验具有较高效度,测验本身的因素要做到()。P366(A)测验材料必须对整个内容具有代表性(B)测验设计时应尽量避免容易引起误差的题型(

38、如是非题)(C)测验难度要适中,具有较高的区分度(D)测验长度要恰当,测题的排列应先易后难,二、测验实施中的干扰因素,(一)主试的影响因素测验情景其他干扰因素(二)被试的影响因素,三、样本团体的性质,(一)样本团体的异质性如果其他条件相同,样本团体越同质,分数分布范围越小,测验效度就越低;(二)干涉变量年龄、性别、教育水平、智力、动机、兴趣、职业和任何有关的特征。由于这些特征的影响,使得测验对于不同的团体具有不同的预测能力,故测量学上称这些特征为干涉变量(moderator variahle)。,真题,53、如果其他条件相同,样本团体越同质,分数分布范围越小,测验效度就越()。P367(A)高

39、(B)低(C)大(D)接近1,美国心理学家吉赛利(LEGhiselli)提出的如何找出干涉变量的一套方法 1用回归方程求得每个人的预测效标分数,将该分数与实际效标分数相比较,获得差异分数D。如果D的绝对值很大,说明测验中可能存在干涉变量。2根据样本团体的组成分析,找出对照组,分别计算效度,从而找出干涉变量。3对于预测团体,根据某些易见的干涉变量将其区分为预测性高和预测性低的两个亚团体。对于预测性高的团体,获得的测验效度会有所提高。,四、效标的性质,皮尔逊积差相关系数的前题是假设两个变量的关系是线性的分布。效标测量的可靠性即效标测量的信度。,第五节 项目分析,测验的项目分析包括定性分析和定量分析

40、两个方面。P165-185定性分析包括考虑内容效度,题目编写的恰当性和有效性等;定量分析主要是指对题目难度和区分度等进行分析。P165-186,第一单元 项目的难度,一、定义,难度(difficulty),顾名思义,是指项目的难易程度。在非能力测验(如人格测验)中,类似的指标是“通俗性”难度的指标通常以通过率表示,即以答对或通过该题的人数百分比来表示:(公式5-31)在200名学生中,答对某项目的人数为120人,则该项目的难度为0.6通过人数越多(即P值越大),难度越低;,真题,53、在能力测验中通常有反映难度水平的指标,在非能力测验中类似的指标称为()。P368(A)流畅性(B)灵活性(C)

41、通俗性(D)相似性,真题,55、项目的难易程度,用P表示。P值越(),难度越低。P368(A)大(B)低(C)小(D)接近于0,二、计算方法,(一)二分法记分的项目(公式5-32)在370名被试者中,选为高分组和低分组的被试者各有100人,其中高分组有70人答对第1题,低分组有40人答对第1题,则第1题的难度为0.55吉尔福特提出难度的校正公式*P155-96,(二)非二分记分的项目(公式5-34)数学测验的第7题满分为15分,该题考生的平均得分为9.6分,则该题的难度为0.64,三、难度水平的确定,(一)项目的难度选择题目时,最好使试题的平均难度接近0.50,而各题难度在0.50士0.20之

42、间。(二)测验的难度如果被试样本具有代表性,对于中等难度的测验,其测验总分应该接近常态分配。,第二单元 项目的区分度,一、定义,项目区分度(item discrimination),也叫鉴别力,是指测验项目对被试的心理特性的区分能力。,真题,54、项目区分度也叫(),是指测验项目对被试者的心理特性的区分能力。P370(A)难度(B)鉴别力(C)信度(D)效度,二、计算方法,(一)鉴别指数主要步骤如下:1按测验总分高低排列答卷;2确定高分组与低分组,每一组取答卷总数的27%;3分别计算高分组与低分组在该项目上的通过率或得分率;4按下列公式估计出项目的鉴别指数;(公式5-35),(二)相关法计算区

43、分度最常用的方法是相关法1点二列相关:点二列相关适用于一类变量为二分称名变量,另一类变量为连续变量的成对变量的相关计算2二列相关:二列相关适用于两个连续变量,但其中一个变量被人为分成两类。3相关法:相关法适用于两个变量均为二分称名变量,三、区分度与难度的关系,一般来说,较难的项目对高水平的被试区分度高,较易的项目对水平低的被试区分度高,中等难度的项目对中等水平的被试区分度高。项目难度的分布也以常态分布为好,这样不仅能保证多数项目具有较高的区分度,而且可以保证整个测验对被试具有较高的区分能力,真题,57、难度与区分度的关系,一般来说,较难的项目对高水平的被试者区分度(),中等难度的项目对中等水平

44、的被试者区分度高。P372(A)中等(B)一般(C)高(D)低,真题,63、项目难度的分布一般以()分布为好。这样不仅能保证多数项目具有较高的区分度,而且可以保证整个测验对被试者具有较高的区分能力。P372(A)偏态(B)负偏态(C)峰态(D)常态,第六节 测验编制的一般程序,第一单元 测验的目标分析,一、测验的对象二、测验的用途三、测验的目标,一、测验的对象,只有对受测者的年龄、受教育程度和社会经济以及阅读水平等心中有数,编制测验时才能有的放矢。,二、测验的用途,所编出的测验是要对被试做描述,还是做诊断,亦或是选拔和预测,(一)显示性测验显示性测验是指测验题目和所要测量的心理特征相似的测验。

45、古德纳夫曾经在显示性测验内部又加以区分,将其分为样本测验和标记测验。(二)预测性测验,三、测验的目标,心理测验的目标是指编制的测验是测什么的,即用来测量什么样的心理变量或行为特征。分三种情况:(一)工作分析包括两个步骤第一是确定哪些心理特征和行为可以使要预测的活动达到成功 第二是建立衡量被试是否成功的标准(二)对特定概念下定义(三)确定测验的具体内容,第二单元 测题的编写,一、搜集资科,题目的来源可分为三个方面:(一)已出版的标准测验(二)理论和专家的经验(三)临床观察和记录,真题,50、心理测验题目的来源应该排除()。P375(A)直接翻译国外测验的题目(B)已出版的标准测验(C)理论和专家

46、的经验(D)临床观察和记录,二、命题的一般原则,从内容、文字、理解和社会敏感性四个方面来考虑(一)内容方面内容符合测验的目的 避免贪多而乱出题目 内容取样要有代表性 题目间内容相互独立,真题(2007年11月)*,102、心理测验命题在内容方面的要求包括()。P376(A)内容符合测验的目的(B)题目数量尽可能多些(C)内容取样要有代表性(D)题目间内容相互独立,(二)文字方面使用准确的当代语言 语句要简明扼要 排除与答案无关的因素 最好是一句话说明一个概念,真题,109、心理测验命题在文字方面的主要要求是()。P376(A)使用准确的当代语言(B)语句简明扼要(C)排除与答案无关的因素(D)

47、最好是一句话说明一个概念,(三)理解方面有确切的答案 除创造力测验和人格测验外不应具有引起争议的可能 内容不要超出受测团体的知识水平和理解能力 格式要不被人误解,(四)社会敏感性方面菲力普(Phillips,D.L.)列举了几条策略值得参考:1命题时假定被试具有某种行为 2命题时假定规范不一致 3指出该行为是常见的,虽然是违规的,真题,103、对于涉及社会敏感性问题的测验,菲力普(Phillips,D.L.)认为可以采取一些鼓励被试者作出真实回答的策略,这些策略包括()。P376(A)命题时假定被试者具有某种行为(B)命题时假定规范不一致(C)涉及社会禁忌或个人隐私的题目不使用(D)指出该行为

48、是常见的,虽然是违规的,三、测题的编制要领,可以分为两大类:提供型(supply)和选择型(selection)题目。,(一)选择题,由两部分构成:题干(stem)和选项(options,alternatives)。对选择题,我们既要编好题干,也要编好选项,有几点必须注意:1题干所提的问题必须明确 2选项切忌冗长,要简明扼要。3每题只给一个正确答案 4各选项长度应相等 5避免题干用词与选项用词一致 6选项最好用同一形式,(二)是非题,编制是非题应注意:*P166-2001内容应以有意义的概念、事实或基本原则为基础 2每道题只能包含一个概念 3尽量避免否定的叙述,尤其是要避免用双重否定的叙述 4

49、若是表达意见的题目,最好说明意见的来源和根据 5“是”、“非”题的数目应有适应比例,基本相等,(三)简答题,编制简答题有三条原则:l宜用问句形式 2如果是填充形式,空格不宜太多 3每题应只有一个正确答案,(四)操作题,编制操作测验有四条原则:1明确所要测量的目标,并将其操作化。2尽量选择真实性程度较高的项目。3指导语要简明扼要 4制定评分标准,确定计分方法,真题,103、编制操作测验的原则有()。P378(A)将测量目标操作化(B)尽量选真实度高的项目(C)指导语要简明扼要(D)制订评分的方法与标准,第三单元 测验的编排和组织,一、合成测验,(一)选择与审定试题,1选择试题形式在选择题目形式时

50、,需要考虑以下几点:(1)测验的目的和材料的性质(2)接受测验的团体的特点(3)各种实际因素,2审定题目审定试题要注意以下几个问题:(1)题目的范围应与测验计划所列的内容技能双向细目表相一致(2)题目的数量要比最后所需的数目多一倍至几倍(3)题目的难度必须符合测验目的的需要。(4)题目的说明必须清楚明白。,(二)测题的编排,测验编排的一般原则:1测题的难度排列宜逐步上升。2尽可能将同类型的测题组合在一起。3注意根据各种类型测题本身的特点排列题目。两种常见的排列方式。1并列直进式:2混合螺旋式:,真题,109、测题常见的排列方式有()。P380(A)并列直进式(B)公共汽车式(C)混合螺旋式(D

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号