《项目反映理论与自适应测验.ppt》由会员分享,可在线阅读,更多相关《项目反映理论与自适应测验.ppt(90页珍藏版)》请在三一办公上搜索。
1、第五章 测试与测试理论,测试与测试理论,测量的意义与分类教育测量一般概念及量表测量数据的记述与处理项目反应理论项目反应理论的应用,一、测量的意义和分类,狭量测试:针对具体的技能、知识、能力、适应性等特性的测试,1、测量的分类,器具测试与笔纸测试客观测试与非客观测试综合测试与分析测试标准测试与非标准测试集团基准测试与达到基准测试,二、教育测量一般概念及量表,测量:根据一定规则用数字对事物的特性加以描述和确定的过程。,测量包含,1)要明确被测量对象的属性或性质2)确定能使这些属性显示出来并又可以被感知的一系列操作3)制定一个程序使得结果可以量化,1、教育测量的一般概念,参照点计算的起点,有绝对零点
2、和相对零点(人为定的参照点)。教育测量中的参照点为相对零点。,单位测量的基础。理想单位的条件:要有确定的意义;具有相等的价值,?,教育测量:根据教育目标的要求,按一定规则用数字对教育效果加以描述和确定的过程。,即,遵照教育学、心理学和测量学的理论和原则,通过各种测验来确定由于教育引起的学生知识、能力变化的方向和数量。,间接测量。通过测量学生对所学知识的掌握程度来了解其智力或学业水平的现状和发展情况。,测量的结果是相对的。学生学业成绩只有在某种标准的比较中才有意义。只有把它们和集体的平均水平比较,或者和教学计划规定的教学内容、教学目标比较,才能确定测验分数的含义。,2、教育测量的量表,量表测量工
3、具。具有一定单位和参照点的连续体,为获得有用的数据而设计。,根据精确度,1)类别(称名)量表2)等级(顺序)量表3)等距(间隔)量表4)等比(比率)量表,1)类别量表,对被测对象进行分类,并赋予各类以不同的符号。,类之间只具有“质”的差别而不具有“量”的差别。,功能,标记分类,适用的统计,百分比卡方检验,2)等级量表,数字或符号表示测量对象在某一属性上的顺序或等级关系。,不表明各数字间的差距相等,不能进行四则运算。,适用的统计,中位数百分位数,3)等距量表,具有类别量表和等级量表的性质外,还具有连续数量之间的差距相等。,数值间不能进行乘除运算,但可以进行加减运算。量表的数值加或减一个常数或用一
4、个常数乘除,不会破坏原有数据间的关系。,适用的统计,均数相关系数Ft检验,教育测量,4)等比量表,具有最高的水平量度,除了具有前三者性质外,还具有绝对零度,可进行四则运算。,物理测量,心理测量中,反应时间属于该类。,教学与时间数据进行分析即可采用等比量表。,3、教育测量的误差,测量误差:在测量过程中由与目的无关的因素产生的不准确的或不一致的结果。,随机误差:,系统误差:,由与测量目的无关的偶然因素引起的变化无规律的误差,由与测量目的无关的因素引起的恒定的有规律的误差,经典测量理论关于误差三个假设,1)测验的观察分数X可看作真分数T和测验误差分数E的线性组合;2)误差分数E的数学期望为0;3)任
5、何两次测量所产生的误差相互独立。,误差的来源,1)测验自身所引起的误差;2)测验过程所引起的误差;3)被试本身所引起的误差。,三、测量数据的记述和处理,(一)测量数据的统计测度,1、平均值、分散和标准偏差,方差(分散)S2x,测量得分的分散程度,变异数,标准偏差Sx,2、协方差和相关系数,协方差Sxy,相关系数xy,xy,Sxy,Sx,Sy,(二)测量数据应具备的特性,1、测量的误差模型,xi测试值ti 真值ei 测量误差,xitiei,N足够多,若测量误差与得分真值间是完全独立的,则:,Ste,0,N,1,i=1,N,(ti+ei),(ti+e)2,S2t,+,S2e,+,2Ste,S2t,
6、+,S2e,2、测量的信度,信度:当一个测验多次测量的结果一致或稳定时,它就被认为是可靠的。而估计测量一致性或稳定性程度的指标,称为信度。,即指:测验中,被试的实得分数与真实分数差距越小,测验的分数就越可靠,信度就越高;反之,信度就越低。,估计信度的方法:,1)再测信度2)复本信度3)分半信度4)内部一致性信度5)评分者信度,1)再测信度,用同一个测验,对同一组被试前后两次施测,两次测验分数之间的相关程度就是再测信度。测验跨时间的一致性稳定性系数。,例1,假设有20个学生在1月1日接受了一个测验,到2月1日,又再一次接受同一测验,把1月1日的首测与2月1日的再测的分数分别记为X1X2,测验结果
7、为:,计算得:,X1X2,S2,S1,9.95,11.45,2.46,2.42,2385,0.9,再测信度满足条件,所测量的特性必须是稳定的;遗忘与练习的效果相同;两次施测期间被试的学习效果没有差别。,优点:提供测验结果是否随时间而变化的资料,可作为预测被试将来行为的依据;缺点:易受练习和记忆的影响。,适用于速度测验,不适用于难度测验,2)复本信度平行测试法,根据一组被试在两个等值测验上的得分计算的相关系数即为复本信度系数。,反映的是两个测验之间的等值程度等值系数,公式与稳定性系数公式相同,即再测信度公式。,优点:一定程度上避免了受练习和记忆的影响缺点:很难编制两份等值的试卷,3)分半信度折半
8、法,按正常的程序实施测验,然后将全部试题分成相等的两半,被试组在这两半测验上的分数之间的相关系数即为信度系数。,如何分半?,优点:分半法估计信度比再测法和副本法简便,减少了学生的疲劳、厌烦等因素;局限:分半信度系数只能表示两半试题的等值程度,不能提供时间稳定性的信息。,不采用前后分半,采用奇偶分半法,即将题目的奇数号分为一组,偶数号分为一组;求出所有被试在奇数和偶数题上总分的相关系数;求得的信度为半个测验信度,整个测验的信度需要进行矫正。,求得当两半测验等值时,两半测验分数具有相同的平均数和标准差,可用斯皮尔曼布朗公式校正:,当两半测验具不同的均值和方差时,可用卢伦公式校正:,4)内部一致性信
9、度,也称同质性,指测验内部所有题目间的一致性。,如果在一个测验中各道试题得分有较大的正相关时,我们说这个测验是同质的,也就是说,在该测验项目中所有的项目都测量相同的特质或程度略同的特质。,估计测验内部一致性的常用方法:,库德理查逊公式,例2,假设在一次有100人参加的客观性试题的测验中,题量为20道,学生考试分数的标准差为4分,各试题的答对人数如表所示:,例3,假定某次考试共有105道题,学生平均分数为75分,标准差为19分,则利用kR21公式可计算得这次考试的信度是:,库德理查逊法只适于客观性测验,不适用于主观性测验;只适用于题目得分不为1则为0的测验,不适用于其他判分方式的测验。,克伦巴赫
10、系数,可用于多重评分测验,kk,k,k1,(1),Sx2,Si2,k测验的题目数Si2第I道题目分数的方差Sx2测验总分的方差,与库德理查逊法不适用于速度测验,5)评分者信度,考察评分者信度的方法是随机抽取部分试卷,由两个或多个评分者按评分标准打分,然后求其间的相关。,一般认为,当经过训练的成对评分者之间的相关系数达到0.9以上时,才能认为评分客观。评分者之间的一致性越好,其信度也越高。,1)5)估计信度的方法,只适用于常模参照测验,而不适用于标准参照测验;,信度系数是衡量测验好坏的一个重要指标。最理想的情况是信度为;,一般能力与学绩测验的信度系数常在0.90以上,性格、兴趣、态度等人格测验的
11、信度系数通常在0.800.85之间。,6)信度系数与个人测验真分数的估计,常通过估计测量标准误的方法对个人真正能力作置信区间的估计。,测量标准误的大小影响实得分数对真分数估计的精确度,其数值与信度有关,两者之间的关系:,SESX(1rxx)1/2,SE测量的标准误,SX 所得分数的标准差,rxx测验的信度,个人在测验中所得分数X有95的可能性落在真分数T加减1.96个标准误的范围内,即:,(X1.96SE)T(X1.96SE),7)影响信度的因素,被试、主试、测验内容和施测环境等均能引起随机误差,导致分数不一致,从而降低测验的信度。,测验的题目数越多,则其信度越高。题目越多,试题的取样越适当;
12、题目越多,测验分数受猜测因素的影响越小。,团体的异质程度与测验信度有关,分数分布的范围越大,信度越高;,信度系数与样本团体的异质性有关。对不同的团体需要重新确定测量的信度;,测验难度水平使测验分数分布范围最大时,测验的信度才会最高。,3、测量的效度,指测量的有效性,即一个测验对它所要测量的特性准确测量的程度。一个测验,如果能正确地测量出所要测的东西,那么它就是高效度的测验。,效度:与测量目的有关的分数的方差与实得分数的方差之比,S2V/S2X,测验的效度除受随机误差影响外,还受系统误差的影响;,可信的测验未必有效,而有效的测验未必可信;,测验本身、测验的实施和被试等对测验的信度有影响的因素对效
13、度也有影响。,根据考察一个测验有效程度的途径,把测验的效度分为:,1)内容效度2)构想效度构成概念效度3)校标关联效度基准关联效度,1)内容效度,指题目对欲测的内容或行为范围取样的适当程度。,通俗地说,它就是一个测验的覆盖问题,用于测量某一范围知识和能力的一个测验,它所采用的那些题目是否充分代表了该范围内的基本知识和基本能力。,具备较好的内容效度必须满足的两个条件:,要有确定好的内容范围,并使测验的全部题目均落在此范围内;,测验题目应是已界定的内容范围的代表性样本,即选出的题目应能包含所测的内容范围的主要方面,并且使各部分题目所占比例适当。,确定内容效度的方法:,专家判断法(定性)由专家对测验
14、题目与所涉及的内容范围进行符合性判断;,再测法在教学之前先将测验施测于被试。然后对被试进行教学训练,结束时再测一次。,内容效度适合于评价教育成就测验和职业选拔测验,局限:缺乏可靠的数量指标,妨碍了测验间的比较,2)构想效度构成概念效度,指测验对理论上的构想或特质的测量程度。或者说测验所提供的数据同理论假设的符合程度。,确定构想效度的步骤:,首先,从某一理论出发,提出关于某一心理特质的假设;然后,设计和编制测验并进行施测;最后,对测验的结果采用相关或因子分析等方法进行分析,验证与理论假设相符的程度。,3)校标关联效度基准关联效度,对于效标的理解:,衡量测验有效性的一个重要方法是看根据测验所作出的
15、预测是否能被证实,如果一个测验的预测与将来实际发生的事情非常接近,那么它就是一个好测验。因此,被预测的行为是衡量测验是否有效的标准,简称效标。,效标关联效度就是考察测验分数与效标的关系,分析测验对我们所感兴趣的行为的预测程度。,效标关联效度可以通过统计分析而得出一个数量指标,该指标是一个测验与作为准则的另一个测验、评定或工作成绩等之间的相关系数。以此来表示被衡量的测验变量与作为准则的另一变量之间的相关强弱,从而反映出前者的有效性程度。,例4,计算大学入学考试的效标关联效度。表中列出的仅是一组人为压缩了容量的样本数据,实际计算效标关联效度时,样本容量还应大大增加。,4、测验项目(题目)分析,1)
16、题目的难度,题目的难度是衡量题目难易水平的指标,通常以题目的答对比率来表示。,难度的计算,二分法计分的题目,P(R/N)100,非二分法计分的题目,题目难度水平的确定,题目的难度是否合适取决于测验的目的、性质以及题目的形式。,若测验是为了了解被试在某方面知识技能的情况,则不必考虑难度;若测验是为了测量个体之间的差别,则以选择接近中等难度的题目为好;若测验用于选拔录用人员时,就应该比较多地采用那些难度值接近录取率的题目。,测验难度对分数分布的影响,若被试的取样具有代表性,对于中等难度的测验,其分数分布应呈正态分布。,题目难度普遍较大,被试的得分普遍较低,使得低分端出现高峰,呈正偏态;题目难度普遍
17、较小,被试的得分普遍较高,使得高分端出现高峰,呈负偏态。,当测验的分数分布明显偏态时,可以通过改变不同难度题目的比例来进行调整。,2)题目的区分度,指题目对不同水平的被试的心理特质的区分能力。,若在某道试题上得高分的被试实际能力水平也高;得低分的被试实际能力水平也低,则该题就具有较高的区分度。,区分度的取值范围都介于1至1之间,绝对值越大,区分的效果越好。,鉴别指数法,比较测验总分高和总分低的两组被试在题目通过率上的差别。计算公式如下:,DPHPL,D:鉴别指数PH:高分组被试在该题上的通过率PL:低分组被试在该题上的通过率D值越大,题目的区分度越高,题目越有效,题目鉴别指数与评价标准,方差法
18、,题目分数的离散程度越大,该题的区分度也越大。,缺点:当题目满分不同时,题目之间不能比较。,变异系数CV作为区分度的指标:CVS/X,相关法,以题目分数与效标分数或测验总分的相关程度作为题目区分度的指标。相关程度越高,题目区分度越高。,相关,适用于题目分数与测验总分数都是二级评分的场合。如,题目得分为“通过”、“未通过”,测验总成绩为“合格”、“不合格”。,对于任意两个二分称名变量的数据资料,之间的相关系数可用如下公式计算:,r(adbc)/(ab)(cd)(ac)(bd),1/2,例5,45名学生参加高考,录取情况与在某题上的通过情况如图所示,若以录取情况作效标,那么此题对学生是否有区分能力
19、?,合计 18 27,20 25,考取 未考取 合计,未通过,通过,题目反应,升学情况,r(adbc)/(ab)(cd)(ac)(bd),(132075)/(20251827)1/2,1/2,0.456,(三)测试数据的变换,测试数据的变换多用于以相对评价为主要目的的集团基准测试(NRT)。,1、百分排位2、标准得分3、正则化得分4、多级评定值,1、百分排位,指被测试集团人数为100名,从低位开始,相当于指定的某一位的成绩是多少,或者说,从低位开始,相当于百分之多少位的成绩是多少的一种排位方法。,只能用于同一次测试中不同学生的得分进行比较和评价,某一被测试者的得分为x,在x分以下的被测试者的人
20、数为参加测试总人数的P,此时,称该被测试者的得分为P百分排位,或简称P百分位。,百分排位的计算,从低位开始,对每一个得分(或每一得分级别)求累积频度,基于累积频度的百分位为:,例6,设给定的成绩为80,从低位开始,出现低于80分以下的频度为45,被测试人数为60,80分的成绩对应的百分位为:,2、线性变换与标准得分,yiaxib,Xi原始得分,yi变换得分,其中:,1)线性变换,将多个测试得分变换为具有相同的平均值、标准偏差的标准分,便于对多个不同的测试进行比较,易知:,S2ya2S2x,则:,yiaxib,可得:,z变换中,z得分的平均值为0,标准偏差为1,若对z进行如下变换:,yiAziB
21、,则得:,S2yA2S2zA2,可以将原始得分变换为具有指定的平均值为B、标准偏差为A的得分。,3、正态(则)分布与正态(则)化得分,某一测试的得分满足正态分布,或近似于正态分布。经线性变换后的得分仍满足正态分布或近似于正态分布。,正态分布的密度函数:,正态分布的性质,1)正态曲线位于x轴的上方,以直线x为对称轴,为正态分布的均值,它向左向右对称地无限延伸,且以x轴为渐近线。但始终不与x轴相交;,标准正态分布均值为0,标准差为1时的正态分布,记作N(0,1),曲线如图B。位置和形状都是确定的,z0达到最大值,f(0)0.3989;曲线Z1两点是拐点,f(1)0.2419,任何一般的正态分布都可
22、以化为标准正态分布。若xN(,2),令,Z(x)/,则ZN(0,1),可以将各式各样形态的正态曲线转换成标准正态曲线。转换后正态分布的各项性质都保持不变。,3)正态曲线与x轴所围成区域的面积为1。曲线关于x对称,所以x将曲线分成面积均为0.5的两部分。服从正态分布的随机变量x在x1到x2间变化的概率就是xx1,xx2两周之间曲线下的面积,即概率P为阴影部分的面积;,4)正态分布xN(,2)是由均值和标准差唯一决定的分布。均值决定曲线的位置、标准差决定曲线的形状。,正态分布的使用:,1)Z表示曲线底线即横轴上的位置;2)纵高Y,即曲线的高度;3)P为两个x间阴影部分面积,例7:设X服从正态分布X
23、N(,2),求以下的概率,(1)PX(2)P3X 3,Z10.3413Z30.4987,例8:在某年高考的平均分数为500,标准差为100的正态总体中,某考生得到650.设当年高考录取率为10,问该生的成绩能否入围?(Z1.5时,P0.933),例9:已知某班期末考试中语文的平均分为80,标准差为10;数学的平均为70,标准差为15;英语的平均分为85,标准差为12.甲生的语文成绩为85分,数学成绩为82分,英语成绩为90分,问该生这三科成绩哪一科最好?,4、多级评定值,直接利用测试得分的平均值和标准偏差,将测试得分变换为具有指定的多个级别的评定值。将这种经过变换后的变换值为多级评定值。,多级评定值变换的方法:,1)求测试得分x的平均值和标准偏差;2)以平均值为中心,将其上、下延伸Sx/2,并另x Sx/2和x Sx/2范围内的得分为评定值3;3)以评定值3的上、下为准,分别延伸Sx,在此范围的得分分别确定为评定值4和评定值2;4)将高于评定值4的得分,确定为评定值5,低于评定值2的得分确定为评定值1。,以5级评定值为例,