《信息函数在标准参照测验中的应用研究.doc》由会员分享,可在线阅读,更多相关《信息函数在标准参照测验中的应用研究.doc(11页珍藏版)》请在三一办公上搜索。
1、信息函数在标准参照测验中的应用研究(1.江西师范大学教科院2001级硕士研究生,江西南昌,330027)摘要:本文主要从项目、测验、被试能力三方面来探讨信息函数在标准参照测验中的应用。研究结论表明:信息函数较经典测量理论能更精确地评价项目质量、测验质量及被试能力水平,因而对测验及学生能力水平的评价更科学,同时对测验的编制有更强的指导作用,值得推广。关键词:信息函数 ;最佳评分加权;标准参照测验;项目反应;理论一、问题的提出(一)应用经典测量理论(CTT)作项目分析、测验分析及被试能力分析的缺陷如何评价一个测验及其项目的优劣,这是广大测验编制者和使用者所关注的问题。在CTT中认为区分度高的项目就
2、是好的项目,而当项目难度适中时,项目区分度大。因而CTT一般挑选难度适中、区分度高的项目。而在CTT中难度与区分度的求取是彼此独立的。虽然它也承认这两个度是彼此相关联、统一起来发挥作用的,但却没有定义一个关于项目质量的、包含难度和区分度等各方面作用的、统一的综合指标。另外,CTT中的测量误差是一个笼统的概念,它是针对所有被试而言。它不能反应测验对不同能力水平被试的测量误差的不同,且它的求取公式(SE=Sx(1- rxx)0.5)与项目难度和区分度的取值并无直接关系。再者,CTT中答对一道难题得l分与答对一道容易题得1分所表达的能力水平是一致的。而实际上,答对难题所反应出的能力水平明显高于答对易
3、题所反应的能力水平,但CTT并不能如实反应这种情况。这些问题一直都是CTT中存在的主要缺陷。(二)项目反应理论(IRT)中信息函数(Infomation Function)的提出为了克服CTT中的上述缺陷,项目反应理论提出了信息函数概念,它包括测验信息函数和项目信息函数。根据定义,测验信息函数I()=1SE()2。它是测量标准误(SE()的倒数。这表明,一个测验的信息函数值越大,那么测验对被试相应的能力水平所做估计的误差越小。可以证明:I()=I i()=Pi()2Pi()1-Pi ()2,其中I()是测验信息函数,I i()是测验项目i的信息函数,Pi()是一个包含项目参数和被试参数的反应函
4、数,Pi()是Pi()的一阶导数。它是一个项目参数和被试能力综合作用的函数,它的求取不仅考虑了项目参数间的关系,而且考虑了项目参数与被试能力间的关系,是一个关于项目质量的、包含难度和区分度等各方面作用的、统一的综合指标,这是CTT理论所不具有的优越性。上式表明各个测验项目的信息函数对整个测验的信息函数的贡献是独立的。一个项目的信息量越大,则对整个测验的贡献越大;反之,一个项目的信息量越小,则对整个测验的贡献越小。因而用测验项目信息函数的大小来衡量项目的优劣显然是合理的。由于信息函数是针对特定能力的函数,因此在标准参照测验中,可根据划界分数点上对应的能力的信息函数值来评价项目质量及整个测验的质量
5、。当划界分数点上的某项目或测验的信息量越大,则该项目或测验在划界分数点上的测量误差越小,区分能力越强,即该项目或测验的质量越好。洛德(Lord)和伯恩鲍姆(Birnbaum)的研究提出,测验总分信息函数求法如下:Ix():测验总分信息函数Wi:项目权重Pi():反应函数Pi():Pi()的一阶导数并证明,对Logistic模型而言,当:Wi=D (单参数)Wi=Di (双参数)Wi= Di(Pi-ci)/Pi(1- ci) (叁参数)时,测验总分信息函数(Ix())最大,也就是测量误差最小。采用以上公式加权求得总分的方法称为最佳加权评分法。它较CTT中原始分数的简单累加更理想,更优越(仅当为单
6、参数时,两者一致)。它能更客观、更准确地评价被试能力。二、研究方法与过程(一)研究对象本研究以2002年7月份高等教育自学考试全国统一命题考试高等数学(一)试卷为对象,从某省随机抽取了633名被试(即作答试卷)。本试卷由五大题(共50个小题)构成,列表如下:(二)分析工具采用测量软件“现代心理与教育测量通用分析系统”(简记为ANOTE江西师大研制,通过了教育部考试中心主持、张厚粲教授为主任的专家委员会鉴定,结论是“国内领先,国际先进”。)进行分析。选取Logistic双参数多级计分模型。本试卷的项目容量及抽取的被试容量符合:“胡林(Hulin)、李沙克(Lissak)和德拉斯哥(Drasgow
7、)1982年建议用于双参数模型就需要至少30个项目和500个被试”3(P136)。参数估计采用EM算法。(三)试卷单维性检验用SPSSl00统计软件包进行因素分析(Factor Ananlysis),按特征根的值(Eigenvalue)大于l来抽取因子,共得l5个因子,每个因子的特征根的值及其碎石图(Scree plot)如下:第1特征值与第2特征值的比值7.501.95=3.85,大于3,接近4,按汉普尔顿(Hambleton,R.K.)的标准3(P148-Pl68),可认为该测验符合单维性假设。三、研究结果与分析(一)测验整体质量分析一般认为当测验的信息量达到25时,即测量误差SE()=1
8、I()0.5=1(25)0.5=0.2,测验质量良好;信息量为l6-25时,测验有待改进;低于16,测验很差3(P186)。作为一种判断被试合格与不合格的标准参照测验,我们对能力低的被试及能力高的被试并不感兴趣,对它们估计的精确度我们也不感兴趣,而感兴趣的是对介于合格与不合格间的被试能力估计的精确度,也就是要在划界分数点(及格点或合格点)及其附近有精确的估计及高区分的能力,而这些都反映在测验在划界分数点的信息量。因此可根据测验在划界分数点上的信息量来评价目标参照测验。从下图测验信息函数曲线图可看出测验大约在能力区间-0.5,1(划界分数点对应的能力值0=0.58正好落该区间)上相对信息量普遍大
9、(约大于20),在一定程度上能区分合格与不合格的被试,这符合标准参照测验的思想(整个测验在划界分数点及附近有高信息量)。但其绝对信息量不大,介于l6-25间,信息量及估计精度不是很理想,测验有待改进。同时又说明在测试能力为0.13的考生时,测验才能提供最大的信息量。因此从下图测验函数曲线图来看,就应使曲线高峰向右移、并增大高度即增加测验难度和区分度,以使测验在划界点上的信息量大于25,这样测验才能较精确地区分合格与不合格被试。(二)二项目质量分析测验信息量是各项目信息量的累加和,可依各项目对整个测验信息量的贡献大小建立项目优劣分类标准:对于满分为l00的试卷而言,l分题贡献的信息量为25100
10、=0.25以上时良好,介于0.25-0.16(16100)时有待改进,小于0.16时很差,多分题依此类推。因此,各项目的评价标准列表如下:因此,根据这一标准及表5可得出下表各项目的质量:从表6可看出该试卷的8个良好项目提供的信息量占全测验的信息量的16.68623.181=72,假若还有8个类似的良好项目,则l6个项目就能提供l6.6862=33.372的信息量(大于25),因此该测验只要16个良好项目就能较精确地区分合格与不合格的被试。这不仅大大减少项目数,而且还提高了在划界处的信息量,从而减少了测量误差、提高了估计的精度。以下是对三类质量项目的分析:1需删除的项目:图2为项目1(0,1记分
11、)的信息函数曲线图,从其看出该项目的作用不大,不仅在能力区间-3,3的信息量小,而且在划界分数点上的信息量更小,对整个测验在划界分数点上的信息量的贡献甚微。图3为项目41(多级记分)信息函数曲线图,从其看出该项目在能力右端及能力左边有一定的信息量,但作为标准参照测验,人们关心的是在划界点及其附近的被试,而该项目在划界点及其附近处的信息量几乎达到最小,不能很好地区分合格与不合格的被试,质量较差。项目l-12、14-21、23-27、30-33、35、41、46、48与上述两类类似。2对需修改的项目来说,可调整项目难度与区分度以提高项目信息量。图4是项目39(属1,0记分)的信息函数曲线图,该项目
12、在划界分数上的信息量小(0.21415),但在能力水平-0.5左右时信息量达最大(大约0.32),但若能把项目难度上升到0.58(即划界分数处)左右时,该项目的质量将会得到改进。图5项目44(属多级记分)在划界分数旁有最大信息量,因此该项目的难度尚可,但区分度不大,可提高项目的区分度,以增加信息量。图6项目l3(属1,0记分),信息曲线图反应出其区分度小,且项目难度(b:-0.54)与划界分数(0=0.58)的差值大。如要改进此项目的质量则需提高区分度,并同时加大项目的难度。总之,按以上办法分析所有需修改的8个项目,可提高它们在划界分数线上的信息量,从而提高整个测验的信息总量及估计的精度。以下
13、是对需修改项目的修改意见:3质量良好的项目:图7项目28(属1,0记分)具有较好的信息量,在能力区间-1,1(包括划界分数点)上都有高信息量,对整个测验信息量贡献大,测量误差小,质量良好;图8项目47(属多级记分)在划界分数点及附近有很高的信息量,而在两端的信息量很小,它能较精确地区分合格与不合格被试,对两端被试几乎没有区分的能力,这类项目最适合标准参照测验,它是本测验中信息量最大的项目,对整个测验信息的贡献最大。图9项目49(属多级记分)在能力区间-0.2,0.7及1.6,2.6有较好信息量,出现双高峰(且划界分数点也在一高峰内),对这两区间的被试都有很小的估计误差,这类项目适用于目标参照测
14、验,但更多用于常模参照测验。(三)最佳评分加权前已述及,CTT中答对一道难题得l分与答对一道容易题得一分所表达的能力水平是一致的;测验得分也只是各项目得分的简单累加和,因此两个能力水平不等的被试可能得完全一样的分,但能力强的被试答对难题项目数却会更多。最佳加权评分,从根本上能克服这一缺陷。而且采用最佳加权评分法可使测验信息函数比采用原始分至少提高约20左右,这意味着能使对能力水平的估计的均方误差减少约l74(P204)。以下是该测验部分被试的原始得分与最佳加权评分(通过VB自编程序求取):X:原始分数(卷面分) W:最佳加权分数分析如下:1被试4与被试5原始得分一样,而最佳加权分则分别为61和
15、71,显然有明显差别。进一步考察这两个被试原测验各项目得分,我们发现被试4在第一大题(单选题)中比被试5多6分,且主要集中在第1、3、13、19、21、26等项目上(这6个项目难度介于-4.38,-0.54,偏易)。而这些项目的信息量非常小(前已述及),对整个测验的贡献很小,基本上没有什么鉴别力。而被试5在第47题(7个难度的平均值为0.582)比被试4多5分,第47题的信息量最大(4.9024),对整个测验的贡献最大,区分被试能力最强。从总体上看,认为被试5的能力与被试4的能力有明显的差别是合理的,而作为被试数学能力的一种度量,最佳加权分显然比原始分更为合理。被试8与被试9情况类似。2原始分
16、误判的情况:被试2本该为合格(最佳加权分为63),而被判为不合格。相反被试3本该为不合格(最佳加权分为52)却被判为合格。采用最佳加权评分,测验总分信息量最大、估计的误差最小,这将大大减少此类误判情况。3由上可知,测验原始分往往并不能反映被试的实际水平,而最佳加权分则能客观地反应被试的真实能力水平。(四)目标参照测验的编制从以上我们可以这样来指导测验的编制:l尽可能地挑选在划界分数点上信息量大的项目(如第28、38、43、45、47题),以增加总测验信息量,从而减少测量误差(也即提高测验信度)。2或者尽可能地挑选在划界分数点上信息量大的项目,直至达到所需要的总测验信息量,这样就可以在保证测量误
17、差不变的情况下而减少测验的项目数。这些在计算机化自适应测验(Computerized Adaptive Testing)中都被广泛使用。这比经典测量理论中的对测验编制采用的试误法有更强的指导作用。四、结论通过以上对测验的分析可看到,IRT信息函数较经典测量理论能更精确地评价项目质量、测验质量及被试能力水平,而且对测验的编制有更强的指导作用。在专用的计算机分析程序已开发成功的情况下,值得推广。(承蒙戴海崎教授和漆书青教授为本文提出许多宝贵建议,谨表谢忱。)参考文献:1Hambleton,RK,&Swaminathan,HItemResponse Theory:Principlesand Appl
18、ications Boston:Kluwer,Nijhoff Publishing 19852漆书青,戴海崎,丁树良现代教育与心理测量学原理M北京:高等教育出版社,2002。3漆书青,戴海崎项目反应理论及其应用研究M南昌:江西高校出版社,l992。4许祖慰项目反应理论及其在测验中的应用M上海:华东师范大学出版社,1992。5Hulin,CLDrasgow,FParsons,CX美华东师范大学教育咨询中心译项目反应理论在心理测量中的应用M武汉:湖北教育出版社,l990。6Lord,FMApplications of iten response theory to practical testing problemsHillsdale,Nj:Lawrence Erlbaum Associates19807Wright,BdMaster,GNBest test designChicago:Mesa Press19828WimJvan der Linden,Ronald KHambleten:Handbook of modern Item Response TheorySpringer-Verlag New York Inc,1997