标准设定：步骤、方法与评价指标.doc

资源描述

《标准设定：步骤、方法与评价指标.doc》由会员分享，可在线阅读，更多相关《标准设定：步骤、方法与评价指标.doc（16页珍藏版）》请在三一办公上搜索。

1、标准设定：步骤、方法与评价指标标准设定:步骤,方法与评价指标术李珍辛涛陈平考试研究2010年4月第6卷第2期ExaminationsResearchApr.2010VOI.6.NO.2【摘要】标准设定(standardsetting)是划分标准的过程,指在测验分数分布中划分出两类或两类以上的分界分数.通过标准设定,考生可以被分为通过和未通过,或者是被分为更多的有序表现类别.标准设定是标准参照测验的重要组成部分,也可为测验决策者提供关于测验效度的依据,是目前测量领域一个颇受关注的研究问题.本文首先回顾了标准设定的源起和发展历程,然后详细地介绍了标准设定的基本步骤和几种主要的标准设定方法,评估标准

2、设定过程的指标,最后简单论述了在国内各类考试中应用标准设定的必要性.【关键词】标准设定标准设定方法评价指标【中图分类号】G449.7【文献标识码】A【文章编号】16731654(2010)020083013一,引言20世纪80年代以来,美国进行了旨在提高基础教育质量的大规模教育改革,又被称为标准化运动.最新标准化运动的改革大多源于不让一个孩子落后法案(NoChildLeftBehind,NCLB),除要求各州建立一个包含标准,评估和年度表现目标的问责制系统外,该法案更强调对测验的严格要求,创建与内容标准相对应的表现标准.标准化运动不仅推动了大型评估的发作者简介李珍,北京师范大学心理学院硕士研究

3、生;辛涛,博士,北京师范学大学心理学院教授,博士生导师;陈平,北京师范大学博士研究生.北京,100875.项目支持:新世纪优秀人才支持计划,北京师范大学应用实验心理北京市重点实验室规划项目资助(JD100270541).耋翌霾筮鲞笠塑展,也使标准参照测验的广泛使用成为必然.与常模参照测验相对,标准参照测验是根据内容标准(知识,技能和能力)对考生的表现水平进行界定的一类考试,如资格考试,高中会考等.在标准参照测验中,标准设定(standardsetting)是非常重要的环节,指在测验分数分布中划分出两类或两类以上的分界分数(cutscoFe).通过标准设定,考生可以被分为通过和未通过,或者是被分

4、为更多的有序表现类别,比如低于基础水平,基础水平,熟练水平和高级水平.标准参照测验的结果通常直接用于决策,如补习课程的安排,雇员的选择,奖学金及职业许可证的发放等,标准设定的主要目的就是为决策提供证据.在应用标准参照测验对考生进行分类时,分界分数是实现分类的途径,因此通过标准设定获得一个可信的分界分数就显得尤为重要,也是测验结果效度的重要指标.本文首先描述了标准设定的发展历史,然后对标准设定的基本框架,不同的标准设定方法,以及评估标准设定过程的要素作详细的介绍.二,标准设定研究的兴起和发展历程关于标准设定的研究兴起于20世纪70年代.在此以前,人们通常使用常模参照的方法进行标准设定,如规定考试

5、的通过率为20%.1962年,Glaser和Klaus首先提出了标准参照测验这一概念,随着标准参照测验的发展,人们才逐渐意识到标准设定的重要性.与此同时,美国从1977年开始发起了学生最低能力测试运动,各州相继立法要求学生在获得高中文凭前必须通过最低能力测试,自此,标准参照测验得到了迅猛的发展,标准设定也成为政策制定者和研究者共同关注的一个热点话题.在上述背景下,标准设定方法开始大量涌现,如埃伯方法(EbelMethod),边缘组方法(BorderlineGroupMethod)和安戈夫方法(AngoffMethod)等.随着大量标准设定方法的产生,研究者们开始进行各种标准设定方法之间的比较.

6、研究结果发现不同的标准设定方法会产生不同的分界分数,不同的评委也会产生不同的分界分数.显而易见,所有标准设定方法都依赖于人的主观判断,研究者们开始对标准设定方法的应用产生怀疑,并引发了大量R4示准设定:步骤方法与评价指标的争论.为此,1978年教育测量杂志(JournalofEducationalMeasurement,JEM)出版了一期专刊,就标准设定是否合理这一问题进行了大论战(引自曹怡,2003).在其中,Glass(1978)详细阐述了他将标准设定方法称为武断和错误的,以及将标准设定的整个决策过程称为主观,反复无常以及本质上不可验证的原因,而Scriven(1978),Hambleto

7、n(1978),Block(1978)和Popham(1978)四人对Glass的论点进行了反驳,认为标准设定并非是一个武断的过程,至少不是一个反复无常的过程.鉴于标准设定的主观性,Linn(1978)建议为了获得可信有效的决策,标准设定的结果必须经过时间的验证.由于1978年的JEM使得标准设定的理论探讨开始受到广泛关注,因此被看做是标准设定研究领域建立的标志.目前,尽管研究者们在标准设定的一些方面仍存在着分歧,但已意识到并能坦然接受这样一个观点:没有完全客观的标准设定方法,所有的标准设定方法,即使其再详尽再系统,都不能脱离人的主观判断.从这个意义上来说,标准设定是主观的,但并不武断.因为标

8、准设定的整个过程是经过精心规划的,并收集了大量的数据,且选拔和培训了那些最适合进行标准设定的评委,最后对于产生的分界分数的有效性还进行了充分的评价和验证.如今,研究者不再争论标准设定是否客观的问题,而是对标准设定的方法和实施进行更深入细致的探讨.由美国心理协会,美国教育研究协会和全国教育测量委员会联合发布的教育与心理测量标准(简称标准,1999)特别强调了标准设定的重要性,并提出了标准设定的新的指导方针.2001年出台的法案不让一个孩子落后,提出在阅读,数学和科学领域建立内容标准,根据这些标准进行测验编制,并通过标准设定确定三个表现水平.此外,Cizek(2001)等人所写的设定表现标准:概念

9、,方法和前景一书,详细介绍了标准设定的源起,概念,发展历程,效度检验,在教育评估中的应用,评价标准设定过程的标准,各种标准设定方法在实践中的应用,以及与标准设定相关的一些社会,政策,教育和法律的问题.2006年出版的教育测量一书,也专门有一章详细介绍标准设定的概念,步骤,方法等.这些都说明,标准设定已经成为教育和心理测量领域的研究热点,是教育测量不可或缺的重要组85耋叠蕉复鲞塑成部分.三,标准设定的基本概念和步骤(一)标准设定的基本概念标准设定中两个重要的概念是内容标准和表现标准.Cizek等人(2004)区分了内容标准和表现标准,认为内容标准是用来描述特定年龄和领域的考生应该掌握的知识和技能

10、,回答了是什么的问题;而表现标准定义为被分到特定类别的考生应该表现出的水平或程度,回答了是多少和程度如何的问题.Hambleton等人(2006)也认为,标准一词有两层含义:内容标准和表现标准,而通过分数,分界分数,临界分数,表现水平,成就水平,掌握水平,能力水平,阈限等都是表现标准的不同说法.但实际上,关于内容标准,表现标准,分界分数,表现水平的定义,研究者没有达成一致,有的研究者将表现标准与内容标准等同起来,而使用表现水平作为分界分数的代名词(Kane,1994).为了统一,在本文中全部使用表现标准一词.另一个重要的概念是表现类别,用于表示在分数量表上各表现标准相隔的区间.在分数报告中,需

11、要对各个表现类别考生的知识技能进行详细的描述.(-)标准设定的基本步骤Hambleton等人(2006)描述了标准设定的九个基本步骤:选择标准设定方法;选择评委;由设定标准的评委或其他专家完成对表现类别的描述;培训评委;评委进行判断,收集评委对项目的评分;向评委提供反馈并推动讨论;合并评委评分并获得表现标准;获取评委对标准设定过程的评价;收集效度证据并准备技术报告,包括对标准设定过程的详细记录及其他来源的效度证据.在不同的方法中,这些步骤的组合方式和顺序会有所不同,侧重点也不一样.需要注意的是,并非每个方法都包含以上九个步骤,一些方法还可能包含这些步骤之外的其他步骤.总的来说,标准设定的几个要

12、点是:标准设定方法的选择,专家评委的选择和培训,标准设定过程中各项活动的顺序,效度验证和对过程的详细记录.只有把这些问题处理好,才能通过该方法得到可靠而有效的结果.86准设定:步骤方法与评价指标四,主要的标准设定方法近四十年来,学者们先后提出多种标准设定方法,通常可归入两类(Cizek,1996;Jaeger,1989;Kane,1994):一类是以测验为中心的标准设定方法,另一类是以考生为中心的标准设定方法.以测验为中心的标准设定方法要求评委对评价任务作出评判,评委对临界水平考生在每个项目上的期望表现水平作出评判,如安戈夫方法(Angoff,1971).相比之下,以考生为中心的标准设定方法将

13、注意力直接集中于考生,要求熟悉考生的评委在不了解考生测验表现的情况下将他们置于有序的表现类别,如临界组(BorderlineGroupMethod)和对照组方法(ContrastingGroupsMethod).Hambleton和Jaeger等人于2000年提出一个全面的分类方法,将之前的以测验为中心和以考生为中心的分类扩展成四类:(1)对项目进行评判的方法,(2)对考生进行评判的方法,(3)观察考生表现的方法,(4)评委对分数曲线进行评判的方法.目前已知的标准设定方法达一百种之多,还有很多方法的变式,但是几乎所有方法都可以被归入这四类中.下面介绍几种常用的方法.Angoff方法是最早被广泛

14、使用的标准设定方法之一,拥有很多变式.对Angoff方法的介绍最早出现于教育测量第二版的评分,常模和等值分数一章(Angoff,1971),其基本思想是,由评委专家对多项选择题进行审阅之后,给出每道题目上临界水平考生正确作答的概率估计;然后把单个评委在每个项目上的概率估计进行加和,求出所有评委这个加和的平均数,即得到专家组的表现标准.当然,重复这个过程就可以得到多重表现标准.这是Angoff方法最常见的形式,却不是唯一一种.人们在使用Angoff方法的时候,通常会改变原始形式的一些特征,譬如为评委提供实际数据,鼓励专家之问的讨论,使用多轮评定法等等,这些改变后的Angoff方法又被称为调整后的

15、Angoff.近年来,书签法(Bookmarkmethod)逐渐取代Angoff方法,成为美国各州使用最多的标准设定方法.截至2005年,美国有31个州在使用书签法进行标准设定,远远高于其他标准设定方法的使用率(Perle,2005).书签法是一种基于项目反应理论的标准设定方法,它首先将项目难度映射到IRT能力量87耋蕉笠鲞筮表上,得到项目难度定位值(Bookmarkdifficultylocation,记为BDL),然后将项目按照BDL值由小到大排序生成有序测验项目册(OrderedItemBooklet,记为OIB).之后,要求评委在OIB的某两个项目间放置书签,使得从整体上而言,与某个表

16、现标准对应的临界水平考生能够掌握书签之前项目所反映的内容,或者能够以某个预定的反应概率(ResponseProbability,记为RP)正确作答书签之前的所有项目,书签之后的项目则不能满足RP的概率标准.书签确定之后,采用分界分数估计方法确定每个评委的分界分数,再计算所有评委的平均数或中位数,即可得到整个评委组的分界分数.最后将考生的能力估计值与分界分数进行比较,就可以将考生分类到预定的表现水平.以上介绍的两种方法都属于对项目进行评判的方法,下面介绍两种典型的对考生进行评判的方法:临界组方法和对照组方法.临界组方法(BorderlineGroupMethod,Zieky&Living

17、ston,1977)依据的理论假设是分界分数应从一组临界水平考生的测验分数中产生.它的基本程序是:根据合格评委或教师的评分,为每个表现标准确定一组临界水平考生,然后收集这些临界水平考生的测验分数,计算所有分数的中位数作为表现标准.另一种较为常用的是对照组方法(TheContrasting-GroupsMethod,Livingston&Zieky,1982).在这个方法中,由评委根据考生的知识和技能水平,确定一组明显高于表现标准水平的考生和另一组明显低于表现标准水平的考生,然后分别对这两组考生实施测验,获得测验分数,再将这两组考生测验分数的频数分布绘制在同一坐标系中,这两个频数分布的交

18、叉点就是测验的分界分数.工作体方法(BodyofWork,BoW方法,Kingston,Kahl,Sweeney&Bay,2001)是观察考生表现的方法中较为常见的一种.在工作体方法中,首先根据考生的测验总分进行排序,然后由评委按照这个顺序查看考生在测验中的所有作答反应,包括多项选择题的答案和对建构反应项目的应答.评委的任务就是把每个考生的作答组合分配到一个表现类型中.其实施的步骤是:培训评委;对考生答卷初评以确定表现标准的大致范围;增加总分在表现标准附近的考生,对其所有的作答反应集合进行深入分析,考生数量的增加会加强考试标准的稳定性;最后用Logistic回归或平均数的方法计算表现标

19、准.88标准设定:步骤方法与评价指标除以上列出的几种常用的方法外,目前已知的标准设定方法达一百多种,不再一一列举.作为标准设定的第一步,标准设定方法的选择主要取决于几个方面的因素(Hambleton,2006).首先,项目的组成扮演了重要的角色.多重选择题组成的测验应该选择Bookmark方法或Angoff方法,而表现测验则更适合工作体的方法.其次,设定标准可用的时间和资源也会影响并改变方法的选择和实施.例如,如果时间紧迫,就不能选择需要准备太多材料或耗时较长的方法.再次,一个机构对于标准设定的先前经验也很重要.如果测验机构不熟悉某种方法,使用时还需要开发新的材料并进行预试,就增加了实施的成本

20、.最后,关于方法有效性的证据也是选择标准设定方法的重要因素,如果一个方法缺乏有效的证据,使用机构就不会青睐它.五,对标准设定过程的评价对标准设定的评价是一个需要从多方面考虑的复杂任务.Kane(1994,2001)提供了一个如何对表现标准进行效度检验的框架.他认为要使表现标准成为相应分界分数的有效解释,就要使标准和分界分数所使用的解释性说明有效.为了达到这一点,Kane建议依靠三种类型的效度证据:过程性,内部性和外部性证据.过程性证据是指方法使用的正确性及方法实施的质量.他认为,尽管过程性证据是设定正确标准的必要条件,但过程性证据并不能保证建立的标准是合适的.内部性证据即检查评委将表现标准转换

21、成分界分数的一致性,可以通过对分界分数的标准误进行评估而得出,有两种计算方式:一是将不同的评委多次召集起来,得到重复设定分界分数的标准误;二是使用概化理论估计协方差成分.外部性证据依赖于与其他证据源的比较,比如不同标准设定方法的分界分数一致性或者是与关于被试能力水平分类的外部标准的一致性.表1展示了对标准设定过程进行评价的各种证据及其来源.耋丛叠筮复鲞笠呈塑表1评价标准设定过程的标准来源:摘自Cizek(2004),有改动.关于哪种标准设定方法在特定情境中最有效,研究者目前还没有达成共准设定:步骤方法与评价鲎标识(Zieky,2001).因此,对于一个标准设定方法的提出,需要研究者提供尽可能多

22、的有效性证据.即使每种方法都有不严密之处,收集关于标准设定过程有效性的证据(如了解评委对表现标准设定的理解程度,使用和对结果的信心等)还是非常重要的(Cizek,1996).例如,Egan(2001)在讨论由CTB/McGraw.Hill实施书签法所得的分界分数的有效性和可解释性时使用了六个标准:优先考虑,健全的研究基础,学术界的详细审查,评委培训,文档记录,主持研究计划的部门与合作方的共同努力.虽然这些效度的证据往往不能证明该方法是绝对有效的,但如果缺乏这些证据,这种方法肯定不能得到使用者的认可.六,小结标准设定被称为当前教育测量领域最具争议的论题(Hambleton,1998).首先,标准

23、设定中包含评委的主观判断,常常被批评是武断的;其次,标准设定方法仍然缺乏理论上的指导;最后,对于标准设定的结果,缺乏公认的系统的信效度检验方案.但同时,作为测量领域的新的研究课题,标准设定在高风险决策中起着决定性作用,近年来受到了广泛的关注.目前,我国已有较多应用广泛的标准参照测验(如高中会考,大学英语四六级考试,计算机等级考试,普通话水平考试,公务员考试等),但现有大多数资格考试主要采用三种方法来确定合格分数:传统的60分及格,以特定考生样本的预期通过率反推合格分数线,基于考试内容确定单次考试的合格分数(赵世明,2007).使用科学方法来确立标准的测验屈指可数,仅有护士资格考试和少数民族汉语

24、水平考试(徐静,2004).因此,国内研究者应当致力于研究出适合国内各类水平考试和资格考试的标准设定方法,打破现有的6O分及格的迷信,以增强国内各种水平考试和资格认证考试的公平性,合理性,这也是对国内教育测量领域研究的一大拓展.参考文献1曹怡,若干标准设定方法的心理计量学比较初探D,华东师范大学,2003.2赵世明,科学确定专业人才资格考试的合格标准J,中国人才,2007(17):6667.耋筵复鲞复呈塑3徐静,对HSK三,六级发证标准的验证性研究D,北京语言大学,2004.4Buekendabl,C.W.,Smith,R.W.,Impara,J.C.,&Plake,B.S.,Acom

25、parisonofAngoffandBookmarkstandardsettingmethodsJ.JoumalofEducationalMeasurement,2002,39(3),253263.5Beretvas,N.S.,ComparisonofbookmarkdifficultylocationsunderdifferentitemresponsemodelsJ.AppliedPsychologicalMeasurement,2004,28(1),2547.6Cizek,G.J.,SettingpassingscoreJ.EducationalMeasurement:Issuesand

26、Practice,1996,15(2):2031.7Cizek,G.J.,Conjecturesontheriseandcallofstandardsetting:Anintroductiontocontextandpractice.InG.J.Cizek(Ed.),Settingperformancestandards:Concepts,methods,andpempeefives(PP.317).Mahwah,NJ:Erlbaum.20018Cizek,G.J.,Bunch,M.B.,&Koons,H.,Settingperformancestandards:Contemporar

27、ymethodsJ.EducationalMeasurement:IssuesandPractice,2004,23(4),3150.9Clauser,B.E.,Harik,P.,Margolis,M.J.,etal,AnEmpiricalExaminationoftheImpactofGroupDiscussionandExamineePerformanceInformationonJudgmentsMadeintheAngoffStandardSettingProcedureJ.AppliedMeasurementinEducation,2009,22(1):121.10Dawber,T.

28、,Lewis,D.M.,&Rogers,W.T.,ThecognitiveexperienceofBookmarkstandardsettingparticipants.PaperpresentedattheannualmeetingoftheAmericanEducationalReseawhAssociation,NewOrleans.LA.2002Egan,K.L.,ValidityanddefensibilityofcutscoresestablishedbytheBookmarkStandardSettingMethod.Paperpresentedatthe2001Coun

29、cilofChiefStateSchoolOfficersConferenceon【a唱eScaleAssessment,Houston,TX.200112Glazer,R.,&Klaus,D.J.,Proficiencymeasurement:Assessinghumanperformance.InR.M.Gagne(Ed),Psyehologicalprinciplesinsystemdevelopment.NewYork:Holt,Rinehart,andWinston,196213Green,D.R.,Tfimble,C.S.,&Lewis,D.M.,Interpret

30、ingtheresultsofthreedifferentstandardsettingpmcedures.EducationalMeasurement:IssuesandPractice,2003,22(1),2232.14Hambleton,R.K.,Ontheuseofcut?offSCOreSwithcriterionreferencedtests:Instructionalsettings.JournalofEducationalMeasument,1978,15,277290.15Hambleton,R.K.,Jaeger,R.M.,Hake,B.S.,&Mills,C.,

31、Settingperformancestandardsoncomplexeducationalassessments.AppliedPsychologicalMeasurement,2000,24,355366.16Hambleton,R.K.,&Pitoniak,M.J.,SettingPerformancestafldards.InBrennan,R.L(Ed.),EducationalMeasurement(4thEdition,PP.433-435).Westport,CT:Praeger2006.17Huynh,H.,Onscorelocationsofbinaryandpa

32、rtialcredititemsandtheirapplicationstoitemmappingandcriterionreferencedinterpretation.JournalofEducational&BehavioralStatistics.1998.23:3556.18Huynh,H.,OnitemmappingsandstatisticalrulesforselectingbinaryitemsforcriterionreferencedinterpretationandBookmarkstandardsettings.Paperpresentedattheannua

33、lmeetingoftheNationalCouncilonMeasurementinEducation.NewOrleans.LA.2000.92标准设定:步骤,方法s评价指标19Jaeger,R.M.,CertificationofstudentConlpetence.InR.L.Linn(Ed),Educationaled.PP.485514).NewYork:Macmillan.1989.t(3rd20Jaeger,R.M.,Settingstandardsforcomplexperformances:Aniterative,judgementalpolicycapturingstra

34、tegy.EducationalMeasurement:IssuesandPractice,1995,1620.21Jaeger,R.M.,&Mills,C.N.,Anintegratedjudgmentprocedureforsettingstandardoncomplex,largescaleassessments.InG.J.Cizek(Ed.).Standardsetting:Concepts,methods,andperspectives(PP.313338).Mahwah.NJ:Edbaum.2001.22Kane,M.T.,Validatingtheperformance

35、standardsassociatedwithpassingscores.ReviewofEducationalResearch,1994,64:425461.23Kane,M.,Somuchremainsthesame:Conceptionandstatusofvalidationinsettingstandards.InG.J.Cizek(Ed.),Standardsetting:Concepts,methods,andperspectives(PP5388).Mahwah,NJ:Erlbaum.2001.24Karantonis,A.,&Sireci,S.G.,Thebookma

36、rkstandardsettingmethod:Aliteraturereview.EducationalMeasurement:IssuesandPractice,2006,25(1),412.25Kingston,N.M.,Kahl,S.R.Sweeney,K.,&Bay,L.,Settingperformancestandardsusingthebodyofworkmethod.InG.J.Cizek(Ed),Standardsetting:Concepts,methods,andperspectives(PP.219248).Mahwah,NJ:Erlbaum.2001.26K

37、olstad,A.,Cohen,J.,Baldi,S.,Chan,T.,DeFur,E.,&Angeles,J.,TheresponseprobabilityconventionusedinreportingdatafromIRTassessmentscales:ShouldNCESadoptastandard?Washington,DC:AmericanInstitutesforResearch.1998.27Lee,G.,&Lewis,D.M.,Ageneralizabilitytheoryapproachtowardestimatingstandarderrorsofcu

38、tscoressetusingtheBookmarkstandardsettingprocedure.PaperpresentedattheannualmeetingoftheNationalCouncilonMeasurementinEducation,Seattle,WA.2001.28Lewis,D.M.,Mitzel,H.C.,&Green,D.R.,Standardsetting:Abookmarkapproach.InD.R.Green(Chair),IRTbasedstandardsettingproceduresutilizingbehavioralanchoring.

39、SymposiumpresentedattheCouncilofChiefStateSchoolOfficersNationalConferenceonLargeScaleAssessment,Phoenix,AZ.1996.29Lewis,D.M.,Green,D.R,Mitzel,H.C.,Baum,K.,&Patz,R.J.,Thebookmarkstandardsettingprocedure:MethodologyandRecentImplementations.PaperpresentedattheNationalCouncilforMeasurementinEducati

40、onannualmeeting,SanDiego,CA,1998.30Lewis,D.M.,Mitzel,H.C.,Green,D.R.,&Patz,R.J.,Thebookmarkstandardsettingprocedure.Monterey,CA:McGrawHill,1999.31Mitzel,H.C.,Lewis,D.M.,Patz,R.J.,&Green,D.R.,Thebookmarkprocedure:Psychologicalperspectives.InG.J.Cizek(Ed.),Standardsetting:Concepts,methods,andp

41、erspectives(PP.249281).Mahwah,NJ:Erlbaum.2001.32Perie,M.,AngoffandBookmarkmethods.WorkshoppresentedattheannualmeetingoftheNationalCouncilonMeasurementinEducation.Montrea1.Canada.2005.93耋丛筵复鲞呈塑33Plake,B.S.,&Impara,J.C.,Abilityofpaneliststoestimateitemperformanceforatargetgroupofcandidates:Anissue

42、injudgmentalstandardsetting.EducationalAssessment,2001,7(2),8797.34Reckase,M.D.,Atheoreticalevaluationofanitemratingmethodandabookmarkmethodforsettingstandards.PaperpresentedattheannualmeetingoftheNationalCouncilonMeasurementinEducation,Montreal,Quebec.2005.35Reckase,M.D.,Aconceptualframeworkforapsy

43、chometrictheoryofstandardsettingwithexamplesofitsuseforevaluatingthefunctioningoftwostandardsettingmethods.EducationalMeasurement:IssuesandPractice,2006,25(2),48.36Reckase,M.D.,Rejoinder:EvaluatingstandardsettingmethodsusingerrormodelsproposedbySchulz.EducationalMeasurement:Issues&Practice,2006,

44、25(3):1417.37Sehulz,E.M.,Lee,W.,&Mullen,K.,Adomainlevelapproachtodescribinggrowthinachievement.JournalofEducationalMeasurement,2005,42,126.38Schulz,E.M.,Commentary:AresponsetoReckasesconceptualframeworkandexamplesforevaluatingstandardsettingmethods.EducationalMeasurement:IssuesandPractice,2006,2

45、5(3),4一l3.39Skaggs,G.,&Tessema,A.,Itemdisordinalitywiththebookmarkstandardsettingprocedure.PaperpresentedattheannualmeetingoftheNationalCouncilonMeasurementinEducation,Seattle,WA.20o1.40Wang,N.,UseoftheRaschIRTmodelinstandardsetting:Anitemmappingmethod.JournalofEducationalMeasurement,2003,40,231

46、253.41Williams,N.J.,&Schulz,E.M.,Aninvestigationofresponseprobability(RP)valuesusedinstandardsetting.PaperpresentedattheannualmeetingoftheNationalCouncilonMeasurementinEducation,Montreal,Canada.2005.42Yin,P.,&Schulz,E.M.,AcomparisonofcutscoresandcutscorevariabilityfromAngoffbasedandBookmarkbasedproceduresinstandardsetting.PaperpresentedattheannualmeetingoftheNationalCouncilonMeasurementinEducation,Montreal,Canada.2005.43Zieky,M.J.,Ahistoricalperspectiveonsettingstandards.PaperpresentedattheJointConferenceonStandardSettingforLargeScaleA

展开阅读全文