COMPARISON OF MANTELHAENSZEL METHOD AND IRT METHOD OF DETECTING DIF.doc

上传人:文库蛋蛋多 文档编号:3022471 上传时间:2023-03-08 格式:DOC 页数:57 大小:3.89MB
返回 下载 相关 举报
COMPARISON OF MANTELHAENSZEL METHOD AND IRT METHOD OF DETECTING DIF.doc_第1页
第1页 / 共57页
COMPARISON OF MANTELHAENSZEL METHOD AND IRT METHOD OF DETECTING DIF.doc_第2页
第2页 / 共57页
COMPARISON OF MANTELHAENSZEL METHOD AND IRT METHOD OF DETECTING DIF.doc_第3页
第3页 / 共57页
COMPARISON OF MANTELHAENSZEL METHOD AND IRT METHOD OF DETECTING DIF.doc_第4页
第4页 / 共57页
COMPARISON OF MANTELHAENSZEL METHOD AND IRT METHOD OF DETECTING DIF.doc_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《COMPARISON OF MANTELHAENSZEL METHOD AND IRT METHOD OF DETECTING DIF.doc》由会员分享,可在线阅读,更多相关《COMPARISON OF MANTELHAENSZEL METHOD AND IRT METHOD OF DETECTING DIF.doc(57页珍藏版)》请在三一办公上搜索。

1、Comparison of Mantel-Haenszel Method and IRT method of detecting DIF ByXinting ZhaoComparison of Mantel-Haenszel Method and IRT method of detecting DIFABSTRACTIn this study, the author studied the Differential Item Functioning (DIF) of the S dimension and N dimension of MBTI test. The grouping crite

2、ria are major (Library Science/Science & Technology) and working period (less than 1 year/more that 1 year). The subjects of this study are 1010 persons who took the MBTI test online. All subjects have completed the whole test. The numbers of the two major subjects are approximately same and so are

3、the numbers of the subjects in different working period. The research used two different DIF methods, Mantel-Haenszel Chi-square method and IRT method to study the DIF of two grouping design upon the two dimensions. The study result shows that on the major group, both the S and the N dimension of th

4、e MBTI test have a big portion of DIF items. In addition, the result shows that the DIF of both dimensions on working period group are also high. The result further shows that that on the sex group, the number of the DIF item on N dimension is approximately the same as S dimension, whereas on the ma

5、jor group, the DIF items in N dimension is higher than S dimension. Moreover, the study compares the M-H method and IRT method and discovers that IRT method is more sensitive in studying the sensitivity. In determining the item preference, about 35% items show different preference in different metho

6、ds. Finally, the study compares the difference of the test mechanism of achievement test and personality test. The study did not use the common technology of potential layering in achievement test, but use the global validation instead. The study result shows that this method is more practical in st

7、udying the dimension DIF in MBTI test.KEY WORDS: Differential Item Functioning, Mantel-Haenszel Chi-square, IRT DIF model, MBTI目录1文献综述11.1测验效度21.1.1传统效度理论以及结构效度21.1.2现代的效度理论31.2经典测量理论与误差41.3现代测量理论51.3.1IRT理论51.3.2经典测量理论与现代测量理论61.4测验偏差(Bias)与DIF方法71.5项目功能差异91.5.1造成DIF的影响因素91.5.2CCT理论范畴中的DIF分析101.5.3I

8、RT理论范畴中的DIF分析131.6MBTI概述141.6.1MBTI维度分析142研究目的与假设163研究方法183.1被试与工具183.2Mantel-Haenszel方法193.2.1模型假设193.2.2模型方法193.3IRT方法203.3.1模型假设203.3.2模型方法204结果与分析224.1对五个问题的回答224.1.1问题一,在MBTI的S维度,是否存在性别的显著DIF224.1.2问题二,在MBTI的S维度,是否存在学科的显著DIF244.1.3问题三,在MBTI的N维度,是否存在性别的显著DIF264.1.4问题四,在MBTI的N维度,是否存在学科的显著DIF274.1

9、.5问题五,MBTI中,S维度的DIF数量与N维度相比是否有显著差异284.2总结与分析294.2.1DIF比较294.2.2方法比较294.2.3研究假设的证明305讨论与总结315.1讨论与探索315.1.1MBTI测试中性别分组S维度与N维度的DIF项目比例过大315.1.2M-H方法与IRT方法探测到的DIF项目数量差异325.1.3M-H方法与IRT方法探测到的DIF偏好矛盾325.1.4方法上的进一步细化335.2研究的发现355.2.1在MBTI S维度和 N维度上,性别分组间有显著的DIF355.2.2在MBTI S维度和 N维度上,学科分组间没有显著的DIF365.2.3M-

10、H方法与 IRT方法比较,IRT方法更加敏感365.2.4M-H方法与IRT方法比较,在DIF项目的分组偏好上有一些矛盾365.2.5在MBTI S维度和N维度DIF探索中,对潜质的分层不影响探测结果375.2.6总结375.3研究不足与未来展望38附 录39附录1 MBTI-S的性别DIF项目ICC对比39附录2 MBTI-S的学科DIF项目ICC对比42附录3 MBTI-N的性别DIF项目ICC对比43附录4 MBTI-N的学科DIF项目ICC对比45参考文献47感 谢49Chapter 1IntroductionFairness for the test participants has

11、 been concerned by examinees and test designers. The fairness of some important tests, for example, entrance exams and interview tests, which are connected with examinees future, are specially focused.The “High Stakes” Tests are defined by the author of Standard for Educational and Psychological Tes

12、ting (AERA, APA, and NCME, 1999; hereafter referenced to as Standards) as “when significant educational paths or choices are directly affected by the test performance, the test use is considered to be high stakes.” Because high stakes tests are so important for examinees, high technical qualities ar

13、e required in these tests. Validity is one of these qualities, and Differential Item Functioning (DIF) analysis is an important evidence for validity. An analysis of DIF for a high stacks test is sufficient, while for a low stacks test, such as a in-class test, the DIF analysis is not necessary.It s

14、hould be concerned that DIF and Bias are different conception. Bias in tests refers to construct-irrelevant components that result in systematically lower or higher scores for identified group examinees. While, DIF 值得注意的是,DIF与偏差(Bias)不是完全相同的概念。偏差,特别是日常意义上的偏差,指的是一个测验在某些情况下对一个群体不公平。DIF是一个统计指标,指的是同样潜质(

15、比如能力)的不同组中成员在测试中的表现差异。偏差的一个表现是产生了DIF,但是探测到DIF并不能说明测验有偏差。测验在不同的被试组(性别、民族、专业背景等)间产生显著差异,其原因并不一定是由于测验的不公平。很多的外部原因,比如课程接受水平,教育师资差异等,都可能造成测验结果的差异(Juve, 2005)。因此,在解释组间项目差异(DIF)的时候,需要格外注意。判断一个测验项目的公平性,需要综合考虑测验中内部外部的各种影响情况以加以判断,不能仅靠一个大的DIF值,就认为项目不公平(Standard)。本研究讨论的是一个高赌注测验MBTI。MBTI是“Myers-Briggs Type Indic

16、ator”的简称,由美国心理学家Myers(女儿)和Briggs(母亲)根据荣格的心理类型学理论设计编制而成,正式形成和发行于1976年,也称母-女测验。 MBTI是目前世界上近20年来应用最广泛的测验之一,它主要用于考察人在组织中的贡献、领导风格、偏好的工作环境、潜在的缺陷等个体特征与潜力,以及组织中人与人之间的沟通、团队组建等。因此在应聘与招聘的过程中,MBTI测验被广泛应用。由于MBTI的测试结果对应聘者有很大的影响,因此它也是一个高赌注测试。在本研究中,作者就S维度(感觉型)与N维度(直觉型)针对男/女分组以及文科/理工科分组两个不同的分组组合进行DIF分析,以提供MBTI效度的证据。

17、本章节共分为六个部分。分别是1) 测验效度;2) 经典测量理论与误差;3) 现代测量理论;4) 偏差与DIF5) 项目功能差异(DIF),以及6) MBTI概述。文章的文献综述部分将先从效度的讨论入手。因为偏差是效度的差异,充分了解效度的定义是进行偏差分析的基础,而对偏差有了充分的了解,就能对DIF,偏差的一种表现有明确的认识。在回顾了效度的定义以及其发展后,作者从经典测量理论和现代测量理论的理论框架中总结对测量误差和偏差的理解。在第四部分,作者比较偏差与DIF的概念,并且在第五部分提供在不同理论架构中对DIF的分析方法。最后,将简单的叙述MBTI的测量结构、测量特点以及其各个维度的理解分析。

18、Literature Review测验的效度是测验非常重要的指标。没有一个良好的效度,测验得到的分数是无法解释的、可能引起误解的。这种情况下测验也失去了意义。正是因为效度的重要性,在过去的几十年中,心理测量学家不断地对效度的理论和操作进行探索。随着理论和技术的进步,对测验效度的认识也逐渐发生了变化。下面从主要测量偏差的角度对效度进行解释Validity Appraisal测验的效度是测验价值的核心。一个测验没有良好的效度,那么对这个测验结果的解释就是没有意义的。对测验效度的定义、测量以及改进是设计以及修订测验的重要步骤。只有有了明确的效度指标,一个测验的结果才能被正确的解释和预测,并在一定范围

19、内推广。近年来在心理测量领域对效度的概念和解释有很多新的思考。这些思考很多来自于对于传统效度概念的延伸,以及对测验的本质和过程的认知。在传统的效度概念中,关于效度的概念主要集中在下面几点上(Zumbo, 1999):l 是否测验所得到的是希望测量的东西l 信度是效度的充分条件,但不是必要条件l 效度是测验的是否恰当的工具性指标l 效度是一种统计方法学的工具,有固定的标准l 根据标准,一个测验可以被认为是有效的,或是无效的,以及l 有不同的效度指标。主要分为三种,如下:n 内容效度:测验的内容与相关内容或行为的取样的适当性。主要根据专家的经验判断测验内容是否有效;n 实证效度:一个测验对处于特定

20、情境中的个体的行为进行预测时的有效性,分为同时效度和预测效度,分别是根据测验与现在或可预测的效标相关来判断测验效度;n 结构效度:综合来说,结构效度是各种测验有效的证据的集合,它主要证实的是测验对某一理论概念或某一特制特量的程度。结构效度可以用多种方法进行分析。比如,相容效度,聚合与区分效度,因素效度等。根据各种不同效度的操作定义,在实际操作中,可以选择恰当的效度指标,对测验进行分析。经过大量的研究,Cole 和 Moss(1989)在分析了大量的文献后,对效度进行了总结,提出了以下的问题,l 是否有统一的效度指标;l 对效度的分析应该细致到每一次测验的分析;l 效度分析中的证据都包括是什么,

21、以及;l 效度与测试的价值是怎样的关系。作为对这几个问题的回答,Cole 和Moss总结到,由于内容效度和实证效度在效度分析中表现出来的冗杂和分析效果不理想(见Educational Measurement, 203页,P. R. Linn编著),心理测量学家愈发倾向于下面的理解:l 结构效度作为整个效度定义的框架;l 作为结构效度的证据,其他的效度,包括内容效度和实证效度,都包含在框架中;l 结构效度必须根植于测试的条件以及环境。对于被试的自然条件,测试的目的等都需要考虑在结构效度的范畴之内l 对于结构效度的证据,包括逻辑与实践证据、聚合与区分证据;应该综合各种各样的证据已进行分析,以避免似

22、是而非的答案。其中,偏差作为对于结构效度的逻辑与内部分析的证据,在一个测验的效度分析中具有重要的作用。经过长期的研究和探索,以及不断的思考,心理测量学家逐渐发展了传统的效度定义,这就是现代效度理论。1.1.1 现代的效度理论首先要说明的是,现代的效度并不是对传统效度理论的颠覆。相反的,现代效度理论是传统效度理论的延伸。现代理论对效度的定义,是在传统效度理论的框架中所形成并完善的。对应传统效度理论中总结的几条,现代效度理论有如下的特点(Zumbo, 1999):l 结构效度是效度最核心的概念。在体现测验的效度的时候必须体现结构效度;l 对于信度与效度的关系有了争论。越来越多的心理测量学家认为信度

23、与效度的关系不再是充分不必要条件。相反的,很多心理测量学家认为效度相对于信度是一个更加宽泛的概念。Osterlind(2005)认为,如果把一个测验比作地球的话,信度是地壳,效度就像是大气层,覆盖所有的东西。Zumbo(1999)的观点是,一个好的信度是恰当解释测试的重要条件,但并不必要;l 效度不再是测验恰当性的指标;而是解释测验结果的工具;l 效度是一个连续性的概念,不再是全或无;l 效度不再是统计方法学的工具,而是对测验的详细理论和方法的支持;l 测试的设计和施测过程是效度过程的核心;l 所有的不同的效度都进入结构效度的框架中,内容效度和实证效度构成结构效度的证据。在展示测试的效度的时候

24、,只需要展示结构效度的证据。在现代的效度理论中,效度作为对测验的解释受到了相当的重视。另外效度的情景性也被重点提出。展示一个测验的效度的时候,更加偏重施测对象的自然属性,以及组间的差异性。作为组间项目表现差异的指标,DIF也成为结构效度的重要指标,是效度分析中的重要依据。1.2 经典测量理论与误差经典测量理论(Classical Test Theory, CCT)所关注的是真分数和测量误差。在超过150年的研究中,经典测量理论凭借其自身理论的稳固性,即使在计算技术高度发展、现代测量理论辈出的今天,仍然在测量领域有着强大的生命力(Osterlind, 2005)。在经典测量理论中,真分数是观测值

25、与随机误差的差项(Cohen & Swerdlik, 2002)。但是随机误差是无法测量到的。因此各种心理测量学的技术以及关注点就是减少随机误差的影响;另外,即使采用了各种选择被试、以及统计方面的技术,随机误差也不能全部消除,只能在最大限度上减少随机误差对观测值的影响(Osterlind, 2005)。一般对误差的理解是对测验结果产生影响的,与测量潜质无关的维度(Juve, 2005)。对于测量误差,有多种方式对其进行分类和分析。Lyman(1978)把误差的来源分为五类:1)时间的影响;2)测验内容影响;3)评分影响;4)被试状态,以及5)被试本身。Osterlind(2005)从人因学的观

26、点总结了测验中的误差,主要从人类自身信息分析是容易产生的错误来解释误差的成因。它们主要是1)不稳定精神状态引起的非正常反应,比如生病、生理周期等;2)对测验中题目的错误理解。根据Nunnally和Bersteine (1994),测验误差是观测值与真分数之间的差异;测验误差可以分为两类:随机误差和系统误差。两者的差别在于系统误差对所有的被试产生同方向的影响,而随机误差产生的影响不同向。因此,随机误差是个人的反应,而系统误差是分组的反应;随机误差是个人的真分数与观测值的偏差,而系统误差则更多的暗示了分组的特性对所测量的特质的影响(Osterlind, 2005)。一般认为,随机误差更加常见,并且

27、相对于系统误差来说,随机误差不会引起世俗以及法律上的纠纷(Nunnally & Bersteine, 1994, Osterlind, 2005)。由于经典测量理论的局限,对于随机误差来说,经典测量理论的分析不可能得到每一个个体的误差值;相反的,经典测量理论默认每个被试有着相同的随机误差,并这种假设下使用各种技术和方法把随机误差控制到最小;CCT的另一个局限就是很难确定系统误差。对于系统误差的分析也就显得更加的模糊和似是而非。需要注意的是项目表现差异,包括DIF和IDP(Item Parameter Drift,反映项目表现跨时间稳定性的指标),只是系统误差的一个可能性,发生系统误差并不一定表

28、现在项目表现差异上。另外由于“偏差”的概念所引起的误解,Osterlind(2005)建议在描述组间的差异的时候,更多使用“项目表现差异”,而避免使用“偏差”,以避免纠纷。另外他强调(2005),项目表现差异更多体现的是统计得到的结果,是否产生真正意义上的偏差,还需要更多理论实践的分析。综上所述,系统误差是偏差存在的原因之一。Camilli和Shepard在Method of Identify Item Bias(1994)一书中对偏差的概念作了如下定义:“偏差是针对某个特定分组中的被试的系统误差或错误效度。”另一方面,由于CCT在分析系统误差是没有强有力的理论支持,因此在经典测量理论的框架中

29、分析DIF的时候,多采用近似估计的方法,缺乏相对的理论支持。1.3 现代测量理论1.3.1 IRT理论项目反应理论(Item Response Theory, IRT)关注的是心理测量中被测潜质(latent trait)和被试的应激表现(Osterlind, 2005)。相对CCT来说,IRT的先进之处在于它采用了复杂的统计技术,以及在对数据的解释的时候更加的精细和有力。Hambleton, Swaminathan和Roger(1991)认为,IRT有的特性有几点。首先,被试的潜质可以预测其在考试项目中的表现;其次,被试的潜质以及其项目表现的关系可以通过项目特征曲线(Item Charact

30、er Curve, ICC)来模拟。最后,IRT方法虽然更多的基于心理测量统计学,但它是一个理论的框架,而不单纯是一个统计的过程(Osterlind, 2005)。根据Osterlind(2005)的描述,“项目反应理论并不是抛弃了经典测量理论去对心理测验做一个新的理解,也不能取代经典测量理论。事实上,对经典测量理论的精确把握是理解项目反应理论的基础。项目反应理论基于经典测量理论,在项目反应理论中,很多观点直接继承于经典测量理论。项目反应理论是在经典测量理论的基础上加强了统计的效力,更多地强调认知科学在心理测量中的作用,并且通过一系列的数学统计方法使测量理论更加完善。”在项目反应理论模型中(H

31、ambleton等人,1991),被试特性与项目特性可以分离开来。判断被试的潜质时可以不受特定测试的影响;在较难测试中的低分表现,和较易测试中的高分表现都不影响对被试特性(潜质)的判断。相对的,对于测试的特性(比如难度),也不会因为不同的被试组而变化。无论是高能组的高分表现和低能组的低分表现,都不能影响对测验特性的分析。这样就解决了经典测量理论中被试特性与测试特性循环论证的弊端。在经典测量理论中,根据被试的反应来确定考试的难度,反过来,又根据考试的难度来鉴别被试的能力。根据项目反应理论的这些特点,项目表现差异很容易被确定。例如比较直观的方法,对比不同组的项目特征曲线,当不同组的项目特征曲线显著

32、的不同,说明在相同的潜质下,不同组的表现不同,有DIF。因此相对经典测量理论,IRT理论对于项目功能差异(DIF)的探测有明确的理论基础,也更加准确。项目反应理论的模型有三类,分别是1P(Parameter)模型,只考虑b参数,也就是项目难度参数的分析模型;2P模型,分别考虑b(项目难度)参数,以及a(区分度)参数;3P模型纳入的是IRT模型的全部三个参数,a(区分度),b(项目难度),以及c(猜测指数)。在这三类模型中,1P模型的使用最广泛。在DIF分析中,也只采用1P模型进行分析。1.3.2 经典测量理论与现代测量理论经典测量理论与现代测量理论相比,哪一种理论框架更好。很多人讨论过这个问题

33、。Nunnally和Berstein(1994)对比了经典测量理论与现代测量理论(潜质理论、概化理论),并研究了大量案例之后,认为很难比较这两种理论的优劣。Osterlind(2005)认为,虽然经典测量理论在百年来都少有变化,证明了其良好的适用性及生命力,但是仍有下面两点理由来推广和研究现代测量理论:主要的原因来自于现代测量理论可以有区别的分析误差;另一个理由就是在现代测量理论中,被试特质与测验特制不再互相牵制,难以区分。经典测量理论虽然在误差分析等方面有诸多劣势,但是相对于复杂的需要借助现代计算工具来完成的现代测量理论,它具有理论基础深厚,理解简单,便于计算和推广的特点。在DIF的分析中,

34、经典测量理论和现代测量理论都提供了相当的方法和理论来进行DIF分析。在下一部分,将主要介绍DIF的概念以及其分析方法。Differential Item Functioning Theory Overview什么是测量误差(Bias),心理测量学家从系统误差和效度的等不同的角度给了定义。Camili和Shepard(1994)认为偏差是“针对特定被试组中成员的效度不良或系统偏差”。根据Cole 和Moss(1989)的定义,偏差(Bias)是对定义明确的相关分组中被试分数解释的效度不良。因此总结到,偏差不是针对单独的被试,而发生在某一个被试组中。当某一个特定分组的成员,他们的在测试,或某一个测

35、试项目上的得分与其他分组的成员的得分有显著差异,而这个差异并不是由所测验的特质的差异所引起的,那么就可以认为在测验或者测验项目中产生了偏差。这种情况说明在测验或者项目中,所测试的不单是希望测验的特质,还有其他的维度影响了测验的成绩。一个比较简单的例子是,选取汉族和少数民族的小学生进行数学测验,以测试他们的数学能力。但是如果最后的测验结果表明少数民族学生的测试成绩显著低于汉族学生,并不一定能说明他们的数学水平低于汉族学生。有一个可能性是他们在阅读汉语的数学题目的时候产生了困难,从而影响了测试的成绩。因此对汉语的熟悉程度成为影响他们数学测验成绩的重要因素。对于这个数学测验来说,它是有偏差的。偏差产

36、生的原因可能是外部的,比如施测环境不同,指导语差异;也可能是内部的,比如测验的效度方面的问题(Cole & Moss, 1989)。另外偏差可能针对整套测验(测验偏差),也可能只出现在测验的几个项目中(比如 DIF)。因此在解释偏差的时候,应该非常谨慎,综合考虑可能产生偏差的各种原因。仅凭用复杂统计工具所得到的DIF的值来说明问题,必然会产生这样或者那样的误解或误导。20世纪60年代早期,随着妇女运动以及民权运动的兴起,考试的公平性研究日益引起心理以及测量学家的重视(Angoff, 1993)。在这些研究中,研究者逐步把视野集中在测试的内部差异,以及针对项目的测试差异上。随着这一类研究的日益增

37、多,DIF技术日益成熟,并逐步扩大影响,以至直接或间接的影响了美国教育以及雇员结构的格局(Cole, 1989)。而在中国,考试项目差异也受到了越来越多的关注。汉语职业资格考试(ZHC)测试就在其设计以及施测和解释的过程中结合应用DIF的理论和方法,以确保对考试成绩的公平性。DIF的分类主要有两种。规则(uniform)DIF的情况下,在同等潜质条件,某一份组的项目得分始终显著高于另一分组,见图1.1(图片来源,Zumbo, 1999)。而在非规则(nonuniform)DIF情况下,同等潜质条件,某一分组在低分区的项目得分高于另一分组,而在高分区的项目得分低于另一分组,见图1.2 (图片来源

38、,Zumbo, 1999)。图1.1,uniform DIF,相同潜质下,蓝线组的项目得分始终高于红线组图1.2,nonuniform DIF。低分区蓝线组的分高于红线组,而在高分区相反对DIF的分析,经典测试理论方向主要采用的是简单排序法以及Mantal-Heanszel方法。这两种方法由于计算简单,计算结果相对稳定而在早期广泛应用。直到今天,M-H方法仍然是医学领域比较研究时最常采用的方法。而随着计算机技术的发展,近年来GMH、Logic Regression方法也逐渐受到了重视。这些方法计算复杂,但是它可以处理五分量表、七分量表等排序数据,因此成功地把DIF分析从单纯的成就测验领域引进到

39、了人格测验的领域(Zumbo, 1999)。而在现代测量理论的领域,主要采用的是IRT方法分析DIF。1.4 项目功能差异 项目功能差异(DIF)是比较一个测验中同质(相同潜质)组间对项目的表现的差异的方法。通过DIF分析来辨别偏差不但包括了统计方法的计算,也包括一系列的专家分析。因为偏差的证据不但包括实践与理论的证据,也包括专家的专业判断。在DIF的分析中,CCT方法与IRT方法的本质是相同的,都是比较不同组别(如性别、种族)的被试在项目中的反应(回答正确率)差异。当这些相对的子分组的成员在项目上的表现出现不相等的情况,表明存在DIF。如果这个组间表现的差异不是测验设计所探知的,说明这个项目

40、融入了其他的变量维度。当然也有一种可能性是这个差异所表现的正是测验所测量的目的。回到前面的汉族小学生和少数民族小学生的测验。如果在数学测验上的差异是由语言方面的理解障碍造成的,说明有项目差异的存在;如果这是一个语文测验,那么这个测验很好的表明了汉族小学生和少数民族小学生在语言方面的差别,否认项目差异的存在。1.4.1 造成DIF的影响因素造成DIF的影响因素主要来源于下面几点:语义因素、环境以及身体条件因素、文化因素和语言因素(Juve, 2005)。语义因素:诸多研究证实,文字与其表述意义之间的联系的差异,是产生DIF的原因之一(Saka, 1992; Schmmit, 1988)。在他们的

41、研究中,针对白种人与西班牙人的在SAT测验中的反应。研究表明,同字不同义,以及类似的字不同义的情况在两种相近的语言中会很大的困扰被试。环境以及身体条件因素:有研究表明,环境因素也会对被试的表现产生影响(Williams, 1971; Kirk & Goon, 1975)。例如Saka(1992)在对比了夏威夷群岛的被试和美国本土的被试表现后发现,他们对树、以及下雪的理解有很大的出入,这种差异即使是在高信息量的社会,有书报、电视、互联网等媒体的介入后也没有发生变化,差异依然存在。文化因素:尽管文化因素的影响一直被认为是产生DIF的重要因素,但是很多研究表明,文化差异并不一定会产生DIF(见Juv

42、e, 2005, 第66页)。这些研究表明,某些测验只会在某些的文化差异下产生DIF,但这个结论既没有推广到所有的测验,也没有产生在所有的文化差异中。可能的解释是大部分的测验类型比较相似(比如,大部分采用多选题),因此对各种文化下的被试都是熟悉的(Juve, 2005)。语言因素:语言因素产生DIF主要是因为在大部分的语言中,书面表达语言与口语表达语言都有一部分差异。而对于一个使用非母语测试的被试来说,这种差异难以把握,因此会发生语言理解不明,或者表述不清的情况(Saka, 1992)。除了以上几个方面之外,造成DIF的影响因素还可能来自于其他方面,比如题目顺序,难度分布等(Schmmit &

43、 Bleistein, 1987),都有可能对一些被试组产生DIF的影响。1.4.2 CCT理论范畴中的DIF分析在经典测量理论的框架中,确定DIF的方法主要有下面的几种:1)ANOVA方法;2)项目难度转换法;3)相关表格方法;4)Mantel-Haenzsel Chi Square方法。除了这几种方法之外,也有其他方法进行DIF的分析。1) ANOVA方法ANOVA方法的原理时,进行DIF分析时,两组(或多组)同时进行测验,对测量结果中的各个项目做ANOVA分析,特别关注其中分组*项目的交互作用(Osterlind, 1983)。这种方法看似简单,并且是在DIF分析中最早提出的分析方法之一

44、。但在实际应用中却很少使用(Angoff, 1993)。主要的原因是ANOVA试图通过拒绝或接受零假设来确定是否存在DIF。这种全或无的方式并不适用于实用分析(Osterlind, 1983)。2) 项目难度转换法项目难度转换分析法包含了更多哲学的思维。它的更常用的名称为Delta plot 或者TID(Transform item-difficulty)。这种方法是把目标组和对比组的得分转换为难度(或成功率)的正态分布,通常是一种以均值13,标准差4的正态分布。然后用目标组为横轴,对比组为纵轴,每个项目都会在这个二维平面上相对横轴和纵轴落两个点。在图中,一个远离其他点阵的点通常表明有分组*项

45、目的交互作用,因此存在DIF(Angoff, 1993)。见图1.3。图1.3,Delta plot 点X, Y可能存在DIF然而TID方法也有其不足之处。首先它是通过各个项目间的相对表现来确定项目的DIF,这样在测验整体出现偏差的时候,TID方法就不再可信(Osterlind, 1983)。另外来说,分组*项目的交互作用并不一定是因为DIF引起的。最后,因为组间对项目的反应并不是完全相同,因此点阵不一定是线性分布,在非线性分布的情况下,一个远离点阵的点的确认会发生困难(Angoff, 1993; Osterlind, 1983)。3) 相关表格方法相关表格(Contingency Table

46、, CT)是一种快速推断DIF的简易方法。它并不像其他方法那样有着严格的逻辑推理。但是CT方法简单,快捷,其结果也相对可以接受。在医学领域中的对比研究中至今被广泛应用(Juve, 2005)。CT方法包括Lords(1980) Chi-square方法和Mantel-Haenzsel Chi-square方法(1959; Holland & Thayer, 1988)。其中Lords Chi-square方法是简单的难度对比法的延伸。简单难度对比法是根据被试组的回答为项目的难度排序。当两个不同的组的难度排序上的相关低于0.9的时候,认为产生项目反应有差异。Lords Chi-square方法在

47、比较的过程中纳入难度(b)系数和区分度(a)系数。但是Lords Chi-square并不是一个很好地确定DIF的方法。因为即使拒绝了零假设,也可能是因为目标组和对比组的反应模式相近所引起的(Camilli & Shepard, 1994)。在这里不做更多的解释。4) M-H Chi squareMantel-Haenszel Chi-square方法是目前最广泛应用的DIF探测方法之一。这种方法是把被试的成绩划分成一系列的2*2*k的相关表格。零假设针对相关表格所得到的几率。据日来说,是一个组(目标组)在项目回答正确性的几率,是否显著大于另一个组(对比组)在项目回答正确性的几率(Holland & Thayer, 1988)。由于MH方法只是比较几率的显著性,因此在方法上非常简单,也便于推广,因此在实际应用中被广泛应用。MH的几率运算公式如下:其中, 是对比组回答正确的概率; 是对比组回答错误的概率; 是目标组回答正确的概率; 是目标组回答错误的概率; 是目标足与对比组的项目总分。值得范围在0,如果 1,DIF可能存在且对比组正确率高。M-H Chi-square是针对=1的零假设进行显著性分析。得自由

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教育教学 > 成人教育


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号