《大规模教育考试命题的基本理论和常用技术.ppt》由会员分享,可在线阅读,更多相关《大规模教育考试命题的基本理论和常用技术.ppt(173页珍藏版)》请在三一办公上搜索。
1、大规模教育考试命题的基本理论和常用技术,盐城市新课程中考命题培训材料,一、大规模教育考试命题与学校教育的关系;二、大规模教育考试开发的基本问题;三、考试内容规范和试题规范的设计;四、试题背景材料的选择;五、考试的难度;六、选择题的编撰;七、主观题的编撰;八、国家关于初中学业考试和中考命题改革的有关要求。,第一部分 大规模教育考试命题与学校教育的关系,一、教育考试的考试大纲与课程标准的关系 课程标准是考试机构制定考试大纲的基本依据,是教育考试命题的基本依据,但其不能替代考试大纲的作用。考试大纲是教育考试命题的直接依据,也是考试与考生联系的唯一渠道。,国家课程标准是国家对学生在某一方面或领域应该具
2、有的素质所提出的基本要求,是一个面向全体学生的标准。每门课程的课程标准均包括以下基本内容:(1)本门课程的性质、目标和内容框架;(2)指导性的教学原则和评价建议;(3)不同阶段学生在知识与技能、过程与方法、情感态度与价值观方面应该达到的基本要求。,课程标准体系具有三个方面的基本特征:在课程目标上,要求从知识与技能、过程与方法、情感态度与价值观等多方面设计具体的课程。在课程内容上,注重密切联系学生的生活和社会经验以及社会、科技发展的现实,强调学生经验、学科知识和社会发展三个方面内容的整合。在课程要求上,课程标准不仅仅结合知识点明确具体的结果性目标,每个学科还结合本学科的特点,明确提出了一系列过程
3、性目标、体验性目标,以期学生在获得知识的同时,学会学习,形成正确的价值观。,新的课程标准体系对教育考试命题具有决定性影响。首先,它在理论上确定了教育考试的测量目标,这是任何一个考试研究和开发都必须考虑的首要问题。测量目标的设定决定了教育考试命题必须为学校教育服务,反过来又受到学校教育的影响。其次,它确定了教育考试的内容范围和选择试题背景材料的基本出发点,即试题背景材料应该与学生的生活和社会经验相联系,必须与社会、科技发展的现实相联系。第三,试题的设计应该考虑学校教学方法的改进,应该考虑学生学习方法的改善。,考试大纲在教育考试命题中具有其不可替代的作用。首先,课程标准规定的培养目标不一定都是可测
4、的;即使是可测目标,因为受纸笔考试的形式所限,也不一定都是可测的。大规模教育考试只能测量其可测的培养目标。,教育考试只能测量知识与技能、过程与方法、情感态度与价值观的前两个方面的部分目标,而不是全部目标,比如物理、化学、生物学科的一些实验的过程与方法要求,纸笔考试就不可能测量。至于情感态度与价值观方面的目标几乎完全不能测量。我们不排除能够命制出一些好的考查考生情感态度与价值观的试题,但这种试题测量的结果只能作为判别考生在情感态度与价值观方面的认知能力的依据,不能真实地推断考生本人的情感态度与价值观。,其次,教育考试的质量标准要求教育考试的每一个测量目标,都必须有相应的行为目标或标准,教育考试根
5、据这些行为特征来判断考生培养目标的达成度。从现已出版的课程标准看,并非所有科目的课程标准都规定了明确的培养目标的行为特征目标。可以说,没有这些行为特征目标,人们就有足够的理由怀疑考试结果是否有足够高的效度。因此,教育考试命题研究和开发人员在命题前,必须制定明确的培养目标的行为特征目标。告诉考生将以什么标准来判断考生培养目标的达成度。,第三,教育考试是抽样考试,抽样的内容受考试的时间、地点和形式等限制。因此,教育考试不可能考查课程标准规定的所有内容,教育考试所涉及的内容只可能少于课程标准规定的内容。学校、教师和考生对教育考试的内容是十分敏感的。因此,必须通过考试大纲告诉学校的教师、考生,甚至考生
6、家长考试的内容领域和范围。,第四,教育考试有其自身的质量评价标准。为了达到这些质量标准,命题时必须考虑采用哪些题型,对不同题型的比例做出规定。因此,必须通过考试大纲告诉考生,考试将如何测量考生是否达到课程标准规定的目标。此外,教育考试还必须对考试时间、分值、难度要求等做出规定,课程标准不可能包含这些内容,也需要通过考试大纲向考生传递这些信息。,二、教育考试与学校教材的关系 教育考试的开发、命题的基本依据只能是统一的课程标准,而不是具体的这种或那种教材。,课程标准中规定的基本素质要求是教材、教学和大规模教育考试的灵魂,也是整个基础教育课程的灵魂。教材编制、教学设计必须遵守课程标准确定的目标和内容
7、标准。教材的编制是对课程标准的一次再创造、再组织。不同版本的教材可以有不同的编写体例、切入视角、呈现方式、内容编排及图表选择。,三、教育考试的方法与学校教学活动的关系 学校教学活动的形式和学习训练的方式不需要与考试的测量方法完全相同。考试的直接目的和教学的直接目的不同,考试采取的形式与其达到目的的质量要求有关;教学训练方式也要考虑达到教学目的的主要质量要求。,大规模教育考试通常是纸笔考试,考试以试题为基本的测量单元,试题具有不同的形式,即题型,如多项选择题、匹配题、填空题、简释题、问答题、材料分析题等。考试中采用不同的题型,并且每种题型保持一定的数量比例,尤其是主、客观题的比例,以达到考试的效
8、度和信度的平衡。,学校的教学活动是课程学习的基本“单位”,是课程学习的“细胞”。学校教育各个层次的知识和技能、过程和方法、情感态度和价值观目标,最终都主要通过教学活动的开展来实现。教学活动的形式应该与教学活动的目的相适应,同时应该符合学生发展的心理特点和学习的心理规律。,有效的教学必须以各类知识的获得条件和规律为依据。例如,陈述性知识、程序性知识和策略性知识的获得条件和规律各不相同:陈述性知识一般通过理解记忆获得;程序性知识需要在明确操作步骤的基础下进行变式练习来获得;策略性知识需要结合具体的学习内容,在明确其使用条件和操作步骤的基础上,通过有意识的练习来获得。,学生的学习除了听教师讲解外,还
9、可以通过自主学习、合作学习和探究、研究性学习来展开。三种学习各有其不同的基本程序,也反映了三种不同的价值取向。自主学习强调的是培养学生主动、独立的学习能力,为学生自主发展和适应社会奠定基础。合作学习强调的是协作、分享精神,为学生能够在社会群体中的适应和发展做准备。研究性学习强调培养学生探究未知世界的能力,为学生能够创造出更多的新思想奠定基础。,学校教育的目的和课程标准的培养目标也决定了学校的学习训练方式应该多样化,有针对性。学习训练的方式除了通常的解题外,还应该有观察、实验、思辨、探究、调研、阅读、整理、倾听、交流、协作等。一般说来,学习训练的方式包括:书面训练,如解题、写论文等;操作训练,如
10、实验、制作等;课题训练,如专题研究、项目设计等;论辩训练,如演讲、辩论等。学校教学应该根据不同的教学内容,不同年龄段的学生,选择不同的训练方式,让训练方式为教育和教学的目标和内容服务。,但是,在观察初、高中,尤其是毕业班的教学活动过程中,我们发现,教学活动和学习训练大体上是相同的:教师的满堂讲解,大量的与中考或高考相同题型问题的训练。更有甚者,在数学、物理、化学、政治和历史等科目的教学中,很多教师将训练的题目分成若干种问题类型,将每种类型题目的解题套路作为教学重点,即所谓的“分类型,记结语,套解题模式”。,四、教育考试的内容与学校教育内容的关系 从总体上看,学校教育的内容要比教育考试的内容宽泛
11、得多,即使从单个学科的角度看,其教学内容也比学科考试内容广得多。由于受各种条件的限制,大规模考试不可能像学校教学那样采用灵活、多变的形式。学校决不能因为教育考试的内容比学校教育的内容少,就减少学校的教学内容。这样做,只会导致学校教学内容的狭窄化,学校教育功能的弱化,最终降低了学生的培养标准。,很多学校发现考试只考实验知识,不考实验操作,因此就“黑板上画实验”,“课堂上讲实验”,“课下背实验”,或者完全用实验录像来代替学生亲自实验。这样即使学生在考试中得了高分,但由于未受到实验操作、科学方法、科学精神的训练,他们的实验能力是低的,学校教育中强调的情感、态度和价值观教育就很难融于学科教育和教学之中
12、。,第二部分 大规模教育考试开发的基本问题 大规模教育考试开发必须考虑的基本问题一般包括:考试的目的、考试的测量目标、考试的内容领域、考试的方法或题型、试卷结构、考试测量的局限性。,一、考试的目的 大规模教育考试的目的主要在于两个方面:一是对学生进行选拔,如高考、中考这样的考试;二是确定学生是否达到合格要求,如会考以及目前很多省市正在准备推行的学业水平考试。此外,大规模教育考试还有另一个重要的用途,那就是对某些教育项目的效果进行评估,如对某种课程标准以及配套的教材、教学方法等实施效果的评估等。,根据参考标准的不同,教育考试结果可以用两种不同的方法进行解释。如果以某一考生群体的表现为参照标准对考
13、试分数进行解释,可以称为常模参照解释。相反,如果以某一特定的能力水平和能力领域对考试分数进行解释,可以称为标准参照或者领域参照解释。按照这两种方式进行解释的考试就分别称为常模参照考试和标准参照考试。我国的高考、中考等大规模教育考试一般都是属于常模参照考试,人们通常所说的学业水平考试、熟练水平考试属于标准参照考试。,常模参照的大规模教育考试测量目标必须与学校教育执行的课程标准的培养目标保持一致;其考试分数的误差也需要小于选拔区分的分数最小单位,如果高考、中考考试分数的1分就可能决定考生的归宿的话,那么考试的分数误差就应该小于1分;考试也应该具有比较高的有效性,即效度;也应该对学校的教育教学有良好
14、的影响。,标准参照的大规模教育考试主要是检查学生学习是否达到了课程标准设定的基本要求,是否达到了合格标准。命题中必须充分考虑试卷的内容覆盖面,以及能力水平的差异,特别要注意合格与不合格水平的区分,在合格与不合格的临界线附近的考试分数的误差要尽可能小。,二、考试的测量目标 考试测量目标包含两个层面含义,一是理论层面的目标,称之为测量目标。过去,考试是以知识立意,人们理解的考试的测量目标就是考查考生掌握了学科的哪些知识和基本技能。现在考试是以能力立意,人们理解考试的测量目标是考查考生的能力。通俗地说,考试就是考察考生的知识与技能、方法和能力。,考试命题前,必须明确考试命题要根据考生在考试中的哪些行
15、为来做出推测,这就是测量目标的第二个层面含义,即行为目标或行为标准。显然,行为目标必须是具体的,可以观察的,可以测量的。,教育考试的测量目标一般来源于课程标准,尤其是像高考、中考以及学业水平考这样的考试,测量目标只能来源于课程标准。为了获得考试的测量目标而对相关学科的课程标准进行研究,应该关注的内容包括:(1)分析课程标准的总目标中,哪些内容是在特定的考试环境中可测的,哪些内容是在该环境中不可测的。只有那些在特定的考试环境中可测的内容才能够作为考试的测量目标。,(2)分析课程标准中列出的分阶段目标中,哪些内容可以作为具体的行为目标,这些行为目标能否与确定的测量目标相联系。行为目标必须是具体的、
16、系统的,必须有反映行为类型和水平的动词对行为进行尽可能详细的描述,这样可使考试机构内部和外部人员对行为目标的内涵有确切无疑的了解。,三、考试的内容领域及行为目标 考试的内容领域和行为目标是考生复习备考的依据,是命题教师命题的基础,也是考试效度进行检验的基本内容标准。描述大规模教育考试学科的内容领域是为了明确地定义考试的内容领域的范围、内容领域的结构,即内容领域不同方面知识的比例,以及相关的行为目标。教育考试的内容领域及其行为目标是由相关学科的课程标准确定的.,每个内容领域都有以下特征:第一,内容领域具有范围,或内容领域是由确定的内容组成的。只有位于内容领域范围内的试题才能够用来有效地测量考生在
17、该内容领域方面的表现水平。第二,内容领域具有结构,即内容领域由分为不同类型的内容组成,不同类型的内容有一定的比例。第三,内容领域每一类型的内容都具有测量的行为目标。,例:高考地理内容领域描述 1测量的地理内容领域:高中课程标准确定的知识与技能、方法与能力。2地理内容领域的内容类型:A自然地理和地图 C中国地理(1)宇宙中的地球(1)中国的疆域和行政区划(2)大气(2)中国的民族(3)海洋(3)中国的地形和气候(4)陆地(4)中国的河流和湖泊(5)地图(5)中国的区域差异B人文地理(6)北方、南方、西北地区,(1)人类的生产活动(7)青藏地区与地理环境(8)香港特别行政区、澳门(2)人口与环境
18、特别行政区和台湾省(3)人类的居住地聚落(9)中国的国土整治和开发(4)人类活动的地域联系 D世界地理(5)文化景观(1)世界地理概况(6)旅游活动与环境(2)世界地理分区续发展(7)世界政治经济地理格局(3)世界主要国家的地理特征(8)人类面临的环境问题与可持续发展,3.不同类型内容比例A自然地理和地图 3035 B人文地理 3035 C中国地理 1520 D世界地理 1520,四、考试的题型 确定题型对考试设计有着非常重要的意义。首先,题型与考试的效度和信度有相当强的关系。题型不同,测量的行为目标可能有所不同,产生的效果可能不完全相同。题型不同,测量结果的可靠性也可能不相同,分数的误差也可
19、能不相同,信度也就不相同。,第二,大规模教育考试的题型对学校的教学方式和教学训练方式有明显的影响,它既可能促进也可能阻碍学校的课程和教材改革;既可能促进也可能阻碍教师教学方式的改善以及学生学习方式的改善。第三,从经济的角度看,大规模教育考试题型对评分的成本也有很大的影响。,从我国大规模教育考试实践看常用的题型包括多项选择题、是非题、匹配题、填空题、简答题或简释题、材料分析题、问答题、作文题或小论文题。我国考试机构通常按照评分的方式,将上述题型分为客观题和主观题两类。一般用机器阅卷的题型称为客观题,将需要由人工阅卷的题型称为主观题。,题型选择应该遵循下列原则:(1)题型的选择要考虑试题测量的行为
20、目标、涉及到的内容领域以及需要的条件,即题型应该与测量的行为目标要求一致。这反映了考试的效度为第一考虑的观点。,(2)题型的选择要保证考试结果达到预先设定的信度要求,即必须考虑不同题型试题的比例。这反映了考试结果的高信度是考试高效度前提的认识。(3)题型的选择要有利于学校课堂教学方式和学生学习方式的改善,题型要反映高质量的教学活动和学习活动。,五、试卷的结构 试卷结构包括试卷的长度或题量、题型以及不同题型试题的比例、不同难度试题的比例等。许多人都知道试卷的长度与考试的时间长短有关,但很少有人将试卷的长度与考试结果的误差大小或考试结果的信度联系起来。教育考试的设计者在设计和开发教育考试时,应该从
21、控制考试结果误差,保证考试结果信度的角度来考虑试卷的长度。,在大规模教育考试设计中,必须根据考试信度要求或者误差控制要求设置试卷乃至试卷每一部分的最佳题量,保证考试结果的信度或将误差控制在限制的范围内,满足考试目的的需要。同时,在考虑改变试卷的题型结构时,要考虑由此造成的试卷或试卷某些部分长度的变化,以及由此产生的信度的变化。,不同题型试题以及不同难度试题对考试结果信度的影响是不同的。因此,从控制测量误差的角度看,不同题型试题和不同难度试题的多少,对考试结果的信度和误差会产生明显的影响。考试的设计者和开发者应该确定合适的不同题型试题和不同难度试题的比例。,六、考试测量的局限性 考试测量的局限性
22、主要表现在两个方面,一是对测量目标定义方面的局限性,另一个是命题以及评分方面的局限性。,1对测量目标定义的局限性 考生在教育考试中的表现受到很多因素影响,诸如考试的条件、试题的类型、考试的时间、考试时考生的精神状态和生理状态、考生的个性特征等。当然,在教育考试中,影响考生表现的最重要因素是考生的相关能力,如英语语言能力、数学能力等,因为这些是教育考试的测量目标,设计考试就是为了测量考生的这些能力。,为了有效地测量考试要测量的能力,必须对测量的能力进行定义。定义包括两个层面,一是理论层面,一是操作层面。对能力的行为特征目标的定义都存在至少两个方面的问题:一是行为特征目标的定义都具有一定的主观性,
23、不一定能够完全反映考生的相关能力;二是定义的行为特征目标都可能会受到考试不要测量的其他能力或其他因素的影响。由于定义相关能力的行为特征目标的局限性,在考试设计和命题时,要尽可能排除或降低其他因素对考试要测量的能力的影响。,2命题和评分的局限性 命题和评分方面的局限性主要起因于这样的事实:所有对人的能力的测量都是间接的、不完全的、不精确的、主观的和相对的。,间接性 考试是对考生心理特质能力的间接测量,它与对人的生理特征的测量完全不同。即使测量是以考生在一次甚至几次考试中的表现为基础,但仍然将考试分数解释为稳定的心理特征能力的标志。不完全性 教育考试依靠试题来引导考生表现出期望的行为,并且根据这些
24、行为,推测考生具备某种能力的程度。教育考试只是根据考生的部分行为特征来对考生的能力做出推测。在考试中观察的考生的行为只是考生能力表现的一个样本。,不精确性 理论上分数等级越多,评分量表往往越精确。然而,实际评分过程中,只有评分教师能够清楚地区分不同的分数等级,评分结果才能够有足够高的精度。因此,即使能够定义一个具有十个分数等级的评分量表,如果评分教师只能区分三个比较宽泛的分数等级,那么如果坚持使用十个分数等级的评分量表,只会给评分教师和考试分数的使用者产生非现实的精度的假象。,对客观题来说,试题数越多,样本的代表性就越高。如果试题的难度与考生的能力水平不相适应,考试分数的精度就会降低。考试工作
25、者的任务是通过考试研究和命题研究,尽可能使考生应答少受其他能力和因素的干扰,试题的难度尽可能与考生的能力水平相一致。,主观性 教育考试从考试设计到评分,很多方面都具有主观性。考试设计中考试的开发者根据课程标准确定考试的测量目标以及相应的行为特征目标时,要做出主观决策;命题者在命题时从选择材料,到设问方式等都具有主观性;考生在应试时也是凭借主观的理解进行应答,除了客观题评分外,主观题的评分也具有很强的主观性。对考试中考生的表现的正确性或考生的能力水平的解释可能也是主观的。,相对性 教育考试的另一个局限性就是考生能力表现水平的相对性。教育考试是根据考生在考试中的具体行为表现来推测考生的能力水平的。
26、然而,是否具备某种能力是不能绝对定义的。如果一个考生完全没有做出测量某种能力的一组试题,该考生在这组试题上得零分,则假定考生不具备所测量的能力,但这并不意味考生真的完全不具备这种能力。同样,如果考生在这组试题上得了满分,也不意味着该考生完全具备这种能力。,第三部分考试内容规范和试题规范的设计 考试设计产生的大纲或说明还不能直接作为指导命题教师进行命题的依据,还必须根据考试大纲的总体框架,对每次考试进行具体设计,这个设计的产物就是考试内容规范(表)和试题规范(表)。,一、考试内容规范(表)的内容和类型考试内容规范(表)的内容 考试内容规范(表)一般包括以下四个方面内容:(1)考试的测量目标和行为
27、目标;(2)考试涉及的内容领域;(3)题型;(4)题量,包括每一测量目标或内容领域的题量。,考试的测量目标和行为目标是考试内容规范的必需内容。考试涉及的内容领域也是内容规范(表)常见的内容之一,但其并非是必需的内容,主要视学科而定。如果学科考试与教学内容联系不紧密,如语文、英语等学科,则内容规范(表)可以不包含内容领域。反之,如果学科考试与教学内容联系非常紧密则必须要包含内容领域。在考试内容规范(表)中包括内容领域的最主要目的是保证考试所测内容领域具有代表性,即我们常说的考试内容覆盖面。,无论教育考试试卷覆盖的内容范围有多么广,它只能是所有可能的内容领域的一个样本。通过样本,应该尽可能多地了解
28、考生对概念、原理、过程、方法的知道和理解的情况,尽可能多地了解考生在各种情景中应用概念和原理解决问题的能力。所选的有限样本必须尽可能代表整个学科的内容领域。,题型和题量是考试内容规范中必须出现的内容,但两者不一定同时出现。在有些考试机构设计的内容规范中,题量以题数的形式出现;而在另一些考试机构设计的规范中,题量以分值的形式出现,或者以题数或分值的百分数形式出现。,2考试内容规范(表)的类型一般常见的内容规范(表)有两类:(1)单维内容规范表。这种表一般只需列出考试测量的行为目标。(2)双维(双向)内容规范表。这种表一般同时列出考试测量的行为目标和考试采样的内容领域。一般像语文、英语的阅读理解部
29、分的内容规范表即可以采用单维规范表的形式。,在英语听力和阅读的命题中,只要在考试的内容规范表中列出一系列欲考查的行为目标以及每一行为目标上试题的数量和题型,再加上对语篇材料选择的规定,就足以说明命题的内容了。尽管每次考试听的、阅读的语篇材料会发生变化,但所测量的能力目标却是相当稳定的。,英语听力和阅读理解部分内容规范表,某地语文学科阅读理解部分内容规范表,某地物理考试双维内容规范表,二、考试内容规范表设计 制作考试内容规范表一般包括以下六个步骤:(1)列出考试测量的行为目标;(2)列出考试的内容领域以及每一内容领域的行为特征;(3)确定每一内容领域的行为特征与考试测量的行为目标的对应关系;(4
30、)以考试测量的行为目标为一维,以考试的内容领域为另一维,制作考试内容规范表底表,将每一内容领域与行为目标相应的行为特征填入两个维度交叉的单元格中;(5)确定每个单元格的采样数(试题数)以及题型;(6)将每个单元格的行为特征去掉,保留试题数,如果有必要则加上题型要求或说明。,例:1地理基础知识(1)掌握地球的基本知识。(2)能初步说明地形、气候等自然地理要素在地理环境形成中的作用,以及对人类活动的影响;初步认识人口、经济和文化发展的区域差异,以及发展变化的基本规律和趋势。(3)知道世界、中国和家乡的地理概貌,了解中国与世界的联系;初步学会根据一个国家或一个地区的地理信息,归纳其地理特征。,地理学
31、科部分内容领域和行为特征,地理考试内容规范表制作过程,注:MC为多项选择题;SR为简答题;BF为填空题。,虚拟的地理考试内容规范表(部分)(表中数字为试题数),一般可以从八个方面对考试内容规范表进行检查。规范表是否包含了考试设计中所有的测量目标和行为目标?规范表是否包含了考试设计中所有的内容领域?每一内容领域的行为特征是否都表示了出来?每一内容领域的行为特征与测量的行为目标是否都一致?每一单元格内是否都确定了试题数目和题型?每一单元格内试题数目与课程标准中相应内容领域权重是否大体一致?试题数量的分布与考试要做的推论(考试的测量目标)是否一致?从总体上看,规范表的试题数量分布是否会对学校教学产生
32、不利影响?,三、试题规范(表)的主要内容 一般试题规范表包括八个方面的内容:(1)学科(2)考试的测量目标和行为目标(3)内容领域或内容要求(4)题型(5)题干的限制条件或要求(6)对迷惑项的要求(7)正确应答(8)样题(其中,标有“”的内容不是必需的,可视实际需要而定。),学 科:地理 测量目标:地理知识行为目标:对地理基本概念、基本原理和基本规律的理解内容领域:天体系统。考生应该理解地球上发生的事件与地球、月亮、太阳以及其他天体运动的关系。题 型:选择题、简答题材料选择:材料应该选择考生都比较熟悉的地理现象。题干特点:试题可以采用反映天体的性质的图表、图片、简图等。,迷惑项要求:迷惑项应该
33、是与正确选项属于同一地理现象。应答特点:应答可以是文字、图表等。选择题样题:早期的宇宙学家们认为地球是宇宙的中心,所有的天体都围绕地球旋转。哥白尼和其他的宇宙学家们提出证据证明:地球在椭圆形轨道上绕太阳旋转。下列哪种地球的特征看起来是太阳自东向西绕地球旋转?地球的自转 地球的自转轴倾斜 地球的球形形状 地球绕太阳的轨道,简答题样题:地球表层存在各种各样的生物。地球的很多因素综合在一起,造就了地球上生命的多样性。月亮与地球到太阳的距离相差不大。为什么月亮不能像地球一样产生出纷繁复杂的生命系统?正确应答:生命的产生需要能量,需要化合物不断由简单形式向复杂形式的转变。月亮上没有大气,无法保存来自太阳
34、的能量。月亮没有大气,因而月亮上不能发生自然状态的能量循环,也不能发生物质的循环,如水循环、碳循环、氮循环等,这样就不能使化合物从简单形式向复杂形式转变,因此也无法产生生命。,学 科:化学测量目标:化学知识行为目标:理解基本的化学概念和原理内容领域:化学反应速率和化学平衡 题 型:单项或多项选择题、分析问答题材料选择:材料可以选择考生都比较熟悉的化学现象,也可选择学术性的材料,但不要过于复杂。题干特点:试题可以用图表、文字等表示。迷惑项要求:迷惑项应该是理解过程中可能发生的错误结果,不要与分析过程完全无关。应答特点:应答可以是文字、图表等。选择题样题:(略),分析问答题题样:把镁条投入盛有盐酸
35、的敞口容器中,产生H2的速率可由右图表示。根据这个结果,分析影响镁条在盐酸中反应速率的因素。分析解答:镁条的表面有一层氧化膜。镁条投入到盐酸中时,随氧化膜的不断溶解,镁条与盐酸的接触面积不断增大,产生H的速率加快。该反应是放热反应,反应的进行会使溶液温度升高,温度越高,产生H2的速率也越快。随着反应的进行,溶液中H的浓度不断减少,反应速率逐渐减慢。因此,影响镁条在盐酸中反应速率的因素主要有:盐酸的浓度、镁条的表面积和溶液的温度。,第四部分 试题背景材料的选择 大规模教育考试命题最为重要的任务,一是选择合适的试题背景材料,二是根据背景材料的内容设计合适的问题。,一、为什么要对试题背景材料选择加以
36、规定 首先,我国的大规模教育考试参考人数很多,分布地域很广,不同的地域之间存在很大的差异。即使在同一地域中,不同的家庭之间,这些方面也会存在不同程度的差异。其次,从我国的现状来看,在一定的范围内,学校有好差之分,导致学生学习、生活经历的差异。第三,考生的个人兴趣、爱好的发展是有差异的,这种差异对考生在其他方面的差异会产生影响,其中最重要的影响是考生在高三阶段的选考科目的选择。,例如2002年全国高考上海卷语文作文题是:面向大海。显然这个命题有很强的地域性,在上海可以要求考生写这样的命题作文,如果作为全国卷的作文题显然就可能产生试题的功能偏差。因为,许多内地的考生连大海都没有见过,很难想象他们面
37、对这样的命题作文,能够写出真实情感,写出真实的思想来。,二、试题背景材料选择的基本考虑最重要的应该考虑下列因素:1.背景材料应该与考试的测量目标以及试题欲测量的行为目标相关。理想的情况是选择的背景材料将考试的内容领域与行为目标有机地结合起来.2.背景材料应该与考生的学习经历和生活经历相适应。考试中试题所使用的材料应该是各类考生群体能够理解的材料,材料本身一般不会成为阻碍某一或某些群体展示其能力的因素。对这种取自教材的背景材料我们要进行修改。,3背景材料提供的信息类型。当背景材料中包含有新知识的信息时,要考虑的一个重要问题就是考生的现有知识在深度和广度方面的局限性,他们能否理解这些新知识,能否将
38、新知识构建到现有的知识体系中;另一个问题是新知识的构建能力是否包含在试题要考查的行为中,如果不包括在其中,应考虑不要因为考生的现有知识的局限性而影响其考试成绩。,4背景材料的信息量。如果试题不是用来考查考生选择和处理信息的能力的话,一般背景材料中不要给考生冗余信息或不足信息。如果在试题中,要给考生过多的信息,让其进行选择和剔除,就需要考虑试题所要测量的行为目标的类型和完成考试任务的时间限制。,5背景材料提供的信息与应答间的关系。试题背景材料的信息与考生应答之间的关系主要包括两个方面,即关系的范围和关系的直接性。关系的范围指的是完成试题的应答必须加工、处理的信息的数量。一般要求考生加工处理的信息
39、量大的背景材料不要太多,太多了可能难以避免考生处理背景材料的能力对试题测量能力类型的影响。,关系的直接性是指期望的应答对所提供的信息的依赖程度,或者考生是否必须依赖其本身的背景知识来完成任务,包括直接关系和间接关系。直接关系指考生只需要依赖提供的信息就可完成应答。间接关系指背景材料只提供了一部分考生完成任务所需的信息。,6背景材料的呈现方式应该多样化 试题的背景材料有很多种类,最常见的是文字材料,此外图片和图表材料也是经常使用的背景材料,如各种数据示意图、原理图、结构图、地图、数据表格等。试题的背景材料应该多样化,也不要都是图示材料或图表材料。这样一方面可以使试卷卷面更加活泼、美观,增加考试的
40、亲和性,提高考生应该的兴趣,使考生不至于因阅读大量文字材料感到疲劳、乏味,而影响水平的发挥。更重要的是以不同形式出现,可以使某个方面偏强的考生不会太讨巧,某些方面偏弱的考生有机会弥补其薄弱环节。,有时,同样的材料既可以用文字形式表示,又可以用图示形式表示,而且不同形式的材料都可以很好地服务于试题测量的行为目标,且材料都为考生所熟悉,那么最好选择对材料加工要求最低的材料,如果对材料信息的处理能力不是试题要测量的行为目标的话。,7对背景材料的修改应该以正确、简明、与测量目标相关性更大和模糊材料来源为原则 修改材料应该使其更加简明;在有错误的情况下,应该对其进行更正;修改材料应该使其与测量目标相关性
41、更大,以达到试题的测量要求。对材料的修改应该尽量让考生看不出材料的原始来源,以防止材料来源部门进行不必要的炒作。,三、如何对试题背景材料的选择作出规定 可以在两个阶段对试题背景作现规定,第一是编写考试大纲或考试说明阶段,对试题背景材料作出比较宏观的规定,可以刊登在考试大纲或考试说明中,目的是让考生、学校以及社会了解有关考试的基本信息,力求保证大规模教育考试的公平和公正。第二是编写试题规范阶段,作出的对试题背景材料选择的指导意见,是考试机构对命题教师选择试题背景材料的具体要求,目的是使命题的教师才能知道这些要求。,现以某英语国家研究生招生英语考试中对阅读理解部分试题背景材料选择的规定为例。1材料
42、来源:学术书刊、论文、书评、报刊等与学术主题有关的文章。材料的学科性不要太强,不要使不熟悉该主题的学生处于不利的境地。所有的语段应该能够为所有学科的学生所理解。必要时,应该提供技术术语。,2文体:四篇阅读语段中,一篇应该是关于生命科学的,一篇是关于物理科学的,另两篇是关于社会科学的。四篇阅读材料应该尽可能文体各异。例如,一篇可以是学术论文的引言,一篇可以是研究述评,一篇是研究结果的描述,另一篇是研究结果的讨论。3材料总体上应该有趣而不令人沮丧。应该避免最近发生的一些灾难和悲剧。,4注意事项:语段材料应该是真实的,但是可以对其做出小的修改,如做出简化,或对一些小的语法错误进行更正。5所有语篇的单
43、词总数应在2500到3000之间。,四、根据课程标准对试题背景材料类型作出规定 选择材料的一个基本原则就是能够贴近学生的学习经历、贴近学生的生活经历。然而,学生的学习经历、生活经历与其就读的地区、学校和家庭密切相关,材料的选择很难同等程度地贴近每一考生亚群体。在这种情况下,比较明智地是以课程标准提出的学习经历的要求为原则,选择背景材料,以最大限度地保证所选材料的公平和公正。,例:全国语文课程标准必修课部分,对与阅读与鉴赏相关的学习经历的要求如下:1.能阅读理论类、实用类、文学类等多种又本。根据不同的阅读目的,针对不同的阅读材料,灵活运用精读、略读、浏览、速读等阅读方法,提高阅读效率。2.学习鉴
44、赏中外文学作品,具有积极的鉴赏态度。注重审美体验,陶冶性情,涵养心灵。能感受形象,品味语言,领悟作品的丰富内涵,体会其艺术表现力,有自己的情感体验和思考。努力探索作品中蕴涵的民族心理和时代精神,了解人类丰富的社会生活和情感世界。,3在阅读鉴赏中,了解诗歌、散文、小说、戏剧等文学体裁的基本特征及主要表现手法。了解作品所涉及的有关背景材料,用于分析和理解作品。4学习中国古代优秀作品,体会其中蕴涵的中华民族精神,为形成一定的传统文化底蕴奠定基础。学习从历史发展的角度理解古代文学的内容价值,从中汲取民族智慧;用现代观念审视作品,评价其积极意义与历史局限。,5阅读浅易文言文,能借助注释和工具书,理解词句
45、含义,读懂文章内容。了解并梳理常见的文言实词、文言虚词、文言句式的意义或用法,注重在阅读实践中举一反三。诵读古代诗词和文言文,背诵一定数量的名篇。,根据以上的要求可以对语文必修课部分考查内容的选择至少可以作出以下规定:阅读材料既可以是文学类作品,也可以是实用类和理论类的作品;既可以是本国作品,也可以是外国的作品;既可以是现代文,也可以是文言文。文体除了常见的记叙文、论说文外,还可以是诗歌、散文、小说、戏剧。对规定阅读过的文学作品可以包括相关的背景知识。选择的文学作品应该蕴涵丰富的民族心理和时代精神,蕴涵着人类丰富的社会生活和情感世界。选择的古代优秀作品应该蕴涵中华民族精神、民族智慧。,第五部分
46、 考试的难度 通常所讨论的难度是指考试的相对难度,即考试或试题的得分率。难度一般用难度系数来表示,难度系数越大,表示考试或试题越容易;难度系数越小,表示考试或试题越难。,一、常模参照考试的难度设计 常模参照考试的主要目的是对考生的能力作出区分,为教育决策,如选拔升学等提供依据。因此常模对照考试命题设计要使试卷的区分能力最大化,使对全体考生作出的教育决策的误差尽可能地小。一般认为,将考试的难度系数设置在0.5左右时比较好。在我市中考命题时,考虑到对学校教育教学的正确导向作用,引导学校减轻学生的学习和复习负担,设计的难度一般为0.65左右。,难度系数对考试的影响 考试的难度系数对考试的影响主要表现
47、在下列方面:1.对分数分布的影响。如果将试卷的难度系数设置在o5左右,考生的成绩将大致呈正态分布。正态分布有以下几个特征:考试的平均分位于正态曲线的最高点处,这一点也是发布的中位数和众数,既多数考生成绩分布在平均分附近;考生人数分布对于平均分是对称的;考试成绩的标准差确定了曲线的宽度,标准差越大,曲线越宽、越平,说明考生人数分布越分散;,考生人数分布有一定的规律:68.26%的考生成绩分布在平均分正负一倍的标准差范围内,如平均分为75分,标准差是20分时,68.26%的考生成绩将在55分到95分之间。此时,考生成绩在平均分两侧分布最分散。因此,依据考试成绩对考生进行选择决策时,发生决策误差的人
48、数会最少,分数线划分最为理想。,2对招生中选择决策的影响 考试要尽可能降低决策误差的概率。发生选择决策误差主要取决于两个因素,一是大规模考试分数的误差,二是选择决策时划分的分数线的误差。分数线应该尽量远离考试的平均分。如果难度系数偏小,虽然分数线的信度比较高,但可能会加重考生的复习负担,也可能会导向学校加重下一届考生的学习负担;如果过高,将不利于各类学校的录取。难度系数越高,依据考试分数作出的决策误差就越大。,试题的难度设计 将大规模常模参照教育考试的难度控制在0.5到0.6之间,是指试卷的平均难度,而不是指每个试题的难度。对大规模教育考试而言,考生群体差异是比较大的,命题要考虑考生群体的这种
49、差异,试题难度应该由易到难呈现变化。经典的测量理论认为,常模参照考试试题的难度设置在0.2到0.8或 0.85之间是比较合理的。,根据经验,每相邻年份,考生的能力分布差异不会太大。因此,前一年参加考试的考生能力分布,以及试题的难度分布可以为第二年命题的难度设置提供参考。我市07年的中考仍然具有这两种考试的功能,在难度设计时要准确掌握并完成合格和区分的双重任务,这是非常困难的,又是必须面对的一对矛盾。,二、标准参照考试的难度 大规模标准参照的教育考试(校标性考试)的主要目的是考查学生达到课程标准规定的培养目标的程度。原则上只要是课程标准规定的、考生应该达到的,应该掌握的内容,且考试能够测量的目标
50、和内容,都应该考,无论其难度如何。,标准参照考试命题的基本原则是:试题的难度是平行的,它包括两层含义,一是测量同一行为表现水平的试题难度是平行的,二是测量不同行为表现水平的试题难度也是平行的,而且测量每一行为目标的试题都应该达到一定的数量。,标准参照的大规模教育考试的主要目的是对学生进行学习水平类型划分,如确定学生是合格还是不合格,是优秀还是良好等;或者是等第A还是等第B、C等。这一目的决定考试结果在不同类型分界处应该具有最高精度,即划界分数的误差应该最小。在命题时,在划界分数处集中比较多的难度与划界分数相应的试题,非常有利于提高根据考试结果对学生进行类型决策的信度。,第六部分 客观性试题(选