《第六章 资料的整理与分析(教育统计测量法).ppt》由会员分享,可在线阅读,更多相关《第六章 资料的整理与分析(教育统计测量法).ppt(160页珍藏版)》请在三一办公上搜索。
1、教育统计与测量,赖燕玲赣南师院教育科学学院18979744169,第七讲 教育统计测量在教育科研中的运用,第一节、教育统计测量的基本含义第二节、教育统计法的基本内容第三节、教育测量法的基本内容,第一节、教育统计测量的基本含义,1.教育统计主要研究如何收集、整理、分析由教育调查和教育实验所获得的数据资料,并以此为依据进行科学推断,揭示教育现象所蕴涵的客观规律。2.教育测量就是对教育领域内的事物或现象,根据一定的客观标准,作缜密地考核,并依一定的规则将考核的结果予以数量描述。如对学生的思想品德、健康状况、学业成绩等的测量。,3.教育统计与测量在教育科研中的作用把统计与测量用于教育科研内容的分类整理
2、、编制试卷或统计各种图表,进行变量之间关系的定量分析或由样本推论总体等,形成教育现象的量化描述,将会大大增强教育问题解释的科学性和有效性。例如,我们可以用标准差S这个统计学的差异量数更准确地表示某个群体考试成绩的离散程度;用标准分Z更可靠地定位个体在群体中的水平,并可以把不同学科无相加性的原始分数转化为Z分数求代数和,用以说明个体的综合学习成绩;还可以用查关量数科学地判断两个变量共同变化的伴随关系 等等。,表一:高一(2)班30名学生语文、数学、英语期末考试成绩(三科成绩均服从正态分布)问题:如何整理这些数据资料,从而以方便进一步的分析研究?,例如,某校初一共有3个班,某次语文测验中,一班50
3、人均分为68,二班45人均分为75,三班40人均分为80,问全校初一语文的平均成绩?例如:某市近几年来高中毕业生人数如下表,试求平均增长率;照此速度增长,到1995年预计有多少高中毕业生?又如:某班甲乙两组在一次测验中的成绩分别为65,68,71,72,74(均分为70分)和 30,50,86,90,94(均分为70分)。如何评价两组的学习情况?再如某一统一考试中,学生甲语文得67.2分,数学得61分,则其两科原始分数相加共128.2分;学生乙语文得 75分,数学得50.5分,则其两原始分相加共125.5分。那么到底谁的成绩更优秀一些?假如一次考试要录取百分之二十的人,那么录取分数线如何确定?
4、,从体育达标测验的学生中随机抽取60人,其中男、女达标情况见下表,问本次达标测验是否与性别有关?为调查小学生对两种不同教学法的识字情况,随机抽取了10名小学生记录下旧教学法与新教学法的识字得分如下,问两种教学方法是否一样?(附表数据)你想自己编制一套测验,如何编制?测验的信度、效度如何?项目的难度和区分度怎么样?等等。碰到这样的问题你该如何解决?(学习教育统计学可以帮助你科学合理的解决上述问题。),第二节、教育统计基本方法介绍,一、描述统计法-研究如何对客观现象的数量特征进行计量、观察、概括和表述。二、推断统计法-据数据所提供信息对数据所来自的总体(母体)的性质作推断。,描述统计的主要方法,描
5、述统计方法,集中量数:描述集中趋势,差异量数:描述离散程度,相关系数:描述关系程度,偏态系数,峰态系数,特征值,单向次数分布表,双向次数分布表列联表(交叉表),统计图,次数分布图,如直方图,发展趋势折线图,相关散点图,描述数据的正态程度,目的:对总体特征作出推断。内容:,推断统计,推断统计,参数估计,假设检验,点估计,区间估计,均数差异显著性检验,次数分布差异显著性检验,比例数差异显著性检验,变量间关系显著性检验,一、描述统计法(一):统计表,构成:统计表一般由标题、表号、标目、表注等构成。,表的标题?,注脚:说明资料来源等 X X X,统计表基本格式,编制统计表的要求,()表的结构要简单明了
6、,层次清楚。()表的标题要简明扼要地、确切地反映表的内容,写在表的上端的中央位置。()表的标目有横、纵标目之分。一般将统计表所要叙述的主要对象放在横标目上,而将用以叙述的统计指标在纵标目上。()表内数据排列要整齐,小数点位置要对齐,缺数据格或无数据格要划斜线。()表的标题、标目或数字有未尽之意的地方,应加脚注说明,表中资料的来源应在底线下加以注明。,简单表,表2 重庆2中各年高考录取人数,复合表,表2。4 某高级中学各年级文理科男女学生人数,频数分布表,对于一组大小不同的数据划出等距的分组区间称为组距(i),然后将数据按其数值大小列入各个相应的组别内,便可以出现一个有规律的表式。这种统计表又称
7、之为次数分布表。,编制次数分布表的步骤,(1)求全距。全距指最大数与最小数之间的差距:R=MAX-MIN(2)定组数(K):K=1.87(N-1)2/5(3)定组距(i)-组距是指每一组的间距:i=R/K 取整(4)列出分组区间。分组区间又称为分组阶段。列分组区间要注意以下几点:最高组区间内应能包含最大值的数据,最低组区间应能含最小值的数据。最高组或最低组的下限最好是组距的整数倍。分组区间可写为10一,20一,30一,40一等,但我们必须明确,实际上各组的精确界限应是9.5一19.499(5)求组中值:组中值=(组实上限+组实下限)2(6)登记次数。依次将数据登记到各个相应的组别内,一般用划线
8、记数或写正字的方法。(7)计算各组绝对次数(f)、相对次数(f/n)、累积次数、累积相对资料(累积百分比)。各组的次数计算好后,还要计算总和即总次数(F)。一是为了以后计算的需要,二是为了核对各组总和与数据总数(N)是否相等。(8)抄录新表。登记核实后,重新制表。以前面表一:高一(2)班30名学生语文、数学、英语期末考试成绩中的语文成绩为例,上表中高一(2)班30名学生语文成绩频数分布表数据的初步整理,比整理前的数据更方便进行分析。,累积频数分布表及累积百分比分布表,利用计算机制表常用的计算机软件:Excel,SPSS制表用Excel软件制表,1.统计图的功用所谓统计图就是依据数字资料,应用点
9、、线、面、体、色彩导的描绘制成整齐而又规律,简明而又知其数量的图形。统计图一般采用直角坐标系,横坐标用来表示事物的组别或自变量X,纵坐标常用来表示事物出现的次数或因变量Y.2.统计图的结构与制图要点:图号及图题 图目图形 图注3.统计图的种类:统计图可按形状、数字性质、图的用途等标志分为多种类别。教育统计中常用的统计图可按形状划分为直条图、直方图、曲线图、圆形图、散点图等等。,一、描述统计法(二):统计图,统计图:由标题、图号标目、图注等项构成。单式条形图,第一节 统计表与统计图,复式条形图,圆形图(饼图),圆形图(饼图),折线图,4.线条图,5.频数颁布直方图图.4中考化学统计成绩直方图,6
10、.累积频数图图.5 2004年中考化学抽样得分情况累积频数图,10 20 30 40 50 60 70 80 90 100,图2.6:高一语文,7、面积图,利用计算机制图常用的计算机软件:Excel,SPSS制图用Excel软件制图,Excel,SPSS制图,一、描述统计法(三):特征量,最常用的统计量有三类:一类是代表一组数据典型水平或集中趋势的量,即集中量;另一类是反映一组数据的变异程度或离散程度的量,即差异量第三类是反映数据的相关程度的量,即相关量。,一、集中量,定义:代表一组数据典型水平或集中趋势的量。常用的集中量有平均数、中位数和众数。其中平均数又有以下几中类型,它们分别有着不同作用
11、。算术平均数加权平均数几何平均数,平均数,1、算术平均数2、加权平均数3.几何平均数,1、算术平均数,(1)未分组数据平均数的计算方法(2)数据分组后计算平均数的方法(3)平均数特点(4)平均数的意义与应用,算术平均数:简称为平均数或均数(Mean)。,(1)未分组数据平均数的计算方法(原始数据),当一组数据未进行统计分类时,若想描述其典型情况,找出其代表值,可计算算术平均数,公式为:公式中Xi表示所有数据的和,即Xi=XI+X2+XNN为数据的个数。.,例如,求某小组10个学生的数学测验分数78,79,62,84,90,71,76,83,98,77的平均数。,表一 高一(2)班30名学生语文
12、、数学、英语期末考试成绩(三科成绩均服从正态分布),(2)数据分组后计算平均数的方法(频数分布表),公式为:,表二:高一(2)班30名学生语文成绩频数分布表,(3)平均数特点:,离均差之和等于0。在一组数据中,每一个数都加上一常数c,则所得的平均数为原来的平均数加常数C。在一组数据中,每一个数都乘以一个常数c,则所得的平均数为原来的平均数乘以常数C。,(4)平均数的意义与应用,算术平均数具备一个良好的集中量数应具备的一些条件:反应灵敏。确定严密。简明易解。计算简单。符合代数方法进一步演算。较少受抽变动的影响。,缺点:易受极端数据的影响。若出现模糊不清数据时,无法计算平均数。此外,必要注意,凡不
13、同质的数据不能计算平均数。,2、加权平均数,(1)加权平均数的概念加权平均数是不同比重数据(平均数),W表示各观察值的权数;X表示具有不同比重的观察值。,例:某校初一共有3个班,某次语文测验中,一班50人均分为68,二班45人均分为75,三班40人均分为80,问全校初一语文的平均成绩?,不能用:(68+75+80)/3=74.33,3.几何平均数,(1)什么情况下要用几何平均数?当一组数据中任何两个相邻数据之比接近常数,即数据按一定的比例关系变化时,在教育与心理研究中,如求平均增长率或对心理物理学中的等距与等比量表实验数据的处理均应使用几何平均数。当一组数据中存在极端数据,分布呈偏态时,算术平
14、均数不能很好地反映数据的典型情况,此时应用几何平均数或其他集中数据(如中数、众数)来反映数据的典型情况。,(2)几何平均数的基本公式,例如:某市近几年来高中毕业生人数如下表,试求平均增长率;照此速度增长,到1995年预计有多少高中毕业生?,1.先根据公式求平均变化率:,2.从而平均增长率:1.0954-1=0.954,3.四年后该市的高中毕业生预计为:,4.根据前面两个步骤,我们可以推导出平均变化率的变式:,5.在EXCEL中如何实现:,二、差异量数,1.全距:最大值与最小值之差:,2.平均差:平均差是根据分布中每一个观测值计算求得的,它较好地代表了数据分布的离散程度,但由于取绝对值,不利于做
15、统计分析,是一种低效差异量数。,3.方差(Varance)也称变异数、均方。作为统计量,常用符号S2,x2表示,作为总体参数,常用符号2表示。,4.标准差(Srandard deviation)即方差的平方根,常用S或SDx表示。若用表示,则是指总体的标准差。,例,方差与标准差的意义,返回前面提出的问题通过SPSS解决,例:有5名被试的错觉实验数据如下,求其平均差。,总体和样本的方差与标准差的计算公式,方差与标准差的意义,方差与标准差是表示一组数据离散程度的最好指标,其值越大,说明离散程度大,其值小,说明数据比较集中,它是统计描述与统计分析中最常应用的差异量数。它基本具备一个良好的差异量数应具
16、备的条件:(1)反应灵敏;(2)有一定的计算公式严密确定;(3)容易计算;(4)适合代数运算;(5)受抽样变动的影响小,即不同样本的标准差或方差比较稳定;(6)简单明了;(7)具有可加性。,又如:某某研究者对实验班用计算机辅助教学,而对照班仍用传统的讲授方式进行教学,期末进行统一测试,两班学生的成绩如下,试比较两种授课方式产生的效果有何不同?,总平均数=81.81,差异系数,当所观测的样本水平比较接近,而且是对同一个特质使用同一种测量工具进行测量时,要比较不同样本之间离散程度的大小,一般可直接比较标准差或方庆功的大小。标准差的单位与原数据的单位相同,有时称它为绝对差异量。差异系数,又称变异系数
17、、相对标准差等,它是一种相对差异量,通常用符号CV表示,其计算公式如下:(1)同一团体不同观测值的离散程度的比较;(2)对于水平相差较大,但进行的是同一观测的各种团体,进行观测值离散程度的比较。,例题:某校期末考试语文平均成绩为69.3分,标准差为11.2分;英语平均成绩为94.8,标准差为13.8分。问哪一学科离散程度大?,例题:设某考区已录取高中学生语文平均分为69分,标准差为12.5分,而未录取高中的学生语文平均分为40分,标准差为12.5分。比较他们语文成绩的离散程度。CV1=12.5/69*100%=18.12%;CV2=12.5/40*100%=31.25%。未录取学生的离散程度大
18、。,相关量:用于描述两个或多个变量间关联程度的量。相关关系相关系数:用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数。积差相关等级相关点二列相关 相关,三、相关量,数学与物理、物理与英语相关性比较,相关系数与相关程度表一览表,相关关系,正相关,相关关系,零相关,负相关,积差相关系数,积差相关两组(N30)的正态、且呈线性关系的连续变量之间的相关。,积差相关系数的定义公式:,积差相关系数的定义,用原始数据计算:用特征量计算:例:P46 back,等级相关系数,等级相关系数以等级次序排列或以等级次序表示的变量之间的相关Spearman 二列等级相关:N不一定必须大于30,例:10
19、个学生数学和物理成绩的等级相关分析(P47),点二列相关,在来自总体的两个变量中,一个变量是连续变量,另一个变量是两分变量(男、女;对、错;及格、不及格),点二列相关研究这样两个变量之间的相关关系。,相关系数,p、q两类变量的平均值,连续变量的标准差,另一类别频数的比例,一类别频数的比例,例:某班期末语文考试,从全体考生中随机抽取15名学生的考试成绩,见下表。问该次考试成绩是否与性别有关?P48,例题:下表为某一测验中10名考生的卷面总分和一道选择题的得分,试求该选择题的区分度.(与部分的相关),相关,两个变量都是二分变量,或者可以人为地分为二分变量时,使用 相关分析其相关程度。,例:从体育达
20、标测验的学生中随机抽取60人,其中男、女达标情况见下表,问本次达标测验是否与性别有关?,(一)统计检验的基本问题,1.假设与假设检验假设一般专指用统计学术语对总体参数所做的假定性说明。假设检验:通过样本统计量得出的差异作出一般性结论,判断总体参数之间是否存在差异,这种推论过程称做假设检验.2.一般原理:根据概率论中“小概率事件实际上不可能发生”这一原理。一般小于0.05或0.01的概率称这小概率。0.05或0.01也称为显著性水平,小概率值越小显著性水平越高。因而在一次观察中,小概率事件居然发生了,就有充分理由怀疑某事件是小概率事件的假设前提是不正确的,就可以推翻原假设。,二、推断统计法:双总
21、体平均数差异显著性检验法,(二)假设检验的步骤,1.建立原假设与备择假设,双侧检验的原假设和备择假设为:H。:=。H1:。;单侧检验的原假设和备择假设为:H。:。,H1:。或H。:。,H1:。,这种只强调差异而不强调方向性的检验叫双侧检验。,这种强调某一方向的检验叫单侧检验。通常适用于检验某一参数是否大于或优于、快于及小于、劣于、慢于另一参数等一类问题。,2.在H。成立的前提下,寻找和决定合适的统计量及其抽样分布(常见的抽样分布有正态分布和t 分布及F分布;对应的检验方法称为Z检验、t检验和F检验。),并计算出统计量的值。3.选定显著性水平,查相应的分布表来确定临界值,从而确定出H。的拒绝区间
22、或接受区间。4.对H。作出判断和解释。即把临界值与统计量值相比较,若统计量值勤落在H。拒绝区间中,则拒绝H。;若统计量值落在H。接受区间中,则接受H。,两个总体都是正态分布、两个总体方差都已知,独立大样本n30,进行Z检验。,当总体正态分布、总体方差未知时,独立小样本或相关样本要用t检验来检验差异。,两独立样本时,两相关样本时,返回前面提出的问题,正态,负偏态,正偏态,教育测量篇,教育测量概述测验的信度测验的效度题目的难度题目的区分度教育测验的编制与实施,测量是根据法则给事物赋予数量。测量的三要素(参照点、单位、量具)参照点:为测定事物的量,事先确定的计量起点绝对零点:计量起点在内容丝毫不存在
23、一点量相对零点:共同约定的零点作为测量的起点(不存在倍数关系)单位:实施测量必须有统一的单位具有明确的意义,即:大家对同一个单位的理解一致测量过程中单位“距离”的不变性,即:单位的实际价值处处相同量具:测量工具具有准确性具备操作的简约性教育测量工具:试卷 测试题 重视命题的研究量表:根据测量目的所设计的测试项目和赋值规则,第一节、教育测量的概述,教育测量,教育测量就是对教育领域内的事物或现象,根据一定的客观标准,作缜密地考核,并依一定的规则将考核的结果予以数量描述。如对学生的思想品德、健康状况、学业成绩等的测量。特点:间接性和推断性测量对象的模糊性和测量误差的不可避免性量表的多样性,结果具有相
24、对抽象性,量表的类型,1.称名量表类别量表,最低层次的量表,用于分类,表示事物的不同类别和性质用数字表示每一个研究个体:学号、准考证号用数字代表事物的类别:“1”、“0”表示“好”、“坏”2.顺序量表也称位次量表,根据事物的特性和设定的法则在分类的基础上确定同类客体中各元素之间的相对顺序只关心研究对象的顺序,不问津间距是否一致合格与否、优良中差等3.等距量表间距量表,在赋值时有相等的度量单位,采用相对零点,被测所对应的测量值由明确的距离关系原始测验分数经过统计处理后推导出一种新的量表分数,此分数的“零点”是一个相对零点4.比率量表具有等距量表的一切性质,采用绝对零点。针对总体而不是样本不但能确
25、定一个被测比另一个被测大(小)多少,而且还能得出其间的倍数关系,有关量表水平的说明,事物的复杂性决定测量量表的不同层次和水平四种量表的测量水平由前往后逐渐提高,信息量不断增大,前一种量表的特点和功能蕴涵于后一种量表之中。(定性、定量)不可过分苛求测量的高层次不能把低层次量表的数据按高层次量表的意义理解或作统计处理教育测量是在顺序量表上进行的,但需要用等距量表报告分数加强命题的研究把原始分数转换到一个有相等单位的量表上,通常转化为标准分,教育测量的种类,一、按测评在教学中运用的时机分类,1、形成性测验在教学过程中经常实施的,在性质上大致相当于现在的中小学单元测验。形成性测验对于教师以及学生的作用
26、。,2、诊断性测验,对经常表现出学习困难的学生所作的测量与评价,它的目的是对个人的问题行为及其原因进行诊断。诊断性多半是在形成性测评后实施。,3、终结性测验,用于教学结束后,在性质上相当于现在学校中所进行的期末考试。其目的有两个:其一是在教学目标之下,检查学生一学期的学业程度;其二是根据终结性测评的结果,评定学业成就,并通知学生家长或记入档案。,二者的区别:,第一,形成性测验在每个教学单元结束时都要进行,是经常性的。终结性评价是在整个教学或其中重要部分结束时才进行。,第二,形成性测验的主要目的不是为学生提供证明,而是致力于引导学生掌握他所具备的知识面,并试图发现学生错误的起因,从而采取因人施教
27、的补救措施。而终结性测验的主要目的是评定学生成绩,为学生具有某种能力或资格作证明。,第三,形成性测验的内容一般限制在一个教学单元的范围内;而终结性测验内容涵养一门学科,对学生能力的概括水平高于形成性测验。,三、按测评被试行为表现的性质分类,1、最佳行为测验以测量被试的最佳行为表现为目的。凡是以成就或能力的高低行为评价基础的,都属最佳行为测验。,2、典型行为测验,典型行为测验目的不在测评被试能力的高低,而是测评其是否具备某种典型行为。,四、按测验的内容分类,1、智力测验目的在于测量被试的智力并对被试的智力发展水平和特点作出评价。,2、能力倾向测验,目的在于测量与评价个人的潜在才能,预测个人能力发
28、展倾向。分为两种:一是关于能力测验;一是特殊能力倾向测验。,3、成就测验,目的在于测评个人在接受教育或者训练后的成就。常见的两种:一是学科成就测验;一是综合成就测验。,4、人格测验,也称为个性测验,其目的在于测评被试的人格心理特征。本测量与评价所涉及的内容层面也很多。,五、教育测验的其他分类,(一)按测量对象1、个别测验指的是同一主试在同一时间内只能测量一个被试。主试与被试有更多的交流机会,对于一些特殊的被试,如幼儿、文盲等,只能采用个别测量与评价。但是个别测量费时、费力,特别主试必须经过严格的训练才能胜任。,2、团体测验,指的是同一时间内由一位主试测量多位被试。优点是节省时间,可以在短时间内
29、收集到大量的数据,不足是不易有效控制被试的行为,容易产生误差。,(二)按测量材料,1、文字测验测量的内容是以文字的形式表现的。2、非文字测验测量的内容是通过图形、仪器、工具、实物、模型等形式表现的。,(三)按量具的标准化程度可分为标准化测验和非标准化测验,标准化测验是指由测量专家按照测验程序而编成的一种测验。非标准化测验是指测验的编制相对自由,没有严格按照测验编制的程序进行。,(四)按测验的范围分类,宏观的教育测验:以教育的全领域或涉及宏观决策方面的教育现象、措施为对象的教育评价。中观的教育测验:以学校内部各方面工作为对象的教育评价。微观的教育测验:以学生的发展变化为对象的教育评价。,良好测验
30、的特征,一、可靠性(信度)二、有效性(效度)三、难易性(难度)和鉴别性(区分度)四、实用性(可操作性),第二节 测验的信度,信度(reliability):测验的稳定性、可靠性程度。信度的统计定义信度的种类重测信度:同一测验对同组被试先后两次施测所得结果 的一致性程度。复本信度:两平行测验对同组被试施测所得结果 的一致性程度。同质性信度:测验内部所有题目间的一致性程度。,复本信度的估计方法,内部一致性系数,这是求同一次测验的奇数测题与偶数测题这两部分得分的相关系数。分半信度的计算方法:(1)先计算两半测验得分的皮尔逊积差相关系数。,(2)再用斯皮尔曼布朗公式校正:r=,例题:,解:计算两个“半
31、测验”得分的积差相关系数为:0.86。代入校正公式得:0.92。所以,该测验的分半信度系数为0.92。,提高测验信度的方法,第一,测题要有一定数量。题目较少,测题抽样越受偶然性影响信度也越低。第二,测题难度要适中。难度太大或太小得分普遍高或普遍低,就会降低信度。第三,测题内容要单纯集中,不宜过于庞杂。第四,测验时间要充分。第五,评分要客观。,1、设有14名学生,经过一项测验,成绩如下表:本拟再测一次以估计其信度,由于学生放假离校,不便再测。现拟估计其测验结果的信度。用什么方法估计?测验的信度系数如何?14名学生某项测验成绩如表,rx1x2=0.948,rxx=0.97,第三节 测验的效度,效度
32、(Validity):测验的有效性程度,即测验实际测量出其所要测量特性的程度。效度始终是针对一定测量目的而言的效度只有程度上的差异效度要从多方面、多角度加以验证效度的统计定义从某种意义上说,效度比信度更重要。,内容效度:测验题目样本对于应测内容与行为领域的代表性程度。逻辑分析结构效度:测验反映某种理论构想的准确性程度。因素分析内容效度与结构效度一般没有适当的计算方法。效标关联效度一般用积差相关系数表示,如,求出入学测验分数与期末测验分数的相关系数。效度指标一般认为在0.6以上是有效测验。效标关联效度:测验对于特定情境下个体行为进行预测的有效性程度。相关分析效标:判断测验效度(预测有效性)的外部
33、标准。,效度的种类及其分析方法,一个测验要具有较高的 内容效度必须具备两个条件:,1、测验内容范围明确测验内容范围明确是指测验必须明确界定所要测验的内容范围。对于学生学业成绩测验,我们较容易确定内容范围。因为这种测验的主要目标在于测验学生在某一学科中学习的效果,因此测验题目必须符合教材内容,依据教学大纲,把握教学大纲所界定的重点难点,同时,教学目标必须由试题反映出来。对于心理测验,内容效度不容量明确,因此,内容效度一般用于考查学生学业成绩测验的有效性。2、取样具有代表性取样具有代表性是指测验题目对欲没的全部内容覆盖面要大。对学生学业成绩测验而言,在编制题目时应对有关的教学大纲、教科书乃教学目教
34、学目标进行系统分析,然后确定各种行为目标题目所占比重,最后选择和确定好测验题目。,内容效度的评估,1、逻辑分析法 用逻辑分析法估计内容效度,主要是指依据教材内容,教学大纲的范围及教学目标分析测验内容,检查测验内容究竞在体现教材内容和教学目标方面达到多大程度。教材内容由教学大纲规定,学生预期的行为变化情况由教学目标规定,教学目标主要是指布卢姆的认知目标,包括对教材内容的认记、理解、应用、分析、综合以及评等方面的能力。因此,判断内容效度时,必须按照教学大纲和教学目标对测验试题逐一进行认真而细致的分析审查。审查包括各种测验类型题目的比例是否恰当,题量是否合理,难易是否适度,题目对教材内容和教学目标是
35、否具有代表性和典型性。即对测验内容进行逻辑推理的评判分析。其缺点是没有数量指标来描述教材内容、教学目标与测验试题的一致性程度;主观性评判难以做到客观、准确。,内容效度的评估,2、用测验题目与教材内容比较的方法此法第一步便是内容范围的确定。在教育测验中,测验欲测之内容范围是以命题双向细目表来确定 和详细描述。它包括教育目标和教育内容两个大难度,各难度又分为若干小类,表中列出每一类的相对比例。第二步是分析测验的每一项目,确定它们所涉及的知识和技能,列出同类题目(涉及同一内容和目标)及其分数在测验中所占比例。最后得测验的内容结构与测验欲测之内容范围结构(即双向细目表)相对照。制定评定量表,计算测验内
36、容对其内容范围的覆盖率,从而得到内容效度的指标。3、统计分析法(简介)统计分析法主要是采取定量分析手段来描述测验的内容 效度。有以下几种方法:(1)克龙巴赫法(2)评分一致性考查方法(3)前后测比较法,提高测验信、效度的方法,第一,要控制系统误差,即控制测验过程的误差,包括:测量标准的失真,题目的复杂现象,题目与指导语有暗示性,答案具有明显的规律性。第二,精心编制测题,分析教学目标,编制双向细目表,测题表述简明易懂,测题有必要的覆盖面。另外:测验中题目的数量应适当,不能太少。紧密围绕教学大纲和教学目标命题。考核内容应全面,并能有效代表学生应掌握的知识领域。测验的整体难度适当,不同类型、不同难度
37、的题目应保持恰当比例。少出偏题、怪题,一般应以考察基础知识和基本能力为主。第三,妥善组织测验等。,作业:,1、试述用逻辑分析法估计内容效度。2、什么是效度,提高测验效度的方法有哪些?3、什么是效标,选择效标时要注意什么?,第四节 难度(),含义:试题的难易程度。P值越大,试题越容易。难度系数的估计0、1计分()P=R/N;(R:答对人数,N:被试总人数。)()当被试较多时,将分数由高到低排序,可从高分和低分各取27%,形成高分组和低分组,然后以高分组的答对率和低分组的答对率(和)的平均数作为该题的难度。,(2)0、1计分多重选择题难度校正,k:每个测题可供选择的答案;P:未校正测题的难度;CP
38、:校正测题难度。,3.非0、1计分(解答题),0.3,0.5,0.7,极端分组法,对主观性试题,被试人数较多时,可采用极端分组法计算项目难度:在这里,X 为高分组所得该题总分;X 为低分组所得该题总分;H为该题的最高得分;L为该题的最低得分;N为被试总人数的25%。,用极端分组法计算主观性试题难度的基础步骤为:,(1)按测验总分依次排序,确定比例各为25%的高分组和低分组;(2)为高低分组编制每题得分的分析表;(3)用公式计算项目难度值。,例:有100名考生参加论文式测验按高低分各占总人数的25%分组,其中第6题的得分统计表如下表。求该题材的难度。论文式试题分析表,以上分析表中,(X)栏为该题
39、得到的各种分数,(f)栏为各种分数的人数,(fX)栏为各种分数与各种人数的乘积。,解:已知N=25,X=211,X=146,H=10,L=4。则有:P=0.523即,这道题的难度为 0.523。,难度对测验的影响,1、难度对测验分数分布的影响(1)P值越小 测验项目越难 测验分数集中在低分端 分数分布呈正偏态分布。(2)P值越大 测验项目越易 测验分数集中在高分端 分数分布呈负偏态分布。即:测验项目过份容易或过份难,都会造成测验分数偏离正态分布,而使测验分数的离散程度变小。2、难度对测验鉴别力的影响测验的主要功效之一就是鉴别考生实际水平的高低。自欺欺人适量难度可以加大考生得分的差异,从而提高测
40、验的鉴别力。P值越接近0.50,试题的鉴别能力就越高;相反,P值越接近1.00或0,试题的鉴别能力就越低。,3、难度与测验目的的关系,项目难度应根据测验目的来确定,不能认为测验项目都必须保持值等于0.50最好。事实上,一方面,如果每个项目的难度都等于0.50,测验项目之间存在高度相关,会使测验分数的分布呈双峰状态,即有5%的人所有题目都答对,得满分,另外5%的人全部答错,得0分。为此,难度水平的确定应根据测验的目的,性质及题目的形成。(1)对于一般的常模、参照测验而言,其目的在于测量个体差异,一般只要求测验题目的平均难度为0.50,而个题难度可在0.50+0.20之间。(2)当测验用与选拔或诊
41、断时,题目的难度值应更多地接近录取率。(3)就选择题而言,P值应大于概率水平。P值若等于概率,说明被试纯粹凭猜测作答;P值若小于概率,说明题目很可能存在问题。(4)整个测验的难度水平取决于组成测验的题目的难度。,练习七(教材P239,T3、4),1、有100名学生参加某学科测验,高分组与低分组人数各取总人数的27%,其中第一题高分组答对的有20人,低分组答对的有12人。这道题的难度是多少?2、有100名考生参加某论文试题的测验,按高低分各占总人数的25%分组,其中第5题得分统计如 右表,试计算该题的难度与区分度。,P=0.593,P=0.512,第五节 区分度(D),区分度:题目区分被试能力、
42、水平的能力,又称鉴别力。区分度的估计方法 一、相关法:计算题目得分与总分相关。其中积差相关适用于多值计分题目;点二列相关适用于二值计分题目。,1、多值计分题目(如简答、论述),区分度估计值:题分与总分的积差相关系数。,2、二值计分题目(如选择、填空、判断),区分度估计值:题分与总分的点二列相关系数,二、极端分组法,1.0、1计分(客观性试题)高低分组法:以高分组和低分组在特定题目上得分率之差作为衡量区分度的指标。,2、非0、1计分(主观性试题),XH:高分组得分总和;XL:低分组得分总和H:最高分;L:最低分;N:高分(低分)组的人数。,例:有100名考生参加论文式测验按高低分各占总人数的25
43、%分组,其中第6题的得分统计表如下表。求该题材的难度。论文式试题分析表,解:已知N=25,X=211,X=146,H=10,L=4。则有:D=0.433即,这道题的区分度为 0.433。,D值范围在-1.00和+1.00之间,值越大,试题的区分能力越强。当D为正值时,说明试题是积极区分,即高分组通过率高,低分组通过率低。为D负值时,说明试题有消极区分,高组通过率低,低组通过率高。D为0时,说明试题无区分用。,区分度与难度的关系,试题的区分度与难度有密切关系。试题难度过大或过小,其区分度都较低。当难度值为1.00或0时,高分组和低分组或全部通过得满分,或全部未通过得0分,这时区分度都为0分。这两
44、种情况,都表示试题没有鉴别考生水平高低的能力。所以,调整试题难度是提高试题区分度的重要方法。右表可说明难度与区分度的关系。,区分度与信度的关系,一个良好的测验,信度必须要高。测验的信度与项目的区分度有着密切的关系,事实上,由试题的区分度还可以估计测验的信度。整个测验中各试题的区分度值的平均数越高,测验的信度就越高。值的平均数与信度的关系如右表。,试题区分度的评价标准,以上标准仅作参考,不是绝对的。事实上,项目区分度的要求应根据测验目的而定,若测验目的在于选人,主要评判被试的个别差异,那么区分度要求高些;若测验只是考察被试对所学知识的掌握情况,可不过多考虑区分度。,应用举例:作答反应分析,目的:
45、对教与学过程中可能存在的问题进行诊断。内容:选择题中不同选项被选频数的分析;学生集中出现的错误反应及其原因等。示例:,正常:H组选择正确答案最多,其他均匀分布异常:H、L组对不正确答案选择过多表明题目或教学存在疏失;H、L组对正确答案选择很接近说明题目缺乏鉴别力。,第六节 测验的编制与实施,题目类型及其测量功能选择题填空题判断题简答题论述题标准化测验编制的一般程序教师自编测验,判断题,其模式是提供一个陈述句,让考生判断是非、正误,故亦称是非题或正误题。其功能是考察考生对基础知识是否明了是否掌握扎实,适用于考察基础知识层次的内容,不适用于考察推理和判断能力。判断题受随机猜测影响大,猜测答对的概率
46、达50%,学生得分的偶然性大,所以判断题一般用于低年级。编制判断题的操作要则:测题含义必须单一明确,不能有歧义。答案必须明确,并且是无可争议的。同一题中避免使用两个矛盾的概念。叙述语言简明、不含混,减少读题干扰。避免使用暗示性词语。例如:绝不、总是、从来、所有、唯一等绝对说法,常有暗示错误的作用,而“可能”、“通常”等词语有暗示正确的作用,所以这些词要避免使用。应避免使用否定词,尤其不用双重否定词。全部答案对与错的比例应大体相等。测题次序应随机排列,不应有任何规则,尽量不直录教材原文,不得已用时,措词要重新组织。,选择题,优点可以测量学生多种层次的学习结果评分标准统一、客观,有利于提高评阅的速
47、度允许较大的试题容量,可以保障题目的覆盖范围和代表性可根据学生对似真选项的选择情况进行诊断缺点无法了解被试作答时的思维过程难以考核被试的综合能力具有似真性的干扰选项有时不好编制存在猜中答案的几率,选择题,编制原则题干意义完整,问题表述明确题干及选项的语言均应简明,避免滥用否定结构、复杂句式诱答项应具有似真性同一测验中各题目应尽量保持独立,避免相互牵连正确答案不能有明显组型,填空题,特点主要用于考察被试对基本知识的记忆和理解能力。受被试猜测影响小,评分较客观。无法测量高级的学习结果。使用过多容易造成被试的死记硬背。编制原则题意要明确,限定要严密,以保证空白处应填答案的唯一性。题目中空白部分以一处
48、为宜,过多则使题干支离破碎。所有空白处的线段长度应一致,避免产生暗示作用。若答案是数字,应指明单位或数字的精确程度。,匹配题,其模式是由若干匹配项与选择项两部分组成。它实际上是复合型的选择题,是由若干个题干共同使用相同的若干选项。其功能是适宜于测量考生对知识的记忆、理解与运用的情况。其形式有:连线式(将一组词句、段落依据规定的顺序排列起来)、归类式(按某一标准把有关选项归入匹配项)等。编制匹配题的操作要则:匹配项与选择项不应是一对一的,选择项要多于匹配项,以减少学生猜答的可能性。允许同一选项多次使用,当然也可以有的选项不被选用,以降低猜对的概率。连线匹配题,分开两组的各项目的性质必须一致,以增
49、加迷惑性。选择项一般控制在10项以内,太多会增加学生的心理负担,正确的答案要随机排列。一题的所有匹配项与选择项要安排在同一页上,尤其是连线式的,以减少考生答案的麻烦。,简答题,特点适合于考察被试对基本知识、概念和原理的掌握、记忆情况。编制简单、灵活。编制原则问题叙述清楚、明确。答案要简短具体,使被试可以用简洁的语言来回答,避免繁琐的计算和长篇大论。避免只出机械记忆性的题目,应注重知识的应用。,论述题,优点可以用来对高层次、复杂学习结果的测量。可以用于各学科领域,特别适用于人文、社会科学领域。可以增进学生的思考、应用及解决问题的能力,对于被试的学习态度和学习方式可以产生积极的影响。如可以促使学生
50、注意教材内容的内在联系和对所学知识进行有机的组织。试题编制相对容易,可以增进被试的写作能力。缺点论述题一般都是大题,因此在一次考试中试题的取样范围比较小,且分布不均匀,难以做到全面考察。评分的主观性强。即使有参考答案和评分标准,但因被试的回答自由,回答问题的方向也不尽相同,评分的主观性仍难以避免。被试作答和评分阅卷均较为费时。,论述题,编制原则试题应该用来测量较高层次的学习目标(如分析、综合、评价),特别是那些小型客观题不易测量的学业成就。如要求学生陈述理由、解释变量间关系,描述与评价资料、推理证明等。要明确而系统地陈述问题,使被试能清楚地了解题目的要求。使每道题都能真实地反映被试实际能力而不