《教育常用的几个统计方法.docx》由会员分享,可在线阅读,更多相关《教育常用的几个统计方法.docx(15页珍藏版)》请在三一办公上搜索。
1、教育常用的几个统计方法教育常用的几个统计方法 标准差 S 实例:比较下列二个小组语文考试的成绩: 1组:82 83 84 87 88 88 89 89 90 90 2组:53 73 85 88 89 92 95 96 99 100 二个组的平均分都是87,各组分数的分散程度各不相同:2组的分散程度大于1组,如下图所示。这说明比较两组以上的分数时,只求平均分还不能看到它们的差异。因此,还需要能描述差异的量数。 定义:差异量数是一组数据离中趋势的统计量的总称,表示数据之间的差异程度。标准差是统计学中常用的差异量数之一,在教育统计学中占有重要地位。标准差的计算公式为: 公式中: S - 标准差。 x
2、 - 群体中的个体的考试成绩。 M - 科平均分。 N - 群体中的个体数。 由上述公式可以算出:1组的标准差 = 2.79 , 2组的标准差 = 13.58。计算结果说明:在平均分相同的情况下班,标准差大,表明分数分散,好差悬殊;标准差小,表明分数比较集中,差距较小。 差异系数 C V 当数据的单位不同时,不能直接用标准差进行比较,比如学生的身高和体重,前者是长度单位,后者是重量单位。另外,在单位相同时,如果平均数相差太大,直接用标准差比较也是不合理的。针对这些情况,统计学中采用了一个相对的量数-差异系数,用它来衡量不同组数据的离散程度。 定义:差异系数-CV,是标准差与平均数商的百分比:
3、CV = S / M x 100% 公式中: S - 标准差。 M - 科平均分。 实例:初一1班学生体重的平均数 M = 46 公斤,标准差S = 6 公斤;身高的平均数M = 1.45米,标准差S=0.5米。请比较体重与身高的差异程度。 体重CV = 6 / 46 x 100% = 13.04 % 身高CV = 0.5 / 1.45 x 100% = 34.48 % 身高CV 体重CV。学生的身高较体重的差异大。 标准分 Z 目前,学校一般采用百分制来衡量学生的考试成绩。试题的难易程度是决定考生分数的主要因素,而试题则受到命题者诸多因素的影响。因此,学生的考试分数或原始分没有绝对的零点,也
4、没有统一的单位,用它来评价学生的成绩,有以下诸多弊端: l 不能将一个学生前后多次考试的成绩进行比较。 l 不能对不同科目的成绩进行比较。 l 难以判断学生成绩的变化趋势。 l 难以量化分析教师的教学质量。 l . . 这些弊端出现的原因是:原始分不能表示学生的成绩在群体中的位置。为了克服上述弊端,NewEAS在原始分的基础上,增加了计算标准分的功能,以评价分析学生的成绩和教师的教学质量。并且,根据不同的研究对象,将标准分细分为“学生标准分”和“班级标准分”。 学生标准分:以学生群体为研究对象,根据学生的百分制分数或原始分数,由计算机自动计算得出,它说明一个学生的成绩在其群体量数中的位置。其公
5、式为: Z = (x - M ) / S 公式中: Z - 学生个人的标准分。 x - 学生,即某一科目、某一次考试,学生的实际考试分数或“原始分”。 S - 学生的标准差,请参阅标准差。 M - 科平均分:学生的纵向平均值,即同一科目、同一次考试,“学生群体”中各学生之和除以实考人数。 特点: l 学生标准分以学生的科平均分作为零点。标准分等于0的学生的正好等于科平均分。 l 学生标准分为正值,表明其大于科平均分;否则小于科平均分。 l 学生标准分每增加1,相对应的就比科平均分多一个标准差;反之,则少一个标准差。 班级标准分:以班级群体为研究对象,根据班级的-班级平均分,由计算机自动计算得出
6、,它说明一个班级的成绩在其群体量数中的位置。其公式为: Z = (x - M ) / S 公式中: Z - 班级标准分。 x - 班级:班级平均分。即一个班级参加同一科目、同一次考试的全体学生的成绩之和除以实考人数。 S - 班级的标准差。 M - 科平均分:班级的纵向平均值。即同一科目、同一次考试,“班级群体”中各班级之和除以班级数。 特点: l 班级标准分以科平均分作为零点。标准分等于0的班级的正好等于科平均分。 l 班级标准分为正值,表明班级大于科平均分;否则小于科平均分。 l 班级标准分每增加1,相对应的班级就比科平均分多一个标准差;反之,则少一个标准差。 标准分分数虽然能表示一个分数
7、在团体中所处的相对位置,将不可比的原始分数变成 可比的测试分数,但标准分分数有如下两个缺点:(1)标准分分数有正有负,且单位过大(占了整个一个标准差),使用不够方便;(2)难以使不懂统计的人理解,也不习惯。 为克服上述缺点,可通过线性转换,将分数转换成分数:将分数扩大10倍再 加上50,即1050。 注:(1)原始分X 标准分分数,每一个原始分X对应一个分数,这些分数的平均数是50,标准差是10。 (2)1050是一个线性表达式,即是关于的一次函数,对于-3,+3,随的增大而增大,因此分数具有分数的优点( 仍然能如实地反映某一考生在考生群体中的相对位置,一般录取时直接用分数,公布时用分数),且
8、没有负数,也为社会所接受。 (3)当卷面满分为100分时,值一般在2080之间; 据说当高考试卷卷面分为150 分时,将用10100计算分数,这时值一般在70130之间。 教育统计学初识 描述统计 一、 数据的特征量及其计算 描述集中趋势的统计量,叫做“集中量数”,简称“集中量”。常用的集中量数有三种:算术平均数,中数和众数。这里就某实验组和对照组某次考试的原始数据为例作些说明。 算术平均数,简称平均数、均数或均值。其符号为“X” ,它起着衡量一定数据的集中趋势和大致水平的作用,是最常用的集中量,其计算公式是 X=1(x1+x2+x3+L+xn)n 从算术平均数可以看出,实验组与对照组的平均水
9、平是否一样。 中数(符号为“Md”),是依一定顺序排列的一组数据居中间位置的一个点的数值,所以又叫中位数。如果数据个数N为奇数时,中位数的位置在(N+1)/2处,若N为偶数,就以居中的两个数据的平均数作中位数。 众数(符号为“M0”),指一组数据中出现次数最多的那个数值。 以上三个集中量中,平均数是无偏的客观量数,又最便于代数运算法则处理,从样本数值推断总体集中量时,平均数比中数、众数可靠,其缺点是易受两极端数值的影响。 二、差异量数 差异量数是描述次数分布中“离中趋势”这一特征的统计量,简称“差异量”。一组数据,若离中趋势小,则集中量的代表性就大;反之,若离中趋势大,则集中量的代表性就小。但
10、是,仅考虑集中量数是不够的。要了解两组学生成绩分布的全貌,还必须研究两个组的差异量数。最常用的差异量有全距、平均差和标准差。 全距(符号为“R”),指一组数据中由最大量数到最小量数的距离。R小说明离散程度小,比较整齐。 平均差,指一组数据内的每个数与均数差的绝对值的算术平均数,通常用A.D.表示。平均差的计算公式为: A.D.=x1-x+x2-x+x3-x+.+xn-xn 标准差,指一组数据中每一个数值与它们的平均数之差的平方的算术平均数的平方根,其符号为“S”(样本标准差)、“”(总体标准差)。其计算公式为:M0 S=(x-x)+(x-x)+(x-x)+L+(x-x)222123n2n S
11、越大表明离散程度越大,数据不均匀,集中量的代表性小。 三、标准分数 平均值与标准差用来考察与分析同质的统计资料是有价值的,但对于不同质的考试,如不同学科、或同一学科不同考试意义就不大。这样就要计算相对位置量数。相对位置量数有百分等级与标准分数两种。这里就常用标准分数作些介绍。 标准分数,又称Z分数,它是一种以平均数为参照点,以标准差为单位的,表示一个分数在团体分数中所处位置的量数,其计算方法为:由原始分数与平均分数的离差除以标准差所得的量数,其符号为“Z”,计算公式是: x-xZ=s T分数,标准分分数虽然能表示一个分数在团体中所处的相对位置,将不可比的原始分数变成可比的测试分数,但标准分分数
12、有如下两个缺点:(1)标准分分数有正有负,使用不够方便;(2)难以使不懂统计的人理解,也不习惯。 为克服上述缺点,可通过线性转换,将分数转换成分数:将分数扩大10倍再加上50,即 1050 四、相关系数 在教育研究中,常涉及到两个事物(变量)的相互关系问题,例如,学习成绩与非智力因素的关系,数学成绩与物理成绩的关系,男女生学习成绩的关系,等等。其关系表现为以下三种变化;第一,正相关:一个变量增加或减少时,另一个变量也相应增加或减少;第二,负相关:一个变量增加或减少时,另一个变量却减少或增加;第三,无相关:说明两个变量是独立的,即由一个变量值,无法预测另一个变量值。统计学中,就用“相关系数”来从
13、数量上描述两个变量之间的相关程度,用符号“r”来表示。相关系数取值范围限于:r 相关系数 0.00 0.000.3 0.300.50 0.500.80 0.801.00 相关程度 无相关 微正负相关 实正负相关 显著正负相关 高度正负相关 相关系数的计算公式是由英国统计学家皮尔逊提出的“积差相关”公式: r=公式中,r=X与Y两数列之间的相关系数; x=X ,即X数列中各量数与其平均数之差; y=Y ,即Y数列中各量数与其平均数之差; Sx=X数列的标准差; Sy=Y数列的标准差; xy=各对离差积的总和; N=成对量数的次数,即总对数。 xyNSxSy推断统计 推断统计,是从样本统计量来推断
14、它来自总体的特性,并标明可能发生的误差的统计方法。在现实的教育研究中,限于人力物力,总是从总体中抽取出有代表性的样本,然后从样本统计量对总体的特征进行推断,即进行相应的“显著性检验”等统计分析工作。在推断统计的基础上,研究者将对所研究的问题做出自己的解释、预测或估价。 一、Z检验 Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。 Z=X1-X22S12S2+N1N2得:Z写=42.10-44.439.732+-2.23=-2.2721.2088.83二、t检验 t检验是用于小样本(样本容量小于3
15、0)时的平均值差异程度检验方法。它是用t分布理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。 X-m0t=sn-1检验步骤: 提出零假设: H0:=0,即假定样本所代表的总体平均数与已知平均数无显著差异,如有差异仅是抽样误差所致。 计算检验统计量t值。 三、2检验 Z检验与t检验,通常用于计量资料的分析,而在教育研究中还常有计数资料,如按品质分类,然后按类评等计数,如优良中差,甲乙丙丁,或同意、反对、弃权等。这种计算资料检验就要利用2 检验的方法。是希腊字母,读chi ,通常把2 读作“卡方”。 2 检验是通过对所得的计数资料与依据某种假设而确定的理论次数二者之间的差异来进行检验的
16、。 2值是检验实测次数与理论次数之间差异程度的指标。两者相差越大, 2 值就越大;两者越接近,则2 值就越小:如果两者完全相同,那么2 值就等于零, 2值永远是非负值。 检验步骤: 提出零假设:H0:无差异 确定自由度,根据列联表自由度公式:df=(R1)(L),求出自由度为:df=(21) (41) 计算R行与L行的理论次数,计算公式为: NRNLfc(R,L)=N 将计算出来的理论次数填入上表相应的实际次数旁边的括号内。 10030根据公式,值 fca1=13.636(f-f)220c=f 10090(40-40.9)(30-31.8)(10-13.6)作出判断,先查出值表理论值f ca=
17、(20-13.6)=c2=+40.909+13.640.931.813.6220P 差异显著性 (10-16.4)(50-49.1)(40-38.2)(20-16.4)+ P0.0116 100.47049.1差异非常显著38.2 16.4fa=31.818=37.=451c P0.05 差异显著 220 P0.05 差异不显著 10030fca4教育测量=13.636220 一、教育测量的意义 12030 要理解教育测量的意义,首先要了解一般测量的意义。测量的最基本特征是将事物进行区分。区分的过程要按fcb1=16.363照一定的法则进行,区分的结果要能用数学的方式进行描述。因此,测量是按照
18、一定的法则,用数学方法对事物220的属性进行描述的过程。按此定义,教育测量是按照一定的法则,用数学方法对教育对象的若干属性进行描述、区分的过程。根据测量的定义,可知测量(包括教育测量)应包含三个要素: 12090fcb2=49.091220120702220cc222222222222220.01220.05220.05 测量的对象事物的属性; 测量的工具某种法则; 测量的结果某种数学表达形式(很多情况下是用实数表示的)。 二、教育测量的质量要求 教育测量的质量要求一般包括以下几个方面: ()效度,即有效程度。 可以用数学式子定义效度,但太抽象。现将效度的意义描述如下:测量(包括测验)都是有一
19、定的目标的,效度刻划了测量达标程度的高低,是反映测量有效性与准确性的一项指标。举一反例,用磅秤来测量学生的身高是无效的,这样的测量效度为零。再举一例,出这样一道数学题给小学生解答:3童分9卵,童均几何? 如果要考查学生“等分除法”的掌握情况可能效度极低,因为学生不能正确解答,并不是因为数量关系不清,而是读不懂题。 为了提高测量的效度,在确定测量的工具(如编制试卷)前,要认真拟定测量的目标。 关于效度,量化是比较困难的,但一般可以由专家作出定性的判断。 ()信度,即可信性 指的是测量一致性的程度。一个好的测量工具必须稳定可靠,多次测量结果要保持一致,否则就不可信,比如说用橡皮筋制作的皮尺测量身高
20、,测量结果不可能一致,因而这样的测量就无信度。 理论上,信度可定义为:由学生间确实存在的差异而造成的真实分数的方差2与实测分数方差2的比。 但实际上,学生的真实分数是不知道的,因此必须寻求估计考试信度的方法。 估计信度的主要方法有: 再测法:在条件完全相同的情况下,用同一份试卷对同一批学生考两次,计算这两次结果的相关系数,如果相关程度较高,则说明信度较高,反之则信度较低。 等值法:设计两份内容、题量、格式、难度、区分度、平均分、标准差都相同或相近的测试题,在短的时间内进行两次测试,计算这两次结果的相关系数。如果相关程度较高则说明信度较高,反之则信度较低。 折半法:将同一份测试题按奇数题、偶数题
21、分成两部分,分别计算奇数题、偶数题的总分,再计算它们的相关系数。 信度与效度的关系是: 无信度的测量一定是无效的测量,比如用橡皮筋制作的皮尺来测量身高,肯定无效;有信度的测量不一定就是有效的测量,比如用磅秤来测量学生的身高,无论测量多少次,结果都一样,从测量结果的“一致性”考虑,测量是可信的,然而无效。因此,信度是效度的必要条件,而不是充分条件。 三、难度 难度是指测试试题的难易程度。难度一般用大写字母P表示。在学科测验中,某题的难度一般用所有被试在该题的平均得分率来表示,即 所有被试在该题的平均得分 难度P 该题的满分数 四、区分度 区分度表示测试题目对学生学业水平鉴别的程度,用符号表示。这
22、 个量标志着该测试题鉴别能力的大小。从理论上说,具有良好区分度的题,水平高的学生应得高分,水平低的学生应得低分;如果反过来了,则说明该题区分度低。测试专家将试题的区分度称为测试是否有效的指示器,它是评价试题质量和筛选试题的主要指标和依据。 估计区分度的方法大致有两种:分组法和相关法。 第一种方法:分组法。操作过程如下: 第一步,分组:将所有被试按总分顺序排列(从高到低,从低到高都可以),然后将这些被试分为三组:从最高分开始的总人数的27分为一组,称为高分组;从最低分开始的总人数的27分为一组,称为低分组;余下的46也算一组,不过在下面的计算过程中就不用他们的数据了。 第二步,统计:比如说要计算题的区分度,计算高分组中题的得分率,用符号H表示;计算低分组中题的得分率,用符号L表示。 第三步,计算:题的区分度 HL 有时也用H和L的值来估计试题的难度,公式是 (HL)2。