心理测量学.ppt_三一办公31ppt.com

资源描述

《心理测量学.ppt》由会员分享，可在线阅读，更多相关《心理测量学.ppt（336页珍藏版）》请在三一办公上搜索。

1、心理测量学Psychological Testing邱炳武E-mail:电话：64850861,心理测验的编制项目分析（难度和区分度）信度效度测验的实施和计分测验结果的解释常模,学绩测验智力测验人格测验,绪论,第一章绪论第一节心理测量的历史一、国外心理测量的历史（一）测量产生于实际社会的需要l法国医生沈干（Seguin）训练智力落后儿童（1837年）l法国医生艾斯克罗尔（Esqurol）对智力落后和精神病人的区分（一个人驾驶语言的能力，是他智力水平的最可靠的标志）；（二）冯特的实验心理学l冯特建立第一个心理学实验室（1879年）；l观察的个体差异：格林威治天文台观察员的遭遇（1796）；,

2、（三）高尔顿的遗传理论测量达尔文的表兄弟，皮尔逊（Pearson）的老师，遗传的天才，人类测量实验室，高尔顿棒，高尔顿笛高尔顿发现，白痴对于热、冷、痛鉴别能力较低。他还说：感觉辨别力“基本上是心智能力中最高的能力。”（四）卡特尔的个别差异研究冯特的学生，高尔顿的朋友。首次提出“心理测验”（mental test）这一术语；心理测验与测量,（五）比纳和比纳-西蒙智力量表的产生第一个智力测验量表比内-西蒙量表（1905年量表）1908年量表1911年量表美国心理学家Pintner说：“在心理学史上，假使我们称冯特为实验心理学的鼻祖，我们不得不称比奈为心理智力测量的鼻祖。”波林说：“19世纪

3、80年代是高尔顿的10年，90年代是卡特尔的10年，20世纪头10年则是比内的10年。”,（六）心理测量的蓬勃发展与应用智力测验的发展比内-西蒙量表斯坦福-比内量表（比率智商）叶克斯（Yerkes）：陆军甲种测验、陆军乙种测验（19171919）20年代智力测验运动的狂热斯皮尔曼的因素分析法和“二因素理论”瑞文推理测验（30年代）韦氏智力量表（40年代60年代）（离差智商）,能力倾向测验的发展特殊能力测验（音乐、文书、机械、美术）成就测验的发展桑代克编制了第一个标准化的教育成就测验，因此被认为是教育测验的鼻祖。（20世纪初）斯坦福成就测验（1923）ETS（Educational Tes

4、ting Service）教育测验服务中心,人格测验的发展最早进行人格测量克雷培林（Kraepelin）用自由联想法诊断精神病人。最早的人格问卷武德沃斯的“个人资料调查表”（诊断士兵神经症）“卡特尔16种人格问卷”（16PF）“艾森克人格问卷”(EPQ)“明尼苏达多项人格调查表”（MMPI）罗夏墨迹测验主题统觉测验（TAT）,美国心理测验的三个发展期l 19041915，Thorndike出版精神与社会测验学导论：“凡是存在的东西都有数量；凡是有数量的东西都可测量”（数量化，客观化和标准化）。l 19151930，学历测验，智力测验（IQ），和人格测验大量出现。l 19301940，从单纯

5、测验法向心理评估和教育评价过渡（综合应用评定法；问卷法；交谈法；轶事记录法等）,心理测量的历史发展趋势1 先是以解剖生理特征为根据，而后转向对心智活动的测量；2 由测量简单的感知能力，发展到测量复杂的认知能力；3 由笼统的单一量数转变为以多个量数来评定个别差异，4 心理测量与实验心理学由合到分，又到合。心理测量的当代趋势信息加工测验的产生；计算机化测验的产生；项目反应理论和概化理论的兴起。,二、我国心理测量发展的历史（一）我国古代的心理测量能力测量孔子：中上之人、中人、中下之人董仲舒：一手画方，一手画圆（分心测验）刘邵：12种人才类型抓周七巧板、九连环,人格测量孔子：狂者、狷者、

6、中行刘邵：12种性格类型教育测量西周：小成，大成汉代：太学考试（口试、策试、射策）隋朝：科举考试,对测验理论的最初探索刘邵：九征，八观，五视“居，视其所安；达，视其所举；富，视其所与；穷，视其所为；贫，视其所取。”中国古代心理测量思想的特点：l 描述性l 分类式l 注重整体评价，和人的道德品质联系起来l 实用性,（二）中国心理测验简史（解放前）l 1914年，Creighton比较中美儿童智力差异（广州，500人）l 1917年，樊炳清介绍“比内-西蒙智力量表”l 1918年，Walcott用推孟修正量表施测（清华）l 1918年，俞子夷编制“小学生毛笔书法量表”l 1920年，廖世承

7、、陈鹤琴在南京开设测验课l 1921年，廖世承、陈鹤琴合作出版心理测验法一书l 1921年，费培杰将比内智力测验翻成中文l 1922年，张耀翔在北京将心理测验列为入学考试科目l 1924年，陆志伟发表订正比内西蒙智力测验说明书；l 1931年6月，在南京成立中国测验学会,l 1932年，测验杂志创刊。l 1935年，沈有乾用“朋洛德人格问卷”测量中国学生。l 1936年，陆志伟和吴天敏进行第二次修订比内西蒙智力测验。l 1937年，周先庚使用“塞斯顿情绪稳定性测验”l 1943年，林传鼎试用“普莱西X-O测验”l 1948年，刘范试用“罗夏克墨迹测验”。,（三）中国心理测验简史（解放后）l19

8、79年，林传鼎，吴天敏，张厚粲在武汉举办全国测验培训班；l1979年，龚耀先主持修订“韦克斯勒成人智力量表”；l1979年，林传鼎、张厚粲编制“少年儿童学习能力测验”；l1980年，林传鼎、张厚粲主持修订“韦克斯勒儿童智力量表”；l1980年，北师大开设心理测验课；l1980年，张厚粲开始对高考试卷做系统分析；l1981年，刘绍衣修订“卡特尔16种人格因素问卷”；l1982年，吴天敏第三次修订中国比内测验；l1982年，宋维真修订“明尼苏达多相人格调查表”；,l1983年，龚耀先、陈仲庚修订“艾森克问卷”l1984年，中国心理学会成立心理测量专业委员会；l1984年，我国正式加入“国际教育成就

9、评价协会”；l1985年，张厚粲主持修订“瑞文标准推理测验”；l1986年，龚耀先主持修订“韦克斯勒幼儿智力量表”；l1987年，张明园修订“生活事件量表”；l1989年，李丹修订“瑞文测验（联合型）”；l1990年，中国加入国际测验委员会（ITC）；l1990年，吴文源修订“症状自评量表（SCL-90）”；l1992年，戴忠恒修订“一般能力倾向测验”；,l 1992年，宋维真编制“心理健康调查表”；l 1992年，沙毓英等编制“学生性格量表”；l 1993年，宋维真等编制“中国人个性测量表”（CPAI）；l 80年代，编制超常、弱智儿童筛查量表；03（6）岁儿童发育、发展量表；CPM领导行为

10、评价量表韦氏儿童智力测验第4版MMPI-2,第二节心理测量的性质一、测量的基本概念（一）测量的定义测量就是依据一定的法则，使用量具对事物的特征进行定量描述的过程。l一定的法则l事物的特征l 量具l 定量描述,测量精确度的影响因素：测量对象的性质：确定型、随机型、模糊型测量工具的精密性测量的类型：物理测量、生理测量、社会测量、心理测量,（二）测量的基本要素1 参照点绝对参照点（绝对零点）相对参照点2 单位好的单位须符合两个条件：确定的意义，即同一单位对所有人来说意义相同。相等的价值，即第一单位与第二单位之间的距离等于第二单位与第三单位之间的距离。,（三）测量的量表使事物的特征数量化的

11、数字的连续体就是量表（scale）。Stevens将量表从低到高分为4个等级。1 命名量表(Nominal Scale)用数字来代表事物或对事物进行分类。代号类别数字只是一种名称的替代物。不同的个体用不同的数字标志。如球员的号码，各种分类标志（男或女；正常或异常，等）,2 顺序量表(Order Scale)给个体赋值，使数值的大小次序与个体在所测量的心理特性上的多少、大小、高低等的次序相符合。次序量表在心理和教育中十分常见（如竞赛成绩排名等）3 等距量表（Interval Scale）给个体赋值，使数值间的差不仅能够反映出对应个体在所测量心理特性上的排序，而且能够反映出对应个体在该特性上的

12、差异程度。（如温度计，偏爱程度等）但建构间距量表不是容易的事，常常只能做到次序量表。,4 比率量表(Ratio Scale)给个体赋值，使数值间的比率能够反映对应个体在测量心理特性上比率。（如身高、体重、速度等）。但在心理学中是极少见的。心理测量通常都是次序量表，为方便比较，通常把次序量表转换为等距量表。,测量量表的等级（功用）l 命名量表：识别、区别个体；l 次序量表：识别、区别个体；按特性排序个体；l 间距量表：识别、区别个体；按特性排序个体；指出个体特性的差异；l 比率量表：识别、区别个体；按特性排序个体；指出个体特性间的差异；指出个体特性间的比率。,二、心理测量的基本概念（一）心理测量

13、的理论基础l孟子说“权，然后知轻重；度，然后知长短；物皆然，心为甚。”l Thorndike：“凡客观存在的事物都有其数量。”l McCall：“凡有数量的东西都可以测量。”心理测量的准确性、可靠性、精确度还有待提高，但测量不准不等于不能测量，现在测量不准也不意味着将来永远测不准。,（二）心理测量的定义心理特质具有内隐性，只能通过人的外显行为来推断。Anastasi：“心理测验实质上是对行为样本的客观的和标准化的测量。”Brown：测验是“测量一个行为样本的系统程序。”书本：依据一定的心理学理论，使用测验对人的心理特质进行定量描述的过程。郑日昌：心理测验就是通过观察人的少数有代表性的行为，对于

14、贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段。,1 行为样本从总体行为中抽取出来的、能够反映个人特定心理特质的一组行为，作为直接的测量对象。l 取样研究的有效与否，关键在于样本的代表性，即不是任何部分都可代表全体。l 构成样本的行为应当是系统的，有理论思考的；l 不可能包括所有可用来测量或定义某种心理特性的具体行为；l 因此，心理测验质量的高低很大程度上决定于行为样本的代表性。l 只有在全部了解行为样本的意义以后，才能正确使用心理测验。,心理测量的最终目标不是对行为样本的测量，而是通过行为样本的测量来预测被试以后将会出现的行为。行为样本与所要预测的行为并不一定相似，可

15、以相似，也可以完全不同。如投射测验和能力倾向测验，其测查的行为与将来要预测的行为有很大的差异，但两者之间有必然的联系（相关）。,2 标准化测验内容的标准化施测条件的标准化测验情境、指导语、测验时限评分规则的标准化测验常模的标准化,3 难度或通俗性4 信度和效度,（三）心理测量的性质1 心理测验的间接性通过测量外显行为来推断内隐的心理特质2 心理测验的相对性没有绝对的标准3 心理测验的客观性标准化,第三节心理测验的种类和功能一、心理测验的种类（一）按测量的功能分类1能力测验智力测验、特殊能力测验、能力倾向测验2学绩测验已获得的学业成就3人格测验兴趣、态度、动机、气质、性格

16、,（二）按测量的对象分类1个别测验优点：获得的信息多；容易建立融洽的合作关系；特殊被试（幼儿、盲人）缺点：费时、复杂、对主试要求高。2团体测验优点：缺点：,（三）按测验材料分类1文字（纸笔）测验2非文字（操作）测验文化公平测验（四）按测验的目的分类1.描述测验2.诊断测验3.预示性测验,（五）按测验的难度和时限分类1难度测验2与速度测验（六）按测验的要求分类1最高行为测验2典型行为测验（七）按测验的性质分类1构造性测验 2投射性测验,（八）按测验的应用分类1教育测验2职业测验3临床测验（九）按评价所参照的标准分类1常模参照测验2标准参照测验内容参照测验结果参照测验,二、心理测验的功能双刃

17、剑（一）理论研究功能1收集研究资料2建立和检验理论假设3实验分组,（二）实际应用功能1选拔人才2人员安置3心理诊断4描述评价5心理咨询,第四节心理测量工作者的素质要求及道德准则一、心理测量工作者的素质要求（一）心理测量工作的知识结构基础知识：专业知识：（二）对心理测验的科学态度错误观念：万能论无用论心理测验就是智力测验（心理测验=智力测验=智商=遗传决定论）,对待测验的正确态度：心理测验是研究心理学的重要方法之一，是决策的辅助工具；心理测验作为研究方法和测量工具尚不完善；防止乱编和滥用心理测验。,二、心理测量工作者的道德准则（一）测验的保密和控制使用测验信息和样题的公布有助于消除公众对心

18、理测验的神秘感及误解有关测验的技术程序以及信度、效度和其他测验属性应向所有人公开让受测者熟悉测验，以消除焦虑，保证测验结果的准确性对测验结果的反馈（二）测验中个人隐私的保护,第二章心理测验的编制第一节编制心理测验的基本程序一、确定测验目的（一）明确测量对象年龄、性别、职业、受教育程度、经济状况、民族、文化背景等。（二）明确测量目标心理变量或行为特征。必须有操作定义，目标要非常具体。（三）明确测量用途用于描述、还是诊断，或用于预测？,二、制定编题计划通常是一张双向细目表，指出测验所包含的内容和要测定的各种技能，以及对每一个内容和技能的相对重视程度。例：小学自然常识测验编题计划,三、编辑

19、测验项目（一）收集测验资料（1）资料要丰富（2）资料要有普遍性（3）资料要有趣味性,（二）选择项目形式纸笔测验还是操作测验？是客观题还是主观题？概念和原理的记忆简答题辨别和判断选择题综合运用论文题幼儿口头测验文盲、半文盲、聋哑操作测验人多、经费有限团体测验人少个体测验,（三）编写测验项目题目范围要与双向细目表一致；题目数量要比最终所需要的数量多，以便筛选或编制复本；题目的难度应有一定的分布范围；用词力求清楚明白。四、试测与项目分析试测取样施测过程与施测情景时限可稍宽一些记录被试的各种反应。,项目分析质的分析：内容取样、题目的思想性、表达是否清楚量的分析：难度、区分度

20、、备选项分析五、合成测验（一）测验项目的选择指标有三：要选择那些能够测量所要测量的东西的项目；难度区分度,（二）测验项目的编排并列直进式混合螺旋式（三）编制复本各份复本必须等值。等值要符合下列条件：各份测验测量的是同一种心理特性。各份测验具有相同的内容和形式。各份测验的题目不应重复。各份测验题目数量相等，难度和区分度大体相同。各份测验的分数分布（平均数和标准差）大致相等。复本编好后，应再测一次，以确保各份测验的等值。,六、测验标准化测验的标准化是指测验的编制、实施、评分以及分数解释都有统一的标准，以减少无关因素对测验的影响。（一）测验内容指测验内容对所有被试都一样。（二）施测过程测

21、验情景指导语时限,（三）测验评分为使评分尽可能客观，有三点要求：对被试反应的及时和清楚的记录。特别是对口试和操作测验。要有一张标准答案或正确反应的表格，即计分键。将被试的反应和计分键比较，对反应进行分类。（四）测验分数的解释常模参照标准参照：内容参照，结果参照,七、鉴定测验（一）信度（二）效度（三）测验量表与常模八、编写测验说明书测验的目的和功用；编制测验的理论背景以及选择题目的根据和测验的构成；测验的实施方法、时限及注意事项；测验的标准答案和评分方法；测验的信度和效度资料；常模资料。,第二节测验题目的编制技术一、命题的一般原则试题要符合测验的目的。内容取样要有代表性。题目格式不要

22、使被试产生误解。文句要简明扼要，既排除与解题无关的因素，又不可遗漏解题所依据的必要条件。要避免使用艰深的字词。应有不致引起争论的确定答案（创造力测验、人格测验除外）。各个题目必须彼此独立，不可互相牵连，不要使一个题目的回答影响另一个题目的回答。题目中不可含有暗示本题或其他题正确答案的线索。题目内容不要超出受测团体的知识和能力。所提问题应避免涉及社会禁忌与个人隐私。施测与评分省时。,二、测题的种类及编制固定应答型题目，即客观题，包括：选择题、是非题、匹配题等。自由应答型题目，即主观题，包括：填充题、简答题、应用题、论文题、联想题、操作题等。（一）选择题题干+选项（正确选项与诱答选项）多项条件选

23、择题：例如：已知小明的心理年龄是8岁4个月，实际年龄是9岁，其智商是多少？(a)85(b)90(c)92(d)92.6(e)100,类别选择题例如：艾森克是著名的_心理学家。(a)儿童(b)工程(c)管理(d)人格(e)社会异类选择题例如：下面哪位与其他人不属于同一类人？(a)小布什(b)普京(c)胡锦涛(d)希拉克(e)科尔多项是非选择题例如：下面两个陈述哪一个正确？（1）2008年奥运会在北京举行。（2）美国首都是费城。(a)1和2都对(b)1对2错(c)1错2对(d)都错,因果条件选择题例如：如果测验的真方差增加，但误差方差不变，结果是：(a)测验信度增加(b)测验信度下降(c)测验

24、总方差减小(d)测验的信度和总方差不变选择题的优点：适用范围广；计分客观；题意明确。缺点：编制诱答选项较难；答案固定，测量范围有限。,编写选择题的原则：题干所提的问题必须明确选项要简短，必要的叙述或相同的修饰语应放在题干中；每个选项的性质要一致；选项最好按逻辑顺序排列；选项之间不应有重叠；诱答选项的错误不要太明显；不要把选项夹在题干中间；每题只能围绕一个中心，不能有歧义。,（二）是非题每题只包含一个概念，避免两个以上的概念在同一题中出现，造成题目似是而非，或半对半错。避免使用具有暗示性的特殊词语，如“绝对”、“完全”、“有时”、“可能”等。尽量采用正面肯定的叙述，避免反面陈述或双重否定的句

25、子。如“生物没有不是由细胞组成的。”“是”与“非”的题数应大致相等，且随机排列。（三）论文题对答题有时间限制；不要有任选的题目，因为两题很难做到等值；客观、统一的评分细则。,第三章测验的项目分析项目分析包括定性分析和定量分析。定性分析包括考虑内容效度、题目编写的恰当性和有效性等；定量分析主要是指题目难度和区分度的测量。对项目进行筛选和修订，可以提高测验的信度和效度。第一节测验的难度一、难度（difficulty）的意义难度，指项目的难易程度。在最高作为测验中，称为“难度”，而在典型作为测验中，则指“通俗性”。两者都是指在总体中，能够正确或确切回答某项目的人数。,二、难度的计算（一）二分

26、法记分项目的难度1通过率 P=R/N2极端分组法（上下27%）P=（PH+PL）/2（二）非二分法记分项目的难度 P=X/XmaxX为所有被试在该项目上的平均得分，Xmax为该项目的满分。,三、测验难度水平的确定效标参照测验、掌握测验：不考虑难度；选拔测验：难度=录取率；对于选择题来说，难度一般应大于猜测概率；无论是速度测验，还是难度测验，一般都应防止被试得满分，因为满分的意义是不明确的。大体而言，难度为0.50时最理想，此时项目具有最大的鉴别力。但在实际操作中，让所有项目难度都到达0.50困难很大，而且也不必要，一般只需使项目的平均难度接近0.50，而各个项目的难度在0.50 0.20之间

27、变化。,四、难度的等距变换根据正态分布表，将难度P作为正态曲线下的面积，转换成相应的Z分数，这就是等距量表。P Y 0 Z,美国教育服务中心以作为难度指标：=13+4ZP=.0013 Z=+3=25P=.16 Z=+1=17P=.50 Z=0=13P=.84 Z=-1=9P=.9987 Z=-3=1,五、难度对测验的影响（一）测验难度影响测验分数的分布形态难度大，正偏态难度低，负偏态,（二）测验难度影响测验分数的离散程度测验过难或过易，分数全距缩小，信度降低。P=0.50时最佳,第二节测验的区分度一、区分度的意义区分度（discrimination）是指测验项目对被试心理品质水平差异的

28、区分能力或鉴别能力。项目的区分度是测验是否有效的“指示器”。二、区分度的计算（一）项目鉴别指数法1鉴别指数（index of discrimination，D）的计算D=PH-PL取值范围：-1+1,2极端组的划分27%规则一般情况下，取上下25%33%均可。样本少时，可以取50%注意：由于计算机的方便使用，可以上下50%作为划分高低组的标准，或者多分几组，对区分度和难度作详细分析。因为只取上下两端，只利用了一部分资料，浪费了很多信息，有可能得出错误结论。,（二）相关法（项目-总分相关）1点二列相关 Xp-Xq rpb=pq St2二列相关 Xp-Xq pq Xp-Xt p rb=或 rb=S

29、t y St y,3 相关 ad-bcr=(a+b)(c+d)(a+c)(b+d)4四分相关5.项目和总分相关重叠的校正当测验项目超过20个项目时，校正法通常毫无意义。rtpSt Sprpq=St2+Sp2 2rtpStSp,（三）项目特征曲线（item characteristic curve,ICC）项目特征曲线描述了效标分数不同的被试在该项目上的通过率。曲线坡度越陡，鉴别力越好，预测的误差越小。,率概的目项答回确正,1.00,0.00,0.50,低中高能力,鉴别力较好,低中高能力,鉴别力为负,鉴别力较低,难度不同的3个项目的ICC,多项选择中每个选项的ICC,三、区分度与难度的关

30、系,难度和区分度都是针对一定团体而言的。一般来说，较难的项目对高水平被试区分度高，较易的项目对低水平被试的区分度高。,四、区分度的相对性（一）不同的计算方法，所得区分值不同区分度有几种计算方法？（二）样本容量大小影响相关法区分度值的大小样本越大，区分度越（三）分组标准影响鉴别指数分组越极端，区分度越（四）被试样本的同质性程度影响区分度值的大小样本越同质，区分度越,第三节项目分析的特殊问题一、多重选择题的项目分析（诱答分析）对于多重选择题，除了分析难度和区分度外，还要对每个选项进行分析。下列哪一个最有可能是偏执型精神分裂症患者的次级症状：A 幻听B 瘫痪C 记忆丧失D 厌食,如果所有被

31、试都选择某一正确的选项，说明该选项如果没有一个被试选择某个错误选项，说明该选项如果所有被试都选择某个错误选项，说明该选项如果高分组被试的选择集中在两个选项上，说明该选项如果高分组和低分组对正确选项的选择没有区别，说明该选项如果所有被试都未回答某个题目，说明该题如果选择各个选项的人数几乎相等，说明该题,二、速度测验的项目分析对前面部分的测验项目，难度和区分度都对后面部分的测验项目，难度和区分度都三、标准参照测验的项目分析在标准参照测验中，无须考虑项目的难度和区分度，只要项目的内容很重要就行。也可以通过比较教学或训练的前测和后测结果来进行项目分析，用来说明教学或训练的效果以及项目编

32、制是否适当。,四、项目-团体的相互作用具有不同性质（性别、种族、职业等）的团体，在测验得分上也存在差异，即同样的项目可能有不同的难度。如果测验要求对所有个体都相对“公平”，那么，就应该排除那些有利于或不利于不同性质的亚团体的项目；如果测验的目的就是为了考察不同亚团体的差异，那么，就应选择使团体差异尽可能大的题目。,五、有效性与可靠性的矛盾同质性信度要求项目之间有高相关，各项目的难度均等；对于预测效度来说，因为效标的变异范围较大，如果项目越同质，那么效标关联效度则低；因此，效标关联效度要求各项目之间要有一定的差异，即项目之间相关低，这样才能保证测验得分与效标之间有高相关，即高的效标关联效度。

33、因此，对于多数心理测验来说，项目之间中等程度的相关，可使二者调和，获得较为满意的（同质性）信度和（效标关联）效度。,第四章经典测验理论的基本假设第一节心理特质及其可测性假设一、心理特质的含义心理特质就是表现在一个人身上所特有的相对稳定的行为方式。l一组内部相关的行为的概括，如善良、聪明；l比较稳定，对不同的刺激做相同的反应；l通过特质可以对人的行为作出预测；l特质可以分为多个层次，智力可以分语言和操作，语言可以分为词汇和文法。,二、心理特质的可测性l Thorndike“凡客观存在的事物都有其数量。”l McCall“凡有数量的东西都可以测量。”,第二节测量误差及其来源一、测量误差的含

34、义测量值与实际值的差异二、测量误差的种类系统误差：测量工具本身引起的误差（稳定）；随机误差：由不稳定因素引起的误差（不稳定）。,三、测量误差的来源（一）测量工具（测验内部）引起的误差1 题目取样2 指导语3 难度4 时限5 测验复本不等值,（二）由测量对象引起的误差1 测验的经验2 练习因素3 应试动机4 测验焦虑5 反应定势6 生理因素,（三）由施测过程引起的误差1 物理环境2 主试者方面3 意外干扰4 评分计分,第三节真分数及其有关的假设一、真分数的含义真分数（True Score）：一个测量工具在没有测量误差时，所得到的纯正值。操作定义：经过无数次测量所得到的平均值。观察分数（Obse

35、rved Score）：,二、数学模型及其假设 X=T+E测量误差的假设：（X）=T 或（E）=0（T，E）=0（E1，E2）=0SX2=ST2+SE2ST2=SV2+SI2SX2=SV2+SI2+SE2,SX2,ST2,第五章测量的信度第一节信度概述一、什么是信度？信度（reliability）是指测量结果的稳定性程度，也叫测量的可靠性。操作定义：rxx=ST2/SE2rXX=TX2rXX=XX注意：（1）信度指的是一组测验分数或一系列测量的特性，而不是个人分数的特性；（2）真分数的变异数是不能直接测量的，因此信度是一个理论上构想的概念，只能根据一组实得分数作出估计。,二、信度系数与信度

36、指数信度指数：相关系数信度系数：相关系数的平方注意：（1）信度系数有多种。（2）同一种信度系数也会因样本、测查时间不同而有多个。（3）信度系数只是对测量分数一致性的估计，但并没有指出不一致的原因。（4）获得较高的信度只是测验有效的必要条件。,第二节信度的估计方法一、重测信度1含义和计算重测信度（test-retest reliability）是指用同一量表对同一组被试施测两次所得结果的一致性程度。皮尔逊积差相关系数误差来源：测量时间不同所带来的随机误差2使用的前提条件所测量的心理特质必须是稳定的；练习和遗忘的效果基本上相互抵消；在两次施测的间隔时期内，被试在所要测查的心理特质方面没有获

37、得更多的学习和训练。,二、复本信度1含义和计算复本信度（Alternate-form reliability）是指两个平行的测验测量同一批被试所得结果的一致性程度。皮尔逊积差相关系数等值性系数：两个复本测验是同时连续施测的稳定等值系数（重测复本信度）：两个复本测验是相距一段时间分两次施测的。2使用的前提条件l 两测验真正平行；l 被试要有条件接受两个测验。,三、分半信度1含义和计算分半信度（split-half reliability）是指将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。校正后的皮尔逊积差相关系数校正公式：斯皮尔曼-布朗公式rxx=2 rhh/（1+r

38、hh）,常见的分半方法是按测题序号奇偶分半：测验题目按某种顺序（如难度）排列；如果是随机排列的题目，则必须是所有题目是平等的（要么难度相等，要么性质一致，是测同一个心理特质的）；如果测验有多个分量表，应在分量表内部排好顺序，再把各分量表的两半组合起来求相关。,弗朗那根公式：rxx=2 1-（Sa2+Sb2）/Sx2卢仑公式：rxx=1-Sd2/Sx22使用的前提条件一个测验可以分为对等的两半时,四、同质性信度1含义同质性信度（homogeneity reliability），也叫内部一致性系数，是指测验内部所有题目间的一致性程度。2计算及适用范围rxx=K/rij 1+（K-1）rij,KR2

39、0公式：rxx=K/（K-1）1-（piqi）/Sx2 pi为答对第i题的人数的比例；qi为答错第i题的人数的比例。K为题目数，Sx2为测验总分的变异。KR21公式：rxx=K/（K-1）1-（K p q）/Sx2,克龙巴赫系数：=K/（K-1）1-（Si2）/Sx2 菏伊特信度：rxx=1-MS人题/MS人因素分析一般用于预测的测验或学绩测验可不考虑同质性。而验证理论构想时必须考虑同质性。因此，同质性不但与信度有关，还与效度有关。,五、评分者信度1含义和计算评分者信度（scorer reliability）是指多个评分者给同一批人的答卷进行评分的一致性程度。2人时：相关系数多人时：肯德尔和

40、谐系数W=12 R i2-（R i）2/N/K2（N3-N）（评分者人数 K=3 20；被评者人数 N=3 7时，查W表检验）R I为第i个被试被评的水平等级之和,若N7，用2 检验。2=K（N-1）W，df=N-1若评分中有相同等级时，需校正：W=12R i2-（R i）2/N/K2（N2-N）-K（n3-n）/12,各种信度系数相应误差变异的来源,第三节提高测量信度的方法一、影响测量信度的主要因素（一）被试方面被试团体同质性越高（个体差异越小），所得相关系数（信度）就越低。被试团体异质性越高（个体差异越大），所得相关系数（信度）就越高。（二）主试方面指导语、态度、期望、评分主观等（三）施

41、测情境,（四）测量工具测验长度：测验越长，信度越高。测验难度：过难或过易都会使个体间得分差异减小，降低信度。测验内容：试题取样不当，内部一致性低，题意模糊，信度则低。（五）两次施测的间隔时间间隔时间越短，信度越高；间隔时间越长，信度越低。,二、提高测量信度的常用方法1.适当增加测验的长度2.使测验中所有试题的难度接近正态分布，并控制在中等水平3.努力提高测验试题的区分度4.选取恰当的被试团体，提高测验在各同质性较强的亚团体上的信度5.主试者严格执行施测规程，评分者严格按照标准给分，施测场地按测验手册的要求进行布置，减少无关因素的干扰,第四节信度的特殊问题一、速度测验的信度问题因为速度测验的

42、题目难度都很低，所以不能用奇偶分半求分半信度；可以将测验分两半来施测。因为几乎不可能把题目做完，所以同质性信度不适用。可以用重测信度和复本信度。二、标准参照测验的信度问题总体越同质，相关系数越低。所以，用通常的方法来算标准参照测验的信度是不适当的。可以用复本，通过人数的百分比差别越小，信度越高。,三、分测验的信度除整个测验的信度外，各个分测验也应有信度，否则，从分测验得分来做推论就会出问题。四、差异的信度比较两门课成绩的差异，若两门课的信度都不可靠时，二者的差别更不可靠。五、行为改变（变迁）的测量行为改变：要求测验对分数的差异越敏感越好信度：二者的矛盾难以调和,信度好坏的判断标准标准化能力或学

43、绩测验：0.90人格测验：0.80教师自编学绩测验：0.60 测验使用时的信度标准一般来说，当信度0.70，测验不能用于对个人作出评价与预测，而且不能作团体间比较；当0.70信度0.85时，可用于团体比较；当信度0.85时，才能用来鉴别或预测个人成绩。,第六章测量的效度第一节效度概述一、什么是效度效度（validity）是指一个测验或量表实际能测出其所要测的心理特质的程度。（1）效度是一个相对的概念：每个测量工具都有自己的目的；内隐特质是通过外显行为间接测得的。（2）效度是测量的随机误差和系统误差的综合反映。（3）判断一个测量是否有效要从多方面收集证据,操作定义：效度=SV2/SX2=rX

44、Y2,SX2,ST2,二、效度与信度的关系（一）信度高是效度高的必要而非充分的条件一个测验效度高，其信度也必然高；但一个测验信度高，其效度不一定高。,（二）测验的效度受它的信度制约rXYrXX一个测验的信度必然比效度高，至少相等。,第二节内容效度一、内容效度的性质内容效度（content validity）是指测验题目对有关内容或行为取样的适当程度，即一个测验实际测到的内容与所要测量的内容之间的吻合程度。因此，一个测验要有内容效度必须具备两个条件：（1）要有定义完好的内容范围（2）测验题目应是所界定的内容范围的代表性取样。,二、内容效度的确定方法（一）逻辑分析法：专家判断根据自己的知识经验

45、对量表的有效性（逻辑性）作出判断，也称逻辑效度。为使内容效度的判断过程更客观，一般采用下列步骤：确定测验内容的总体范围；编制双向细目表；编制评定量表，从测验内容所测的技能、题目对所定义的范围的覆盖率、各种题目数量和分数的比例以及题目形式的适当性等方面，对测验作出总的评价。,（二）统计方法：用两个测验复本来测同一批被试，若相关高，则内容效度可能高，但若相关低，则说明必有一个测验缺乏内容效度。（三）经验法：再测法前测教学后测如果后测成绩优于前测成绩，说明该测验具有一定的内容效度。,三、内容效度的特点和评价1.适用范围：内容效度主要应用于成就测验，也适合于某些用于选拔和分类的职业测验。但不适用于能力

46、倾向测验和人格测验。时间性2.缺乏理想的数量指标3.内容效度不是表面效度表面效度（surface validity）：外行人对某个测验从表面上看好像是测某种心理特质的程度。并不是一种真正的效度。人格测验要求表面效度不宜过高。,第三节结构效度一、构想效度的定义结构效度（structure validity）是指一个测验实际测到所要测量的理论结构或特质的程度，或者说测验分数能够说明心理学理论的某种结构或特质的程度。特点：（1）具有不同理论构思的测验，其结构效度是无法进行比较的；（2）结构效度有时很难获得；（3）结构效度没有单一的指标，是由各方面的证据累积起来进行评价的。,二、结构效度的确定方法结

47、构效度确立的一般步骤：（1）提出理论框架；（2）依据理论框架推演出有关测验成绩的假设；（3）用逻辑或实证的方法来证明假设。,具体方法：（1）测验内部寻找证据法l分析测验的内容效度：若内容效度高，说明其结构效度也高；l分析被试对题目反应的特点：有无社会称许性的题目，如“当事情不顺我意时，我时常动怒。”对该题的回答，也许反映不了要测的性格。l计算测验的同质性信度：分半信度、系数、KR20、KR21,（2）测验之间寻找证据法l相容效度：新老测验之间的相关（两测验测的是同一心理特质）。若相关高，则说明新测验可能有较高的效度。l区分效度：新老测验之间的相关（两测验测的不是同一心理特质），若相关低，则说明

48、新测验可能有较高的效度。l因素分析法：得出的因素符合理论的构思，说明效度高。,（3）考察测验的实证效度法l 根据效标把被试分组，考察其得分差异。l 根据测验得分差异把被试分组，考察其所测特质（行为表现）的差异。（4）多种特质-多种方法矩阵法方法：1、2、3特质：A、B、C,（5）搜集某些变异上的证据智力随年龄变化而变化三、对构想效度的评价1.有些构想概念模糊，缺乏一致的定义2.没有明确的操作步骤与程序3.没有单一的数量指标,第四节实证效度一、实证效度的定义实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。被估计的行为是检验测验效度的标准，简称效标。所以，实证效度又称效标关联效

49、度（criterion-related validity）。同时效度（concurrent validity）：测验分数与效标资料是同时收集的。预测效度（predictive validity）：先获得测验分数，隔一段时间后，再收集效标资料。,二、效标（1）效标与效标测量效标（criterion）就是衡量一个测验是否有效的外在标准。观念效标：理论定义，如“大学的成功”效标测量：操作定义，如大学成绩常用的效标：学业成就、临床诊断、实际工作表现、特殊训练成绩、不同团体的总体表现、先前有效的测验、等级评定。,（2）效标的特性a.多样性：一个测验可能有不同的观念效标，同一个观念效标又可能有不同的效标测

50、量。b.复杂性：几乎每一种效标行为都由多种特质构成，包含复杂的成分。c.特殊性：即使一个普通的效标，在应用时也有特殊性。d.时间性：近期效标与最后效标,（3）效标测量的条件a.有效性：效标测量能真正反映观念效标。b.可靠性：有较高的信度c.客观性：效标测量必须能真正反映观念效标，防止效标污染。效标污染（criterion contamination）是指评定者知道被试的测验分数，因而影响到对效标的客观评定。d.实用性：经济实用,三、实证效度的确定方法（1）相关法测验分数与效标测量之间的相关系数。（2）区分法测验工作效标测量（工作成绩）按工作成绩分高低两组，如工作成绩高，测验得分也高；工作成绩低

展开阅读全文