信度与效度分析(qiang)课件.ppt

上传人:小飞机 文档编号:2054188 上传时间:2023-01-04 格式:PPT 页数:85 大小:255.08KB
返回 下载 相关 举报
信度与效度分析(qiang)课件.ppt_第1页
第1页 / 共85页
信度与效度分析(qiang)课件.ppt_第2页
第2页 / 共85页
信度与效度分析(qiang)课件.ppt_第3页
第3页 / 共85页
信度与效度分析(qiang)课件.ppt_第4页
第4页 / 共85页
信度与效度分析(qiang)课件.ppt_第5页
第5页 / 共85页
点击查看更多>>
资源描述

《信度与效度分析(qiang)课件.ppt》由会员分享,可在线阅读,更多相关《信度与效度分析(qiang)课件.ppt(85页珍藏版)》请在三一办公上搜索。

1、第十七章 信度与效度分析,第十七章 信度与效度分析,在科学研究中采用的主要方法有调查研究(survey)和实验研究(experimental study),尤其是调查研究被广泛用于公共卫生、临床医学、社会学、教育学等领域。调查研究的重要内容之一就是制定调查表或问卷。,在科学研究中采用的主要方法有调查研究(survey)和实验研,问卷以及调查质量反映在调查结果的真实性和可靠性两个方面,应采用一定的统计指标和方法加以定量考评。本章主要介绍信度(reliability)和效度(validity)分析方法,特别适合于各项目均为线性方式或等级方式的问卷或量表,如心理测量、教育测量、态度测量、生命质量测量

2、等的标准化测定量表。,问卷以及调查质量反映在调查结果的真实性和可靠,第一节 信度及其评价方法,第一节 信度及其评价方法,一、信度的概念,一、信度的概念,信度,指量表测量某种特质(属性)或概念的结果的可靠性(dependability)、稳定性(stability)和一致性(consistency)。关于信度尚无公认的定义,一般认为信度是指测量结果反映出系统中偶然误差引起的变异程度,也就是多次重复测量中结果的重现性,换言之,随机误差的变异。,信度,指量表测量某种特质(属性)或概念的结,信度的大小用信度系数(reliability coefficient)来衡量。,信度的大小用信度系数(relia

3、bility coeffic,二、信度的数学模型,二、信度的数学模型,在经典测量理论中,Spearman 分数模型起着重要的作用。该模型指出任何测量所得的分数(X)都是由反映对象稳定特质的真分数(T)和由随机因素造成的误差分数(e)构成,即:(17.1)并假定:(1)e 满足标准正态分布;(2)T,e相互独立;(3)T,e 以简单的线性可加性结合。,在经典测量理论中,Spearman 分数模型起着重,这样,实测分数的方差可分解为真实分数的方差与误差分数的方差之和,即:(17.2)于是,信度可定义为真实方差与实测方差的比值,也就是总方差中真实方差所占的比例:(17.3),这样,实测分数的方差可分

4、解为真实分数的方差与,显然,r越大,说明随机误差的作用越小,测定结果越可靠。由于真实分数的方差无法得到,因此上式可转化为:(17.4),显然,r越大,说明随机误差的作用越小,测定结,三、信度的评价方法,三、信度的评价方法,(一)重测信度,重测信度(test-retest reliability)是在一定时间间隔(所测定的特质或概念尚未发生改变)中运用同一量表作重复测量所得的信度系数,也称为稳定系数,因为它说明了使用同一测量工具重复测量时个体分数的稳定性。,(一)重测信度 重测信度(test-,重测信度一般用两次测定间的相关系数来衡量。根据所测定的特质的数据表现方式可采用积矩相关系数、等级相关系

5、数、列联系数等来表示(参见相关分析有关章节)。对于标准化的测定量表,所测定的特质均以量化分的方式给出,而且多半服从正态分布,因此可直接计算积矩相关系数。,重测信度一般用两次测定间的相关系数来衡量。根,值得注意的是,重测信度考评中,不同种类的受试者重测间隔期限不尽相同,原则上应在其特质无变化的期间内进行。,值得注意的是,重测信度考评中,不同种类的受试者重测间隔期限不,(二)复本信度,复本信度(equivalent-form reliability)也称替代信度(alternative-form reliability)或平行信度(parallel-form reliability),是以两份等效

6、量表分别做出测量来评价信度系数。即使用相同难度、内容和形式而具体条目不同的两份量表(互为复本)来评价信度。,(二)复本信度 复本信度(equivalent-,两量表测定结果的相关系数即为复本信度系数。该法弥补了重测信度采用完全相同的测量所带来的一些弊端。但对于量表的设计要求较高,实际中很难得到两份等价的量表,使其应用大受限制。,两量表测定结果的相关系数即为复本信度系数。该,(三)分半信度,前述的重测信度或复本信度,要对每个个体进行两次测定,这较麻烦,而且要求受测者参加两次内容相似的测量也比较困难。为此,人们更愿意采用一次性测定的评价方法,分半信度(split-half reliability)

7、正是如此。,(三)分半信度 前述的重测信度或复本信度,要,分半信度是在一次测量后将条目分为相等的两部分,分别计算两部分的得分并以其相关系数作为信度指标。这实际上考察的是指标的一致性,但因测量同一特征的指标间应关系密切,故具有一致性则说明结果可信。,分半信度是在一次测量后将条目分为相等的两部分,显然,k个条目的量表分半方法可有k!/(k/2)!(k/2)!种,如10个条目的量表有252种分法。那么,采用哪种分法呢?实际上各种分法得到的结果应很接近,因此可随机地抽取一种分法。通常采用奇数条目为一组,偶数条目为一组的分法。,显然,k个条目的量表分半方法可有k!/(k,此外,两部分直接算出的相关系数(

8、)只表明一半条目的信度,需用Spearman-Brown公式来确定整个量表的信度(r):(17.5),此外,两部分直接算出的相关系数()只表明一半条目的信度,值得注意的是,评价分半信度时,需要奇偶项的条目在难度、内容、得分变异等方面相似。否则可用下面的公式来计算:(17.6),式中,分别为第一,二部分条目得分总和的方差,为全部条目得分之和的方差。实际上,该式是下面的 系数公式在分半法中的应用(取K=2)。,式中,分别为第一,二部分条目得,(四)内部一致性信度,内部一致性信度(internal consistent reliability)是目前比较流行的信度评价方法,是分半信度的推广。它无需将

9、条目分为两个部分,而是从量表的构思层次入手,以内部结构的一致性程度对信度作出估计。,(四)内部一致性信度 内部一致性信度(inte,内部一致性信度主要有Kuder-Richardson公式和克朗巴赫系数(Cronbachs alpha)。其中,Kuder-Richardson公式是克朗巴赫系数的的特殊情况,仅适用于两分类条目。克朗巴赫系数 为:,内部一致性信度主要有Kuder-Richardson公式和克,(17.7)式中,K为整个量表或子量表的条目数,为第i个条目的方差,为整个量表或子量表得分的方差。,(17.7),系数根据一次测定即可计算,使用简便,利用的信息也充分,因此,在实际工作中广为

10、采用。,系数根据一次测定即可计算,使用简便,,因此,系数最好用于量表的低层结构(如领域、方面等子量表)的信度考察,通过每个子量表的考察结果再来综合反映整个量表的情况,而不宜仅计算一个总量表的 系数。原因是低层结构中的条目都是反映同一方面的特征,相关性较高,而总量表要考虑一定的“覆盖面”,因而具有一定的“异质性”。如在生命质量测定中可以分别计算心理功能、躯体功能等领域的 系数,在心理测量中可以分别计算焦虑、抑郁、孤独等方面的 系数。,因此,系数最好用于量表的低层结构(如领域、方面等子量表,(五)评价者信度,如果量表是他评而不是自评,则还要计算评价者间的一致性,此即评价者信度(inter-rate

11、r reliability),也称评分者信度(inter-scorer reliability)。一致性的考察有多种方法,如常用的kappa系数(参见有关章节)、Kendall和谐系数W等。其中,kappa系数用于定性资料,和谐系数W用于等级资料。,(五)评价者信度 如果量表是他评而不是自评,则还要计,信度与效度分析(qiang),在标准化测量中,不论条目形式如何,一般均转化为计量的得分值来处理,因此可用方差分析的办法来计算评价者信度,也即用组内相关系数ICC(intra-class correlation coefficient)来评价。,在标准化测量中,不论条目形式如何,一般均转化为计量的

12、,信度与效度分析(qiang),此外,前述的 系数也可用于考察评价者信度,不过式(17.7)中符号的意义应重新确定。其中的K不再是量表的条目数,而是评价者人数,为第i个评价者的评分方差,为被测者在所有评价者上所得总分的方差。,此外,前述的 系数也可用于考察评价者信度,不过式(17.,四、影响信度的因素,四、影响信度的因素,前已述及,信度分析在理论基础上来源于经典测验理论,特定于测定样本和条目特征。因此,样本的特点(如同质性)和条目的特点(如难度等)都影响着测定的信度。此外,信度还受以下因素影响:,前已述及,信度分析在理论基础上来源于经典测验理论,特,(一)测定的具体方式和程序 比如采用测试者与

13、被测者面对面的一一测定方式还是采用发放以后一定时间再收回的方式、指导语是否清楚易懂、测定的场地及环境等都影响着测量的信度。,(一)测定的具体方式和程序,(二)测定条目数的多少 凭经验,只有一个条目的测验不如有10个条目的测验可靠。研究表明,在一定限度内,测验的条目越多信度越高。前述的分半信度需要进行校正就是因为由一半条目构成的量表条目数减少,低估了信度。,(二)测定条目数的多少,(三)测定者与被测者 测定者的身份和态度不同,常能影响测定的信度,如在我们进行的生命质量评定中,测定者以研究人员的身份和以医生的身份出现是不一样的,后者给被测者的感觉是为了了解其健康情况,是为他们着想。受测者的特征(如

14、文化程度、对测定的认识等)也都影响着测定的信度。,(三)测定者与被测者,(四)分数分布范围的影响 信度是用相关系数来进行评价,而相关系数受变量的取值范围(全距)影响。测验得分的分布范围越大,信度越高。因此,在测验中往往要选取不同层次的被试者,一方面增加样本的代表性,另一方面也增加测验的信度。,(四)分数分布范围的影响,第二节 效度及其评价方法,第二节 效度及其评价方法,一、效度的概念,一、效度的概念,效度即测量工具(如量表)的有效性和正确性,亦即准确度(accuracy)。意指量表测定了它打算(所要)测定的特质或功能(而不是其它特质或功能)以及测定的程度。它包含两层意思:(1)测量了什么;(2

15、)测的程度。比如量表是否测量了生命质量,躯体功能分量表是否测量了躯体功能,其程度怎样。,效度即测量工具(如量表)的有效性和正确性,,效度具有特殊性和相对性,即每个测量工具只对某特殊目的有效,仅能对其特定项目作正确的度量,或者说测验的效度总是针对着要解决的问题来说的,亦即针对着打算作出的应用来建立的。,效度具有特殊性和相对性,即每个测量工具只对某特殊目的,收集大量资料和证据来检验测验效度的过程称为效度验证(validation)。严格地说,任何测验在正式实施以前都应做出效度验证。,收集大量资料和证据来检验测验效度的过程称为效,二、效度的数学模型,二、效度的数学模型,式(17.2)中的真值方差可进

16、一步分解为共同性质所造成的方差(共性方差,)和个别性质所造成的方差(个性方差,)。前者反映所测量的特质引起的变异,后者反映其它特质引起的变异。即:(17.11),式(17.2)中的真值方差可进一步分解为共,于是,效度(V)可定义为与测量特质有关的真分数方差与总方差的比值:(17.12),于是,效度(V)可定义为与测量特质有关的真分数方差与总方差的,与测量特质有关的变异往往要通过与外部标准的比较才能判断,因此,效度是指某测量与外部标准之间关系的程度。,与测量特质有关的变异往往要通过与外部标准的比,三、效度的评价方法,三、效度的评价方法,效度的评价一般较信度复杂,按评价目的和用途不同可分为以下几种

17、类型。,效度的评价一般较信度复杂,按评价目的和用途,(一)内容效度 内容效度(content validity)也称内在效度(intrinsic validity)或循环效度(circular validity),有时也称贴切性(relevance)或代表性(representativeness),是指量表在多大程度上表示了所测特质的范畴。换言之,量表是否包含足够的条目来反映所测内容。,(一)内容效度,内容效度的评价主要通过经验判断进行,通常要考虑三方面的问题:第一,项目所测量的是否真属于应测量的领域;第二,测验所包含的的项目是否覆盖了应测领域的各个方面;第三,测验项目的构成比例是否恰当。如量

18、表的条目包含了所测概念的各具体方面而且有一定的比例,则可认为有好的内容效度。,内容效度的评价主要通过经验判断进行,通常要,也可请一些熟悉该测量内容的有关人员来评判,必要时用内容效度比(content validity ratio,CVR)这一指标来衡量:(17.13),也可请一些熟悉该测量内容的有关人员来评判,必要时用,其中,n为评判者中认为条目很好地反映了测定内容的人数,N为评判者总数。,其中,n为评判者中认为条目很好地反映了测定内容的人数,N为,(二)结构效度 结构效度(construct validity),也称构思效度或特征效度(trait validity),说明量表的构造是否符合有

19、关的理论构想和框架,也就是检验量表是否真正测量了所提出的理论构思。因而结构效度是最重要的效度指标之一。,(二)结构效度,结构效度的评价较复杂,可用各条目与各领域(或小方面)的相关分析和因子分析方法来反映。其中,因子分析除可说明结构的相合性外,尚可用共性变异(共性方差)与总变异之比作为结构效度的衡量指标。此外,结构效度的分析最好用证实性因子分析,它较探索性因子分析更能说明问题。,结构效度的评价较复杂,可用各条目与各领域(,(三)准则关联效度 准则关联效度(criterion-related validity),也称效标效度(criterion validity)、经验效度(empirical v

20、alidity)或统计效度(statistical validity)。是说明量表得分与某种外部准则(效标)间的关联程度,用测量得分与效度准则之间的相关系数表示。,(三)准则关联效度,外部准则指不通过该量表,而是通过一些客观指标或某些总体评价性项目来间接反映该测定特质。根据效标的不同,可分为两种:,外部准则指不通过该量表,而是通过一些客观指标,1.同时效度(concurrent validity)量表得分与当前效标间的相关。比如用脱毒的快慢来反映戒毒者生命质量高低,用运动速度反映躯体功能的高低等。,1.同时效度(concurrent validity),2.预测效度(predictive va

21、lidity)量表得分与将来的效标(某种结果)间的相关。比如量表得分与将来的疾病复发、恶化、死亡等结果的联系。,2.预测效度(predictive validity),在心理、教育和生命质量测量中大部分仅考察同时效度。此外,如果缺乏金标准,可用一种较流行的量表得分为效标。如生命质量测定中可用著名的测定量表SF-36或FLIC的测定结果为效标,也可让受测者自己对其总的健康状况作一个评估(比如按百分制打分),以此权且作为效标,这常称为自我报告的生命质量或总体健康状况。,在心理、教育和生命质量测量中大部分仅考察同时,(四)判别效度和聚合效度 判别效度(discriminant validity),也

22、称辨别效度,是指运用相同测量方法测定不同特质或构思时,辨别不同特质的程度,也就是说不同特质和内涵的测量结果之间不应有太大的相关性。,(四)判别效度和聚合效度,聚合效度(convergent validity),也称收敛效度,是指运用不同测量方法测定同一特质或构思时所得结果的相似程度,即不同的测量方式应在同一特质的测定中聚合在一起(收敛)。也就是说,对同一特质的两种或多种测定方法间应有较高的相关性。,聚合效度(convergent validi,使用判别效度和聚合效度主要基于以下两个原因:1.任何测量分数的变异中都有一部分应归因于特定的方法,而不仅是测量的特质本身。有时候,即便是不同的特质,也可

23、能因用了相同的测定方法而出现高相关。,使用判别效度和聚合效度主要基于以下两个原因:,2.只有通过相似性和差异性的综合分析,才能准确地描述和解释测定结果。换言之,必须说明测到了什么,没有测到什么。,2.只有通过相似性和差异性的综合分析,才能准确地描述和解,对判别效度和聚合效度的评定,通常采用Campbell和 Fiske所提出的多特征多方法(multitrait-multimethod,M-M)矩阵法分析。该法要求用多种(至少两种)方法分别测定了多个(至少两个)特质,从而可计算同一特质的任两种测定方法得分间的相关系数以及同一方法的任两种不同特质得分间的相关系数,还可计算同特质同方法间的相关以及不

24、同特质不同方法间的相关。将这些结果按矩阵式的表格排出即得到M-M分析。,对判别效度和聚合效度的评定,通常采用Camp,那么,如何判断判别效度与聚合效度的好坏呢,通常认为具有好的判别效度与聚合效度需达到下面四条标准:1.M-M矩阵中的效度系数均有统计学意义的显著性。,那么,如何判断判别效度与聚合效度的好坏呢,通常认为,2.M-M矩阵中的效度系数大于同行或列邻近的“异特质异方法”三角中的元素。3.M-M矩阵中的效度系数大于“异特质同方法”三角中的元素。4.所有异特质三角,包括“异特质异方法”和“异特质同方法”三角中的元素模式相同。,2.M-M矩阵中的效度系数大于同行或列邻近的“,此外,尚有表面效度

25、(face validity)、因子效度(factorial validity)、增量效度(incremental validity)等。,此外,尚有表面效度(face validit,效度的评价是较复杂的,实际应用时可结合各情况进行判断。Spitzer认为如果满足以下五个条件,即可认为量表是有效的:,效度的评价是较复杂的,实际应用时可结合各情况,(1)说明有内容效度和结构效度;(2)在量表的制定阶段应让病人、医务人员、一般公民提出意见,供修正和提高内容效度;(3)量表经重复使用证明其可靠性;(4)如果有金标准存在,应以金标准为准,对观察对象在相似的条件下进行观察,确定结构效度;(5)如果无金

26、标准,结构效度由判别效度和收敛效度代替。,(1)说明有内容效度和结构效度;(2)在,四、影响效度的因素,四、影响效度的因素,一般说来,前述影响信度的因素也都能影响效度。对于结构效度还受测定的条目构成的影响,效标效度还受所选用的效标的特征所影响。,一般说来,前述影响信度的因素也都能影响效度。,第三节 信度与效度分析的应用,第三节 信度与效度分析的应用,一、应用中的几个问题,一、应用中的几个问题,(一)应用范围 信度与效度分析被广泛地用于调查表(尤其是标准化测定量表)、实验研究和考试(测验)等的评价。一般说来,凡是通过测量工具得到的结果,无论是通过测定仪器得到的硬数据(如物理测定),还是通过测定量

27、表、考卷等得到的软数据(如心理测定、考试等),均需进行信度与效度分析。,(一)应用范围,除了用于评价和比较测验的优劣外,还可以用于预测和决策方面,如凭高考成绩预测学生以后是否能顺利完成学业,在人才选拔上采用效度好的能力测验来进行筛选等。,除了用于评价和比较测验的优劣外,还可以用于预,(二)考评对象 信度与效度评价的对象可以是整个测定量表(对整个量表评价),也可以是各个方面或领域(对领域评价),也可以是具体的条目(对条目评价)。一般说来,如果是标准化测定量表,通常分别进行总量表和各个领域的评价;对于包括各种条目的一般调查问卷,很难进行整个调查表的考评,一般就对某些条目或领域进行考评,并以此间接说

28、明整个调查表的好坏。,(二)考评对象,(三)信度与效度的关系 从前面的内容可以看出效度更重要,一个无效或效度很低的测验即使信度高也没有意义。因此,从一开始编制测验就应该注重提高测验的效度,并尽可能地收集各种效度证据。效度的验证通常要从内容效度、准则关联效度和结构效度三个方面进行考评,因为他们分别说明不同的问题。,(三)信度与效度的关系,内容效度测验的重点是确定测验内容与某个行为领域的一一对应关系,从理念上说明其内容是否涵盖了所研究的特质;准则关联效度着重于测验分数与某种效标的相关,既可用于说明效度的好坏,也可用于预测;结构效度则是说明测验结果表现出的结构与理论上对该特质的结构认识吻合程度。,内

29、容效度测验的重点是确定测验内容与某个行为领域的一一,一般说来,内容效度和结构效度是必须考察的,至于准则关联效度则视情况而定,如能找到恰当的效标则也可考评。,一般说来,内容效度和结构效度是必须考察的,,信度是效度的必要条件,而不是充分条件。信度高效度未必高,但信度低很难有高的效度,因此要认真考虑前述影响信度的因素,采取措施尽量提高测验的信度。,信度是效度的必要条件,而不是充分条件。信度高,本章介绍的各种信度评价方法本质上都是对测验的一致性进行估计,但由于误差来源不同,它们研究的侧面各不相同,其中重测信度说明的是测验跨时间的一致性,复本信度说明的是跨形式的一致性、内在一致性信度和分半信度说明的是测

30、验跨项目或两个分半测验之间的一致性,评分者信度说明的是测验在不同评分者间的一致性。,本章介绍的各种信度评价方法本质上都是对测验的一致性进,这些信度在同一个测验中未必都需要或都能进行考评,比如采用了重测信度就不会再用复本信度,对自评量表根本就不需要进行评分者间信度的考评。一般说来,分半信度和内部一致性信度根据一次测验即可计算,原则上都要进行考评;重测信度或复本信度也应进行考评,根据测定的形式采用一个即可。,这些信度在同一个测验中未必都需要或都能进行考,(四)考评标准 信度与效度的考评大多是计算各种相关系数,因此其取值越接近1越好,越接近0越差,但还没有公认的判断标准。一般说来,0.9以上可以认为很好,0.7以上为好,低于0.4算差。但有些测验变异较大,如生命质量测定中的症状与副作用功能领域,信度系数低一些也可以接受。,(四)考评标准,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号