《主题五 选员方法与人事决策.docx》由会员分享,可在线阅读,更多相关《主题五 选员方法与人事决策.docx(33页珍藏版)》请在三一办公上搜索。
1、主题五 选员方法一、 选员方法1. 测验2. 面试3. 工作模拟4. 情境练习5. 加权履历表6. 笔迹分析7. 评价中心8. 其他附录3 如何编制加权申请表格 采用申请表格来预测未来的工作绩效,系基於应徵者的某些答案比其他答案更能指出以後能否胜任工作。举例来说,你也许会发现年龄介於2125岁的应徵者常服务不到一年就辞职跳槽,而年龄介於31一35岁的应徵者常能服务得更久。因此,你需要一种方法能让你给予年龄介於3135岁的应徵者较高的评分。本附录所提供的技术乃使你能够权衡申请表格中各个项目的相对重要性(注:请仔细研读表1,2,及3)。履历表中的项目短期离职长期服务差异权数地址市内4070-30-
2、3乡镇603030300100年龄20岁以下401030321252030-10126302020003135102010135岁以上1020101100100以前薪资$3,000美元以下5020303$3,000一$4,0002040-20-2$4,000一$5,000202000$5,000美元以上1020-10-1100100小孩年龄入学前4020202国中、小学2030101高中以上40501101100100范例说明:短期离职者有40住在市内,有60住在乡镇。 步骤1:决定衡量的重点首先决定衡量的重点(通常称为准则),这也许是服务期间的长短、在职绩效、员工偷窃等等。如果选择服务期间之
3、长短做准则的话,接著决定标准诸如服务一年以上。 步骤2:收集资料接著,在某段期间内(例如从1 9 7 8年开始),收集服务满一年以上(长期服务者)及服务未满一年(短期离职者)等员工的资料。从统计的观点,样本资料越多越好。 步骤3:计算百分比接著,依资料分别计算长期者与短期者所占之百分比,情形如表1所示。 步骤4:计算差异百分比接著,计算差异百分比即长期者与短期者之百分比,之差,情形如表1所示。 步骤5:差异百分比转换成权数例如,30差异转换成+3,10转换成1等等。情形如表1所示。 步骤6:加总应徵者的总分;如表2的范例所示,该名应徽者的总分为6。其余类推。表2 应徵者加权分数之计算范例姓名:
4、哈维虎利地址:史普林区,亚伦街108号市内3 年龄:23岁 2125岁1 以前薪资:$5,800美元 $5,000美元以上1小孩年龄:5岁小学l总 分6大於或等於某总分的累积百分此AB总分长期服务者短期离职者差异指数(A-B)214042040419404181201217160161620020152002014240241324321122832511323227103682894010308401426744152964817315602040取舍总分4682246差异最大处3722745272324017239330804238-1804634-2805426-3846618-4926
5、824-5927616-692857-796906-896942-9100982-101001000 步骤7:找出理想的总分在我们说明的例子里,此一理想的总分即最能区别长期服务者与短期离职者的分数。找出此理想总分的一个方法如表3所示。由现有资料之计算,总分介於一10至+21之间。然後分别计算长期服务者与短期离职者大於或等於某总分的累积百分比,接著计算两者的累积百分比之差异做为差异指数,指数最大时所对应的总分即上述的理想总分“。情形如表3所示 在我们用以说明的例子中,+4是理想的总分。也即最能区别应徵者是否属於长期服务者或短期离职者的分野。 表3 决定理想的取舍总分资料来源: Edwin AFl
6、eishman and Alan R,Bass,Studies in Personnel and Industrial Psychology,3rd ed(Homewood,:The Dorsey Press,1974),p90 申请表格中有用的项目乔治英格兰(George England)检视许多关於加权申请表格的研究,依他的看法,他列出一些有用的项目,汇总於表422中。这些项目包括年龄、学历、个人属性等。人事经理人可以采用这些项目做为编制加权申请表格的基础。 可用於编制加权申请表格约个人资料项目(*表可能违反法律规定)个人资料:就业经验:年龄*学历与职业配合的程度就业年龄以前的职业婚姻状况
7、。高中时期工读性质结婚年数特殊工作经验小孩数目以前的销售经验第一个小孩出生时的年龄以前的推销保险经验健康状况工作经验的年数月数最近的疾病及治疗情形自行创业曾经失业的期间(近两年)是否曾服务於本公司生活状况目前工作的年资住宅问题(自有或租屋等)以前工作的服务期间居住地点目前最少的生活费用居住城市大小要求最低薪水最近搬家的次数期望薪水(2年後,5年後等)上个住所居住的期间国籍*出生地社交:体重身高社团会员(在校期间与出社会後)性别集会的频数一般背景:社团的办公室地点父亲职业社团负责人的经历母亲职业教会会员兄弟姊妹职业服务军职与阶级退役纪录兴趣:早期受抚养的情形户外或户内活动父母相处的情形嗜好父母有
8、何专业技能运动项目家庭生活稳定性娱乐项目妻子是否上班工作高中或大学所修的详细科目高中所喜爱或不喜欢的科目个人属性:学历:乐於调职或打算迁徙某地学历对自己的信心妻子的学历基本个人需求(有五种)亲友的学历会不会开车半工半读或父母亲供给就读工作偏好主修枓糸距离高中毕业的年数公私立学校杂项:大学的评等应徵者与雇主的协议时间奖学金以前雇主的评语在校成绩 资料来源: George WEngland,Development and Use of Weighted Application Blanks。reved (Minneapolis: Industrial Relations Center,Univer
9、sity of Minnesota,1971),pp 1619摘 要 编制加权申请表格的目的在於决定(1)表格项目(例如年龄)与(2)工作绩效之间的关系,并决定各个项目中各种程度(例如年龄在2130,3140,4l一50岁之间)之权数。根据两位专家的看法,加权申请表格可用以取代遴选测验,基於下列理由:1 大多数的人都愿意填写申请表格。2 加权申请表格在填写时并无评分的意味。3 对大多数人而言,填写申请表格不像接受测验那般感受到压力。4 加权申请表格以统计资料为基础,因此从法律的观点,EEOC可以接受”。 使用加权申请表格的法律顾虑 虽然加权申请表格可以成为有效的筛选工具,但也有可能在字义上违反
10、公平就业法律的精神”。 在使用加权申请表格时所产生的法律陷阱大部分来自下列两件事情:(1)即使不是有经验的心理学家,一般人也可以相当容易地运用加权申请表格;(2)很多可能对於少数团体造成负面影响的项目常包含在评估程序中。当然,诸如种族、性别、年龄、出生国等项目也可以包含在申请表格中,只要雇主能够证明这些项目与工作绩效有关,而且不失公允性。然而,问题在於这些作法常会引起EEOC的注意。此外,由於这个方法相当容易使用,因此非专家的人员常因此犯下违反法律规定的错误而不自知“。此时,我们应注意两件事情。第一,尽可能根据审慎的工作分析,找出与工作绩效有合理关系的项目,而避免那些可能造成负面影响的项目。第
11、二,非有经验的人事心理学家在使用这个技术时须相当小心。主题六 人事决策一、 人事决策过程 1、人事选员决策过程古典选员模型图7-2为一个经典的人事选择模式,它说明了人事选择的过程。从图中可以看出,人事选择的过程是决定能够反映个体职务绩效差异的预测因子的过程,它包括如下步骤: - 步骤1 职务分析 选择绩效效标 步骤2 选择测源因子 绩效评价 Y 步骤3 选员评价X 步骤4 预测因子效度研究 (评估预测因子与效标的关系) 效度高 rxy 效度低 预测因子效用评价 步骤5 重新选择预测因子 效度推广研究 步骤6 试用新的预测因子 图7-2预测因子过程的步骤二、预测源效度研究为了保证决策的质量,我们
12、就需要对预测源的效度进行研究。1. 实证效度研究预测效度研究与同时效度研究 实证效度又称效标效度,我们前面已经介绍过了。实证效度关心的是预测源分数与效标分数之间的关系,而不是预测源分数本身。对于效标预测来讲,预测源的内容效度是不重要的,预测源只不过是预测效标的一种工具。 1、预测效度研究获得预测源分数与效标分数之间的相关资料预测效度资料是个体差异预测的基础。预测效度研究表明了在特定情境下预测因子与效标之间的实际关系。进行预测效度研究有如下步骤(1) 对该工作的候选人进行预测源测量。(2) 在不使用预测源分数的情况下挑选候选人。(3) 候选人工作一段时间以后测量其工作绩效。(4) 评定预测源和效
13、标之间的关系强度。(通常用计算预测源分数与效标分数之间的相关系数来确定) 2、样本大小与效度研究的统计力度分析 在设计效度研究时,有些因素需要予以考虑。其中之一是样本大小。样本太小常是由于被试人数有限造成的,有时则表明缺乏合理的计划。实际上,样本大小问题会影响效度系数的统计力度。统计力度是拒绝虚无假说的概率(预测源分数与效标分数相关的显著性水平)。科恩在1977年指出,从较大的范围来看,任何一个虚无假说的统计检验都可被看作是四种参数间的一种复杂关系(1) 测验能力1,这里指犯错误的概率;(2) ,拒绝虚无假说的区域;(3) 样本大小,统计力度随的增加而增加;(4) 预测源效度的大小或偏离虚无假
14、说的程度力度随影响规模的增加而增加。 力度分析作为研究设计的一个工具是很重要的。如果发现效度研究的统计力度不够,可以修改或放弃研究计划,以使力度增加,通常采用增加或的办法增加统计力度。 相关大小(预测效度)可以用下述方法估算(1) 考察从以前的有关工作中得到的数据;(2) 确定一个有实际意义或理论意义的最低的总体效应(预测源分数与效标分数间的相关);(3) 使用传统的“小”(0.10)、“中”(0.30)、“大”(0.50)的效应定义(括号里的数字是相关系数)。一旦规定了能力和效度大小,所要求的样本大小就确定了。可以查相关系数的临界值表(这一类表在教育心理统计书中都可以察到)。 来源人事心理学
15、卡西欧 (美)146页 实际上,统计力度分析,就是对效度系数进行显著性考验,如果考验结果相关不显著,需要修改效度研究计划。而这种修改常常涉及到的是增加样本量(即增加),因为样本小正是通常我们无法确定相关是否显著的原因所在。 3、测验与效标数据搜集的时间间隔问题 一个雇员工作多长时间才适于对他的绩效进行评价?有研究表明,最初的学习阶段已经结束时时候是较适当的时机。有些工作的学习时间比其他工作长,而且训练方案的时间也有长有短。对人际接触相对较少的工作来说,时间间隔可以短些;反之,则必须等一年甚至更长的时间,否则就不可能搜集到可靠的效标数据。 4、效度样本的代表性 效度研究的样本必须要有代表性,这是
16、指用作效度研究人,需要在年龄、教或职业背景等方面要与预测源所要施测的候选人团体相符合。另外,必须用真正的求职者并且有努力工作动机的人进行预测效度研究。经常是由于种种限制,我们无法用候选人作样本进行预测源效度研究,只能使用现有员工在样本。可以肯定地说,现有员工样本与候选人样本,二者的激励条件是不同的,对于后者来说,测验成绩意味着有可能得到工作。这一点在笔者所做的用卡特尔16种人格测验进行选员的一项测验研究中反映得特别明显在一般非选员情境下进行卡氏测验平均说谎分数为4分,而在选员中进行卡氏测验说谎分数平均在7分,很多人说谎分数到8分或10分,这在其他情况下是很少见的。 5、同时效度研究 预测源变量
17、与效标(职务绩效)变量之间的相关可以通过两种方式获得,即同时效度和预测效度,这两种效度的明显区别之一就是收集预测源分数与效标变量数据的时间间隔不同。但着者的本质区别在与分数解释功能的差别,有同时效度的预测源具有诊断功能,只有具有预测效度的预测源才有预测功能,这在测量理论中我们已经讲过。基于预测效度与同时效度的上述差别,若要考察预测源变量是否能有效地预测职务绩效,就应该录用所有的参加预测源测量的申请人,让他们在实际职务中工作一段时间,再收集他们的职务绩效数据,然后与预测源分数进行相关比较,这就可以得到预测源的实证效度。但通常组织中很少采用这种方法。这主要是由于两方面的限制:要观察员工稳定的工作行
18、为,需要较长时间才能得到标准的信息。无论候选人好坏都录用到组织中,会给组织带来损失。一般预测源和效标关系的建立都是用组织现有在职员工作样本,这样能够迅速地得到预测源及效标的测量数据。但这种同时效度方法也有一些局限:由于那些对工作不满和不适合工作的人都已自愿或非自愿地离开了工作岗位,现有员工所代表的预测源与标准的相关就不能代表实际候选人样本中的相关,一般是低于样本的相关。现有员工与候选人样本在年龄、经验、工作动机方面都存在着差异,预先不了解这些差异就有可能降低或提高标准。现有员工可能由于害怕测验会威胁他们工作的安全,而不愿意参加测验,即使测验是匿名的,也会出现这种情况。因此,这会降低效度研究中的
19、人员数量,郭因(1965)认为,同时效度是不能替代预测效度的。有些研究者试图采取用另一预测源来检验新预测源的效度,以解决同时效度的问题。但这也会带来问题,因为如果两个预测源具有相关,那么也会把预测源分数限制在某一范围内,而得不到所有预测力的分数分布。最近的研究结果打破了长期以来认为预测效度优于同时效度的观点。贝瑞特等人(Barret etc., 1981)的研究表明,在认知能力测验中,两种效度没有显著的差异。也就是说,利用同时效度并不比预测效度方法效果差。不过,贝瑞特在研究人格、兴趣的测验中,没能得到同样的结论。2. 内容效度 关于测验的内容效度,我们在第三章已经做了定义。在此我们讨论选员情境
20、中内容效度问题。 21 人事决策中内容效度与构成效度研究的关系 在人事决策中,我们主要关心的是作出有关工作绩效方面的推论。在使用与内容效度有关的证据方面有三个假定(1) 使用者所关心的方面是一个有意义的、可限定的反应总体;(2) 可以用某种有目的的、有意义的方式从总体中抽取出来;(3) 对样本的取样过程的规定可以使使用者准确判断绩效样本是否适当地代表了极小总体。 在成就测验中,可以对绩效总体作严格的规定,但大多数工作都包括许多方面。因此,我们具体规定的工作绩效只不过是绩效总体的一个部分。工作绩效的行为范围很广泛,有的可以直接观测到,有的可以作记录,有的则是高度抽象的。从可观测的行为到抽象的行为
21、构成了一个连续体。抽象程度不同,所需要的效度证据也不同。在连续的“可观测的行为”一端,任职者上级或其他人员,可以作出较适当的判断,所需要的是与内容有关的证据。这种证据来自简单的熟练程度测验、工作知识测验等程序,而工作样本测验在这类情形下是最恰当的。在连续的“抽象行为”一端(如归纳推理),与构成有关的证据较为适合。 因此,可以得出这样的结论,如果测验程序关注的是工作产物(如打字),那么与内容有关的证据是合适的(即研究内容效度);如果关注的工作过程(如推理能力),与内容有关的证据则不适合了。然而,即使是工作的产物(如打字),实际上也由工作的过程来决定(如制作一个打字样本)。打字能力隐含着对不同的人
22、的内在特性的推论,我们不能直接观测到它,酯通过搜集与之相联系并随之发生变化的行为样本才能阐明它。在这种意义上说,打字能力与推理能力,“力量”或记忆力并没什么不同,它们都不能被直接观测到。 这样,问题不在于测量的是否是构成,而在于测量的是哪类构成。一旦这一点明确了,就可以确定用什么程序来进行检验。与内容有关的方法和与构成有关的方法之间的差别仅仅是程度上的问题,这是因为构成是心理测量的基础。22 确定内容效度的方法 由于内容效度是一种对测验内容的主观评价,因此,它很难用定量的方法来进行研究。这就限制了对预测源内容效度的评估。 研究预测源的内容效度可以根据评估小组各个成员所认定的该测验和工作绩效的一
23、致性程度来评价。罗施(Lawshe. 1975)提出给内容评估小组的每个成员 (职务任职者和上级 )一套测验项目并要求其独立指明每个项目所测量的技能(或知识)是否必须和有用,然后将所有小组成员的反应集中起来,确定每个项目被认为是“必需”的数目。于是某一项目的内容效度比率(CVR): NeN 2 CVR=N/2 (7-6) 其中,为小组成员认为“必需”的总数, 是小组成员的总数。如果某项目的内容效度比率低于统计要求则被删除,然后计算剩余项目的平均CVR值,该值被称为内容效度指数(CVI)。关于CVI的计算是这样如果一个预测源由个项目构成(通过前一步评价剩余的项目),则预测源的内容效度指数为: C
24、VRk CVI= K (7-7) 由此可知,采用小组评估方法确定预测源的内容效度包含两个步骤第一步评估每个预测源项目的CVR,然后删除达不到统计要求的项目;第二步根据上一步筛选的剩余项目的CVR,计算预测源内容效度指数CVI。预测源具有较高正的CVI,则为好的预测源。CVI代表在工作绩效方面起作用的能力和该预测源测验分数的温和程度。罗施的内容效度方法亦适合于小样本。 2.3 内容效度的用途 预测源的内容效度在效标测量中是极其重要的。例如我们可以用定量化的预测因子对工作知识标准或训练计划的内容进行评价。概括起来说,预测源内容效度的积极作用是(1) 它使组织能够注意到改进工作取样和工作分析程序;(
25、2) 使组织进行更好的工作行为测量;(3) 在确定工作取样和对预测源项目内容效度评价中,重视专家判断的作用。3、交互效度分析与效度资料的泛化 3. 1 效度泛化和推广问题 所谓泛化(或称概化)指的是在一定条件下得出的结论能否适用于其他情况。传统的心理测量理论认为,测验的效度与信度一样,都是与特定的情境有关,只是具体情境下的效度,而不能笼统谈论某一测验的效度。这有两个含义第一,一个测验可以有很多效度;第二,即使效度已在某一情况下确定,也不能认为这一测验在另一情况下一定有同样的效。因此,当我们提到某一测验的效度指标时,一定要说明这个指标是在什么情况下得到的,它的适用范围有多大。因为效度是由情境特定
26、的,所以,即使一个效度系数较高的测验,在使用时也要非常谨慎,要检查一下对自己的情况是否适用,如果可能,最好单独建立自己所用的测验效度指标。使用测验而忽视其效度,是不严肃,不道德的行为。当然,并不是在每一种情况下都有独立评价测验效度的必要。效度资料不但具有特定性,还有一定的的泛化能力,只是泛化的程度和方面不同而已。我们至少可以从以下五个方面来考虑效度的泛化(1) 预测源的泛化使用同一测验的不同复本是否同样有效?在同一测验内,其预测能力对于不同分数水平的人是否同样有效(即测验对高分者与低分者是否预测得同样好)?(2) 效标的泛化采用不同种类或不同时距的效标,测验是否同样有效?对于效标的不同分数水平
27、是否预测得同样好?(3) 施测情境的泛化不同的施测者,不同的施测条件,以及在不同的指导语或心向下做测验是否同样有效?后面这一点尤为重要,因为测验是用于研究,还是选员,其效度可能差异很大。(4) 被试团体的泛化测验对于取自同一团体的另一样本是否同样有效?测验对于不同性别、不同年龄、不同种族、不同学校、不同职业的被试是否同样有效?(5) 建立效度方法的泛化用不同方法得到的效度指标是否一致?效度系数、取舍正确性、功利率等各项指标之间是否有矛盾的情况? 因为效度受许多方面因素的影响,所以我们在使用和评价测验时,一定要搜集多方面的资料。对预测源进行实证效度的研究,无论是采用同时效度还是预测效度方法,都存
28、在着这样几个问题:第一,样本数量问题。必须有足够数量的样本,才能使对预测源和标准相关的评价研究具有较高的可靠性。样本的规模究竟应为多大,不同的心理学家有不同的看法。但一般都认为样本应以150200个为宜。因此,对于组织来说,为每一个职务的研究都得到这么多的样本比较困难。第二,在人事选择实践中,每次都实施预测源效标相关研究既困难,又不经济。因此,对于预测源效度的研究,人事心理学家们提出,可以把效度推广和综合效度方法用于实际组织的选择决策中。这样就可以解决上述两个问题。效度推广的概念是指一个预测源的效度,推广到类似职务或其他背景条件时仍然具有效度。例如,某一个测验对某一组织选择秘书职业有效,对另一
29、个组织选择秘书职业同样有效,这就是效度的推广。 人事心理学的传统观点认为,选员测验的效度具有情境特殊性。这一信念的基础源于以下的经验事实,即测验的原始效度系数在不同的研究中存在很大差异,即使工作和测验相似或本质上相同也是如此。因此,人们认为需要在每种情境中进行经验性的效度评定,效度泛化本质上是不可能的。效度不能泛化则不可能发展不怕的原则和理论,而这却是使该领域从单纯的技术发展成一门科学所必需的(盖恩,1976年)。但是,在实际情况中,大多数的预测源效度都不能推广,预测总是在某一特殊条件下有效。近来的研究证据对这种情境特殊性学说提出了很大疑问。迟密德和汉特发现,典型的效度研究往往只有中等的统计力
30、度,情境特殊性实际上是人们的误解。迟密德和汉特(1978年)认为,造成这种问题的原因是由于心理学家的小样本法则的错误观念。并认为,小样本(40以下)的规律是很不稳定的,往往导致效度估计比实际状态要高。还指出,如果效度在大样本中有效,效度就能够推广。除了样本数量所带来的偏误,迟密德、汉特的研究(1977年)还指出有七种造成效度无法推广的原因(1) 取样错误(即由于N产生的变异)。(2) 各种研究之间在效标信度方面的差异。(3) 各种研究在测验信度方面的差。(4) 各种研究在全距限制方面差异。(5) 各种研究在效标污染和效标缺乏方面数量和种类上的差异。(6) 计算、印刷和抄写方面的错误。(7) 某
31、类测验(算术推理测验)在要素结构方面的细小差异。 迟密德和汉特(1977年)发现,仅是前三个来源就能解释在四种效度系数分布中观察到的50%的变异。迄今为止已有数十项研究提供了否定情景特殊性学说的事实,认为对类似的工作和特定的能力,效度系数所作的大部分研究出现变异的情况都是由取样误差等虚假来源造成的。如果用单一、的大样本效度研究产生许多个小样本研究,同时组织、测验、工种、效标测量、申请人、时间长短和样本大小保持恒定,则会发现相同的结果。即使在这些情况下,四观察到的效度系数仍有相当大的变异,并可以断定这些变异是由取样误差造成的。要是能够校正迟密德和汉特发现的七种误差变异来源,则各种研究之间不会出现
32、误差。 因此,应通过研究来确定效度是否能推广以及推广的程度。效度在上述因素都得不到控制的条件下就不能推广。总之,效度推广对人事选择实践具有很重要的意义。它使具体选择实践中,不必每次都要研究效度,从而节约大量的成本。但是,考虑到不能推广效度的预测源所造成的损失,对效度的推广也应持慎重态度。3.2 交互效度研究 由于时间、人员、情境和效标方面会发生变化,对于预测目的的任何测量的效度进行独立的检验则是一件很重要的事情。这种独立的检验被称为交互效度评定,它可以按两种方法中的一种进行 (1)经验交互效度评定交互效度分析是考察效度泛化能力的一种方法,只涉及到被试样本的泛化。这种方法是对两个独立取自同一总体
33、的样本分别建立其预测源效标关系,看从一个样本中得到的效度资料是否适用于另一样本。在只有一个预测源的情况下,交互效度的确定过程如下 1、从一个样本搜集测验分数与效标资料,计算相关系数rxy,并导出回归方程Y=a+byxx 2、从同一总体中独立地取出第二个样本,应用由第一个样本导出的回归方程式来计算第二个样本内每个人的预测效标分数。 3、搜集第二个样本的真正效标成绩,计算预测的与箴的效标分数的相关。通常在第二个样本里所得到的预测分数与真正效标分数的相关比第一个样本所得到的效度系数要低,因为使原相关达到最高点的随机因素在确定交互效度的样本中不一定有。如果二者大为不同,说明原来的效度系数不够可靠;若二
34、者相差不大,说明原效度资料可以泛化到同一总体的不同样本。 (2)统计交互效度评定 统计交互效度评定,是通过R(相关性)、N(个案数目)和m(变量数)的函数关系调整样本的相关性。然后根据运用的具体公式用调整后的R估计总体的相关性或交互效度的总体相关性。统计交互效度分析可以用于所有回归预测的效度研究,但通常用于多重回归分析预测中。其目的是检验多重回归确定的预测源总的预测能力是否稳定,是否随着样本的特点而变化。它类似于多重预测源的效度推广。如果我们把一个总样本分为两个分样本,以第一个样本确定的多重回归方程对第二个样本进行回归预测时,效度(多重相关)可能就会下降。第二个样本的效度相对第一个样本的效度为
35、交互效度。第二个样本效度下降的量称为收缩量。较大的效度收缩一般是由于两个样本差异很大(原样本都是有经验的员工,两个新样本都是新手)、预测源数目多,以及被试数目少造成。被试与预测源数目的比例一般都不应低于10:1,即每增加一个预测源,至少应增加10个被试。 统计交互效度的计算公式为 收缩后 R2=(1R2原) (7-8) 来源教育心理统计郝德元 P422页 其中, R2=收缩后的效度(也是总体相关的估计);R2原=为原效度;N=相关着的样本中的个案数;m=相关着的变量数。 在许多情况下人们偏爱统计交互效度评定。一是包含在样本中的所有信息都可以加以利用,这使回归系数的稳定性最大;二是,统计校正比较
36、省时,研究者所费的精力也较少;第三,也是最重要的是,该公式所提供的估计值似乎极为精确(墨非,1983年)。4. 元分析 有关效度泛化的工作是和格拉斯1976年提出的元分析技术同时发展起来的。其后许多研究者都提出了令人信服的观点,认为对经验研究进行记事性的文献评述会得出错误的结论,因为它使用的是各研究结果的质而不是量的积累。元分析是一种数量积累方法,它使研究者能够比任何单一的研究更好地理解某种现象。 元分析方法的用途可分为两种一是作科学推论;二是使用以前的效度研究结果,支持将测验用于一种新的情境。该方法的步骤如下(1) 计算所需要的各种研究的描述统计量(如平均效度系数)。(2) 计算该统计量在研
37、究中的变异。(3) 从步骤中减去由取样错误产生的变异量;这产生一个在总体中r(相关)变异的估计值。(4) 校正平均数和变异数,消除取样误差之外的统计上的误差(如测量缺乏信度、全距限制等)。(5) 将经过校正的效标差与平均数进行比较,评价研究结果中潜在的变异量。(6) 如果仍有较大的变异,则选择调节因素变量对子群体进行元分析。 举一例子来说明,让我们考虑探讨工作设计对元离职现象实验性影响的五项研究。见下表7-5 表7-5 工作设计对元离职现象实验性影响的五项研究研究 12345样本大小(n)823957246206相关(r)0.1470.1550.2780.3290.20 Niri第一步 = =
38、0.171 Ni Ni(ri)2第二步 Sr2= =0.002 Ni 第三步 这里 =0.0038 p2=0.0020.0038=0.0018 这意味着p近似于零。第四步根据现有数据不能进行,在本例中也无必要。 第五步对总工作设计和人员离职现象间的总体关系的最好估计值是0.171。各研究间所得相关 的差异纯属取样误差。第六步不需要。 尽管在直觉上看来很有吸引力,但不加区分地使用元分析也会出现问题,我们必须认识到这一点。实际上,布洛克和斯沃特在1985年已经提出了一套评价元分析研究的效标。符合质量标准的元分析研究应当(1) 使用一个理论模型作为元分析研究的,棘手一对根据该模型所作的假设进行检验。
39、(2) 精确地限定检验这些假设的范围。(3) 选取所有能公开获取的术语规定范围内的研究成果(不只是发表的或轻易得到的研究成果)。(4) 避免根据诸如方法方面的挑剔、研究年限或刊物等级标准选择研究成果。(5) 公布或公开列出最终分析中使用的研究结果。(6) 根据理论而不是是否方便选择变量。(7) 提供详细的文件说明编码方案、使用编码解决问题的方法,包括评估丢失数据的程序等。(8) 让多个评定人使用该编码方案并对评定人间的信度进行严格的评价。(9) 报告所有分析过的变量以避免发生在变量子集中利用机遇性相关的问题。(10) 公布或公开在分析中使用的数据集。(11) 考虑对自己的发现作其他种解释。(1
40、2) 把结果的推广限定在本研究的范围内。(13) 报告研究特点,以便理解能实际分析领域的性质和范围。(14) 详细报告整个研究,考虑直接进行再次研究。 使用统计方法时必须认真思考才有帮助。符合上述标准的数量分析在加深我们对组织现象的理解方面有十分重要的作用。5、综合效度(又称构成效度)研究 内容效度与实证效度研究方法都不把了解测验的特性或构成作为基本目标。然而在我们试图改进预测能力时,需要某种理论框架组织和解释已有的数据并为进一步的研究提供指导。该理论框架说明构成的含义,将之与其他构成区分开来,并且表明对该构成的测量如何与其他变量联系起来进行(美国心理学会标准,年),这就是研究构成效度(心理测
41、量理论中又称为构想效度)的作用。 研究构成效度试图回答两个问题:(1) 该测验或其他程序所测量的心理构成是什么?(2) 该测验测量这种构成的程度有多好? 其焦点集中在更为广泛和更为抽象的行为描述上。构成的效度不是一项研究所能完成的,为了确定该测验分数的意义,需要积累多方面的证据。因此这既是一个逻辑的又是一个经验的过程。 构成的效度评定过程从研究者形成有关某个测量程序的高分者相对于低分者的特性的假设开始。从整体上看,这样的假设构成了一尝试性理论,以说明核测验或其他程序想要测量的构成的性质。这些假设以后可以用来预测该测验的不同得分者在某些其他测验或特定情境中的行为。 需要注意的是,在这一过程中,测量程序起着一种符号的作用,它阐明了所感兴趣的行为领域的性质,因而也就阐明了构成的基本性质。构成不是根据一个孤立的事件而是根据一个“法则网络”由相互关联的概念、命题和定律组成的一个系统规定的,它把可观察的特性和其他可观察物,把可观察物和理论构成或把某一理论构成和另一个理论构成联系在一起。 如果我们对不同得分者行为的预测被经验所证实,那么我们就可以认为核测验或其他程序