第 1 部分中,我们研究了法院对是否存在差异影响的裁决。现在,我们将研究法院对测试有效性的裁决。

法院对测试有效性的裁决:是否与工作相关并符合业务需要?

由于差异影响已得到证实,本案的第二项裁决是 2008 年测试是否与波士顿警察局(BPD)中尉职位的工作相关,是否符合《统一准则》要求的业务必要性。与工作相关和 "符合业务需要 "意味着测试与工作相关,并且是帮助业务有效运作所必需的。

统一指南》中描述的三种测试验证方法

统一准则》中描述了三类测试验证方法,用于确定实践、程序或测试(PPT)是否与工作相关,是否符合业务需要:标准验证、内容验证和结构验证。统一指南》提供了一套在进行验证研究时应遵循的最低要求。但是,《统一指南》并没有规定验证研究必须遵循的过于具体的方法,这样的验证研究才有可能在法律上站得住脚。第一种验证方法是标准效度,它提供了统计证据,证明那些在 PPT 上表现较好的人更有可能在工作中取得成功,从而表明 PPT 与工作相关。第二种验证方法是内容效度,它提供了 PPT 与工作相关的推论证据。这是通过对工作的深入研究(工作分析)和一系列主题专家(SME)意见调查来实现的。评估 PPT 是否与工作相关的第三种验证方法是结构效度。构造效度是通过确定以下三者之间的关系来证明的:与工作相关的具体特征、衡量该特征的 PPT 以及工作绩效的衡量标准。由于结构效度证明的难度和复杂性,这种方法很少用于 PPT 评估。

无论是标准验证还是内容验证研究,通常都会首先审查包含以前制定的职位分析、职位描述和雇主可能已经制定的其他信息的文件。这些文件通常描述了该职位人员履行的重要职责,以及履行这些职责所需的知识、技能、能力和个人特征(KSAPCs)。知识、技能、能力和个人特征是成功履行岗位职责的基础。在内容验证研究中,这些信息是所需工作分析的基础;在标准验证研究中,这些信息是工作分析的基础。工作分析是对创建 PPT 的工作的深入分析,包括记录担任该工作的人员所履行的重要职责,以及履行这些职责所需的 KSAPC。它还包括从中小型企业那里收集有关这些 KSAPC 的调查数据,如 KSAPC 和工作职责的重要程度和频率。工作分析要比工作分析严谨得多。工作分析包括审查工作信息,以确定与工作相关的工作行为或绩效的衡量标准。在 BPD 考试案例中,采用了内容验证方法,因此进行了工作分析。

内容有效性文件

在进行工作分析时,可以使用多种方法。不过,方法越是严格遵循《统一指导原则》第 14C 条关于内容效度的规定,工作分析在法庭上就越有法律效力。统一指南》还概述了工作分析、测试开发和测试验证必须如何以不同的方式记录内容效度、标准效度和构造效度研究。雇主必须牢记这一点,因为测试开发人员就工作分析、测试开发和测试验证所遵循的具体步骤提供的文件越严密,选拔程序在法律上就越站得住脚。统一指南》第 15C 条概述了内容效度应包括的 19 种基本要素和 8 种不同要素。某些要素虽然没有被列为基本要素,但在适用的情况下也应包括在内,因为在某些情况 下很难包括这些要素,或者有时可以采取其他方法。

所需领域包括

  • 工作分析的日期和地点
  • 开展研究的环境
  • 工作分析的要素
  • 遴选程序的要素及其内容
  • 遴选程序与工作之间的关系
  • 调查的其他遴选程序
  • 遴选程序的使用和适用
  • 联系人
  • 准确性和完整性

下文将讨论文件审查情况以及市政府如何处理或未处理这些要素。

波士顿警察局中尉的工作分析研究

接下来,法院审查了 BPD 警督的工作分析,以确定其是否符合《统一指导原则》中的内容验证要求。就 BPD 考试而言,法院认为该市充分满足了《统一指导原则》对工作分析的要求。

波士顿警察局中尉的角色

在解释对工作分析文件的审查之前,必须首先对波士顿警察局中尉的角色有一个高层次的了解。在研究工作分析文件以确定测试是否与工作相关且具有业务必要性时发现,波士顿警察局的中尉是二线主管,负责监督警长,而警长负责监督警官。中尉还负责警察局,负责逮捕嫌疑人,并负责囚犯的安全。警察局还需要大量的案头工作。

中尉需要在局外工作,包括在社区会议上与市民交谈,以及控制重大事件现场。中尉所需的监督技能包括激励员工和在各级人员之间沟通信息的能力。自 1979 年以来,波士顿警察局中尉的正式职务说明一直没有变化,现任警察局长威廉-埃文斯(William Evans)作证说,该职务说明仍然准确无误。统一指导原则》强调,随着时间的推移,职务会发生变化,因此要更新职务分析,并给出了每五年审查一次职务分析的良好经验法则。

用作创建 BPD 考试基础的工作分析

下面将更详细地讨论作为本案证据的工作分析。在制定 BPD 案例中使用的 2008 年考试时,使用了三种不同的工作分析作为基础:1991 年进行的工作分析、2000 年进行的吸收了 1991 年工作分析某些要素的工作分析以及 2008 年进行的简略工作分析。2008 年的简略工作分析是对 2000 年工作分析的小幅更新。2008 年简略工作分析最终被用于 2008 年考试的编制。这里只对 2000 年和 2008 年的工作分析进行说明,因为它们对 2008 年考试的开发最具基础性。

2000 年工作分析

为进行 2000 年的工作分析,市政府与一家外部咨询公司签订了合同。该公司首先列出了波士顿警察局中尉可能执行的 302 项相关任务,以及执行这些任务所需的知识、技能和能力 (KSA)。由警察局中尉或更高级别员工组成的 12 名中小型企业对任务的频率、重要性、上岗后执行任务的必要性以及成功执行任务与成功完成工作的相关程度进行了评分。如果有 10 名中小型企业人员在入职时将某项任务评为 "非常重要 "或 "重要",并认为执行该任务可以将最优秀的员工或较好的员工与较差的员工明显区分开来,那么该任务就符合市政府的标准,可以纳入最终的工作分析中。在最初的 302 项任务中,有 281 项符合标准。

然后,要求中小型企业确定每项任务需要哪些方面的能力:口头交流、人际交往能力、发现和分析问题的能力、判断能力以及计划和组织能力。然后,列出了执行 281 项任务可能需要的 149 项 KSA。接下来,中小型企业被问及这些 KSA 是否与警督的工作相关、何时学习的 KSA(在分配工作之前还是之后)、学习 KSA 需要多长时间、KSA 如何区分工作表现以及有效完成工作是否需要 KSA。

12 家中小型企业中必须有 9 家将某项关键绩效标准评为 "重要",才能对其进行测试:

  • 与工作有关
  • 工作前所学到的知识
  • 需要更多的培训,而不是简短的入职培训
  • 具有较高或中等程度的辨别能力
  • 有效开展工作所需或所宜

在中小型企业评定的 149 项 KSA 中,145 项符合标准。

2008 年工作分析

在 2008 年的工作分析中,中小型企业被要求对 2000 年工作分析中使用的 149 项 KSA 进行重新评分。在 2008 年的 149 项 KSA 中,有足够数量的中小型企业认为这些 KSA 符合之前概述的标准,认为其重要程度足以进行测试。

法院对工作分析的裁决

  • 法院认为,市政府已充分满足了《统一指导原则》的工作分析要求。

测试开发与验证

在下一阶段,法院审查了考试内容与工作的相关程度。法院审查了考试的开发和验证情况。法院还审查了该部门如何利用考试做出晋升决定。2008 年的考试由两部分组成:由 100 道选择题组成的闭卷笔试,以及教育和经验 (E&E) 评级。下一节将审查考试的编制方法、考试在多大程度上代表了工作样本,以及考试是如何用于选拔中尉的。

通常情况下,工作分析是在多选题考试制作之前完成的。然后,考试开发人员经常将工作分析转换成考试计划文档,其中概述了考试将评估哪些 KSA。这样做是为了确保考试是一个具有代表性的工作样本。在本案例中,我们制定了考试大纲,并创建了 100 个测试项目来衡量某些 KSA。然后,中小型企业对试题进行审核,确定哪些 KSA 与试题相匹配,并对试题的难度、可读性和使用建议进行评估。在测试开发过程的这一阶段,中小型企业的意见至关重要,因为它可以验证测试项目是否与工作相关。法院认为,该市在这部分过程中充分遵守了《统一指导原则》

法院审查了考试的第一部分,即教育和经验是否符合《统一准则》。教育和经验分数是对以往教育和经验的衡量。笔试满分为 100 分,该市要求考生至少得 70 分方可通过。然后只计算通过笔试的候选人的 E&E 分数。笔试部分占最终分数的 80%,机电部分占 20%。在机电考试的 20 分总分中,每位考生自动获得 14 分。法院最终决定将整个考试的机电部分排除在分析之外,因为与笔试相比,机电部分对合格名单上候选人的排序作用很小。事实上,考生的笔试成绩与最终考试成绩之间的相关性为 0.95,几乎是完全正相关。合格名单是一份有资格被录用的候选人名单。该市也没有提供证据,证明 E&E 与工作分析中的任务或 KSA 有关联。

法院接下来审查了有关考试在多大程度上评估了具有代表性的工作技能样本的证据。这样做是因为《统一指导原则》第 14(C)(1)条规定:"选拔程序可以得到内容有效性策略的支持,只要它是工作内容的代表性样本。2000 年的工作分析表明,有 145 项 KSA 对完成工作至关重要。虽然笔试评估的知识类别有 13 个,但措辞非常宽泛,据估计,大约 80% 的知识可以归入这些类别。然而,最终只评估了两个关键能力领域。因此,法院得出结论,2008 年的考试没有对关键 KSA 的代表性样本进行充分测试,因为考试没有反映出履行中尉职务所需的许多技能和能力。在内容有效性的整体评估中,这是考试最终被认定不符合《统一指导原则》标准的主要原因之一。前几年,该市曾使用过一个评估中心,旨在测试一些技能和能力,如口头交流技能、人际交往技能、快速发现问题并分析问题的能力、迅速做出正确决定的能力以及将工作分解成子任务并确定优先次序的能力。这些能力通过各种练习进行评估,包括篮内练习(模拟书面练习)和情境练习。在情境演练中,通过录像让候选人对中尉可能遇到的假设情景做出口头回答。该市决定在 2008 年的考试过程中不使用评估中心,但如果他们选择了这样做,法院就更有可能认为考试是该职位的代表性样本。这是因为它可以衡量更多的技能和能力,如沟通能力、人际交往技能和情境判断能力。

法院随后评估了有关测试可靠性的证据。统一准则》第 14 (C)5 条规定"在可行的情况下,应对选拔程序的可靠性进行适当的统计估算"。在这种情况下,可靠性很可能衡量的是考试项目在多大程度上衡量的是同一领域,如工作知识。该市没有提供进行任何类型的可靠性分析的证据,法院因此对他们提出了指责。

法院裁决

  • 测试的 KSA 不够多。
  • 测试的可靠性尚未得到证实。

评估如何利用考试做出遴选决定

评估 PPT 有效性的另一个重要考虑因素是如何利用 PPT 做出选拔决定。有三种主要方式可以利用测试来做出选拔决定。如果目的是确定如何将合格与不合格的申请人区分开来,那么该测试应采用通过/不通过的方式,并设定最低合格分数。如果目标是区分同样合格但 PPT 原始分数略有不同的应聘者,则应采用分段法。分数段划分是一种统计程序,它将得分相近的申请人分为若干组,每组可视为得分相同。如果目标是根据申请人的考试分数逐一做出决定,则应使用分级法。换句话说,在遴选过程中,测试是按照排名顺序来使用的,即从名单的最前面开始向下排序,以决定是录用申请人还是让申请人继续前进。如果要根据多个金沙国际娱乐网址的多个遴选程序对申请人做出决定,而这些程序的重要程度又各不相同,那么就可以使用加权或综合遴选程序。从及格/不及格到分段再到排名,法院要求的有效性和可靠性水平都会提高(Biddle,2011 年)。 1).由于测试的使用方式对于确定测试的整体有效性非常重要,因此法院会对测试的使用方式进行严格审查。

该市选择使用考试最低及格分数。统一指导原则》第 5(H)条规定:"在使用截止分数(最低及格分数)时,通常应将其设定为合理,并与工作队伍中对可接受熟练程度的正常期望相一致"。假设为一名入门级警官设计了一个多项选择测验,其中所有项目都与工作完全相关,但却武断地设定了 90% 的最低及格分数。有什么证据表明 90% 是准确识别最低合格候选人的正确分数线呢?如果没有工作专家对最低合格应聘者在测试中的得分提出意见,90% 的分数线是没有道理的。该市在 2008 年的考试中选择了 70% 的分数线,但没有提供这样做的任何理由。他们决定笔试部分占 80%,机电部分占 20%。该市参考了以往的考试,称他们认为中小型企业可能会选择 80%/20% 的加权公式。然而,他们从未对中小型企业进行过实际调查以确定这一点。没有迹象表明该市进行了任何分析来支持截止分数和权重。

对于通过笔试且正确率达到 70% 的候选人,然后将 E&E 分数计入其总分,并按排名顺序选择晋升候选人。统一指导原则》第 5(G)条规定"足以支持在及格/不及格(筛选)基础上使用遴选程序的证据,可能不足以支持在排序基础上使用同一程序"。"由于排序的可靠性和有效性标准是最高的,法院特别仔细地审查了遴选程序的这一方面。

法院裁决

  • 笔试和机电考试的权重分配不合理。
  • 武断地使用 70% 临界值是没有道理的。

法院总体裁决

在 BPD 考试管理的案例中,法院首先裁定存在差异影响。法律程序的下一部分审查了考试是否符合《统一准则》中规定的内容有效性标准。虽然法院认定工作分析部分符合内容有效性标准,但法院裁定考试本身不符合内容有效性标准,原因如下:

  • 测试的 KSA 不够多。
  • 测试的可靠性尚未得到证实。
  • 笔试和机电考试的权重分配不合理。
  • 武断地使用 70% 临界值是没有道理的。

讨论

诉讼的潜在成本很高,而拥有一个有效的选拔程序来确定工作的最佳人选是非常有价值的。了解《第七章》差异影响案例的过程可以帮助贵机构就测试流程做出明智的决策。该案例强调了在评估差异影响时需要考虑的许多方面,以及工作分析、测试开发和测试验证在评估《第七章》差异影响挑战中的作用。全面了解《统一指南》对于理解法院如何评估差异影响测试验证诉讼至关重要。虽然本案遵循的是典型流程,但每个案件都略有不同。例如,如果使用的是标准或构造验证方法,那么在进行与标准相关的有效性研究时,应评估测试是否符合《统一指导原则》第 15(B)条的规定;在进行构造有效性研究时,应评估测试是否符合《统一指导原则》第 15(D)条的规定。在目前的案例中,对教育和经验的衡量标准以及多选笔试进行了评估。然而,还有各种其他的 PPT 引起了诉讼,其中包括面试、工作样本测试、性格测试和体能测试等。

1.Biddle, D. A. (2011).Adverse Impact and Test Validation:A Practitioner's Handbook (3rd ed.).Scottsdale, AZ: Infinity Publishing.

编者按:本文最初发表于 Circaworks.com。2023 年 4 月,Mitratech 收购了包容性招聘和 OFCCP 合规软件的领先供应商 Circa。此后,我们对内容进行了更新,以反映我们扩大的产品范围、不断发展的人才招聘合规法规以及人力资源管理的最佳实践。