概述
在平等就业机会与平权行动领域,恐怕没有哪个话题比不利影响更令人头疼。不利影响分析(亦称影响比率分析或差异分析)不仅需要复杂的统计计算才能得出结果,这些结果还常被用作调查中的歧视指控依据。 人力资源从业者有时回避——甚至厌恶——这项实践也就不足为奇了。它不仅难度高、常被误解,更暗藏法律风险。
尽管存在这些挑战,不利影响分析仍是评估雇佣实践的强大诊断工具,有助于确保公平待遇成为职场常态。正如几乎所有人都能浏览互联网而无需了解其底层编码原理,对不利影响的实用性理解也比许多人想象的更易掌握。 计算机程序使相关计算变得可控,其基础概念也并非过于复杂。本文旨在消除人们对不利影响的困惑,并对其核心概念进行简明阐释。
定义不利影响
当前所用的"不利影响"(AI)一词,其含义与最初制定时基本一致:指在招聘、晋升或其他雇佣决策中,因种族、性别或族裔群体成员而导致的显著不同的选择率(《统一准则问答》第10条)。[i] 本质上,AI衡量的是针对受保护群体的决策是否使其处于实质性劣势。需注意的是,不利影响仅描述群体在测试过程中的差异,既非暗示过错的法律术语,亦非指代不公或测试偏见的心理测量术语。
确定不利影响的三种最常用方法是80%规则、统计显著性检验和实际显著性检验。虽然80%规则和实际显著性检验各有其优点[ii],但现代合规程序和法律诉讼主要围绕“统计显著性”展开。
这种对合规/法律框架的遵循同样影响着相关选择。描述性统计与统计显著性检验均可应用于不利影响分析,但后者更受青睐。描述性统计仅展示与比较相关的数学差异,而统计显著性检验对不利影响分析更为重要——它能揭示描述性统计结果是否具有统计学意义,以及这些结果是否可视为"超越偶然"的现象。
针对不利影响的各种分析方法通常可分为两大类:机会比较与录取率比较。机会比较在判断某群体是否被低估方面具有重要价值,但要认定不利影响仍需补充其他细节。录取率比较是唯一能独立证明不利影响存在的分析方法。因此,本文将重点探讨录取率比较所揭示的不利影响。
选择率比较
选拔率比较旨在评估两个群体(例如女性与男性、少数族裔与白人)在选拔程序中的选拔率差异。此类比较通常应用于诉讼场景,因其与《统一准则》要求的不利影响分析类型密切相关。该分析可用于评估单一事件或多起事件,但合并多起事件时需格外谨慎(详见下文)。 此类不利影响分析需纳入四个变量:
- 焦点小组成员的选定人数(例如:被录用的女性)
- 未被选中的焦点小组成员数量(例如未被录用的女性)
- 所选参考组成员的数量(例如:被录用的男性)
- 未被选中的参照组成员数量(例如未被录用的男性)
单一事件选拔率比较
单一事件选择率比较是最典型的不利影响分析类型,在《统一指南》中被明确界定为"率比较"(第4D节),即比较两组人群(如男性与女性)在同一选拔程序中的通过率差异。 此类分析同样适用于裁员、降职或其他仅存在两种结果的人事变动(如晋升/未晋升、录用/未录用等)的后果评估。
用于分析选择率比较中不利影响的统计显著性检验主要分为两类:精确 检验与估计检验。精确检验可提供分析的精确概率值,而估计技术则无需繁复计算即可近似获得精确结果。无论采用精确检验还是估计技术,均需使用如表1所示的2×2列联表。
| 2×2 列联表 | ||
|---|---|---|
| 男人 | 女性 | |
| 通行证 | 50 | 40 |
| 失败 | 50 | 50 |
表1 2×2 列联表
多项赛事选拔率比较
针对性别和种族群体在多个综合"事件"或各类实践、程序或测试中的通过率比较,同样存在规范的方法论。该技术亦可用于对多个岗位或技能要求相似的岗位群进行整体不利影响分析,或比较多年选拔晋升流程中各群体的通过率。 当将多年数据或测试纳入综合分析时,必须采用多事件选拔率比较法。这是因为跨层级合并数据时可能出现统计异常现象。
虽然将特定测试实践的数年数据简单汇总进行综合不利影响分析颇具诱惑力,但若不采用特殊的"多重事件"技术,结果有时会产生误导。一种名为"辛普森悖论"的统计现象[iii] 揭示了此类操作的潜在问题。如表2所示,尽管各组在特定年份的选拔率相互匹配,但合并数据却显示选拔率存在9%的差异。
| 辛普森悖论示例 | ||||
|---|---|---|---|---|
| 测试年 | 集团 | # 申请人 | # 精选 | 选拔率 % |
| 2017年测试 | 男人 | 400 | 200 | 50.0% |
| 女性 | 100 | 50 | 50.0% | |
| 2018测试 | 男人 | 100 | 50 | 20.0% |
| 女性 | 100 | 20 | 20.0% | |
| 2017 + 2018 综合测试 | 男人 | 500 | 220 | 44.0% |
| 女性 | 200 | 70 | 35.0% | |
表2 辛普森悖论示例
为避免陷入辛普森悖论等陷阱,需采取两步措施才能正确汇总数据并进行多重事件选择率比较:
- 评估事件的模式一致性。必须判断某群体通过率的"趋势"是否始终不利。不同数据"事件"若同时显示该群体处于有利与不利状态,则不宜进行汇总分析。
- 计算统计检验结果。这将通过曼特尔-亨兹尔检验等方法,评估在所有事件合并的总体分析中是否存在不良影响。[iv]。
确定统计学显著性
无论采用哪一种选择率比较法,所得结果仍需结合具体情境解读。毕竟,结果需要多出乎意料才会被视为"异常"或"罕见"?法院或其他监管机构又会在何种情况下认定结果具有可执行性?这种概念上的临界点被称为统计学意义。
在选择过程或测试中,具有统计学意义的结果极不可能偶然出现。此类结果表明存在一个临界点——在此点上,可基于合理程度的确定性断言:实际存在的是一种真实趋势,而非偶然关联。统计显著性检验将得出p值(概率值)。 在人工智能分析领域,p值小于等于0.05(即5%)被视为"具有统计学意义"。实际意义上,这相当于从标准52张扑克牌中,仅用2-3次尝试(2.6次尝试对应5%概率)就能准确选中指定牌张。
当进行统计检验以评估某事件是否具有统计学意义时,该检验总是伴随着一种"检验效能"。它可用于描述检验发现统计学显著结果的能力——若该结果确实存在。换言之,"检验效能"表明了对检验结果的可信程度。统计检验效能由三个因素构成:
- 效应量。在选择率比较中,该指标反映两组选择率之间的"差距"大小。差距越大,越容易揭示统计学上的显著性。
- 样本规模。各组成员数量在不利影响分析中起着关键作用。正如在非正式投票中,更大的样本规模能提高分析的可靠性。
- 所采用的统计检验类型。这包括不利影响分析的具体公式(某些检验方法的检验力更强)以及采用单尾检验还是双尾检验(详见下文关于单尾检验与双尾检验的讨论)。
研究者和实践者通常难以控制被分析群体间测得的差异(即效应量)。因此,扩大样本规模或许是增强不利影响分析有效性的最有效途径,从而提高获得统计显著结果的可能性。 以下至少有五种实现方法。需特别注意:前四种聚合技术必须配合适当的多事件类型分析,因为如前所述,数据合并过程中可能出现统计异常现象。
- 扩大时间范围。
- 将多个地理区域合并在一起。
- 合并来自多个工作、工作组或部门的事件。
- 结合各种选拔程序。
- 融合不同民族群体。
尽管经过多年讨论,关于开展统计调查所需的最小样本量,仍不存在绝对的最低标准。法院通常持立场认为,不存在明确的最小样本量要求。 然而,若必须为不利影响分析设定明确的最低样本数,业界共识似乎是30个样本,其中至少5个用于选择分析。需要特别注意的是,涉及小样本数量的统计分析存在较高的"抽样误差",因此其结果可靠性低于使用较大数据集的分析。
在选择统计检验方法时,需区分"估计检验"与"精确检验"。估计检验提供某种情形发生的近似概率,而精确检验则计算该情形的精确概率,被视为评估不利影响时最具统计效力的检验方法。尽管精确检验能得出更精确的结果,但在某些情况下(例如样本量较小时),估计检验可能更易于实施。
在人工智能分析中确定统计显著性时,最后需要注意的方法论是单尾检验与双尾检验的选择。单尾检验仅探究某一方向(例如针对女性)存在歧视的可能性。 双尾检验则假设歧视可能发生于任一方向(例如针对男性或女性),并通过统计检验力同时探究双向歧视的可能性。法院在要求采用双尾检验判定显著性方面几乎始终如一。
最终思考
不利影响分析本质复杂且形式多样,但这不应阻止从业者将其纳入工具箱的选项。 通过不利影响分析获得的洞见,对识别潜在责任领域具有非凡价值。这些分析还能为调配资源解决相关问题提供关键指引。虽然现有诸多资源可协助开展不利影响分析,但Biddle公司已推出免费在线工具(网址:http://www.biddle.com/adverseimpacttoolkit/SelectionRateComparison.aspx),可用于计算基础的不利影响分析。
开展不利影响分析是组织审查其选拔流程、清理流程中潜在不公平环节的重要环节。但要实现后者,必须认识到人工智能分析仅能揭示已发生的问题。单纯发现问题并不能解决问题;若要实现持久变革,必须采取进一步措施。 对AI结果的准确解读与行动方案的制定至关重要。因此,人们完全可以认为:当不利影响分析告一段落时,真正的"实质性工作"才刚刚开始。
[i] 《雇员甄选程序统一指南》及相关问答可查阅网址:www.uniformguidelines.com。
[ii] 参见Biddle, D. A. (2011). 《不利影响与测试效度:实践者手册》(第3版)。亚利桑那州斯科茨代尔:Infinity Publishing出版社。(第3-5页)。
[iii] 参见芬克尔斯坦,M. O. 与莱文,B.(2001)。《律师统计学》(第2版)。纽约州纽约市:斯普林格出版社(第237页)。
[iv] 曼特尔-汉泽尔技术最初用于整合癌症研究数据集。参见曼特尔,N. & 汉泽尔,W.(1959),《疾病回顾性研究数据分析的统计学方面》。《国家癌症研究所杂志》,22,719-748。
编者按:本文最初发表于 Circaworks.com。2023 年 4 月,Mitratech 收购了包容性招聘和 OFCCP 合规软件的领先供应商 Circa。此后,我们对内容进行了更新,以反映我们扩大的产品范围、不断发展的人才招聘合规法规以及人力资源管理的最佳实践。