费舍尔精确检验与平等就业机会诉讼

揭示费舍尔精确检验法在平等就业机会诉讼中的影响。了解该检验法本身的技术细节及其在诉讼中的应用场景。

Mitratech 员工 7月20,2018

导言

早在1978年《雇员甄选程序统一指南》发布之前，雇主们就已开展不利影响分析（亦称差异影响分析），以评估不同群体在各类实践、程序及测试中的通过率差异。此类分析方法通常包含：通过影响比率检验比较两组成功率（如80%规则）、统计显著性检验及实践意义检验（Bobko & Roth, 2004）。尽管方法体系保持稳定，但具体工具（即统计程序）已逐步演进，仅存在个别例外情况。

尽管医学和统计学领域近年来倾向于采用更强大的统计技术来分析2×2表格，并逐渐认识到传统费舍尔精确检验（下文简称FET）在分析2×2表格时存在严重局限性与限制，但人力资源与人事心理学领域并未如此迅速地适应这一变化。具体而言，自1945年起统计学文献中便对FET提出质疑（Mehrotra等，2003），当前多数统计从业者仅在满足其严格条件假设且评估结果时考虑其保守性质的情况下才使用该检验（Upton，1992； Lydersen, Fagerland, & Laake 等, 2009）。

要理解FET的局限性，我们首先需要了解2×2列联表的不同模型。由于统计显著性检验涉及将观察结果与偶然可能产生的结果进行比较，每项检验都需要对这些偶然结果进行操作性定义。在2×2表的背景下，基于不同的操作性定义，已发展出三种截然不同的模型。数十年来，统计学家们始终围绕这些模型的选择展开争论，核心争议点在于条件假设——即表格的边际总和是预先设定为固定值，还是可视为来自更大总体的抽样（Camilli, 1990）。 Collins与Morris（2008）阐述了评估2×2表格的三种模型，其概要如下：

- 模型1：独立性检验。所有边际总和均被预先设定为固定值（即各组比例及选定总和固定）。数据不被视为来自更大总体的随机样本。

- 模型2：比较试验。行或列的总和均预先固定。例如，将申请人视为来自两个独立总体（如男性和女性）的随机样本。每个总体的比例是固定的（即假设某变量的边缘比例在重复试验中保持恒定）。第二个边缘比例（例如通过选拔测试的申请人的边缘比例）则通过样本数据进行估计。

模型3：双二分法。在此模型中，行边际总和与列边际总和均不被视为固定值。申请者被视为来自总体的随机样本，该总体具有两个二分特征。不采用目的性抽样或分组分配，各组比例及成功率在不同样本间均可能存在差异。

这三种模型可概括为具有“固定型”、“混合型”和“自由型”边际假设。正如后文将详细讨论的那样，当前统计学与医学研究文献认为，现有的各种2×2检验方法或多或少都能精确契合这三种模型。

费舍尔精确检验的局限性

罗纳德·费希尔提出精确检验后不久（Fisher, 1935），部分统计学家便开始质疑该检验在不同2×2情境中的适用性（如Barnard, 1945），并对其保守性提出质疑（参见Yates, 1984）。尽管早期争议多属理论层面，但近年批评已基于现代数据模拟分析结果展开，这些分析对各类2×2检验的统计行为进行了更深入的考察（Sekhon, 2005; Collins & Morris, 2008; Crans & Shuster, 2008; Lin & Yang, 2009; Lydersen等，2009）。这些新近研究揭示了FET的两大局限：其严格的条件假设在实际操作中极少成立，以及该检验本身的保守特性。

第一项限制涉及正确应用FET所需的条件假设。统计学界已达成共识：FET仅能在首个模型——独立试验模型中准确应用。由于该模型无法代表典型人员选拔数据，"有理由质疑FET在不利影响分析中的适用性"（Collins & Morris, 2008）。将边际值视为固定值的合理性，始终是围绕FET展开的50余年争论的核心议题。

部分统计学家主张，独立性试验模型要求"2×2表格中的两个边界均由构造固定——即处理组与结果组的边界均在先验阶段确定"（Sekhon, 2005；另见Romualdi等, 2001；Hirji等, 1991； D’Agostino等人，1988；Ludbrook，2008）。换言之，要满足独立试验模型的条件假设，研究者需在实验前确定行与列的边际总和——这些总和将决定各单元格的具体数值。 实验研究中常见的做法是预先设定各处理组的相对人数；然而在数据收集前同时指定预测变量与结果变量的频数则较为罕见（Gimpel, 2007）。尽管部分学者建议采用此法，但实践中该条件极少被满足。

柯林斯与莫里斯（2008）指出，用于不利影响分析的数据极少符合固定边际假设。例如在分析应聘者与录用者时，少数族裔与多数族裔群体的应聘者数量在不同样本中往往存在差异。虽然人们可能倾向于将晋升或裁员决策视为涉及固定候选人池和固定选拔人数的过程，但一旦候选人集固定后，用于定义概率的样本空间构成便变得模糊不清。同样地，晋升决策所考虑的候选人集，此前已通过某种筛选程序选定——该程序可能已考量了与晋升决策相同的某些因素。因此，决定少数族裔申请者数量的预先筛选过程，与我们关注的参数——晋升决策的成功率——并非独立关系。

在满足晋升情境的条件假设时，还面临着另一重挑战：雇主可能首先尝试从内部不同低级职位的员工中填补晋升机会（各群体将具有不同的潜在权重和可用性百分比），若内部无法填补空缺，才会转向外部资源。此类情况模糊了"固定型"、"混合型"和"自由型"边际假设之间的"微妙界限"。将三种模型应用于典型不利影响分析时，可以明确看出：FET模型的条件假设极少能得到满足。

关于采用条件性检验还是无条件性检验的争论已持续数十年，且短期内难以解决。本文目标更为务实——评估替代显著性检验作为决策辅助工具在评估不利影响中的应用价值。在此背景下，决策规则的误差率是首要关注点。具体而言，我们关注假阳性（第一类错误）和假阴性（第二类错误）的发生概率。这引出了对FET的第二点、也是更关键的批评——该检验过于保守。

统计学界普遍认为费舍尔精确检验过于保守（参见《关于费舍尔精确检验局限性的权威论述》中部分持此观点的文献）。此处"保守"指因数据呈离散分布，无法精确达到预设显著性水平（如0.05），必须采用更小的数值。离散性产生的根源在于：当样本量较小时，FET所考虑的可能结果数量有限（Agresti, 2007）。因此，p值只能取有限的若干可能数值，且通常不存在p值接近但低于名义显著性水平的可能结果。由此导致的I类错误概率将低于名义α水平，且往往显著偏低。

需要特别指出的是，问题并不在于p值本身——在满足条件假设的前提下，p值是准确的——而是源于采用了一种决策规则，即把p值与α=0.05进行比较。 Upton（1992）指出，FET的保守性源于将名义显著性水平固定为0.05的普遍做法。例如，若将α值设为0.055，则"录用2名女性"的结果同样具有显著性，且Ⅰ类错误率（0.054）将非常接近名义水平。因此，通过直接解读p值而非依据固定显著性水平判定结果显著性，可规避保守性问题。然而在《第七条》适用场景中，固定显著性水平仍是法定标准，离散性带来的负面影响依然存在。

该局限性导致FET的检验力"低于有条件的中位数检验和无条件检验"，而这些其他检验"通常具有更高的检验力，同时仍能保持检验规模"（Lydersen等，2009）。仅因这一局限性，多位统计学家建议"传统FET在实践中应完全弃用"（Lydersen等，2009），因为其"实际显著性水平（或检验力）远低于名义水平"（Lin & Yang，2009）。 Agresti（2007）建议即使在满足固定边际假设的情况下也应采用中P值校正，"因为[FET的]实际错误率低于预期水平"（第48页）。

选择能准确设定0.05标准的检测方法——而非宣称达到该标准却实际超标（如FET检测）——是制定有效法律策略的关键所在。 bq rquo

《第七章》诉讼中公平与合理待遇原则的可采性

在美国最高法院审理的道伯特诉梅里尔道制药公司案（1993年）中，七名大法官一致认为，联邦诉讼中提交的专家证据必须运用"科学方法论"来验证或推翻假设。该标准确立的一项要求是：调查工具需具备已知或潜在的误差率，且必须"可靠地应用于具体事实"。数十年来，法院已确立0.05阈值作为判定和审议不利影响的铁律。选择能精准设定该0.05标准的检测方法——而非标榜该标准却提供更高数值（如FET）——是制定有效法律策略的关键所在。

未经修正的公平交易测试（FET）多年来一直作为默认标准应用于《第七章》诉讼。然而据我们所知，近年来针对该测试提出的批评尚未引发对其（相较于其他替代方案）的具体质疑。这可能是因为，要引发此类质疑，必须出现罕见情形：即某项诉讼中的不利影响案例在采用一种测试时具有显著性，而采用另一种测试时则不显著，且每项测试都需经过法律选择程序。基于上述背景，我们认为FET无法经受道伯特标准的质疑。但若在平等就业机会案件中，双方专家就案件的2×2抽样情境达成共识，则可相互采用其中一种2×2模型。即便情境已尽可能接近条件情境，是否对离散性进行校正仍可能存在争议（参见Agresti, 2007, p. 49）。

在统计研究期刊发表的20余篇论文及近十年多数分类统计学著作中，对FET的适用仅给予有条件许可（该条件在不利影响情境下极少满足），充分揭示了FET的保守特性，并推荐或认可其他技术如兰开斯特中位数法（下称"LMP"）。因此，雇主在诉讼中采用LMP将更为稳妥。正因如此，LMP的应用近期在平等就业机会（EEO）诉讼与合规文献中受到更多关注（DCI咨询公司，2010； Ruggieri, Pedreschi, & Turini, 2010），软件程序（Biddle Consulting Group, 2010）及平等就业机会法庭案例（Strong v. Blue Cross, 2010;Delgado-O’Neil v. City of Minneapolis, 2010）中均有所探讨。

除了基于FET的分析系统可能引发的法律影响与挑战外，作为"责任分析师"的人力资源专业人士很可能更倾向于采用更均衡的方法——这类方法能更好地适应所有三种2×2情境，且不会产生如此保守的结果。LMP方法正是适用于所有三种2×2分析条件的替代方案之一。

兰开斯特中程炮（LMP）作为解决方案

基于上述原因，我们主张采用兰开斯特中P修正法对FET进行修正，该方法能有效校正FET，使其更准确地反映三种2×2模型中任何一种所分析的不利影响案例的概率值。这是因为在明确的条件固定模型中，LMP提供的离散性修正可将FET调整至较不保守的α水平（Agresti, 2007）。在混合模型和自由边际设置中，LMP的函数机制使得其在不同情境下计算出的值能精确模拟无条件精确检验的结果。

LMP的多功能性是从业者和雇主关注的核心特征。试想若每次进行不利影响分析时，都必须通过决策树选择三种模型中最合适的方案，随后在诉讼或执法场景中还要论证具体哪些边际属于固定、混合或自由类型，其操作难度可想而知。此外，从业者还需在22种分析2×2表格的测试方法中抉择——每种方法各有优劣。随后还需决定是否对离散性进行修正。我们的研究表明，LMP模型在分析各类不利影响情境下的2×2表格时，具有高度平衡性且在文献中获得充分支持。

除上述内容外，Hirji（2006）还提出了多个支持将LMP作为FET首选修正方法的理由：（1）在统计推断领域持截然不同观点的统计学家们，或推荐或论证了中P法的合理性；（2）中P检验的功效曲线通常接近理想功效函数的形态； (3) 在多种设计和模型中，中P校正法能纠正传统精确条件校正法的过度保守性，且不会严重损害I类错误率；(4) 实证研究表明中P校正法的性能接近精确无条件校正法与条件随机化校正法（Hirji 2006, pp. 218-219）。 Hirji最终总结道："中P法因此成为广受认可、概念严谨、实用高效的数据分析工具。尤其对于稀疏且样本量不大的离散数据，我们在此呼应Cohen与Yang（1994）的观点——该方法实属'应用统计学家的明智选择'。"

结论

在2×2表格中选择检验统计显著性的方法，数十年来一直是持续研究和争论的课题。文献综述显示可供选择的检验方法至少有22种，每种都具有特定的假设条件、优势与局限（Upton, 1982）。替代性显著性检验方法的存在意味着，在《第七章》诉讼中作为被告的雇主不仅需要为不利影响分析结果辩护，还需说明相关统计数据的计算过程。

参考资料

阿格雷斯蒂，A.（2007）。《分类数据分析导论》（第2版）。威利出版社。

鲍科，P.；罗斯，P.L.（2004年12月）。基于最高分参照分档的人员选拔：论当前程序的不当性。《国际选拔与评估期刊》，12(4)，291-298。

Camilli, G. & Hopkins, K. D. (1979). 极小样本量下2×2列联表关联性检验。《心理学公报》，86, 1011-1014.

科林斯，M. W. & 莫里斯，S. B. (2008). 样本量较小时对负面影响的检验。《应用心理学杂志》，93，463-471。

Crans, G. G. & Shuster, J. J. (2008). 费舍尔精确检验的保守程度如何？对两样本比较二项式试验的定量评估。《医学统计学》，27(8)，3598-3611。

Hirji, K. F., Tan, S. & Elashoff, R.M. (1991). 比较两个二项比例的准精确检验。《医学统计学》，10, 1137-1153.

林，C.Y & 杨，M.C. (2009). 改进的p值检验用于比较两个独立二项分布比例.统计通讯——模拟与计算, 38 (1), 78-91.

Lydersen, S. Fagerland, M.W. & Laake, P. (2009). 二×二列联表中关联性检验的推荐方法。《医学统计学》，28, 1159–1175.

Mehrotra, D.V., Chan, I.S.F. & Berger, R.L. (2003). 关于两个独立二项比例差异的精确无条件推断的警示性说明。《生物计量学》，59, 441–450.

普莱克特，R. L. (1984). 论耶茨的《2×2列联表显著性检验》。皇家统计学会会刊A辑，147，426-463。

Upton G. (1992). 费舍尔精确检验.《皇家统计学会会刊》A辑, 155: 395–402.

编者按：本文最初发表于 Circaworks.com。2023 年 4 月，Mitratech 收购了包容性招聘和 OFCCP 合规软件的领先供应商 Circa。此后，我们对内容进行了更新，以反映我们扩大的产品范围、不断发展的人才招聘合规法规以及人力资源管理的最佳实践。

行业解决方案