Le test exact de Fisher et les litiges relatifs à l'égalité d'accès à l'emploi

Découvrez l'impact du test exact de Fisher dans les litiges relatifs à l'égalité des chances. Apprenez les détails techniques du test lui-même et les cas d'utilisation dans le cadre d'un litige.

Personnel de Mitratech Juillet 20, 2018

Introduction

Même avant la publication en 1978 des lignes directrices uniformes sur les procédures de sélection des employés, des analyses de l'impact négatif (également appelées analyses de l'impact disparate) ont été menées par les employeurs pour évaluer les différences de taux de réussite entre les sous-groupes dans le cadre de diverses pratiques, procédures et tests. Les méthodes utilisées pour réaliser ces analyses comprennent généralement des tests de ratio d'impact qui évaluent comparativement les taux de réussite entre deux groupes (par exemple, la règle des 80 %), des tests de signification statistique et des tests de signification pratique (Bobko & Roth, 2004). Si ces méthodes sont restées cohérentes, les outils proprement dits (c'est-à-dire les procédures statistiques) ont évolué, à quelques exceptions près.

Alors que les domaines de la médecine et de la statistique ont récemment évolué vers des techniques statistiques plus puissantes pour analyser les tableaux 2 X 2, et ont fini par reconnaître les limites et les contraintes du traditionnel test exact de Fisher ("TEF" ci-après) pour l'analyse des tableaux 2 X 2, les domaines des ressources humaines et de la psychologie du personnel n'ont pas été aussi prompts à s'adapter. Plus précisément, le TEF est contesté dans la littérature statistique depuis 1945 (Mehrotra, et. al., 2003) et la plupart des praticiens du domaine statistique réservent désormais son utilisation à des situations où ses hypothèses conditionnelles strictes peuvent être respectées et où sa nature conservatrice est prise en considération lors de l'évaluation de ses résultats (Upton, 1992 ; Lydersen, Fagerland, & Laake et. al., 2009).

Pour comprendre les limites du FET, il faut d'abord comprendre les différents modèles de tableaux de contingence 2 X 2. Étant donné que les tests de signification statistique impliquent une comparaison entre le résultat observé et ce qui aurait pu se produire en raison du hasard, chaque test exige que les résultats du hasard soient définis d'un point de vue opérationnel. Dans le contexte des tableaux 2 X 2, trois modèles distincts ont été développés sur la base de définitions opérationnelles différentes. Le choix entre ces modèles fait l'objet d'un débat parmi les statisticiens depuis des décennies, et au centre de ce débat se trouvent les hypothèses conditionnelles, qui concernent la question de savoir si les totaux marginaux du tableau sont supposés être fixes a priori ou s'ils peuvent être supposés être tirés d'une population plus large (Camilli, 1990). Collins et Morris (2008) décrivent les trois modèles dans lesquels les tableaux 2 X 2 peuvent être évalués, qui sont brièvement résumés ci-dessous.

- Modèle 1 : Essai d'indépendance. Tous les totaux marginaux sont supposés être fixés à l'avance (c'est-à-dire que la proportion de chaque groupe et les totaux de sélection sont fixés). Les données ne sont pas considérées comme un échantillon aléatoire d'une population plus large.

- Modèle 2 : Essai comparatif. Les totaux des lignes ou des colonnes sont fixés à l'avance. Par exemple, les candidats sont considérés comme des échantillons aléatoires de deux populations distinctes (par exemple, les hommes et les femmes). La proportion de chaque population est fixe (c'est-à-dire que la proportion marginale d'une variable est supposée constante d'une répétition à l'autre). La seconde proportion marginale (par exemple, la proportion marginale de candidats qui réussissent le test de sélection) est estimée à partir des données de l'échantillon.

Modèle 3 : double dichotomie. Dans ce modèle, ni les totaux marginaux de la ligne ni ceux de la colonne ne sont supposés être fixes. Les candidats sont considérés comme un échantillon aléatoire d'une population caractérisée par deux caractéristiques dichotomiques. Il n'y a pas d'échantillonnage intentionnel ou d'affectation à des groupes, et la proportion dans chaque groupe, ainsi que le taux de réussite, peuvent varier d'un échantillon à l'autre.

Ces trois modèles peuvent être résumés comme ayant des hypothèses marginales "fixes", "mixtes" et "libres". Comme nous le verrons plus loin, dans l'état actuel de la littérature statistique et de la recherche médicale, les différents tests 2 X 2 disponibles s'adaptent à ces trois modèles avec plus ou moins de précision.

Limites du test exact de Fisher

Peu après que Ronald Fisher a présenté son test exact (Fisher, 1935), certains statisticiens ont commencé à contester son utilisation dans différents scénarios 2 X 2 (par exemple, Barnard, 1945) ainsi que sa nature conservatrice (voir Yates, 1984). Alors que ces premières contestations étaient de nature théorique, des critiques plus récentes ont été fondées sur les résultats d'analyses modernes de simulation de données qui fournissent un examen plus approfondi du comportement statistique de divers tests 2 X 2 (Sekhon, 2005 ; Collins & Morris, 2008 ; Crans & Shuster, 2008 ; Lin & Yang, 2009 ; Lydersen, et. al., 2009). Ces études récentes ont révélé deux limites majeures du TEC : le fait que ses hypothèses conditionnelles strictes sont rarement respectées dans la pratique et la nature conservatrice du TEC.

La première limite concerne les hypothèses conditionnelles nécessaires à l'application correcte de la FET. Les statisticiens sont parvenus à un consensus sur le fait que le FET ne peut être appliqué avec précision que dans le premier modèle - lemodèle de l'essai d'indépendance. Étant donné que ce modèle ne représente pas les données typiques de sélection du personnel, "il y a lieu de s'interroger sur la pertinence de l'ETP pour l'analyse des effets négatifs" (Collins & Morris, 2008). L'opportunité de traiter les marges comme fixes est au cœur de la plupart des débats qui ont entouré l'EEF depuis plus de 50 ans.

Certains statisticiens soutiennent que le modèle de l'essai d'indépendance exige que "les deux marges d'un tableau 2 X 2 soient fixées par construction, c'est-à-dire que les marges du traitement et du résultat soient fixées a priori" (Sekhon, 2005 ; voir également Romualdi et al. 2001 ; Hirji et al. 1991 ; D'Agostino et al. 1988 ; et Ludbrook, 2008). En d'autres termes, pour que les hypothèses conditionnelles du modèle de l'essai d'indépendance soient respectées, l'enquêteur doit identifier les totaux marginaux des lignes et des colonnes avant de mener l'expérience qui produira les nombres à l'intérieur de chacune d'elles. Il est courant en recherche expérimentale de spécifier à l'avance les nombres relatifs dans chaque condition de traitement ; cependant, il serait inhabituel de spécifier la fréquence du prédicteur et du résultat avant de collecter des données (Gimpel, 2007). Bien que recommandée par certains, cette condition semble n'être que rarement remplie dans la pratique.

Collins et Morris (2008) affirment que les données disponibles pour l'analyse de l'impact négatif sont rarement compatibles avec les hypothèses marginales fixes. Par exemple, dans une analyse des candidats par rapport aux embauches, il est peu probable que le nombre de candidats appartenant à des groupes minoritaires et majoritaires soit cohérent d'un échantillon à l'autre. Et bien qu'il puisse être tentant de considérer les décisions de promotion ou de licenciement comme impliquant un groupe fixe de candidats et un nombre fixe de personnes sélectionnées, une fois que l'ensemble des individus est fixé, il devient difficile de savoir ce qui compose l'espace de l'échantillon sur lequel les probabilités sont définies. De même, l'ensemble des candidats pris en considération pour une décision de promotion aura été préalablement sélectionné à l'aide d'une procédure de sélection qui peut avoir pris en compte certains des mêmes facteurs que ceux utilisés pour prendre la décision de promotion. Par conséquent, le processus de sélection préalable, qui a déterminé le nombre de candidats issus des minorités, ne sera pas indépendant du taux de réussite de la décision de promotion, le paramètre qui nous intéresse.

Une autre difficulté liée au respect des hypothèses conditionnelles des cadres promotionnels réside dans le fait que les employeurs peuvent d'abord tenter de pourvoir les postes promotionnels en faisant appel à des employés internes occupant divers postes inférieurs (dont le poids potentiel et les pourcentages de disponibilité seront différents pour chaque groupe), puis se tourner vers des ressources externes si le poste ne peut pas être pourvu par des employés internes. De telles situations brouillent la "frontière" entre les hypothèses marginales "fixes", "mixtes" et "libres". Lorsque l'on applique les trois modèles à des analyses d'impact négatif typiques, il apparaît clairement que les hypothèses conditionnelles de la FET ne seront que rarement satisfaites.

Le débat sur l'utilisation de tests conditionnels ou inconditionnels dure depuis des décennies et n'est pas près d'être résolu. Notre objectif est plus modeste : il s'agit d'évaluer l'utilisation d'un test de signification alternatif en tant qu'aide à la décision dans l'évaluation de l'impact négatif. Dans ce contexte, les taux d'erreur de la règle de décision sont au cœur de nos préoccupations. Plus précisément, nous nous intéressons à la probabilité de faux positifs (erreurs de type I) et de faux négatifs (erreurs de type II). Cela nous amène à la deuxième critique, la plus importante, adressée au FET, à savoir que le test est trop conservateur.

Le domaine statistique dans son ensemble considère que le TET est trop conservateur (voir Références concernant les limites du test exact de Fisher pour une liste partielle des citations qui soutiennent cette position). Dans ce contexte, le terme " conservateur " fait référence au fait que le niveau de signification souhaité, par exemple 0,05, ne peut être atteint exactement en raison de la distribution discrète des données, et que des valeurs inférieures doivent être utilisées. La discrétion est due au fait que, pour les échantillons de petite taille, le nombre de résultats possibles pris en compte par le FET est faible (Agresti, 2007). Par conséquent, la valeur p ne peut prendre qu'un nombre limité de valeurs possibles et, souvent, aucun des résultats possibles n'aura de valeur p proche mais inférieure au niveau de signification nominal. Par conséquent, la probabilité obtenue d'une erreur de type I sera inférieure au niveau alpha nominal, et souvent considérablement plus faible.

Il est important de noter que le problème ne concerne pas les valeurs p, qui sont exactes compte tenu des hypothèses conditionnelles, mais résulte plutôt de l'utilisation d'une règle de décision où la valeur p est comparée à a = 0,05. Upton (1992) a soutenu que la prudence de la FET est due à la pratique courante consistant à fixer le niveau de signification nominal à 0,05. Par exemple, si l'on fixait plutôt a = 0,055, les résultats avec 2 femmes embauchées seraient également significatifs et le taux d'erreur de type I ( 0,054) serait assez proche du niveau nominal. Ainsi, le problème du conservatisme peut être évité en interprétant directement les valeurs p, plutôt qu'en présentant les résultats comme significatifs ou non significatifs sur la base d'un niveau alpha fixe. Toutefois, dans les situations relevant du titre VII, les niveaux de signification fixes sont la norme requise, de sorte que les conséquences préjudiciables de la discrétion demeurent.

Cette limitation a pour conséquence que le FET a "moins de puissance que les tests conditionnels mid-P et les tests inconditionnels" alors que ces autres tests "ont généralement une puissance plus élevée tout en préservant la taille du test" (Lydersen, et. al, 2009). Pour cette seule raison, plusieurs statisticiens ont recommandé que le "FET traditionnel ne soit pratiquement jamais utilisé" (Lydersen, et. al, 2009) en raison du "niveau de signification réel (ou de la taille) qui est bien inférieur au niveau nominal" (Lin & Yang, 2009). Agresti (2007) recommande d'utiliser l'ajustement mid-P même dans les situations où les hypothèses marginales fixes peuvent être satisfaites "parce que le taux d'erreur réel [du FET] est plus petit que letaux prévu" (p. 48).

Le choix d'un test capable de fixer avec précision cette norme de 0,05 - et non de revendiquer la norme tout en offrant quelque chose de plus élevé (comme le FET) - est essentiel dans le choix d'une stratégie juridique efficace. bq rquo

Admissibilité de la FET dans les litiges relatifs au titre VII

Dans l'affaire Daubert v. Merrell Dow Pharmaceuticals (1993), sept membres de la Cour suprême des États-Unis ont convenu que les témoignages d'experts présentés dans le cadre d'un litige fédéral devaient faire appel à une "méthodologie scientifique" pour prouver ou réfuter l'hypothèse. L'une des conditions imposées par la Cour pour l'application de cette norme est que les outils d'investigation doivent avoir un taux d'erreur connu ou potentiel et qu'ils doivent être "appliqués de manière fiable aux faits en cause". Depuis des décennies, les tribunaux ont établi que le seuil de 0,05 est gravé dans le marbre en tant que norme pour l'identification et la délibération de l'impact négatif. Le choix d'un test capable d'établir avec précision cette norme de 0,05 - et non de revendiquer la norme tout en offrant quelque chose de plus élevé (comme le FET) - est essentiel pour choisir une stratégie juridique efficace.

Le FET non corrigé a été utilisé (par défaut) pendant des années dans les litiges relatifs au titre VII. Toutefois, à notre connaissance, le FET n'a pas encore été spécifiquement remis en question (par rapport à d'autres solutions) dans le cadre des critiques formulées ces dernières années. Cela s'explique probablement par le fait que, pour qu'une telle contestation ait lieu, il faudrait qu'apparaisse la rare situation dans laquelle un cas d'impact négatif litigieux est significatif en utilisant un test et non significatif en utilisant l'autre, et que chaque test soit soumis au processus de choix juridique. Compte tenu du contexte décrit ci-dessus, nous ne pensons pas que le FET puisse survivre à une contestation fondée sur l'arrêt Daubert. Toutefois, si les experts opposés dans une affaire d'égalité d'accès à l'emploi se mettaient d'accord sur les circonstances de l'échantillonnage 2 X 2, l'un des modèles 2 X 2 pourrait être adapté à l'autre. Même si la situation était aussi proche que possible d'une circonstance conditionnelle, la décision de corriger ou non la discrépance pourrait encore faire l'objet d'une controverse (voir Agresti, 2007, p. 49).

Avec plus de 20 articles publiés dans des revues de recherche statistique et la majorité des textes statistiques catégoriels au cours des 10 dernières années qui n'accordent qu'une autorisation d'utilisation conditionnelle au FET (une circonstance rarement rencontrée dans les contextes d'impact négatif), qui documentent de manière approfondie la nature conservatrice du FET et qui recommandent ou approuvent d'autres techniques telles que le Lancaster's Mid-P (" LMP " ci-après), les employeurs seraient beaucoup plus en sécurité dans les contextes de litige en utilisant la même technique. C'est probablement pour ces raisons que l'application du LMP a été plus récemment discutée dans la littérature sur les litiges et la conformité en matière d'EEO (DCI Consulting, 2010 ; Ruggieri, Pedreschi, & Turini, 2010), les programmes de logiciels (Biddle Consulting Group, 2010) et les affaires judiciaires en matière d'EEO(Strong v. Blue Cross, 2010 ; Delgado-O'Neil v. City of Minneapolis, 2010).

Au-delà des implications juridiques et des défis qui peuvent découler des systèmes d'analyse qui utilisent le FET, les professionnels des ressources humaines, en tant qu'"analystes de la responsabilité", voudront probablement utiliser des méthodes plus équilibrées qui s'adaptent mieux aux trois situations 2 X 2 et ne produisent pas des résultats aussi conservateurs. Le LMP offre une alternative qui répond aux trois conditions d'analyse 2 X 2.

Le Lancaster's Mid-P (LMP) comme solution

Pour les raisons évoquées ci-dessus, nous préconisons l'utilisation de la correction Lancaster mid-P du TÉF, qui corrige effectivement le TÉF pour refléter plus précisément les valeurs de probabilité du cas d'impact négatif analysé dans n'importe lequel des trois modèles 2 X 2. En effet, dans le modèle fixe clairement conditionnel, le LMP fournit une correction pour la discrétisation qui ajuste le FET à un niveau alpha moins conservateur (Agresti, 2007). Dans les modèles marginaux mixtes et libres, la mécanique fonctionnelle du PMT se traduit par des valeurs calculées pour divers paramètres qui reproduisent fidèlement les résultats des tests exacts inconditionnels.

La nature polyvalente du PMT est une caractéristique essentielle pour les praticiens et les employeurs. On ne peut qu'imaginer les difficultés qu'il y aurait à passer par un arbre de décision pour choisir lequel des trois modèles est le plus approprié pour chaque analyse d'impact négatif, puis à défendre exactement la marge fixe, mixte ou libre dans le cadre d'un litige ou d'un contrôle d'application. En outre, les praticiens devraient choisir entre les 22 tests disponibles pour l'analyse des tableaux 2 X 2, avec les points forts et les limites de chacun d'entre eux. Enfin, il faut choisir si des corrections seront apportées pour tenir compte de la discrépance. Nos recherches ont montré que le PMT est très équilibré et qu'il est bien étayé dans la littérature pour l'analyse des tableaux 2 X 2 dans diverses situations d'impact négatif.

Au-delà de ce qui est mentionné ci-dessus, Hirji (2006) a fourni plusieurs raisons supplémentaires pour lesquelles le LMP est la correction préférée pour le FET : (1) des statisticiens ayant des points de vue très divergents sur l'inférence statistique ont recommandé ou justifié la méthode mid-P, (2) la puissance des tests mid-P est généralement proche de la forme de la fonction de puissance idéale, (3) dans une grande variété de plans et de modèles, (3) dans une grande variété de plans et de modèles, la méthode mid-P rectifie l'extrême conservativité de la méthode conditionnelle exacte traditionnelle sans compromettre sérieusement l'erreur de type I, et (4) les études empiriques montrent que la performance de la méthode mid-P ressemble à celle des méthodes inconditionnelles exactes et des méthodes aléatoires conditionnelles (Hirji 2006, pp. 218-219). Hirji conclut en déclarant : "La méthode mid-P est donc une méthode largement acceptée, conceptuellement saine, pratique et parmi les meilleurs outils d'analyse des données. En particulier pour les données discrètes éparses et dont la taille de l'échantillon n'est pas très grande, nous faisons ainsi écho aux propos de Cohen et Yang (1994) selon lesquels elle fait partie des "outils sensés pour le statisticien appliqué".

Conclusions

Le choix des procédures de test de la signification statistique dans les tableaux 2 X 2 fait l'objet d'une recherche et d'un débat continus depuis des décennies. Notre étude de la littérature a identifié pas moins de 22 tests parmi lesquels choisir, chacun ayant ses propres hypothèses, forces et faiblesses (Upton, 1982). La disponibilité d'autres tests de signification suggère que les employeurs qui se retrouvent défendus dans le cadre du titre VII seront appelés à défendre non seulement les résultats de leur analyse de l'impact négatif, mais aussi la manière dont ces statistiques ont été calculées.

Références

Agresti, A. (2007). An introduction to categorical data analysis (2e éd.). Wiley.

Bobko, P., Roth, P.L. (décembre 2004). Personnel selection with top-score-referenced banding : On the inappropriateness of current procedures. International Journal of Selection and Assessment, 12 (4), 291-298.

Camilli, G. & Hopkins, K. D. (1979). Testing for association in 2 X 2 contingency tables with very small sample sizes. Psychological Bulletin, 86, 1011-1014.

Collins, M. W. et Morris, S. B. (2008). Testing for adverse impact when sample size is small. Journal of Applied Psychology, 93, 463-471.

Crans, G. G. et Shuster, J. J. (2008). How conservative is Fisher's exact test ? A quantitative evaluation of the two-sample comparative binomial trial. Statistics in Medicine, 27 (8), 3598-3611.

Hirji, K. F., Tan, S. & Elashoff, R.M. (1991). A quasi-exact test for comparing two binomial proportions. Statistics in Medicine, 10, 1137-1153.

Lin, C.Y. et Yang, M.C. (2009). Improved p-value tests for comparing two independent binomial proportions. Communications in Statistics - Simulation and Computation, 38 (1), 78-91.

Lydersen, S. Fagerland, M.W. & Laake, P. (2009). Tests recommandés pour l'association dans les tableaux 2 X 2. Statistics in Medicine, 28, 1159-1175.

Mehrotra, D.V., Chan, I.S.F. & Berger, R.L. (2003). A cautionary note on exact unconditional inference for a difference between two independent binomial proportions. Biometrics, 59, 441-450.

Plackett, R. L. (1984). Discussion of Yates' 'Tests of significance for 2 X 2 contingency tables'. Journal of Royal Statistical Society, Series A, 147, 426-463.

Upton G. (1992). Fisher's exact test. Journal of the Royal Statistical Society, Series A, 155 : 395-402.

Note de l'éditeur : Cet article a été publié à l'origine sur Circaworks.com. En avril 2023, Mitratech a acquis Circa, un fournisseur de premier plan de logiciels de recrutement inclusif et de conformité OFCCP. Le contenu a depuis été mis à jour pour refléter l'élargissement de nos offres de produits, l'évolution des réglementations de conformité en matière d'acquisition de talents et les meilleures pratiques en matière de gestion des ressources humaines.

Solutions pour l'industrie