Vue d'ensemble
Dans le monde de l'égalité des chances en matière d'emploi et de l'action positive, il est difficile de trouver un sujet plus détesté que celui de l'impact négatif. Non seulement l'analyse de l'impact négatif (également appelée analyse du ratio d'impact et/ou analyse de la disparité) implique des calculs statistiques compliqués pour parvenir à ses résultats, mais ces derniers sont souvent utilisés dans les enquêtes pour fonder des accusations de discrimination. Il n'est donc pas étonnant que les praticiens des ressources humaines évitent parfois cette pratique, voire la vilipendent. Elle est difficile, souvent mal comprise et lourde de responsabilités.

Malgré ces difficultés, l'analyse de l'impact négatif est un formidable outil de diagnostic pour évaluer les pratiques en matière d'emploi et contribuer à faire en sorte que le traitement équitable soit monnaie courante sur le lieu de travail. Tout comme n'importe qui peut naviguer sur Internet sans connaître les codes qui y sont utilisés, une compréhension fonctionnelle de l'impact négatif est plus facile à obtenir qu'on ne le croit. Les programmes informatiques rendent les calculs gérables et les concepts fondamentaux ne sont pas trop complexes. L'objectif de cet article est de démystifier l'impact négatif et de présenter une compréhension concise de ses concepts.

 

Définition de l'impact négatif
Tel qu'il est utilisé aujourd'hui, le terme impact défavorable (AI) signifie essentiellement la même chose que lorsqu'il a été écrit pour la première fois : un taux de sélection substantiellement différent lors de l'embauche, de la promotion ou de toute autre décision en matière d'emploi qui désavantage les membres d'une race, d'un sexe ou d'un groupe ethnique (Uniform Guidelines Questions & Answers #10).[i] En substance, l'impact négatif indique si les décisions prises à l'égard d'un groupe protégé lui ont causé un désavantage substantiel. Il convient de noter que l'impact négatif décrit simplement les différences entre les groupes dans le cadre d'un processus de test. Il ne s'agit pas d'un terme juridique impliquant la culpabilité, ni d'un terme psychométrique impliquant l'injustice ou la partialité des tests.

Les trois méthodes les plus courantes pour déterminer l'impact négatif sont la règle des 80 %, les tests de signification statistique et les tests de signification pratique. Bien que la règle des 80 % et les tests de signification pratique aient chacun leurs mérites[ii]les procédures de conformité et les batailles juridiques modernes se déroulent principalement sur le front de la "signification statistique".

Cette déférence à l'égard d'un cadre de conformité/juridique influence également les choix connexes. Les statistiques descriptives et les tests de signification statistique peuvent tous deux être appliqués aux analyses d'impact négatif, mais les seconds sont préférables. Les statistiques descriptives montrent simplement la différence mathématique pertinente pour la comparaison effectuée. Les tests de signification statistique sont plus pertinents pour les analyses d'impact négatif car ils indiquent si la statistique descriptive est statistiquement significative et si elle peut être considérée comme une occurrence "au-delà du hasard".

Les différentes approches de l'impact négatif sont souvent divisées en deux types principaux : Les comparaisons de disponibilité et les comparaisons de taux de sélection. Les comparaisons de disponibilité peuvent être très utiles pour déterminer si un groupe est sous-utilisé, mais des détails supplémentaires sont nécessaires pour conclure à l'existence d'une incidence négative. La comparaison des taux de sélection est le seul type d'analyse qui, à lui seul, peut démontrer l'existence d'un impact négatif. C'est pourquoi cet article se concentrera sur l'impact négatif tel qu'il ressort des comparaisons des taux de sélection.

 

Comparaison des taux de sélection

Une comparaison des taux de sélection évalue les taux de sélection entre deux groupes(par exemple, les femmes et les hommes, les minorités et les blancs) dans le cadre d'une procédure de sélection. Les comparaisons de taux de sélection sont le plus souvent utilisées dans le cadre de litiges, car elles se rapportent spécifiquement au type d'analyse de l'impact négatif prévu par les lignes directrices uniformes. Ces analyses peuvent être utilisées pour évaluer un événement unique ou des événements multiples, mais il convient d'être particulièrement prudent lorsque l'on combine des événements multiples (voir ci-dessous). Quatre variables sont prises en compte dans toute analyse d'impact négatif de ce type :

  1. Le nombre de membres du groupe focal sélectionnés(par exemple, les femmes embauchées)
  2. Le nombre de membres du groupe focal qui n'ont pas été sélectionnés(par exemple, les femmes qui n'ont pas été embauchées)
  3. Le nombre de membres du groupe de référence sélectionnés(par exemple, les hommes embauchés)
  4. Le nombre de membres du groupe de référence qui n'ont pas été sélectionnés(par exemple, les hommes qui n'ont pas été embauchés).

 

Comparaison des taux de sélection pour un événement unique

Une comparaison des taux de sélection pour un événement unique est le type le plus typique d'analyse de l'impact négatif, et elle est spécifiquement expliquée dans les lignes directrices uniformes comme une "comparaison des taux" (section 4D) qui compare les taux de réussite entre deux groupes(par exemple, les hommes et les femmes) lors d'une procédure de sélection. Ce type d'analyse peut également être utilisé pour analyser le résultat de licenciements, de rétrogradations ou d'autres opérations similaires en matière de personnel où il n'y a que deux résultats possibles(par exemple, promu/non promu, embauché/non embauché, etc.)

Il existe deux catégories de tests de signification statistique qui peuvent être utilisés pour analyser l'impact négatif des comparaisons de taux de sélection : les tests exacts et les tests estimés. Les tests exacts fournissent la valeur de probabilité précise de l'analyse. Les techniques d'estimation se rapprochent des résultats exacts sans nécessiter de longs calculs. Les techniques exactes et estimatives nécessitent l'utilisation d'un tableau de contingence 2 x 2, comme indiqué dans le tableau 1.

 

Tableau de contingence 2 x 2
Les hommes Les femmes
Passez 50 40
Échec 50 50

Tableau 1 2 Xx2 Tableau de contingence

 

Comparaisons des taux de sélection pour des événements multiples

Il existe également une méthodologie appropriée pour comparer les taux de réussite des groupes ethniques et des groupes de sexe lors de plusieurs "événements" combinés ou de l'administration de diverses pratiques, procédures ou tests. Cette technique peut également être utilisée pour réaliser une analyse globale de l'impact négatif sur plusieurs emplois ou groupes d'emplois présentant des compétences similaires, ou pour comparer les taux de réussite d'un groupe dans le cadre d'un processus global de sélection ou de promotion sur plusieurs années. Une comparaison des taux de sélection pour plusieurs événements est nécessaire lorsque plusieurs années ou tests sont placés dans une analyse combinée. En effet, des anomalies statistiques peuvent survenir lorsque l'on combine des données provenant de plusieurs strates.

Bien qu'il puisse être tentant de simplement regrouper plusieurs années d'une pratique de test particulière dans une analyse combinée de l'impact négatif, les résultats seront parfois trompeurs à moins d'utiliser une technique spéciale d'"événements multiples". Un phénomène statistique appelé "paradoxe de Simpson"[iii][iii] montre pourquoi cela peut être un problème. Le tableau 2 montre que, bien que les taux de sélection de chaque groupe correspondent au cours d'une année donnée, les données combinées révèlent une disparité de 9 % dans les taux de sélection.

Exemple du paradoxe de Simpson
Année de test Groupe # Candidats # Sélectionné Taux de sélection
Test 2017 Les hommes 400 200 50.0%
Les femmes 100 50 50.0%
Test 2018 Les hommes 100 50 20.0%
Les femmes 100 20 20.0%
2017 + 2018
Tests combinés
Les hommes 500 220 44.0%
Les femmes 200 70 35.0%

Tableau 2 Exemple du paradoxe de Simpson

Pour éviter les pièges tels que le paradoxe de Simpson, deux étapes sont nécessaires pour agréger correctement les données et effectuer une comparaison des taux de sélection des événements multiples :

  1. Évaluer la cohérence des événements. Il faut déterminer si la "tendance" des taux de réussite d'un groupe est systématiquement défavorable. Il n'est pas approprié d'agréger différents "événements" montrant qu'un groupe est à la fois favorisé et défavorisé.
  2. Calculer les résultats du test statistique. Il s'agit d'évaluer si un impact négatif s'est produit dans l'analyse globale pour tous les événements combinés en utilisant un test tel que Mantel-Haenszel[iv].

 

Détermination de la signification statistique

Quelle que soit la méthode utilisée pour comparer les taux de sélection, la valeur obtenue doit toujours être replacée dans son contexte. Après tout, à quel point un résultat doit-il être inattendu pour être considéré comme "inhabituel" ou "rare" ? À partir de quel moment un tribunal ou un autre organisme de contrôle déterminerait-il que les résultats sont exécutoires ? Ce point de basculement conceptuel est appelé signification statistique.

Les résultats statistiquement significatifs d'un processus de sélection ou d'un test ont très peu de chances d'être le fruit du hasard. Un tel résultat signifie que l'on peut affirmer - avec un niveau raisonnable de certitude - qu'il existe une tendance légitime et non une relation fortuite. Les tests de signification statistique donnent lieu à une valeur p (pour probabilité). Les valeurs p inférieures ou égales à 0,05 (c'est-à-dire 5 %) sont considérées comme "statistiquement significatives" dans le domaine des analyses d'intelligence artificielle. En termes pratiques, cela est comparable à la sélection correcte d'une seule carte choisie dans un jeu standard de 52 cartes en 2 ou 3 tentatives au maximum (2,6 tentatives représentent une chance de 5 %).

Lorsqu'un test statistique est effectué pour évaluer si un événement est statistiquement significatif, il est toujours associé à une "puissance". Cela peut être utilisé pour décrire sa capacité à révéler un résultat statistiquement significatif s'il y en a un à trouver. En d'autres termes, la "puissance" indique dans quelle mesure on peut se fier au résultat. Trois facteurs créent la puissance statistique :

  1. Taille de l'effet. Pour les comparaisons de taux de sélection, il s'agit de la taille de l'"écart" entre les taux de sélection des deux groupes. Un écart plus important révèle plus facilement une signification statistique.
  2. Taille de l'échantillon. Le nombre de membres de chaque groupe joue un rôle clé dans les analyses d'impact négatif. Tout comme dans un sondage de paille, un échantillon plus important améliore la fiabilité.
  3. Le type de test statistique utilisé. Il s'agit notamment de la formule utilisée pour les analyses de l'impact négatif (certains tests sont plus puissants que d'autres) et de l'utilisation d'un test de signification à une queue ou à deux queues (voir la discussion sur les tests à une queue par rapport aux tests à deux queues ci-dessous).

Les chercheurs et les praticiens ont généralement peu de contrôle sur les différences mesurées (c'est-à-dire la taille de l'effet) des groupes analysés. Par conséquent, la constitution d'un échantillon de grande taille est peut-être le moyen le plus efficace d'accroître la puissance d'une analyse de l'impact négatif, augmentant ainsi la probabilité d'obtenir un résultat statistiquement significatif. Vous trouverez ci-dessous au moins cinq façons d'y parvenir. Il est important de noter que les quatre premières de ces techniques d'agrégation requièrent l'utilisation du type d'analyse d'événements multiples approprié, car des anomalies statistiques peuvent survenir lors de la combinaison des données, comme nous l'avons vu plus haut.

  1. Élargir le cadre temporel.
  2. Combiner plusieurs zones géographiques.
  3. Combiner des événements provenant de plusieurs travaux, groupes de travaux ou divisions.
  4. Combiner plusieurs procédures de sélection.
  5. Combiner différents groupes ethniques.

Malgré des années de débat, il n'existe pas de seuil absolu, de seuil de référence concernant la taille minimale de l'échantillon nécessaire pour mener des enquêtes statistiques. Les tribunaux considèrent souvent qu'il n'y a pas de taille minimale d'échantillon claire. Toutefois, si l'on devait choisir un nombre minimum ferme pour les analyses d'impact négatif, le consensus semble être de 30 personnes, dont au moins cinq devraient être sélectionnées. Il est important de noter que les analyses statistiques portant sur de petits nombres souffrent d'une "erreur d'échantillonnage" plus importante, ce qui rend les résultats moins fiables que les analyses portant sur des ensembles de données plus importants.

En ce qui concerne le type de test statistique à utiliser, il existe des tests "estimés" et des tests "exacts". Les tests estimés fournissent une probabilité approximative d'une circonstance. Les tests exacts, qui calculent la probabilité exacte d'une circonstance, sont considérés comme les tests statistiques les plus puissants pour les calculs d'impact négatif. Alors qu'un test exact fournit un résultat plus précis, un test estimé peut être plus facilement appliqué dans certaines situations(par exemple, taille d'échantillon plus petite).

Une dernière méthodologie à noter lors de la détermination de la signification statistique dans les analyses d'IA est l'utilisation d'un test à une queue par rapport à un test à deux queues. Un test statistique unilatéral étudie la possibilité d'une discrimination dans une seule direction(par exemple, à l'encontre des femmes). Un test bilatéral suppose que la discrimination peut avoir eu lieu dans les deux sens(par exemple, contre les hommes ou contre les femmes) et consacre sa puissance statistique à l'étude de la discrimination dans les deux sens. Les tribunaux ont été presque totalement cohérents dans leur exigence d'utiliser un test de signification à deux queues.

Réflexions finales
Les analyses d'impact négatif sont complexes par nature et variées dans leur forme, mais cela ne doit pas dissuader les praticiens de les inclure dans leur panoplie d'outils. Les informations tirées des analyses d'impact négatif sont exceptionnellement utiles pour identifier les domaines de responsabilité potentielle. Elles fournissent également des indications essentielles pour la mobilisation des ressources nécessaires à la résolution des problèmes soulevés. Bien qu'un certain nombre de ressources soient disponibles pour faciliter les analyses d'impact négatif, Biddle a mis à disposition un outil en ligne gratuit pour calculer des analyses d'IA simples à l'adresse suivante : http://www.biddle.com/adverseimpacttoolkit/SelectionRateComparison.aspx.

La réalisation d'analyses d'impact négatif est une étape inestimable pour les organisations qui examinent leurs processus de sélection et nettoient les aspects de ces processus qui pourraient ne pas être équitables. Pour ce faire, il faut toutefois reconnaître que les analyses d'impact négatif ne sont que des indicateurs de ce qui s'est passé. Il ne suffit pas d'identifier un problème pour le résoudre ; des mesures supplémentaires doivent être prises si l'on veut qu'un changement durable s'opère. Il est essentiel d'interpréter correctement les résultats de l'analyse d'impact et de formuler un plan d'action. Ainsi, on pourrait à juste titre considérer que la conclusion d'une analyse d'impact négatif est le moment où le "vrai travail" commence vraiment.

 


[i] Les lignes directrices uniformes sur les procédures de sélection des employés et les questions et réponses correspondantes peuvent être consultées à l'adresse suivante : www.uniformguidelines.com.
[ii] Voir Biddle, D. A. (2011). Adverse Impact and Test Validation : a Practitioner's Handbook (3e éd.). Scottsdale, AZ : Infinity Publishing. (pp. 3-5).
[iii] Voir Finkelstein, M. O., & Levin, B. (2001), Statistics for Lawyers (2e éd.). New York, NY : Springer (p. 237).
[iv] La technique de Mantel-Haenszel a été développée à l'origine pour agréger des ensembles de données dans le cadre de la recherche sur le cancer. Voir Mantel, N. & Haenszel, W. (1959), Statistical aspects of the analysis of data from retrospective studies of disease. Journal of National Cancer Institute, 22, 719-748.

Note de l'éditeur : Cet article a été publié à l'origine sur Circaworks.com. En avril 2023, Mitratech a acquis Circa, un fournisseur de premier plan de logiciels de recrutement inclusif et de conformité OFCCP. Le contenu a depuis été mis à jour pour refléter l'élargissement de nos offres de produits, l'évolution des réglementations de conformité en matière d'acquisition de talents et les meilleures pratiques en matière de gestion des ressources humaines.