Que se passe-t-il si votre organisation est poursuivie pour des tests d'embauche ? Étude de cas d'un procès pour validation d'un test d'équité en matière d'emploi : Smith vs. City of Boston - Partie 2

Dans la première partie, nous avons examiné la décision de la Cour sur l'existence ou non d'un impact disparate. Nous allons maintenant examiner la décision de la Cour sur la validité du test. Décision du tribunal sur la validité du test : est-il lié à l'emploi et conforme à la nécessité commerciale ? Puisque l'impact disparate a été démontré, la deuxième décision de l'affaire était de savoir si [...]

Personnel de Mitratech Mai 19, 2017

Dans la première partie, nous avons examiné la décision de la Cour sur l'existence ou non d'un impact disparate. Nous allons maintenant examiner la décision de la Cour sur la validité du test.

Arrêt de la Cour sur la validité des tests : sont-ils liés à l'emploi et conformes à la nécessité de l'entreprise ?

L'impact disparate ayant été démontré, la deuxième décision de l'affaire consistait à déterminer si le test de 2008 était à la fois lié à l'emploi pour le poste de lieutenant du Boston Police Department (BPD) et conforme à la nécessité commerciale, comme l'exigent les Uniform Guidelines. Les termes "lié à l'emploi" et "conforme à la nécessité professionnelle" signifient que le test est lié à l'emploi et nécessaire pour aider l'entreprise à fonctionner efficacement.

Trois types de méthodes de validation des essais décrits dans les lignes directrices uniformes

Les lignes directrices uniformes décrivent trois types de méthodes de validation des tests permettant de déterminer si les pratiques, procédures ou tests (PPT) sont liés à l'emploi et conformes à la nécessité professionnelle : la validation des critères, la validation du contenu et la validation de la construction. Les lignes directrices uniformes fournissent un ensemble d'exigences minimales à respecter lors de la réalisation d'études de validation. Elles ne prévoient toutefois pas de méthodologie trop spécifique à suivre pour qu'une étude de validation soit considérée comme potentiellement défendable sur le plan juridique. La première méthode de validation, la validité des critères, fournit des preuves statistiques que les personnes qui obtiennent de meilleurs résultats au PPT sont plus susceptibles de réussir dans leur travail, ce qui montre que le PPT est lié à l'emploi. La deuxième méthode de validation, la validité de contenu, fournit des preuves déductives qu'un PPT est lié à l'emploi. Pour ce faire, une étude approfondie du poste (analyse du poste) et une série d'enquêtes d'opinion auprès d'experts en la matière (PME) sont nécessaires. La troisième méthode de validation, qui permet d'évaluer si le PPT est lié à l'emploi, est la validité conceptuelle. La validité du concept est démontrée par l'identification des relations entre trois éléments : une caractéristique spécifique liée à l'emploi, un TPP mesurant cette caractéristique et des mesures de la performance professionnelle. En raison de la difficulté et de la complexité de la démonstration de la validité conceptuelle, cette méthode est rarement utilisée dans les évaluations des TPP.

Les études de validation des critères et du contenu commencent généralement par l'examen de documents contenant des analyses de postes, des descriptions de postes et d'autres informations que l'employeur a pu élaborer. Ces documents décrivent généralement les tâches importantes effectuées par les personnes occupant le poste et les connaissances, compétences, aptitudes et caractéristiques personnelles (KSAPC) nécessaires à l'accomplissement de ces tâches. Les connaissances, les compétences, les aptitudes et les caractéristiques personnelles sont des attributs qui sous-tendent la bonne exécution des tâches du poste. Ces informations servent de base à l'analyse de poste requise, dans le cas d'une étude de validation du contenu, ou dans le cas d'une étude de validation des critères, une analyse du poste. L'analyse de poste est une analyse approfondie du poste pour lequel un PPT est créé. Elle comprend la documentation des tâches importantes effectuées par les personnes qui occupent le poste et les KSAPC nécessaires à l'exécution de ces tâches. Elle implique également la collecte de données d'enquête auprès des PME sur ces KSAPC dans plusieurs domaines, tels que le niveau d'importance et la fréquence des KSAPC et des tâches professionnelles. L'analyse de l'emploi est beaucoup moins rigoureuse que l'analyse du travail. Une analyse du poste implique l'examen des informations relatives au poste afin de déterminer les mesures des comportements ou des performances professionnelles qui sont pertinentes pour le poste. Dans le cas de l'examen du TPL, une approche de validation du contenu a été adoptée et, par conséquent, une analyse de poste a été effectuée.

Documentation sur la validité du contenu

Diverses méthodologies peuvent être utilisées lors de l'analyse d'un emploi. Toutefois, plus la méthodologie est conforme à la section 14C des lignes directrices uniformes pour la validité du contenu, plus l'analyse de poste pourra être défendue juridiquement devant un tribunal. Les Uniform Guidelines décrivent également la manière dont l'analyse des emplois, l'élaboration des tests et la validation des tests doivent être documentées différemment pour les études de validité de contenu, de critère et de construction. Il est important que les employeurs gardent cela à l'esprit, car plus le concepteur du test est en mesure de fournir une documentation sur les étapes spécifiques qu'il a suivies pour l'analyse du poste, l'élaboration du test et la validation du test, plus la procédure de sélection est susceptible d'être juridiquement défendable. La section 15C des lignes directrices uniformes décrit 19 éléments essentiels différents et huit éléments différents qui devraient être inclus pour la validité du contenu. Certains éléments doivent être inclus le cas échéant, même s'ils ne sont pas considérés comme essentiels, parce que certaines circonstances rendent difficile l'inclusion de ces éléments, ou parce que d'autres approches peuvent être adoptées.

Les domaines requis sont les suivants :

les dates et lieux de l'analyse des emplois
les circonstances dans lesquelles l'étude a été réalisée
éléments de l'analyse de l'emploi
les éléments de la procédure de sélection et son contenu
la relation entre la procédure de sélection et le poste
les procédures de sélection alternatives étudiées
utilisation et application de la procédure de sélection
personne de contact
l'exactitude et l'exhaustivité

L'examen de la documentation et la manière dont la ville a traité ou non ces éléments seront abordés dans les sections suivantes.

Analyse de l'emploi du lieutenant du département de police de Boston

Ensuite, l'analyse du poste du lieutenant de la BPD a été examinée pour déterminer si elle répondait aux exigences de validation du contenu dans les lignes directrices uniformes. Dans le cas de l'examen du BPD, la Cour a estimé que la ville avait suffisamment pris en compte les exigences des directives uniformes en matière d'analyse de poste.

Le rôle d'un lieutenant de la police de Boston

Avant d'expliquer l'examen de la documentation relative à l'analyse des emplois, il est important de comprendre le rôle d'un lieutenant du BPD. L'étude des documents relatifs à l'analyse du poste afin de déterminer si le test était lié à l'emploi et à la nécessité professionnelle a permis de découvrir que les lieutenants du département de police de Boston sont des superviseurs de deuxième ligne qui supervisent les sergents, et que les sergents supervisent les officiers de police. Les lieutenants sont également responsables des commissariats, de l'arrestation des suspects et de la sécurité des prisonniers. Le travail de bureau au poste de police est également très important.

Les lieutenants sont amenés à travailler en dehors du poste, notamment en discutant avec les citoyens lors de réunions communautaires et en prenant le contrôle des scènes d'incidents majeurs. Les lieutenants doivent posséder des compétences en matière de supervision, notamment la capacité de motiver les employés et de communiquer des informations entre les grades. La description officielle du poste de lieutenant n'a pas changé depuis 1979 et le commissaire actuel du département de police de Boston, William Evans, a déclaré qu'elle était toujours exacte. Les lignes directrices uniformes insistent sur la mise à jour des analyses de poste en fonction de l'évolution du poste et donnent une bonne règle empirique consistant à examiner les analyses de poste tous les cinq ans.

Analyses des emplois utilisées comme base pour la création de l'examen BPD

Ce qui suit est une discussion plus détaillée des analyses de postes utilisées comme preuves dans le cas présent. Trois analyses de postes différentes ont servi de base à l'élaboration de l'examen de 2008 utilisé dans le cas de la DBP : une analyse de poste réalisée en 1991, une autre en 2000 qui intégrait certains éléments de l'analyse de poste de 1991, et une analyse de poste abrégée en 2008. L'analyse abrégée de 2008 était une légère mise à jour de l'analyse de 2000. L'analyse abrégée de 2008 a finalement été utilisée pour la création de l'examen de 2008. Seules les analyses des emplois de 2000 et 2008 sont expliquées ici, car elles ont été les plus fondamentales pour l'élaboration de l'examen 2008.

Analyse des emplois en 2000

Pour l'analyse des emplois de 2000, la ville a fait appel à une société de conseil externe. Ce cabinet a d'abord dressé une liste de 302 tâches susceptibles d'intéresser les lieutenants de police de Boston, ainsi que les connaissances, les compétences et les aptitudes (KSA) nécessaires à l'accomplissement de ces tâches. Douze PME, composées d'employés du département ayant le grade de lieutenant ou un grade supérieur, ont évalué les tâches en fonction de leur fréquence, de leur importance, de la nécessité d'effectuer la tâche dès la prise de fonction et de la mesure dans laquelle l'exécution réussie de la tâche était liée à la bonne exécution du travail. Si 10 des PME ont évalué une tâche comme étant "très importante" ou "importante" lors de l'entrée en fonction, et ont convenu que l'exécution de cette tâche distinguait clairement les meilleurs travailleurs des travailleurs inférieurs, elle a alors satisfait aux critères de la ville pour être incluse dans l'analyse finale de l'emploi. Sur les 302 tâches initiales, 281 remplissaient les critères.

Les PME ont ensuite été invitées à déterminer lesquelles des dimensions suivantes étaient requises pour chaque tâche : communication orale, compétences interpersonnelles, identification et analyse des problèmes, jugement, planification et organisation. Une liste de 149 compétences clés potentiellement nécessaires à l'exécution des 281 tâches a ensuite été dressée. Ensuite, il a été demandé aux PME si les compétences clés étaient liées au poste de lieutenant de police, quand les compétences clés ont été apprises (avant ou après l'affectation au poste), combien de temps il a fallu pour apprendre les compétences clés, comment les compétences clés ont différencié les performances et si les compétences clés étaient nécessaires pour effectuer le travail de manière efficace.

Pour qu'un KSA soit suffisamment important pour être testé, neuf des douze PME doivent l'avoir évalué comme suit :

en rapport avec l'emploi
appris avant l'affectation à l'emploi
nécessitant une formation plus poussée qu'une brève période d'orientation
avoir la capacité de distinguer les performances à un degré élevé ou modéré
nécessaires ou souhaitables pour exercer efficacement l'emploi

Sur les 149 KSA évalués par les PME, 145 répondaient aux critères.

Analyse des emplois 2008

Pour l'analyse des emplois de 2008, il a été demandé aux PME de réévaluer chacun des 149 KSA utilisés dans l'analyse des emplois réalisée en 2000. Les PME ont évalué un nombre suffisant des 149 KSA en 2008 comme répondant aux critères précédemment décrits comme étant suffisamment importants pour être testés.

Arrêt de la Cour sur l'analyse des emplois

Le tribunal a estimé que la ville avait suffisamment tenu compte des exigences des lignes directrices uniformes en matière d'analyse des emplois.

Développement et validation des tests

Dans la phase suivante, la Cour a examiné dans quelle mesure le contenu de l'examen était lié à l'emploi. La Cour a examiné l'élaboration du test et sa validation. Elle a également examiné la manière dont le ministère utilisait l'examen pour prendre des décisions en matière de promotion. L'examen de 2008 comportait deux éléments : un examen écrit, à livre fermé, composé de 100 questions à choix multiples, et une évaluation de l'éducation et de l'expérience (E&E). La section suivante examine la méthode utilisée pour élaborer les examens, la mesure dans laquelle l'examen constitue un échantillon représentatif du poste et la manière dont l'examen a été utilisé pour sélectionner les lieutenants.

Souvent, l'analyse de poste est finalisée avant que l'examen à choix multiples ne soit créé. Le développeur de tests convertit alors fréquemment l'analyse du poste en un document de planification du test qui décrit les KSA qui seront évalués par l'examen. Cela permet de s'assurer que l'examen est un échantillon représentatif du poste. Dans le cas présent, un plan de test a été élaboré et 100 questions ont été créées pour mesurer certaines compétences clés. Les PME ont ensuite examiné les questions de l'examen, identifié les compétences clés essentielles correspondant aux questions et évalué les questions en termes de difficulté, de lisibilité et de recommandation d'utilisation. L'avis des PME est essentiel à ce stade du processus d'élaboration du test, car il permet de valider que les éléments du test sont en rapport avec le poste. Le tribunal a estimé que la ville avait suffisamment tenu compte des lignes directrices uniformes pour cette partie du processus.

La première partie de l'examen, la formation et l'expérience, a été examinée par la cour pour vérifier sa conformité avec les lignes directrices uniformes. La note E&E était une mesure de la formation et de l'expérience antérieures. Sur 100 points possibles à l'examen écrit, la ville exigeait des candidats qu'ils obtiennent au moins 70 points pour réussir. La note E&E n'était alors calculée que pour les candidats ayant réussi l'examen écrit. La partie écrite comptait pour 80 % de la note finale, et la composante E&E pour 20 %. Chaque candidat se voyait automatiquement attribuer 14 des 20 points totaux pour l'examen d'évaluation et d'appréciation. La Cour a décidé d'exclure de l'analyse l'ensemble de la partie E&E de l'examen parce qu'elle contribuait très peu au classement des candidats sur la liste d'admissibilité par rapport à l'examen écrit. En fait, la corrélation entre les notes obtenues par les candidats à l'examen écrit et celles obtenues à l'examen final était de 0,95, soit une corrélation positive presque parfaite. Une liste d'admissibilité est une liste de candidats qui peuvent être embauchés. La ville n'a pas non plus fourni d'éléments permettant d'établir un lien entre l'E&E et les tâches ou les KSA de l'analyse des emplois.

Le tribunal a ensuite examiné les preuves concernant la mesure dans laquelle l'examen évaluait un échantillon représentatif des compétences professionnelles. Elle l'a fait parce que les lignes directrices uniformes stipulent au point 14(C)(1) qu'"une procédure de sélection peut être étayée par une stratégie de validité du contenu dans la mesure où elle constitue un échantillon représentatif du contenu de l'emploi". L'analyse des emplois réalisée en 2000 a révélé que 145 KSA étaient essentiels à l'exécution du travail. Bien que 13 catégories de connaissances aient été évaluées lors de l'examen écrit, elles étaient formulées de manière très générale et il a été estimé qu'environ 80 % des connaissances pouvaient entrer dans ces catégories. Toutefois, en fin de compte, seuls deux des domaines d'aptitudes critiques ont été évalués. La Cour a donc conclu que l'examen de 2008 ne permettait pas de tester suffisamment un échantillon représentatif des compétences essentielles, car il ne reflétait pas un grand nombre des compétences et des aptitudes nécessaires pour exercer la fonction de lieutenant. Dans l'évaluation globale de la validité du contenu, c'est l'une des principales raisons pour lesquelles l'examen a finalement été jugé non conforme aux normes des lignes directrices uniformes. Les années précédentes, la ville avait utilisé un centre d'évaluation conçu pour tester des compétences et des aptitudes telles que la communication orale, les compétences interpersonnelles, la capacité à identifier rapidement un problème et à l'analyser, la capacité à prendre rapidement des décisions judicieuses et la capacité à décomposer le travail en sous-tâches et à les classer par ordre de priorité. Ces compétences ont été évaluées au moyen d'une série d'exercices, dont un exercice "in-basket" (exercice écrit simulé) et un exercice de mise en situation. Lors de l'exercice de mise en situation, les candidats ont été filmés en train de donner des réponses verbales à des scénarios hypothétiques auxquels un lieutenant peut être confronté. La ville a décidé de ne pas faire appel à un centre d'évaluation pour l'examen de 2008, mais si elle avait choisi de le faire, il est beaucoup plus probable que le tribunal aurait estimé que l'examen constituait un échantillon représentatif du poste. En effet, l'examen aurait pu mesurer davantage de compétences et d'aptitudes, telles que la capacité de communication, les compétences interpersonnelles et le jugement situationnel.

Le tribunal a ensuite évalué les preuves concernant la fiabilité du test. L'article 14 (C)5 des lignes directrices uniformes stipule ce qui suit : "chaque fois que cela est possible, des estimations statistiques appropriées devraient être faites sur la fiabilité de la procédure de sélection". Dans cette situation, la fiabilité aurait probablement mesuré la mesure dans laquelle les éléments de l'examen mesuraient le même domaine, tel que la connaissance du travail. La ville n'a pas apporté la preuve qu'elle avait procédé à une quelconque analyse de fiabilité et le tribunal l'a blâmée pour cela.

Arrêt de la Cour

Trop peu de KSA ont été testés.
La fiabilité du test n'a pas été démontrée.

Évaluation de l'utilisation de l'examen pour prendre des décisions de sélection

Un autre élément important à prendre en compte pour évaluer la validité d'un TPG est la manière dont il est utilisé pour prendre une décision de sélection. Il y a trois façons principales d'utiliser un test pour prendre des décisions de sélection. Si l'objectif est de déterminer comment séparer les candidats qualifiés de ceux qui ne le sont pas, le test doit être utilisé sur la base d'une réussite ou d'un échec, avec un score minimum de réussite. Si l'objectif est d'établir des distinctions entre des candidats également qualifiés, mais dont les résultats bruts au test sont légèrement différents, il convient d'utiliser l'approche du "banding". La classification est une procédure statistique qui place les candidats ayant obtenu des scores similaires dans des groupes, et chaque groupe peut être considéré comme ayant le même score. Le classement doit être utilisé si l'objectif est de prendre des décisions basées sur les résultats du test, candidat par candidat. En d'autres termes, le test est utilisé par ordre de classement pour embaucher ou faire avancer les candidats dans le processus de sélection, en commençant par le haut de la liste et en allant vers le bas. Si l'on souhaite prendre des décisions sur les candidats sur la base de plusieurs procédures de sélection à travers de nombreuses CAPS qui diffèrent en termes d'importance, il est possible d'utiliser un processus de sélection pondéré ou combiné. Le niveau de validité et de fiabilité exigé par les tribunaux augmente en passant de la réussite/échec à la notation et au classement (Biddle, 2011).¹). Étant donné que la manière dont le test est utilisé est si importante pour déterminer la validité globale du test, les tribunaux examinent la manière dont le test est utilisé avec un niveau élevé d'attention.

La ville a choisi d'utiliser un score minimum de réussite à l'examen. La section 5(H) des directives uniformes stipule que "lorsque des scores limites [scores minimums de réussite] sont utilisés, ils devraient normalement être fixés de manière à être raisonnables et cohérents avec les attentes normales d'une compétence acceptable au sein de la force de travail". Supposons que l'on crée un test à choix multiples pour un agent de police débutant, dont tous les éléments sont parfaitement pertinents pour l'emploi, mais que l'on fixe arbitrairement à 90 % le score minimum de réussite. Qu'est-ce qui prouve que 90 % est le score minimum adéquat pour identifier avec précision les candidats peu qualifiés ? Sans l'avis d'un expert en matière d'emploi sur le score qu'un candidat peu qualifié obtiendrait au test, un seuil de 90 % ne peut être justifié. La ville a choisi un seuil de 70 % pour l'examen de 2008, mais n'a fourni aucune justification. Elle a décidé de pondérer la partie écrite de l'examen à 80 % et l'E&E à 20 %. Se référant à des examens antérieurs, la ville a déclaré qu'elle pensait que les PME auraient probablement choisi la formule de pondération 80 %/20 %. Toutefois, les PME n'ont jamais été interrogées à ce sujet. Rien n'indique que la ville ait effectué des analyses pour étayer la note de passage et la pondération.

Pour les candidats qui ont réussi l'examen écrit avec 70 % de bonnes réponses, la note E&E a ensuite été appliquée à leur note globale et les candidats ont été sélectionnés pour la promotion par ordre de classement. La section 5(G) des lignes directrices uniformes stipule ce qui suit : "Les éléments de preuve qui peuvent être suffisants pour justifier l'utilisation d'une procédure de sélection sur la base d'une réussite ou d'un échec peuvent être insuffisants pour justifier l'utilisation de la même procédure sur la base d'un classement. Étant donné que les normes de fiabilité et de validité sont les plus élevées pour le classement, la Cour a examiné de très près cet aspect du processus de sélection.

Arrêt de la Cour

Le système de pondération de l'examen écrit et des E&E n'était pas justifié.
Un seuil arbitraire de 70 % a été utilisé et n'a pas pu être justifié.

Arrêts globaux de la Cour

Dans le cas de l'administration de l'examen BPD, le tribunal a d'abord jugé qu'il y avait eu un impact disparate. La partie suivante de la procédure judiciaire a consisté à examiner si l'examen répondait aux normes de validité du contenu énoncées dans les lignes directrices uniformes. Bien que le tribunal ait déterminé que la partie relative à l'analyse du travail répondait aux normes de validité du contenu, il a jugé que l'examen lui-même ne répondait pas aux normes de validité du contenu pour les raisons suivantes :

Trop peu de KSA ont été testés.
La fiabilité du test n'a pas été démontrée.
Le système de pondération de l'examen écrit et des E&E n'était pas justifié.
Un seuil arbitraire de 70 % a été utilisé et n'a pas pu être justifié.

Discussion

Le coût potentiel d'un litige est élevé et il est très important d'avoir un processus de sélection valide qui identifie les meilleurs candidats pour le poste. Comprendre le processus d'une affaire d'impact disparate au titre VII peut aider votre agence à prendre des décisions éclairées sur votre processus de test. Cette affaire a mis en lumière certains des nombreux aspects qu'il est important de prendre en considération pour évaluer l'impact disparate et le rôle de l'analyse des emplois, du développement des tests et de la validation des tests dans l'évaluation d'une contestation de l'impact disparate en vertu du titre VII. Il est essentiel d'acquérir une compréhension approfondie des lignes directrices uniformes pour comprendre comment les tribunaux évaluent les actions en justice relatives à la validation des tests en cas d'impact disparate. Bien que ce cas suive un processus typique, chaque cas est légèrement différent. Par exemple, si une approche de validation par critère ou par construction avait été utilisée, le test aurait été évalué en fonction de la section 15(B) des lignes directrices uniformes pour les études de validité par critère, ou de la section 15(D) pour les études de validité par construction. Dans le cas présent, une mesure de la formation et de l'expérience et un test écrit à choix multiples ont été évalués. Toutefois, il existe toute une série d'autres TPP qui font l'objet de litiges, notamment des entretiens, des tests d'échantillons de travail, des tests de personnalité et des tests d'aptitudes physiques, pour n'en citer que quelques-uns.

1. Biddle, D. A. (2011). Adverse Impact and Test Validation : A Practitioner's Handbook (3e éd.). Scottsdale, AZ : Infinity Publishing.↵

Note de l'éditeur : Cet article a été publié à l'origine sur Circaworks.com. En avril 2023, Mitratech a acquis Circa, un fournisseur de premier plan de logiciels de recrutement inclusif et de conformité OFCCP. Le contenu a depuis été mis à jour pour refléter l'élargissement de nos offres de produits, l'évolution des réglementations de conformité en matière d'acquisition de talents et les meilleures pratiques en matière de gestion des ressources humaines.