En la primera parte examinamos la resolución del tribunal sobre si se había producido o no un impacto desigual. Ahora examinaremos la resolución del tribunal sobre la validez de la prueba.

Sentencia judicial sobre la validez de las pruebas: ¿están relacionadas con el puesto de trabajo y son coherentes con las necesidades empresariales?

Dado que se demostró la existencia de un impacto desigual, la segunda resolución del caso fue si la prueba de 2008 estaba relacionada con el puesto de teniente del Departamento de Policía de Boston (BPD) y era coherente con las necesidades empresariales, tal y como exigen las Directrices Uniformes. «Relacionada con el puesto» y «coherente con las necesidades empresariales» significa que la prueba estaba relacionada con el puesto y era necesaria para ayudar a que la empresa funcionara de manera eficaz.

Tres tipos de métodos de validación de pruebas descritos en las Directrices Uniformes

En las Directrices uniformes se describen tres tipos de métodos de validación de pruebas que se utilizan para determinar si las prácticas, los procedimientos o las pruebas (PPT) están relacionados con el trabajo y son coherentes con las necesidades empresariales: validación de criterios, validación de contenidos y validación de constructos. Las Directrices uniformes proporcionan un conjunto de requisitos mínimos que deben cumplirse al realizar estudios de validación. Sin embargo, no incluyen una metodología excesivamente específica que deba seguirse para que un estudio de validación se considere potencialmente defendible desde el punto de vista jurídico. El primer método de validación, la validez de criterio, proporciona pruebas estadísticas de que quienes obtienen mejores resultados en la PPT tienen más probabilidades de tener éxito en el trabajo, lo que demuestra que la PPT está relacionada con el trabajo. El segundo método de validación, la validez de contenido, proporciona pruebas inferenciales de que una PPT está relacionada con el trabajo. Esto se logra mediante un estudio en profundidad del trabajo (un análisis del trabajo) y una serie de encuestas de opinión a expertos en la materia (SME). El tercer método de validación que evalúa si la PPT está relacionada con el trabajo es la validez del constructo. La validez del constructo se demuestra identificando las relaciones entre tres elementos: una característica específica relacionada con el trabajo, una PPT que mide esa característica y medidas del rendimiento laboral. Debido a la dificultad y complejidad de demostrar la validez del constructo, este método rara vez se utiliza en las evaluaciones de la PPT.

Tanto los estudios de validación de criterios como los de validación de contenidos suelen comenzar con una revisión de los documentos que contienen análisis de puestos de trabajo elaborados previamente, descripciones de puestos y otra información que el empleador pueda haber recopilado. Estos documentos suelen describir las funciones importantes que desempeñan los ocupantes del puesto y los conocimientos, habilidades, aptitudes y características personales (KSAPC) necesarios para desempeñar esas funciones. Los conocimientos, habilidades, aptitudes y características personales son atributos que subyacen al desempeño satisfactorio de las funciones del puesto. Esta información se utiliza como base para el análisis del puesto de trabajo requerido, en el caso de un estudio de validación de contenidos, o en el caso de un estudio de validación de criterios, para un análisis del puesto de trabajo. Un análisis del puesto de trabajo es un análisis en profundidad del puesto para el que se está creando un PPT, e incluye la documentación de las tareas importantes que realizan las personas que ocupan el puesto y los KSAPC necesarios para desempeñar esas tareas. También implica la recopilación de datos de encuestas de expertos en la materia sobre esas KSAPC en varias áreas, como el nivel de importancia y frecuencia de las KSAPC y las funciones del puesto. El análisis del puesto es mucho menos riguroso que el análisis del trabajo. El análisis del puesto implica la revisión de la información del puesto para determinar las medidas de comportamiento o rendimiento laboral que son relevantes para el puesto. En el caso del examen BPD, se adoptó un enfoque de validación de contenido y, por lo tanto, se llevó a cabo un análisis del puesto.

Documentación sobre la validez del contenido

Se pueden utilizar diversas metodologías para realizar un análisis de puestos. Sin embargo, cuanto más se ajuste la metodología a la sección 14C de las Directrices Uniformes en materia de validez de contenido, más defendible será el análisis de puestos ante los tribunales. Las Directrices Uniformes también describen cómo el análisis del puesto de trabajo, el desarrollo de pruebas y la validación de pruebas deben documentarse de forma diferente para los estudios de validez de contenido, criterio y constructo. Es importante que los empleadores tengan esto en cuenta, ya que cuanto más se ajuste el desarrollador de pruebas a la documentación sobre los pasos específicos que ha seguido para el análisis del puesto de trabajo, el desarrollo de pruebas y la validación de pruebas, más defendible será el procedimiento de selección desde el punto de vista legal. La sección 15C de las Directrices Uniformes describe 19 elementos esenciales diferentes y ocho elementos diferentes que deben incluirse para la validez del contenido. Ciertos elementos deben incluirse si son aplicables, aunque no figuren como esenciales, porque determinadas circunstancias dificultarían su inclusión o, en ocasiones, se pueden adoptar enfoques alternativos.

Las áreas requeridas incluyen las siguientes:

  • fechas y lugares del análisis del puesto
  • las circunstancias en las que se llevó a cabo el estudio
  • Elementos del análisis del puesto
  • elementos del procedimiento de selección y su contenido
  • la relación entre el proceso de selección y el puesto de trabajo
  • procedimientos de selección alternativos investigados
  • Usos y aplicación del procedimiento de selección.
  • persona de contacto
  • precisión y exhaustividad

En las siguientes secciones se analizará la documentación y cómo la ciudad abordó o no abordó estos elementos.

Análisis del puesto de teniente del Departamento de Policía de Boston examinado

A continuación, se examinó el análisis del puesto de teniente del BPD para determinar si cumplía los requisitos de validación del contenido establecidos en las Directrices Uniformes. En el caso del examen del BPD, el tribunal consideró que la ciudad había cumplido suficientemente los requisitos de análisis del puesto establecidos en las Directrices Uniformes.

El papel de un teniente del Departamento de Policía de Boston

Antes de explicar la revisión de la documentación del análisis del puesto, es importante comprender primero a alto nivel la función de un teniente del Departamento de Policía de Boston. El estudio de los documentos del análisis del puesto para determinar si la prueba estaba relacionada con el trabajo y era necesaria para el negocio reveló que los tenientes del Departamento de Policía de Boston actúan como supervisores de segunda línea que supervisan a los sargentos, y los sargentos supervisan a los agentes de policía. Los tenientes también están a cargo de las comisarías, son responsables de arrestar a los sospechosos y se encargan de la seguridad de los presos. También hay una cantidad significativa de trabajo administrativo que realizar en la comisaría.

Los tenientes deben trabajar fuera de la comisaría, lo que incluye hablar con los ciudadanos en reuniones comunitarias y tomar el control de los escenarios de incidentes graves. Las habilidades de supervisión que se requieren de los tenientes incluyen la capacidad de motivar a los empleados y de comunicar información entre los rangos. La descripción oficial del puesto de teniente no ha cambiado desde 1979 y el actual comisionado del Departamento de Policía de Boston, William Evans, declaró que sigue siendo precisa. Las Directrices Uniformes hacen hincapié en la actualización de los análisis de puestos de trabajo a medida que estos cambian con el tiempo y ofrecen una buena regla general para examinar los análisis de puestos de trabajo cada cinco años.

Análisis de puestos de trabajo utilizados como base para crear el examen BPD

A continuación se ofrece una descripción más detallada de los análisis de puestos utilizados como prueba en el presente caso. Se utilizaron tres análisis de puestos diferentes como base para elaborar el examen de 2008 utilizado en el caso BPD: un análisis de puestos realizado en 1991, otro en 2000 que incorporaba algunos elementos del análisis de puestos de 1991 y un análisis de puestos abreviado en 2008. El análisis de puestos de trabajo abreviado de 2008 fue una ligera actualización del análisis de puestos de trabajo de 2000. El análisis de puestos de trabajo abreviado de 2008 se utilizó finalmente en la creación del examen de 2008. Aquí solo se explican los análisis de puestos de trabajo de 2000 y 2008, ya que fueron los más fundamentales para el desarrollo del examen de 2008.

Análisis de puestos de trabajo 2000

Para el análisis de puestos de trabajo del año 2000, la ciudad contrató a una empresa consultora externa. La empresa elaboró primero una lista de 302 tareas posiblemente relevantes que realizan los tenientes de la policía de Boston, así como los conocimientos, habilidades y aptitudes (KSA) necesarios para realizar esas tareas. Doce expertos en la materia, empleados del Departamento con rango de teniente o superior, calificaron las tareas en función de su frecuencia, importancia, necesidad de realizarlas al comenzar el trabajo y la relación entre el desempeño satisfactorio de la tarea y el desempeño satisfactorio del trabajo. Si 10 de los expertos calificaban una tarea como «muy importante» o «importante» al incorporarse al puesto y coincidían en que el desempeño de esa tarea diferenciaba claramente a los mejores trabajadores o a los trabajadores más competentes de los trabajadores menos competentes, entonces se cumplían los criterios de la ciudad para incluirla en el análisis final del puesto. De las 302 tareas iniciales, 281 cumplían los criterios.

A continuación, se pidió a los expertos en la materia que determinaran cuáles de las siguientes dimensiones eran necesarias para cada tarea: comunicación oral, habilidades interpersonales, identificación y análisis de problemas, criterio y planificación y organización. A continuación, se elaboró una lista de 149 KSAs potencialmente necesarias para realizar las 281 tareas. A continuación, se preguntó a los expertos si las KSAs estaban relacionadas con el trabajo de teniente de policía, cuándo se aprendieron las KSAs (antes o después de ser asignadas al trabajo), cuánto tiempo se tardó en aprenderlas, cómo diferenciaban el rendimiento y si eran necesarias para realizar el trabajo de forma eficaz.

Para que una KSA sea lo suficientemente importante como para ser evaluada, nueve de las 12 PYME deben haberla calificado como:

  • relacionado con el trabajo
  • aprendido antes de la asignación al puesto de trabajo
  • que requiere más formación que un breve periodo de orientación
  • capacidad para distinguir el rendimiento en un grado alto o moderado
  • necesario o deseable para realizar el trabajo de manera eficaz

De las 149 KSA evaluadas por las PYME, 145 cumplían los criterios.

Análisis de puestos de trabajo 2008

Para el análisis de puestos de trabajo de 2008, se pidió a los expertos en la materia que volvieran a calificar cada una de las 149 competencias utilizadas en el análisis de puestos de trabajo realizado en 2000. Los expertos en la materia calificaron un número suficiente de las 149 competencias en 2008 como aptas para cumplir los criterios previamente establecidos como lo suficientemente importantes como para ser evaluadas.

Sentencia judicial sobre el análisis del puesto de trabajo

  • El tribunal consideró que la ciudad había cumplido suficientemente con los requisitos de análisis de puestos de trabajo establecidos en las Directrices Uniformes.

Desarrollo y validación de pruebas

En la siguiente fase, el tribunal examinó en qué medida el contenido del examen estaba relacionado con el puesto de trabajo. El tribunal analizó el desarrollo de la prueba y su validación. El tribunal también examinó cómo utilizaba el departamento el examen para tomar decisiones sobre ascensos. El examen de 2008 constaba de dos elementos: un examen escrito a libro cerrado compuesto por 100 preguntas de opción múltiple y una calificación de formación y experiencia (E&E). En la siguiente sección se examinará el método utilizado para elaborar los exámenes, en qué medida el examen era una muestra representativa del puesto de trabajo y cómo se utilizó el examen para seleccionar a los tenientes.

A menudo, el análisis del puesto se finaliza antes de crear el examen de opción múltiple. A continuación, el desarrollador de la prueba suele convertir el análisis del puesto en un documento de plan de prueba que describe qué conocimientos, habilidades y aptitudes se evaluarán en el examen. Esto se hace para garantizar que el examen sea una muestra representativa del puesto. En este caso, se creó un esquema de prueba y se crearon 100 ítems de prueba para medir determinados conocimientos, habilidades y aptitudes. A continuación, los expertos revisaron las preguntas de la prueba, identificaron qué conocimientos, habilidades y aptitudes se correspondían con las preguntas y evaluaron las preguntas en cuanto a dificultad, legibilidad y recomendación de uso. La opinión de los expertos es fundamental en esta fase del proceso de desarrollo de la prueba, ya que proporciona la validación de que las preguntas de la prueba están relacionadas con el puesto de trabajo. El tribunal consideró que la ciudad había cumplido adecuadamente con las Directrices Uniformes en esta parte del proceso.

La primera parte del examen, la formación y la experiencia, fue examinada por el tribunal para comprobar su conformidad con las Directrices Uniformes. La puntuación E&E era una medida de la formación y la experiencia previas. De los 100 puntos posibles en el examen escrito, la ciudad exigía a los candidatos una puntuación mínima de 70 puntos para aprobar. A continuación, se calculaba la puntuación E&E solo para los candidatos que habían aprobado el examen escrito. La parte escrita representaba el 80 % de la puntuación final; el componente E&E, el 20 %. A todos los candidatos se les otorgaban automáticamente 14 de los 20 puntos totales de E&E. El tribunal decidió finalmente excluir toda la parte E&E del examen del análisis, ya que contribuía muy poco a la clasificación de los candidatos en la lista de elegibles en comparación con el examen escrito. De hecho, la correlación entre las puntuaciones de los candidatos en el examen escrito y su puntuación final en el examen fue de 0,95, una correlación positiva casi perfecta. Una lista de elegibles es una lista de candidatos que pueden ser contratados. Tampoco se aportó ninguna prueba por parte de la ciudad que relacionara el E&E con las tareas o los conocimientos, habilidades y aptitudes del análisis del puesto.

A continuación, el tribunal examinó las pruebas relativas al grado en que el examen evaluaba una muestra representativa de las habilidades laborales. Esto se hizo porque las Directrices Uniformes establecen en el apartado 14(C)(1) que «un procedimiento de selección puede respaldarse con una estrategia de validez de contenido en la medida en que sea una muestra representativa del contenido del puesto». El análisis del puesto de trabajo realizado en 2000 indicaba que había 145 conocimientos, habilidades y aptitudes (KSA) que eran fundamentales para desempeñar el trabajo. Aunque en el examen escrito se evaluaban 13 categorías de conocimientos, estas estaban redactadas de forma muy amplia y se estimaba que alrededor del 80 % de los conocimientos podían incluirse en estas categorías. Sin embargo, en última instancia, solo se evaluaron dos de las áreas de capacidad fundamentales. Por lo tanto, el tribunal concluyó que el examen de 2008 no evaluaba suficientemente una muestra representativa de los conocimientos, habilidades y aptitudes fundamentales, ya que el examen no reflejaba muchas de las habilidades y capacidades necesarias para desempeñar el trabajo de teniente. En la evaluación general de la validez del contenido, esta fue una de las principales razones por las que finalmente se consideró que el examen no cumplía con los estándares de las Directrices Uniformes. En años anteriores, la ciudad había utilizado un centro de evaluación diseñado para evaluar habilidades y capacidades como la comunicación oral, las habilidades interpersonales, la capacidad de identificar rápidamente un problema y analizarlo, la capacidad de tomar decisiones acertadas con rapidez y la capacidad de dividir el trabajo en subtareas y priorizarlas. Estas habilidades se evaluaban mediante diversos ejercicios, entre ellos el ejercicio de la cesta (un ejercicio escrito simulado) y un ejercicio situacional. En el ejercicio situacional, se grababa en vídeo a los candidatos mientras ofrecían respuestas verbales a situaciones hipotéticas con las que podría encontrarse un teniente. La ciudad decidió no utilizar un centro de evaluación para el proceso de examen de 2008, pero si lo hubiera hecho, es muy probable que el tribunal hubiera considerado que el examen era una muestra representativa del puesto. Esto se debe a que podría haber medido más habilidades y capacidades, como la capacidad de comunicación, las habilidades interpersonales y el juicio situacional.

A continuación, el tribunal evaluó las pruebas relativas a la fiabilidad de la prueba. La sección 14 (C)5 de las Directrices Uniformes establece: «siempre que sea posible, se deberán realizar estimaciones estadísticas adecuadas de la fiabilidad del procedimiento de selección». En esta situación, la fiabilidad probablemente habría medido en qué medida los elementos del examen evaluaban la misma área, como los conocimientos laborales. La ciudad no presentó pruebas de haber realizado ningún tipo de análisis de fiabilidad y el tribunal la culpó por ello.

Sentencia judicial

  • No se evaluaron suficientes conocimientos, habilidades y aptitudes.
  • No se demostró la fiabilidad de la prueba.

Evaluación del uso del examen para tomar decisiones de selección

Otra consideración importante a la hora de evaluar la validez de una PPT es cómo se utiliza para tomar una decisión de selección. Hay tres formas principales en las que se puede utilizar una prueba para tomar decisiones de selección. Si el objetivo es determinar cómo separar a los candidatos cualificados de los no cualificados, esa prueba debe utilizarse sobre la base de aprobado/suspenso, con una puntuación mínima establecida para aprobar. Si el objetivo es distinguir entre candidatos que están igualmente cualificados, pero que pueden tener puntuaciones brutas ligeramente diferentes en una PPT, entonces se debe utilizar el enfoque de agrupación. La agrupación es un procedimiento estadístico que agrupa a los candidatos con puntuaciones similares, y se puede considerar que cada grupo tiene la misma puntuación. Se debe utilizar la clasificación si el objetivo es tomar decisiones basadas en la puntuación de la prueba de cada candidato individualmente. En otras palabras, la prueba se utiliza en forma de clasificación para contratar o hacer avanzar a los candidatos en el proceso de selección, empezando por los primeros de la lista y bajando hacia los últimos. Si se desea tomar decisiones sobre los candidatos basándose en varios procedimientos de selección en muchos KSAPC que difieren en cuanto a su nivel de importancia, se puede utilizar un proceso de selección ponderado o combinado. El nivel de validez y fiabilidad que exigen los tribunales aumenta al pasar de aprobado/suspenso a bandas y a clasificación (Biddle, 20111). Dado que la forma en que se utiliza la prueba es tan importante para determinar su validez general, los tribunales examinan cómo se utiliza la prueba con un alto nivel de escrutinio.

La ciudad decidió utilizar una puntuación mínima para aprobar el examen. La sección 5(H) de las Directrices Uniformes establece que «cuando se utilicen puntuaciones de corte [puntuaciones mínimas para aprobar], estas deberán fijarse normalmente de manera que sean razonables y coherentes con las expectativas normales de competencia aceptable dentro de la fuerza laboral». Supongamos que se crea una prueba de opción múltiple para un agente de policía de nivel inicial en la que todas las preguntas son totalmente relevantes para el puesto, pero se establece una puntuación mínima arbitraria del 90 % para aprobar. ¿Qué pruebas hay de que el 90 % sea la puntuación mínima correcta para identificar con precisión a los candidatos mínimamente cualificados? Sin la opinión de expertos en el puesto sobre la puntuación que obtendría un candidato mínimamente cualificado en la prueba, no se puede justificar una puntuación mínima del 90 %. La ciudad eligió un 70 % como nota de corte para el examen de 2008, pero no proporcionó ninguna justificación para ello. Decidieron ponderar la parte escrita del examen con un 80 % y la E&E con un 20 %. Haciendo referencia a exámenes anteriores, la ciudad dijo que pensaba que los expertos en la materia probablemente habrían elegido la fórmula de ponderación 80 %/20 %. Sin embargo, nunca se encuestó a los expertos en la materia para determinar esto. No hay indicios de que la ciudad haya realizado ningún análisis para respaldar la puntuación de corte y la ponderación.

A los candidatos que aprobaron el examen escrito con un 70 % de aciertos, se les aplicó la puntuación E&E a su puntuación global y se les seleccionó para el ascenso por orden de prelación. La sección 5(G) de las Directrices Uniformes establece: «Las pruebas que pueden ser suficientes para respaldar el uso de un procedimiento de selección basado en el aprobado/suspenso (selección) pueden ser insuficientes para respaldar el uso del mismo procedimiento basado en la clasificación». Dado que los estándares de fiabilidad y validez son los más altos para la clasificación por orden de prelación, el tribunal examinó con especial atención este aspecto del proceso de selección.

Sentencia judicial

  • El sistema de ponderación del examen escrito y E&E no estaba justificado.
  • Se utilizó un límite arbitrario del 70 % que no se pudo justificar.

Sentencias judiciales generales

En el caso de la administración del examen BPD, el tribunal dictaminó en primer lugar que se había producido un impacto desigual. La siguiente parte del procedimiento judicial examinó si el examen cumplía los estándares de validez de contenido establecidos en las Directrices Uniformes. Si bien el tribunal determinó que la parte del análisis del puesto cumplía los estándares de validez de contenido, dictaminó que el examen en sí no cumplía dichos estándares por las siguientes razones:

  • No se evaluaron suficientes conocimientos, habilidades y aptitudes.
  • No se demostró la fiabilidad de la prueba.
  • El sistema de ponderación del examen escrito y E&E no estaba justificado.
  • Se utilizó un límite arbitrario del 70 % que no se pudo justificar.

Debate

El coste potencial de un litigio es elevado y resulta muy valioso contar con un proceso de selección válido que identifique a los mejores candidatos para el puesto. Comprender el proceso de un caso de impacto desigual en virtud del Título VII puede ayudar a su agencia a tomar decisiones informadas sobre su proceso de evaluación. Este caso ha puesto de relieve algunos de los muchos aspectos que es importante tener en cuenta a la hora de evaluar el impacto desigual y el papel del análisis del puesto, el desarrollo de pruebas y la validación de pruebas en la evaluación de un recurso por impacto desigual en virtud del Título VII. Es fundamental comprender a fondo las Directrices Uniformes para entender cómo evalúan los tribunales las demandas por validación de pruebas de impacto desigual. Aunque este caso sigue un proceso típico, cada caso es ligeramente diferente. Por ejemplo, si se hubiera utilizado un enfoque de validación de criterios o constructos, la prueba se habría evaluado para determinar su conformidad con la sección 15(B) de las Directrices Uniformes para los estudios de validez relacionados con los criterios, o con la sección 15(D) para los estudios de validez de los constructos. En el caso actual, se evaluaron una medida de educación y experiencia y una prueba escrita de opción múltiple. Sin embargo, hay una variedad de otras PPT que son objeto de litigio, incluyendo entrevistas, pruebas de muestras de trabajo, pruebas de personalidad y pruebas de capacidad física, por nombrar solo algunas.

1. Biddle, D. A. (2011). Impacto adverso y validación de pruebas: manual para profesionales (3.ª ed.). Scottsdale, Arizona: Infinity Publishing.

Nota del Editor: Este post fue publicado originalmente en Circaworks.com. En abril de 2023, Mitratech adquirió Circa, un proveedor líder de software de reclutamiento inclusivo y cumplimiento de OFCCP. El contenido ha sido actualizado desde entonces para reflejar nuestra oferta ampliada de productos, la evolución de las regulaciones de cumplimiento de adquisición de talento y las mejores prácticas en la gestión de RRHH.