Definir el impacto adverso: Amplíe su comprensión

Profundizar en los aspectos funcionales del impacto adverso. Conozca sus implicaciones en las diversas prácticas de contratación y estrategias para un empleo equitativo.

Personal de Mitratech 5 de diciembre de 2019

Visión general
Es difícil encontrar un tema en el mundo de la igualdad de oportunidades en el empleo y la acción afirmativa que sea más desagradable que el impacto adverso. Un análisis del impacto adverso (también conocido como análisis de la proporción de impacto y/o análisis de disparidad) no sólo implica complicados cálculos estadísticos para llegar a sus resultados, sino que estos resultados se utilizan a menudo en las investigaciones como fundamento de las acusaciones de discriminación. No es de extrañar que los profesionales de RR.HH. a veces eviten, o incluso desprecien, esta práctica. Es difícil, a menudo mal comprendida y está plagada de responsabilidades.

A pesar de estos retos, un análisis de impacto adverso es una tremenda herramienta de diagnóstico para evaluar las prácticas de empleo y ayudar a garantizar que el trato justo sea habitual en el trabajo. De la misma manera que casi cualquiera puede navegar por Internet sin conocer la codificación que se utiliza en él, la comprensión funcional del impacto adverso es más fácil de lo que muchos creen. Los programas informáticos hacen que los cálculos sean manejables, y los conceptos fundamentales no son excesivamente complejos. El objetivo de este artículo es desmitificar el impacto adverso y presentar una comprensión concisa de sus conceptos.

Definición de impacto adverso
Tal y como se utiliza hoy en día, el término impacto adverso (IA) significa esencialmente lo mismo que cuando se redactó por primera vez: una tasa de selección sustancialmente diferente en la contratación, promoción u otra decisión de empleo que perjudique a los miembros de una raza, sexo o grupo étnico (Preguntas y Respuestas nº 10 de las Directrices Uniformes).^[i] En esencia, el impacto adverso indica si las decisiones tomadas con respecto a un grupo protegido lo dejaron en una situación de desventaja sustantiva. Cabe señalar que el impacto adverso simplemente describe las diferencias entre grupos en un proceso de evaluación. No es un término jurídico que implique culpabilidad, ni es un término psicométrico que implique injusticia o sesgo en las pruebas.

Los tres métodos más comunes para determinar el impacto adverso son la regla del 80%, las pruebas de significación estadística y las pruebas de significación práctica. Aunque tanto la regla del 80% como las pruebas de significación práctica tienen sus ventajas^[ii]los procedimientos de cumplimiento modernos y las batallas legales se libran principalmente en el frente de la "significación estadística".

Esta deferencia hacia un marco de cumplimiento/legal/ influye también en las opciones relacionadas. Tanto las estadísticas descriptivas como las pruebas de significación estadística pueden aplicarse a los análisis de impacto adverso, aunque se prefieren estas últimas. Las estadísticas descriptivas se limitan a mostrar la diferencia matemática relevante para la comparación que se está realizando. Las pruebas de significación estadística son más pertinentes para los análisis de impacto adverso porque indican si la estadística descriptiva es estadísticamente significativa y si puede considerarse que se ha producido "más allá del azar".

Los distintos enfoques del impacto adverso suelen dividirse en dos tipos principales: comparaciones de disponibilidad y comparaciones de tasa de selección. Las comparaciones de disponibilidad pueden ser muy útiles para determinar si un grupo puede estar infrautilizado, pero se requieren detalles adicionales para concluir que existe un impacto adverso. La comparación de la tasa de selección es el único tipo de análisis que por sí solo puede demostrar un impacto adverso. Por este motivo, este artículo se centrará en las repercusiones negativas indicadas por las comparaciones de la tasa de selección.

Comparación de las tasas de selección

Una comparación del índice de selección evalúa los índices de selección entre dos grupos(por ejemplo, mujeres y hombres, minorías y blancos) en un procedimiento de selección. Las comparaciones del índice de selección se utilizan sobre todo en litigios, ya que se refieren específicamente al tipo de análisis del impacto adverso que exigen las Directrices uniformes. Estos análisis pueden utilizarse para evaluar un único acontecimiento o varios, pero hay que tener especial cuidado al combinar varios acontecimientos (como se explica más adelante). Hay cuatro variables que se introducen en cualquier análisis de impacto adverso de este tipo:

El número de miembros del grupo focal seleccionados(por ejemplo, mujeres contratadas)
El número de miembros del grupo focal no seleccionados(por ejemplo, mujeres no contratadas)
El número de miembros del grupo de referencia seleccionados(por ejemplo, hombres contratados)
El número de miembros del grupo de referencia no seleccionados(por ejemplo, hombres no contratados)

Comparación de la tasa de selección para un solo acontecimiento

La comparación de porcentajes de selección en un único caso es el tipo más típico de análisis de impacto adverso, y se explica específicamente en las Directrices uniformes como una "comparación de porcentajes" (Sección 4D) que compara los porcentajes de aprobados entre dos grupos(por ejemplo, hombres y mujeres) en un procedimiento de selección. Este tipo de análisis también puede utilizarse para analizar el resultado de despidos, descensos de categoría u otras operaciones de personal similares en las que sólo hay dos resultados posibles(por ejemplo, ascendido/no ascendido; contratado/no contratado, etc.).

Existen dos categorías de pruebas de significación estadística que pueden utilizarse para analizar el impacto adverso de las comparaciones de tasas de selección: exactas y estimadas. Las pruebas exactas proporcionan el valor de probabilidad preciso del análisis. Las técnicas estimadas se aproximan a los resultados exactos sin requerir largos cálculos. Tanto las técnicas exactas como las estimadas requieren el uso de una tabla de contingencia 2 x 2, como se muestra en la Tabla 1.

Tabla de contingencia 2 x 2
	Hombres	Mujeres
Pase	50	40
Falla	50	50

Cuadro 1 2 Xx2 Cuadro de contingencias

Comparación de los porcentajes de selección para varios eventos

También existe una metodología adecuada para comparar los porcentajes de aprobados por sexo y grupo étnico en varios "eventos" o administraciones combinadas de diversas prácticas, procedimientos o pruebas. Esta técnica también puede utilizarse para realizar un análisis global de las repercusiones negativas en varios puestos o grupos de puestos con competencias similares, o para comparar los porcentajes de aprobados por grupos en un proceso global de selección o promoción para varios años. La comparación de los porcentajes de selección de varios ejercicios es necesaria cuando se incluyen varios ejercicios o pruebas en un análisis combinado. Esto se debe a que pueden producirse anomalías estadísticas al combinar datos de múltiples estratos.

Aunque puede resultar tentador agregar simplemente varios años de una determinada práctica de pruebas en un análisis combinado de impacto adverso, los resultados serán a veces engañosos a menos que se utilice una técnica especial de "eventos múltiples". Un fenómeno estadístico denominado "paradoja de Simpson"^[iii] muestra por qué esto puede ser un problema. Obsérvese en el cuadro 2 que, aunque los índices de selección de cada grupo coinciden dentro de un mismo año, los datos combinados muestran una disparidad del 9% en los índices de selección.

Ejemplo de la paradoja de Simpson
Año de prueba	Grupo	# Solicitantes	# Selected	Porcentaje de selección
Prueba de 2017	Hombres	400	200	50.0%
Prueba de 2017	Mujeres	100	50	50.0%
Prueba de 2018	Hombres	100	50	20.0%
Prueba de 2018	Mujeres	100	20	20.0%
2017 + 2018 Pruebas combinadas	Hombres	500	220	44.0%
2017 + 2018 Pruebas combinadas	Mujeres	200	70	35.0%

Tabla 2 Ejemplo de la paradoja de Simpson

Para evitar escollos como la paradoja de Simpson, son necesarios dos pasos para agregar correctamente los datos y realizar una comparación de la tasa de selección de eventos múltiples:

Evalúe los acontecimientos para comprobar la coherencia de las pautas. Hay que determinar si la "tendencia" en los índices de aprobados de un grupo es sistemáticamente desfavorable. No es apropiado agregar diferentes "eventos" de datos que muestren a un grupo tanto favorecido como desfavorecido.
Calcule los resultados de la prueba estadística. Esto evaluará si se produjo un impacto adverso en el análisis global para todos los eventos combinados utilizando una prueba como Mantel-Haenszel^[iv].

Determinación de la significación estadística

Independientemente de cuál de las dos comparaciones del índice de selección se utilice, el valor resultante sigue necesitando un contexto. Después de todo, ¿cuán inesperado debe ser un resultado para ser considerado "inusual" o "raro"? ¿En qué punto determinaría un tribunal u otro organismo de supervisión que los resultados son exigibles? Este punto de inflexión conceptual se denomina significación estadística.

Es muy poco probable que los resultados estadísticamente significativos de un proceso de selección o una prueba se produzcan por casualidad. Un resultado de este tipo significa un punto en el que puede afirmarse -con un nivel razonable de certeza- que existe realmente una tendencia legítima, y no una relación casual. Las pruebas de significación estadística dan como resultado un valor p (de probabilidad). Los valores p iguales o inferiores a 0,05 (es decir, 5%) se consideran "estadísticamente significativos" en el ámbito de los análisis de IA. En la práctica, esto es comparable a seleccionar correctamente una sola carta de una baraja estándar de 52 cartas en no más de 2-3 intentos (2,6 intentos representan una probabilidad del 5%).

Cuando se realiza una prueba estadística para evaluar si un evento es estadísticamente significativo, siempre hay una "potencia" asociada a la prueba. Esto puede utilizarse para describir su capacidad de revelar un resultado estadísticamente significativo, si es que lo hay. Dicho de otro modo, la "potencia" indica hasta qué punto se puede confiar en el resultado. La potencia estadística depende de tres factores:

Tamaño del efecto. En el caso de las comparaciones de las tasas de selección, se refiere al tamaño de la "diferencia" entre las tasas de selección de los dos grupos. Una diferencia mayor revela más fácilmente la significación estadística.
Tamaño de la muestra. El número de miembros de cada grupo desempeña un papel clave en los análisis de impacto adverso. Al igual que en un sondeo de opinión, un mayor tamaño de la muestra mejora la fiabilidad.
El tipo de prueba estadística utilizada. Esto incluye la fórmula real de los análisis de impacto adverso (algunas pruebas son más potentes que otras) y si se utiliza una prueba de significación de una o dos colas (véase el debate sobre las pruebas de una o dos colas más adelante).

Los investigadores y los profesionales suelen tener poco control sobre las diferencias medidas (es decir, el tamaño del efecto) de los grupos analizados. Por ello, reunir una muestra de gran tamaño es quizá la forma más eficaz de aumentar la potencia de un análisis de impacto adverso, incrementando así la probabilidad de obtener un resultado estadísticamente significativo. A continuación se indican al menos cinco formas de conseguirlo. Es importante señalar que las cuatro primeras de estas técnicas de agregación requieren el uso del tipo de análisis de sucesos múltiples adecuado, ya que pueden producirse anomalías estadísticas al combinar datos, como se ha comentado anteriormente.

Ampliar el marco temporal.
Combinar varias zonas geográficas.
Combine eventos de varios trabajos, grupos de trabajos o divisiones.
Combinar varios procedimientos de selección.
Combinar diferentes grupos étnicos.

A pesar de años de debate, no existe un umbral mínimo absoluto sobre el tamaño mínimo de la muestra necesario para llevar a cabo investigaciones estadísticas. Los tribunales adoptan a menudo la postura de que no existe un tamaño mínimo claro de la muestra. Sin embargo, si hubiera que elegir un número mínimo firme para los análisis de impacto adverso, el consenso parece ser 30, con al menos cinco esperados para la selección. Es importante señalar que los análisis estadísticos en los que intervienen números pequeños adolecen de un mayor "error de muestreo", lo que hace que los resultados sean menos fiables que los análisis en los que intervienen conjuntos de datos más grandes.

A la hora de considerar el tipo de prueba estadística que se debe utilizar, existen pruebas "estimadas" y "exactas". Las pruebas estimadas proporcionan una probabilidad aproximada de una circunstancia. Las segundas, que calculan la probabilidad exacta de una circunstancia, se consideran las pruebas estadísticas más potentes para el cálculo del impacto adverso. Mientras que una prueba exacta proporciona un resultado más refinado, una prueba estimada puede aplicarse más fácilmente en algunas situaciones(por ejemplo, si el tamaño de la muestra es menor).

Una última metodología que debe tenerse en cuenta a la hora de determinar la significación estadística en los análisis de IA es el uso de una prueba de una cola frente a una prueba de dos colas. Una prueba estadística de una cola investiga la posibilidad de que se haya producido discriminación en una sola dirección(por ejemplo, contra las mujeres). Una prueba de dos colas asume que la discriminación podría haberse producido en cualquier dirección (porejemplo, contra los hombres o contra las mujeres) y gasta su poder estadístico investigando la discriminación en ambas direcciones. Los tribunales han sido casi totalmente coherentes en su exigencia de utilizar una prueba de significación de dos colas.

Reflexiones finales
Los análisis de impacto adverso son complejos por naturaleza y variados en su forma, pero eso no tiene por qué disuadir a los profesionales de incluirlos como una opción en su cinturón de herramientas. Los resultados de los análisis de impacto adverso son excepcionalmente útiles para identificar áreas de responsabilidad potencial. También proporcionan una orientación clave a la hora de reunir recursos para abordar los problemas planteados. Aunque existen varios recursos disponibles para ayudar con los análisis de impacto adverso, Biddle ha proporcionado una herramienta en línea gratuita para calcular análisis de IA sencillos en http://www.biddle.com/adverseimpacttoolkit/SelectionRateComparison.aspx.

La realización de análisis de impacto adverso es un paso inestimable para que las organizaciones investiguen sus procesos de selección y depuren las áreas de esos procesos que puedan no ser equitativas. Sin embargo, para que esto último ocurra, hay que reconocer que los análisis de impacto adverso son sólo indicadores de lo que ha ocurrido. La mera identificación de un problema no lo resolverá; hay que dar pasos adicionales si se quiere afianzar un cambio duradero. La correcta interpretación de los resultados de la IA y la formulación de un plan de acción son fundamentales. Por ello, se podría considerar con razón que la conclusión de un análisis de impacto adverso es el punto en el que empieza realmente el "verdadero trabajo".

^[i] Las Directrices uniformes sobre procedimientos de selección de personal y las preguntas y respuestas correspondientes pueden consultarse en www.uniformguidelines.com.
^[ii] Véase Biddle, D. A. (2011). Adverse Impact and Test Validation: a Practitioner's Handbook (3ª ed.). Scottsdale, AZ: Infinity Publishing. (pp. 3-5).
^[iii] Véase Finkelstein, M. O., & Levin, B. (2001), Statistics for Lawyers (2ª ed.). Nueva York, NY: Springer (p. 237).
^[iv] La técnica Mantel-Haenszel se desarrolló originalmente para agregar conjuntos de datos para la investigación del cáncer. Véase Mantel, N. & Haenszel, W. (1959), Statistical aspects of the analysis of data from retrospective studies of disease. Journal of National Cancer Institute, 22, 719-748.

Nota del Editor: Este post fue publicado originalmente en Circaworks.com. En abril de 2023, Mitratech adquirió Circa, un proveedor líder de software de reclutamiento inclusivo y cumplimiento de OFCCP. El contenido ha sido actualizado desde entonces para reflejar nuestra oferta ampliada de productos, la evolución de las regulaciones de cumplimiento de adquisición de talento y las mejores prácticas en la gestión de RRHH.