Introducción

Incluso antes de la publicación en 1978 de las Directrices uniformes sobre los procedimientos de selección de empleados, los empleadores ya realizaban análisis de impacto adverso (también conocidos como análisis de impacto desigual) para evaluar las diferencias en las tasas de aprobación entre subgrupos en diversas prácticas, procedimientos y pruebas. Los métodos para realizar dichos análisis han incluido normalmente pruebas de ratio de impacto que evalúan comparativamente las tasas de éxito entre dos grupos (por ejemplo, la regla del 80 %), pruebas de significación estadística y pruebas de significación práctica (Bobko y Roth, 2004). Si bien estos métodos se han mantenido constantes, las herramientas reales (es decir, los procedimientos estadísticos) han evolucionado, con algunas excepciones.

Mientras que los campos de la medicina y la estadística se han inclinado recientemente hacia técnicas estadísticas más potentes para analizar tablas 2 X 2, y han llegado a reconocer las graves limitaciones y restricciones de la prueba exacta de Fisher (en adelante, «FET») convencional para analizar tablas 2 X 2, los campos de los recursos humanos y la psicología del personal no se han adaptado tan rápidamente. Concretamente, la FET ha sido cuestionada en la literatura estadística desde 1945 (Mehrotra, et. al., 2003) y la mayoría de los profesionales del campo estadístico ahora reservan su uso para situaciones en las que se pueden cumplir sus estrictos supuestos condicionales y se tiene en cuenta su naturaleza conservadora al evaluar sus resultados (Upton, 1992; Lydersen, Fagerland y Laake et. al., 2009).

Para comprender las limitaciones del FET, primero debemos comprender los diferentes modelos para tablas de contingencia 2 X 2. Dado que las pruebas de significación estadística implican una comparación del resultado observado con lo que podría haber ocurrido por casualidad, cada prueba requiere que esos resultados aleatorios se definan operativamente. En el contexto de las tablas 2 X 2, se han desarrollado tres modelos distintos basados en diferentes definiciones operativas. La elección entre estos modelos ha sido objeto de debate entre los estadísticos durante décadas, y el centro del debate son las hipótesis condicionales, que se refieren a si se supone que los totales marginales de la tabla son fijos a priori o si se puede suponer que se extraen de una población más amplia (Camilli, 1990). Collins y Morris (2008) describen los tres modelos en los que se pueden evaluar las tablas 2 x 2, que se resumen brevemente a continuación.

    • Modelo 1: Ensayo de independencia. Se supone que todos los totales marginales están fijados de antemano (es decir, la proporción de cada grupo y los totales de selección son fijos). Los datos no se consideran una muestra aleatoria de una población más amplia.

 

    • Modelo 2: Ensayo comparativo. Los totales de las filas o columnas se fijan de antemano. Por ejemplo, los solicitantes se consideran muestras aleatorias de dos poblaciones distintas (por ejemplo, hombres y mujeres). La proporción de cada población es fija (es decir, se supone que la proporción marginal de una variable es constante en todas las réplicas). La segunda proporción marginal (por ejemplo, la proporción marginal de solicitantes que aprueban la prueba de selección) se estima a partir de los datos de la muestra.

 

  • Modelo 3: Dicotomía doble. En este modelo, no se asume que los totales marginales de las filas ni de las columnas sean fijos. Los solicitantes se consideran una muestra aleatoria de una población que se caracteriza por dos características dicotómicas. No se utiliza ningún tipo de muestreo intencional ni asignación a grupos, y la proporción en cada grupo, así como la tasa de éxito, pueden variar entre las muestras.

Estos tres modelos pueden resumirse como modelos con supuestos marginales «fijos», «mixtos» y «libres». Como se analizará con mayor detalle más adelante, el estado actual de la literatura estadística y médica sostiene que las diversas pruebas 2 X 2 disponibles se ajustan a estos tres modelos con mayor o menor precisión.

Limitaciones de la prueba exacta de Fisher

Poco después de que Ronald Fisher formulara su prueba exacta (Fisher, 1935), algunos estadísticos comenzaron a cuestionar su uso en diferentes escenarios 2 X 2 (por ejemplo, Barnard, 1945), así como su naturaleza conservadora (véase Yates, 1984). Si bien estas primeras controversias eran de naturaleza teórica, las críticas más recientes se han basado en los resultados de análisis modernos de simulación de datos que proporcionan un análisis más profundo del comportamiento estadístico de diversas pruebas 2 X 2 (Sekhon, 2005; Collins y Morris, 2008; Crans y Shuster, 2008; Lin y Yang, 2009; Lydersen et al., 2009). Estos estudios recientes han revelado dos limitaciones importantes de la FET: el hecho de que sus estrictas hipótesis condicionales rara vez se cumplen en la práctica real y la naturaleza conservadora de la FET.

La primera limitación se refiere a los supuestos condicionales necesarios para aplicar correctamente el FET. El campo estadístico ha llegado a un consenso en cuanto a que el FET solopuede aplicarse con precisión en el primer modelo: el modelo de prueba de independencia. Dado que este modelo no representa los datos típicos de selección de personal, «hay motivos para cuestionar la idoneidad del FET para el análisis del impacto adverso» (Collins y Morris, 2008). La idoneidad de tratar los márgenes como fijos ha sido el centro de gran parte del debate que ha rodeado al FET durante más de 50 años.

Algunos estadísticos sostienen que el modelo de ensayo independiente requiere que «ambos márgenes de una tabla 2 x 2 sean fijos por construcción, es decir, que tanto los márgenes del tratamiento como los del resultado sean fijos a priori»(Sekhon, 2005; véase también Romualdi, et. al., 2001; Hirji et. al., 1991; D’Agostino, et. al., 1988; y Ludbrook, 2008). En otras palabras, para que se cumplan los supuestos condicionales del modelo de ensayo independiente, el investigador debe identificar los totales marginales tanto de las filas como de las columnas antes de realizar el experimento que producirá los números dentro de cada una. En la investigación experimental es habitual especificar de antemano los números relativos en cada condición de tratamiento; sin embargo, sería inusual especificar la frecuencia tanto del predictor como del resultado antes de recopilar ningún dato (Gimpel, 2007). Aunque algunos lo recomiendan, esta condición parece cumplirse muy raramente en la práctica.

Collins y Morris (2008) argumentaron que los datos disponibles para el análisis del impacto adverso rara vez son coherentes con los supuestos marginales fijos. Por ejemplo, en un análisis de solicitantes frente a contratados, es poco probable que el número de solicitantes en los grupos minoritarios y mayoritarios sea coherente en todas las muestras. Y aunque puede resultar tentador considerar que las decisiones de promoción o despido implican un grupo fijo de candidatos y un número fijo de personas seleccionadas, una vez que se fija el conjunto de individuos, no queda claro qué comprende el espacio muestral en el que se definen las probabilidades. Del mismo modo, el conjunto de candidatos considerados para una decisión de promoción habrá sido seleccionado previamente mediante algún procedimiento de selección que puede haber tenido en cuenta algunos de los mismos factores que se utilizan para tomar la decisión de promoción. Por lo tanto, el proceso de selección previo, que determinó el número de solicitantes pertenecientes a minorías, no será independiente de la tasa de éxito de la decisión de promoción, el parámetro de interés.

Otro reto a la hora de cumplir los supuestos condicionales de los entornos promocionales es que los empleadores pueden intentar primero cubrir las oportunidades de promoción con empleados internos de diversos puestos inferiores (que tendrán diferentes porcentajes de peso y disponibilidad potenciales para cada grupo) y, a continuación, recurrir a recursos externos si no se puede cubrir la vacante internamente. Situaciones como estas difuminan la «delgada línea» entre los supuestos marginales «fijos», «mixtos» y «libres». Al aplicar los tres modelos a los análisis típicos de impacto adverso, queda claro que los supuestos condicionales del FET rara vez se cumplirán.

El debate sobre el uso de pruebas condicionales frente a incondicionales lleva décadas en marcha y no parece que vaya a resolverse en un futuro próximo. Nuestro objetivo aquí es más modesto: evaluar el uso de pruebas de significación alternativas como ayuda para la toma de decisiones en la evaluación del impacto adverso. En este contexto, lo que más nos preocupa son las tasas de error de la regla de decisión. Concretamente, nos preocupa la probabilidad de falsos positivos (errores de tipo I) y falsos negativos (errores de tipo II). Esto nos lleva a la segunda y más importante crítica a la FET: que la prueba es demasiado conservadora.

El campo estadístico en general sostiene que la FET es demasiado conservadora (véase Referencias autorizadas sobre las limitaciones de la prueba exacta de Fisher para obtener una lista parcial de citas que sostienen esta posición). En este contexto, conservadora se refiere al hecho de que el nivel de significación deseado, por ejemplo 0,05, no puede alcanzarse exactamente debido a la distribución discreta de los datos, y deben utilizarse valores inferiores. La discreción se produce porque, para tamaños de muestra pequeños, el número de resultados posibles considerados por la FET es reducido (Agresti, 2007). Como resultado, el valor p solo puede adoptar un número limitado de valores posibles y, a menudo, ninguno de los resultados posibles tendrá valores p cercanos al nivel de significación nominal, pero inferiores a este. Por lo tanto, la probabilidad obtenida de un error de tipo I será inferior al nivel alfa nominal, a menudo considerablemente inferior.

Es importante señalar que el problema no radica en los valores p, que son precisos dadas las hipótesis condicionales, sino que se deriva del uso de una regla de decisión en la que el valor p se compara con a = 0,05. Upton (1992) argumentó que el conservadurismo del FET se debe a la práctica habitual de fijar el nivel de significación nominal en 0,05. Por ejemplo, si en su lugar se fijara a = 0,055, los resultados con dos mujeres contratadas también serían significativos y la tasa de error de tipo I (0,054) estaría bastante cerca del nivel nominal. Por lo tanto, el problema del conservadurismo puede evitarse interpretando directamente los valores p, en lugar de informar de los resultados como significativos o no significativos basándose en un nivel alfa fijo. Sin embargo, en las situaciones del Título VII, los niveles de significación fijos son la norma exigida, por lo que siguen existiendo las consecuencias perjudiciales de la discreción.

Esta limitación hace que la FET tenga «menos potencia que las pruebas condicionales de media P y las pruebas incondicionales», mientras que estas otras pruebas «generalmente tienen mayor potencia y aún así conservan el tamaño de la prueba» (Lydersen, et. al, 2009). Solo por esta limitación, varios estadísticos han recomendado que «la FET tradicional nunca se utilice en la práctica» (Lydersen, et. al, 2009) debido a que «el nivel de significación real (o tamaño) es mucho menor que el nivel nominal» (Lin y Yang, 2009). Agresti (2007) recomienda utilizar el ajuste mid-P incluso en situaciones en las que se pueden cumplir los supuestos marginales fijos «porque la tasa de error real [de la FET] es menor que la prevista»(p. 48).

bq lquo Elegir una prueba que pueda establecer con precisión este estándar de 0,05 —sin pretender cumplir el estándar y luego ofrecer algo superior (como la FET)— es clave para elegir una estrategia legal eficaz. bq rquo

Admisibilidad del FET en litigios relacionados con el Título VII

En el caso del Tribunal Supremo de los Estados Unidos, Daubert contra Merrell Dow Pharmaceuticals (1993), siete miembros del Tribunal acordaron que las pruebas periciales presentadas en los litigios federales deben utilizar «metodología científica» para demostrar o refutar la hipótesis. Uno de los requisitos que el tribunal estableció con esta norma es que las herramientas de investigación deben tener una tasa de error conocida o potencial y deben «aplicarse de forma fiable a los hechos en cuestión». Desde hace décadas, los tribunales han establecido que el umbral de 0,05 es inamovible como norma para identificar y deliberar sobre el impacto adverso. Elegir una prueba que pueda establecer con precisión esta norma de 0,05 —sin pretender cumplirla y ofrecer algo superior (como el FET)— es clave para elegir una estrategia legal eficaz.

El FET sin corregir se ha utilizado (por defecto) durante años en los litigios relacionados con el Título VII. Sin embargo, por lo que sabemos, el FET aún no ha sido cuestionado específicamente (en comparación con otras alternativas) en el marco de las críticas que se han vertido en los últimos años. Probablemente esto se deba a que, para que se produzca tal impugnación, tendría que darse la rara situación de que un caso litigado de impacto adverso fuera significativo utilizando una prueba y no significativo utilizando la otra, y cada prueba estaría sujeta al proceso de selección legal. Teniendo en cuenta los antecedentes descritos anteriormente, no creemos que el FET sobreviviría a una impugnación Daubert. Sin embargo, si se diera una situación en la que los expertos contrarios en un caso de igualdad de oportunidades en el empleo (EEO) estuvieran de acuerdo en las circunstancias de muestreo 2 X 2 del caso, uno de los modelos 2 X 2 podría adaptarse mutuamente. Incluso si la situación se acercara lo más posible a una circunstancia condicional, decidir si corregir la discreción podría seguir siendo un tema de controversia (véase Agresti, 2007, p. 49).

Con más de 20 artículos publicados en revistas de investigación estadística y la mayoría de los textos estadísticos categóricos de los últimos 10 años otorgando solo un permiso de uso condicional al FET (una circunstancia que rara vez se da en entornos de impacto adverso), documentando exhaustivamente la naturaleza conservadora del FET y recomendando o respaldando otras técnicas como el Mid-P de Lancaster (en adelante, «LMP»), los empleadores estarían mucho más seguros en entornos litigiosos utilizando el mismo. Probablemente por estas razones, la aplicación del LMP se ha debatido más recientemente en la literatura sobre litigios y cumplimiento de la igualdad de oportunidades en el empleo (DCI Consulting, 2010; Ruggieri, Pedreschi y Turini, 2010), programas de software (Biddle Consulting Group, 2010) y casos judiciales de igualdad de oportunidades en el empleo (Strong contra Blue Cross, 2010; Delgado-O'Neil contra la ciudad de Minneapolis, 2010).

Más allá de las implicaciones legales y los retos que pueden derivarse de los sistemas de análisis que utilizan el FET, es probable que los profesionales de RR. HH., en su calidad de «analistas de responsabilidad», deseen utilizar métodos más equilibrados que se adapten mejor a las tres situaciones 2 X 2 y no produzcan resultados tan conservadores. El LMP ofrece una alternativa que se adapta a las tres condiciones de análisis 2 X 2.

El Mid-P (LMP) de Lancaster como solución

Por las razones expuestas anteriormente, abogamos por utilizar la corrección Lancaster mid-P para el FET, que corrige eficazmente el FET para reflejar con mayor precisión los valores de probabilidad del caso de impacto adverso analizado en cualquiera de los tres modelos 2 X 2. Esto se debe a que, en el modelo fijo claramente condicional, el LMP proporciona una corrección de la discreción que ajusta el FET a un nivel alfa menos conservador (Agresti, 2007). En entornos mixtos y marginales libres, la mecánica funcional de la LMP da como resultado valores calculados para diversos entornos que emulan con precisión los resultados de pruebas exactas incondicionales.

La naturaleza versátil del LMP es una característica clave para los profesionales y los empleadores. Uno solo puede imaginar las dificultades de tener que pasar por un árbol de decisiones para elegir cuál de los tres modelos es el más adecuado para cada análisis de impacto adverso, y luego tener que defender exactamente qué margen era fijo, mixto o libre en litigios o situaciones de aplicación de la ley. Además, los profesionales se enfrentarían a la elección entre las 22 pruebas disponibles para analizar tablas 2 X 2, cada una con sus puntos fuertes y sus limitaciones. A continuación, habría que decidir si se realizan correcciones por discreción. Nuestra investigación ha demostrado que el LMP es muy equilibrado y ha recibido un gran respaldo en la literatura para analizar tablas 2 X 2 en diversas situaciones de impacto adverso.

Más allá de lo mencionado anteriormente, Hirji (2006) proporcionó varias razones adicionales por las que el LMP es la corrección preferida para el FET: (1) Los estadísticos que tienen opiniones muy divergentes sobre la inferencia estadística han recomendado o justificado el método mid-P, (2) la potencia de las pruebas mid-P es generalmente cercana a la forma de la función de potencia ideal, (3) en una amplia variedad de diseños y modelos, el mid-P rectifica el conservadurismo extremo del método condicional exacto tradicional sin comprometer de manera grave el error de tipo I, y (4) los estudios empíricos muestran que el rendimiento del método mid-P se asemeja al de los métodos incondicionales exactos y los métodos aleatorios condicionales (Hirji 2006, pp. 218-219). Hirji concluye afirmando: «El método mid-P es, por lo tanto, una herramienta de análisis de datos ampliamente aceptada, conceptualmente sólida, práctica y una de las mejores. Especialmente para datos discretos con un tamaño de muestra escaso y no muy grande, nos hacemos eco de las palabras de Cohen y Yang (1994) de que se encuentra entre las «herramientas sensatas para el estadístico aplicado».

Conclusiones

La elección entre los procedimientos para comprobar la significación estadística en tablas 2 X 2 ha sido objeto de investigación y debate continuos durante décadas. Nuestra revisión de la literatura identificó no menos de 22 pruebas entre las que elegir, cada una con sus propios supuestos, fortalezas y debilidades (Upton, 1982). La disponibilidad de pruebas de significación alternativas sugiere que los empleadores que se encuentren en la posición de demandados en el marco del Título VII tendrán que defender no solo los resultados de su análisis de impacto adverso, sino también la forma en que se calcularon esas estadísticas.

Referencias

Agresti, A. (2007). Introducción al análisis de datos categóricos (2.ª ed.). Wiley.

Bobko, P., Roth, P.L. (diciembre de 2004). Selección de personal con bandas referenciadas a la puntuación máxima: sobre la inadecuación de los procedimientos actuales. International Journal of Selection and Assessment, 12 (4), 291-298.

Camilli, G. y Hopkins, K. D. (1979). Prueba de asociación en tablas de contingencia 2 X 2 con tamaños de muestra muy pequeños. Boletín psicológico, 86, 1011-1014.

Collins, M. W. y Morris, S. B. (2008). Pruebas de impacto adverso cuando el tamaño de la muestra es pequeño. Revista de Psicología Aplicada, 93, 463-471.

Crans, G. G. y Shuster, J. J. (2008). ¿Qué grado de conservadurismo tiene la prueba exacta de Fisher? Una evaluación cuantitativa del ensayo binomial comparativo de dos muestras. Statistics in Medicine, 27 (8), 3598-3611.

Hirji, K. F., Tan, S. y Elashoff, R. M. (1991). Una prueba cuasi exacta para comparar dos proporciones binomiales. Estadística en Medicina, 10, 1137-1153.

Lin, C.Y y Yang, M.C. (2009). Pruebas mejoradas del valor p para comparar dos proporciones binomiales independientes. Communications in Statistics – Simulation and Computation, 38 (1), 78-91.

Lydersen, S. Fagerland, M.W. y Laake, P. (2009). Pruebas recomendadas para la asociación en tablas 2 X 2. Estadística en Medicina, 28, 1159-1175.

Mehrotra, D.V., Chan, I.S.F. y Berger, R.L. (2003). Una nota de precaución sobre la inferencia incondicional exacta para una diferencia entre dos proporciones binomiales independientes. Biometrics, 59, 441-450.

Plackett, R. L. (1984). Discusión sobre «Pruebas de significación para tablas de contingencia 2 X 2» de Yates. Revista de la Real Sociedad Estadística, Serie A, 147, 426-463.

Upton G. (1992). Prueba exacta de Fisher. Revista de la Real Sociedad Estadística, Serie A, 155: 395-402.

Nota del Editor: Este post fue publicado originalmente en Circaworks.com. En abril de 2023, Mitratech adquirió Circa, un proveedor líder de software de reclutamiento inclusivo y cumplimiento de OFCCP. El contenido ha sido actualizado desde entonces para reflejar nuestra oferta ampliada de productos, la evolución de las regulaciones de cumplimiento de adquisición de talento y las mejores prácticas en la gestión de RRHH.