Introducción

Incluso antes de la publicación en 1978 de las Directrices Uniformes sobre Procedimientos de Selección de Empleados, los empleadores han llevado a cabo análisis de impacto adverso (también conocidos como análisis de impacto dispar) para evaluar las diferencias en las tasas de aprobados entre subgrupos en diversas prácticas, procedimientos y pruebas. Los métodos para llevar a cabo dichos análisis han incluido normalmente pruebas de relación de impacto que evalúan comparativamente las tasas de éxito entre dos grupos (por ejemplo, la regla del 80%), pruebas de significación estadística y pruebas de significación práctica (Bobko & Roth, 2004). Aunque estos métodos han permanecido constantes, las herramientas reales (es decir, los procedimientos estadísticos) han evolucionado, con algunas excepciones.

Mientras que los campos de la medicina y la estadística han gravitado recientemente hacia técnicas estadísticas más potentes para el análisis de tablas de 2 x 2, y han llegado a reconocer serias limitaciones, así como restricciones, con la prueba exacta de Fisher convencional ("FET" en lo sucesivo) para el análisis de tablas de 2 x 2, los campos de los RRHH y la psicología del personal no se han adaptado tan rápidamente. En concreto, la FET ha sido cuestionada en la literatura estadística desde 1945 (Mehrotra, et. al., 2003) y la mayoría de los profesionales del campo estadístico reservan ahora su uso para situaciones en las que se puedan cumplir sus estrictos supuestos condicionales y se tenga en cuenta su naturaleza conservadora a la hora de evaluar sus resultados (Upton, 1992; Lydersen, Fagerland, & Laake et. al., 2009).

Para entender las limitaciones de la FET, primero debemos comprender los diferentes modelos de tablas de contingencia 2 X 2. Dado que las pruebas de significación estadística implican una comparación del resultado observado con lo que podría haber ocurrido debido al azar, cada prueba requiere que esos resultados de azar se definan operacionalmente. En el contexto de las tablas 2 X 2, se han desarrollado tres modelos distintos basados en definiciones operativas diferentes. La elección entre estos modelos ha sido objeto de debate entre los estadísticos durante décadas, y en el centro del debate están los supuestos condicionales, que se refieren a si se supone que los totales marginales de la tabla son fijos a priori o si se puede suponer que se extraen de una población mayor (Camilli, 1990). Collins y Morris (2008) describen los tres modelos en los que se pueden evaluar las tablas 2 X 2, que se resumen brevemente a continuación.

    • Modelo 1: Ensayo de independencia. Se supone que todos los totales marginales están fijados de antemano (es decir, la proporción de cada grupo y los totales de selección son fijos). Los datos no se consideran una muestra aleatoria de una población mayor.

 

    • Modelo 2: Ensayo comparativo. Los totales de filas o columnas se fijan de antemano. Por ejemplo, los solicitantes se consideran muestras aleatorias de dos poblaciones distintas (por ejemplo, hombres y mujeres). La proporción de cada población es fija (es decir, se supone que la proporción marginal de una variable es constante en todas las réplicas). La segunda proporción marginal (por ejemplo, la proporción marginal de solicitantes que superan la prueba de selección) se estima a partir de los datos de la muestra.

 

  • Modelo 3: Doble dicotomía. En este modelo, se supone que ni los totales marginales de fila ni los de columna son fijos. Los solicitantes se consideran una muestra aleatoria de una población que se caracteriza por dos características dicotómicas. No se utiliza el muestreo intencionado ni la asignación a grupos, y la proporción en cada grupo, así como la tasa de éxito, pueden variar en las distintas muestras.

Estos tres modelos pueden resumirse en supuestos marginales "fijos", "mixtos" y "libres". Como se analizará con más detalle más adelante, el estado actual de la literatura estadística y de investigación médica sostiene que las diversas pruebas 2 X 2 disponibles se ajustan a estos tres modelos con mayor o menor precisión.

Limitaciones de la prueba exacta de Fisher

Poco después de que Ronald Fisher formulara su prueba exacta (Fisher, 1935), algunos estadísticos empezaron a cuestionar su uso en diferentes escenarios 2 X 2 (por ejemplo, Barnard, 1945), así como su naturaleza conservadora (véase Yates, 1984). Mientras que estas primeras impugnaciones eran de naturaleza teórica, las críticas más recientes se han basado en los resultados de modernos análisis de simulación de datos que proporcionan una exploración más profunda del comportamiento estadístico de diversas pruebas 2 X 2 (Sekhon, 2005; Collins & Morris, 2008; Crans & Shuster, 2008; Lin & Yang, 2009; Lydersen, et. al., 2009). Estos estudios recientes han puesto de manifiesto dos limitaciones importantes del FET: el hecho de que sus estrictos supuestos condicionales rara vez se cumplen en la práctica real y la naturaleza conservadora del FET.

La primera limitación se refiere a los supuestos condicionales necesarios para aplicar correctamente la FET. En el campo de la estadística se ha llegado al consenso de que la FET sólopuede aplicarse con precisión en el primer modelo:el modelo de prueba de independencia. Dado que este modelo no representa los datos típicos de selección de personal, "hay motivos para cuestionar la idoneidad de la FET para el análisis de impacto adverso" (Collins & Morris, 2008). La conveniencia de tratar los márgenes como fijos ha estado en el centro de gran parte del debate que ha rodeado al FET durante más de 50 años.

Algunos estadísticos sostienen que el Modelo de Ensayo de Independencia requiere que "ambos márgenes de una tabla de 2 X 2 se fijen por construcción, es decir, que tanto los márgenes de tratamiento como de resultado se fijen a priori" (Sekhon, 2005; véase también Romualdi, et. al., 2001; Hirji et. al., 1991; D'Agostino, et. al., 1988; y Ludbrook, 2008). En otras palabras, para que se cumplan los supuestos condicionales del Modelo de Ensayo de Independencia, el investigador necesita identificar los totales marginales tanto de las filas como de las columnas antes de realizar el experimento que producirá los números dentro de cada una. Es habitual en la investigación experimental especificar de antemano los números relativos en cada condición de tratamiento; sin embargo, sería inusual especificar la frecuencia tanto del predictor como del resultado antes de recoger ningún dato (Gimpel, 2007). Aunque algunos lo recomiendan, esta condición parece cumplirse muy pocas veces en la práctica.

Collins y Morris (2008) argumentaron que los datos disponibles para el análisis del impacto adverso rara vez son coherentes con los supuestos marginales fijos. Por ejemplo, en un análisis de solicitantes frente a contrataciones, es poco probable que el número de solicitantes de grupos minoritarios y mayoritarios sea coherente en todas las muestras. Y aunque puede resultar tentador considerar que las decisiones de promoción o despido implican un conjunto fijo de candidatos y un número fijo de personas seleccionadas, una vez que se fija el conjunto de individuos, no queda claro qué comprende el espacio muestral en el que se definen las probabilidades. Del mismo modo, el conjunto de candidatos considerados para una decisión de promoción habrá sido seleccionado previamente utilizando algún procedimiento de selección que puede haber considerado algunos de los mismos factores que se utilizan para tomar la decisión de promoción. Por lo tanto, el proceso de selección previo, que determinó el número de candidatos pertenecientes a minorías, no será independiente del porcentaje de éxito de la decisión de promoción, el parámetro de interés.

Un reto adicional a la hora de cumplir los supuestos condicionales de los entornos promocionales es que los empresarios pueden intentar primero cubrir las oportunidades promocionales con empleados internos de una variedad de puestos inferiores (que tendrán diferentes porcentajes de peso potencial y disponibilidad para cada grupo), y después recurrir a recursos externos si el puesto no puede cubrirse internamente. Situaciones como ésta desdibujan la "delgada línea" entre los supuestos marginales "fijo", "mixto" y "libre". Al aplicar los tres modelos a los típicos análisis de impacto adverso, queda claro que los supuestos condicionales del FET sólo se cumplirán en contadas ocasiones.

El debate sobre el uso de pruebas condicionales frente a incondicionales se ha prolongado durante décadas, y no es probable que se resuelva en un futuro próximo. Nuestro objetivo aquí es más modesto: evaluar el uso de pruebas de significación alternativas como ayuda para la toma de decisiones en la evaluación del impacto adverso. En este contexto, lo que más nos preocupa son los porcentajes de error de la regla de decisión. En concreto, nos preocupa la probabilidad de falsos positivos (errores de tipo I) y falsos negativos (errores de tipo II). Esto nos lleva a la segunda y más importante crítica del FET: que la prueba es excesivamente conservadora.

El campo estadístico en general sostiene que la FET es demasiado conservadora (véase Autoridades de referencia sobre las limitaciones de la prueba exacta de Fisher para una lista parcial de citas que sostienen esta postura). En este contexto, conservador se refiere al hecho de que el nivel de significación deseado, por ejemplo 0,05, no puede alcanzarse exactamente debido a la distribución discreta de los datos, y deben utilizarse valores menores. La discreción se produce porque, para tamaños de muestra pequeños, el número de resultados posibles considerados por el FET es pequeño (Agresti, 2007). Como resultado, el valor p sólo puede adoptar un número limitado de valores posibles y, a menudo, ninguno de los resultados posibles tendrá valores p cercanos pero inferiores al nivel de significación nominal. Por lo tanto, la probabilidad obtenida de un error de tipo I será inferior al nivel alfa nominal, a menudo considerablemente inferior.

Es importante señalar que el problema no está en los valores p, que son precisos dados los supuestos condicionales, sino que resulta del uso de una regla de decisión en la que el valor p se compara con a = .05. Upton (1992) argumentó que el carácter conservador de la FET se debe a la práctica común de fijar el nivel de significación nominal en 0,05. Por ejemplo, si en su lugar se fijara a = .055, los resultados con 2 mujeres contratadas también serían significativos y la tasa de error de tipo I (.054) estaría bastante cerca del nivel nominal. Así pues, el problema del conservadurismo puede evitarse interpretando directamente los valores p, en lugar de informar de los resultados como significativos o no significativos basándose en un nivel alfa fijo. Sin embargo, en las situaciones del Título VII, los niveles de significación fijos son la norma exigida, por lo que se mantienen las consecuencias perjudiciales de la discrecionalidad.

Esta limitación hace que la FET tenga "menos potencia que las pruebas de P media condicional y las pruebas incondicionales", mientras que estas otras pruebas "suelen tener mayor potencia, pero conservan el tamaño de la prueba" (Lydersen, et. al, 2009). Sólo por esta limitación, varios estadísticos han recomendado que el "FET tradicional no debería utilizarse prácticamente nunca" (Lydersen, et. al, 2009) debido a que el "nivel (o tamaño) de significación real es mucho menor que el nivel nominal" (Lin & Yang, 2009). Agresti (2007) recomienda utilizar el ajuste P medio incluso en situaciones en las que se pueden cumplir los supuestos marginales fijos "porque la tasa de error real [del FET] es menor que la prevista" (p. 48).

bq lquo La elección de una prueba que pueda establecer con precisión esta norma del 0,05 -no reclamar la norma y, sin embargo, ofrecer algo superior (como el FET)- es clave a la hora de elegir una estrategia jurídica eficaz. bq rquo

Admisibilidad del FET en los litigios sobre el Título VII

En el caso Daubert contra Merrell Dow Pharmaceuticals (1993) del Tribunal Supremo de EE.UU., siete miembros del Tribunal acordaron que las pruebas periciales ofrecidas en litigios federales tienen que hacer uso de la "metodología científica" para demostrar o refutar la hipótesis. Uno de los requisitos que el tribunal estableció con esta norma es que las herramientas de investigación deben tener un porcentaje de error conocido o potencial y deben "aplicarse de forma fiable a los hechos de que se trate". Desde hace décadas, los tribunales han establecido que el umbral del 0,05 está grabado en piedra como norma para identificar y deliberar sobre el impacto adverso. La elección de una prueba que pueda establecer con precisión esta norma del 0,05 -no reclamar la norma pero ofrecer algo más elevado (como el FET)- es clave a la hora de elegir una estrategia jurídica eficaz.

El FET no corregido se ha utilizado (por defecto) durante años en los litigios del Título VII. Sin embargo, por lo que sabemos, el FET aún no ha sido cuestionado específicamente (en comparación con otras alternativas) en virtud de las críticas que se han formulado en los últimos años. Es probable que esto se deba a que, para que se produjera tal impugnación, tendría que darse la rara situación de que un caso de impacto adverso litigado fuera significativo utilizando una prueba y no significativo utilizando la otra, y cada prueba se sometería al proceso de elección legal. Dados los antecedentes descritos anteriormente, no creemos que el FET sobreviviera a una impugnación Daubert. Sin embargo, si surgiera una situación en la que los peritos enfrentados en un caso de EEO estuvieran de acuerdo en las circunstancias de muestreo 2 X 2 sobre el caso, uno de los modelos 2 X 2 podría adaptarse mutuamente. Incluso si la situación fuera lo más parecida posible a una circunstancia condicional, la decisión de corregir o no la discrecionalidad podría seguir siendo un tema de controversia (véase Agresti, 2007, p. 49).

Con más de 20 artículos publicados en revistas de investigación estadística y en la mayoría de los textos de estadística categórica de los últimos 10 años, en los que sólo se autoriza el uso condicional de la FET (una circunstancia que rara vez se da en contextos de impacto adverso), se documenta exhaustivamente la naturaleza conservadora de la FET y se recomiendan o respaldan otras técnicas como la Mid-P de Lancaster (en adelante, "LMP"), los empresarios estarían mucho más seguros en contextos de litigio si la utilizaran. Es probable que por estas razones la aplicación del LMP se haya debatido más recientemente en la literatura sobre litigios y cumplimiento de la EEO (DCI Consulting, 2010; Ruggieri, Pedreschi, & Turini, 2010), programas de software (Biddle Consulting Group, 2010) y casos judiciales de EEO(Strong v. Blue Cross, 2010; Delgado-O'Neil v. City of Minneapolis, 2010).

Más allá de las implicaciones legales y de los retos que pueden plantear los sistemas de análisis que utilizan el FET, es probable que los profesionales de RRHH, como "analistas de la responsabilidad", deseen utilizar métodos más equilibrados que se ajusten mejor a las tres situaciones 2 X 2 y no produzcan resultados tan conservadores. El LMP ofrece una alternativa que se ajusta a las tres condiciones de análisis 2 X 2.

Lancaster's Mid-P (LMP) como solución

Por las razones expuestas anteriormente, abogamos por utilizar la corrección Lancaster mid-P para el FET, que corrige efectivamente el FET para reflejar con mayor precisión los valores de probabilidad del caso de impacto adverso analizado en cualquiera de los tres modelos 2 X 2. Esto se debe a que en el modelo fijo claramente condicional, el LMP proporciona una corrección por discreción que ajusta el FET a un nivel alfa menos conservador (Agresti, 2007). Esto se debe a que en el modelo fijo claramente condicional, la LMP proporciona una corrección por discrecionalidad que ajusta la FET a un nivel alfa menos conservador (Agresti, 2007). En los ajustes marginal mixto y libre, la mecánica funcional de la LMP da lugar a valores calculados para varios ajustes que emulan con precisión los resultados de las pruebas exactas incondicionales.

La naturaleza versátil del PBF es una característica clave para los profesionales y los empresarios. Cabe imaginar las dificultades que entrañaría tener que pasar por un árbol de decisión para elegir cuál de los tres modelos es el más apropiado para todos y cada uno de los análisis de impacto adverso, y luego tener que defender exactamente qué margen era fijo, mixto o libre en entornos de litigio o de aplicación de la normativa. Además, los profesionales tendrían que elegir entre las distintas 22 pruebas disponibles para analizar tablas 2 X 2, con los puntos fuertes y las limitaciones de cada una. Luego hay que elegir si se harán correcciones por discrecionalidad. Nuestra investigación ha demostrado que la LMP está muy equilibrada y cuenta con un buen respaldo en la literatura para analizar tablas 2 X 2 en diversas situaciones de impacto adverso.

Más allá de lo mencionado anteriormente, Hirji (2006) proporcionó varias razones adicionales por las que LMP es la corrección preferida para el FET: (1) estadísticos que mantienen puntos de vista muy divergentes sobre la inferencia estadística han recomendado o justificado el método mid-P, (2) la potencia de las pruebas mid-P suele aproximarse a la forma de la función de potencia ideal, (3) en una amplia variedad de diseños y modelos, (3) en una amplia variedad de diseños y modelos, el método mid-P rectifica el conservadurismo extremo del método condicional exacto tradicional sin comprometer gravemente el error de tipo I, y (4) los estudios empíricos muestran que el rendimiento del método mid-P se asemeja al de los métodos incondicionales exactos y los métodos aleatorios condicionales (Hirji 2006, pp. 218-219). Hirji concluye afirmando: "El método mid-P es, por tanto, un método ampliamente aceptado, conceptualmente sólido, práctico y una de las mejores herramientas de análisis de datos. Especialmente para datos discretos dispersos y de tamaño de muestra no muy grande, nos hacemos eco así de las palabras de Cohen y Yang (1994) de que se encuentra entre las "herramientas sensatas para el estadístico aplicado".

Conclusiones

La elección entre procedimientos para probar la significación estadística en tablas 2 X 2 ha sido un tema de investigación y debate continuos durante décadas. Nuestra revisión de la literatura identificó no menos de 22 pruebas entre las que elegir, cada una con sus propios supuestos, puntos fuertes y puntos débiles (Upton, 1982). La disponibilidad de pruebas de significación alternativas sugiere que los empresarios que se encuentren como demandados en el marco del Título VII tendrán que defender no sólo los resultados de su análisis del impacto adverso, sino también la forma en que se calcularon esas estadísticas.

Referencias

Agresti, A. (2007). An introduction to categorical data analysis (2ª ed.). Wiley.

Bobko, P., Roth, P.L. (diciembre de 2004). Selección de personal con bandas referenciadas a la puntuación máxima: On the inappropriateness of current procedures. Revista Internacional de Selección y Evaluación, 12 (4), 291-298.

Camilli, G. y Hopkins, K. D. (1979). Testing for association in 2 X 2 contingency tables with very small sample sizes. Psychological Bulletin, 86, 1011-1014.

Collins, M. W. & Morris, S. B. (2008). Testing for adverse impact when sample size is small. Journal of Applied Psychology, 93, 463-471.

Crans, G. G. & Shuster, J. J. (2008). ¿Hasta qué punto es conservadora la prueba exacta de Fisher? Una evaluación cuantitativa de la prueba binomial comparativa de dos muestras. Statistics in Medicine, 27 (8), 3598-3611.

Hirji, K. F., Tan, S. & Elashoff, R.M. (1991). A quasi-exact test for comparing two binomial proportions. Statistics in Medicine, 10, 1137-1153.

Lin, C.Y & Yang, M.C. (2009). Improved p-value tests for comparing two independent binomial proportions. Communications in Statistics - Simulation and Computation, 38 (1), 78-91.

Lydersen, S. Fagerland, M.W. & Laake, P. (2009). Pruebas recomendadas de asociación en tablas 2 X 2. Statistics in Medicine, 28, 1159-1175.

Mehrotra, D.V., Chan, I.S.F. y Berger, R.L. (2003). A cautionary note on exact unconditional inference for a difference between two independent binomial proportions. Biometrics, 59, 441-450.

Plackett, R. L. (1984). Discussion of Yates' 'Tests of significance for 2 X 2 contingency tables'. Journal of Royal Statistical Society, Serie A, 147, 426-463.

Upton G. (1992). La prueba exacta de Fisher. Revista de la Real Sociedad Estadística, Serie A, 155: 395-402.

Nota del Editor: Este post fue publicado originalmente en Circaworks.com. En abril de 2023, Mitratech adquirió Circa, un proveedor líder de software de reclutamiento inclusivo y cumplimiento de OFCCP. El contenido ha sido actualizado desde entonces para reflejar nuestra oferta ampliada de productos, la evolución de las regulaciones de cumplimiento de adquisición de talento y las mejores prácticas en la gestión de RRHH.