Einführung
Schon vor der Veröffentlichung der einheitlichen Richtlinien für Mitarbeiterauswahlverfahren im Jahr 1978 führten Arbeitgeber Analysen zu negativen Auswirkungen (auch bekannt als Analysen zu ungleichen Auswirkungen) durch, um die Unterschiede in den Bestehensquoten zwischen Untergruppen bei verschiedenen Praktiken, Verfahren und Tests zu bewerten. Zu den Methoden zur Durchführung solcher Analysen gehörten in der Regel Auswirkungsverhältnistests, bei denen die Erfolgsraten zweier Gruppen vergleichend bewertet wurden (z. B. die 80-Prozent-Regel), statistische Signifikanztests und praktische Signifikanztests (Bobko & Roth, 2004). Während diese Methoden unverändert geblieben sind, haben sich die eigentlichen Instrumente (d. h. die statistischen Verfahren) mit einigen Ausnahmen weiterentwickelt.
Während sich die Medizin und die Statistik in letzter Zeit zunehmend leistungsfähigeren statistischen Verfahren zur Analyse von 2×2-Tabellen zugewandt haben und die gravierenden Einschränkungen und Zwänge des herkömmlichen Fisher-Exakt-Tests (im Folgenden „FET“) zur Analyse von 2×2-Tabellen zunehmend erkannt werden, haben sich die Bereiche Personalwesen und Personalpsychologie nicht so schnell darauf eingestellt. Insbesondere wird der FET seit 1945 in der statistischen Literatur diskutiert (Mehrotra et al., 2003), und die meisten Praktiker im Bereich der Statistik beschränken seine Verwendung mittlerweile auf Situationen, in denen seine strengen bedingten Annahmen erfüllt werden können und seine konservative Natur bei der Bewertung seiner Ergebnisse berücksichtigt wird (Upton, 1992; Lydersen, Fagerland & Laake et. al., 2009).
Um die Grenzen des FET zu verstehen, müssen wir zunächst die verschiedenen Modelle für 2 x 2-Kontingenztafeln kennen. Da statistische Signifikanztests einen Vergleich des beobachteten Ergebnisses mit dem aufgrund des Zufalls möglichen Ergebnis beinhalten, müssen für jeden Test diese Zufallsresultate operativ definiert werden. Im Zusammenhang mit 2 x 2-Tabellen wurden drei unterschiedliche Modelle auf der Grundlage unterschiedlicher operativer Definitionen entwickelt. Die Wahl zwischen diesen Modellen ist seit Jahrzehnten Gegenstand von Debatten unter Statistikern, wobei im Mittelpunkt der Debatte die bedingten Annahmen stehen, die sich darauf beziehen, ob die Randwerte der Tabelle a priori als feststehend angenommen werden oder ob davon ausgegangen werden kann, dass sie aus einer größeren Population stammen (Camilli, 1990). Collins und Morris (2008) beschreiben die drei Modelle, mit denen 2×2-Tabellen ausgewertet werden können. Diese werden im Folgenden kurz zusammengefasst.
-
- Modell 1: Unabhängigkeitsprüfung. Alle Randwerte werden als im Voraus festgelegt angenommen (d. h. der Anteil jeder Gruppe und die Auswahlwerte sind festgelegt). Die Daten werden nicht als Zufallsstichprobe aus einer größeren Grundgesamtheit betrachtet.
-
- Modell 2: Vergleichende Studie. Entweder die Zeilen- oder die Spalten-Gesamtwerte sind im Voraus festgelegt. Beispielsweise werden die Bewerber als Zufallsstichproben aus zwei unterschiedlichen Populationen (z. B. Männer und Frauen) betrachtet. Der Anteil aus jeder Population ist festgelegt (d. h., der Randanteil einer Variablen wird über alle Wiederholungen hinweg als konstant angenommen). Der zweite Randanteil (z. B. der Randanteil der Bewerber, die den Auswahltest bestehen) wird aus den Stichprobendaten geschätzt.
- Modell 3: Doppelte Dichotomie. In diesem Modell wird weder von festen Zeilen- noch Spalten-Gesamtsummen ausgegangen. Die Bewerber werden als Zufallsstichprobe aus einer Population betrachtet, die durch zwei dichotome Merkmale gekennzeichnet ist. Es wird keine gezielte Stichprobenauswahl oder Zuordnung zu Gruppen vorgenommen, und der Anteil in jeder Gruppe sowie die Erfolgsquote können zwischen den Stichproben variieren.
Diese drei Modelle lassen sich als Modelle mit „festen“, „gemischten“ und „freien“ Randbedingungen zusammenfassen. Wie später noch näher erläutert wird, passen die verschiedenen verfügbaren 2×2-Tests nach dem aktuellen Stand der statistischen und medizinischen Forschungsliteratur mehr oder weniger genau zu diesen drei Modellen.
Einschränkungen des exakten Tests nach Fisher
Kurz nachdem Ronald Fisher seinen exakten Test formuliert hatte (Fisher, 1935), begannen einige Statistiker, dessen Anwendung in verschiedenen 2 x 2-Szenarien (z. B. Barnard, 1945) sowie dessen konservative Natur (siehe Yates, 1984) in Frage zu stellen. Während diese frühen Kontroversen theoretischer Natur waren, basieren neuere Kritiken auf den Ergebnissen moderner Datensimulationsanalysen, die eine eingehendere Untersuchung des statistischen Verhaltens verschiedener 2 x 2-Tests ermöglichen (Sekhon, 2005; Collins & Morris, 2008; Crans & Shuster, 2008; Lin & Yang, 2009; Lydersen et al., 2009). Diese neueren Studien haben zwei wesentliche Einschränkungen des FET aufgezeigt: die Tatsache, dass seine strengen bedingten Annahmen in der Praxis selten erfüllt sind, und den konservativen Charakter des FET.
Die erste Einschränkung betrifft die bedingten Annahmen, die für die korrekte Anwendung des FET erforderlich sind. Im Bereich der Statistik herrscht Einigkeit darüber, dass das FET nur im ersten Modell– dem Independence Trial Model – genau angewendet werdenkann. Da dieses Modell keine typischen Personalauswahldaten repräsentiert, „gibt es Grund, die Eignung des FET für die Analyse negativer Auswirkungen in Frage zu stellen“ (Collins & Morris, 2008). Die Angemessenheit, die Margen als feststehend zu behandeln, steht seit über 50 Jahren im Mittelpunkt der Debatte um den FET.
Einige Statistiker behaupten, dass das Unabhängigkeits-Testmodell erfordert, dass „beide Margen in einer 2 x 2-Tabelle durch Konstruktion festgelegt sind – d. h., sowohl die Behandlungs- als auch die Ergebnismargen sind a priori festgelegt“(Sekhon, 2005; siehe auch Romualdi et al., 2001; Hirji et al., 1991; D’Agostino et al., 1988; und Ludbrook, 2008). Mit anderen Worten: Damit die bedingten Annahmen des Unabhängigkeitsversuchsmodells erfüllt sind, muss der Forscher vor der Durchführung des Experiments, das die Zahlen innerhalb jeder Zeile und Spalte erzeugt, die Randwerte sowohl der Zeilen als auch der Spalten identifizieren. In der experimentellen Forschung ist es üblich, die relativen Zahlen in jeder Behandlungsbedingung im Voraus festzulegen; es wäre jedoch ungewöhnlich, die Häufigkeit sowohl des Prädiktors als auch des Ergebnisses vor der Datenerhebung festzulegen (Gimpel, 2007). Obwohl dies von einigen empfohlen wird, scheint diese Bedingung in der Praxis nur selten erfüllt zu sein.
Collins und Morris (2008) argumentierten, dass die für die Analyse negativer Auswirkungen verfügbaren Daten selten mit den festen Randannahmen übereinstimmen. Bei einer Analyse von Bewerbern und eingestellten Mitarbeitern ist es beispielsweise unwahrscheinlich, dass die Anzahl der Bewerber aus Minderheiten und Mehrheitsgruppen über alle Stichproben hinweg konsistent ist. Und obwohl es verlockend sein mag, Beförderungs- oder Entlassungsentscheidungen als einen festen Pool von Kandidaten und eine feste Anzahl ausgewählter Personen zu betrachten, wird es unklar, woraus sich der Stichprobenraum zusammensetzt, auf dem die Wahrscheinlichkeiten definiert sind, sobald die Gruppe von Personen festgelegt ist. Ebenso wird die Gruppe der für eine Beförderungsentscheidung in Betracht gezogenen Kandidaten zuvor anhand eines Auswahlverfahrens ausgewählt worden sein, bei dem möglicherweise einige der gleichen Faktoren berücksichtigt wurden, die auch für die Beförderungsentscheidung herangezogen werden. Daher ist der vorherige Auswahlprozess, der die Anzahl der Bewerber aus Minderheiten bestimmt hat, nicht unabhängig von der Erfolgsquote der Beförderungsentscheidung, dem Parameter von Interesse.
Eine weitere Herausforderung bei der Erfüllung der bedingten Annahmen von Beförderungssituationen besteht darin, dass Arbeitgeber zunächst versuchen könnten, Beförderungsmöglichkeiten mit internen Mitarbeitern aus verschiedenen niedrigeren Positionen zu besetzen (die für jede Gruppe unterschiedliche potenzielle Gewichts- und Verfügbarkeitsprozentsätze haben), und sich dann an externe Ressourcen wenden, wenn die Stelle nicht intern besetzt werden kann. Situationen wie diese verwischen die „feine Grenze“ zwischen „festen“, „gemischten“ und „freien“ Grenzannahmen. Bei der Anwendung der drei Modelle auf typische Analysen nachteiliger Auswirkungen wird deutlich, dass die bedingten Annahmen des FET nur selten erfüllt werden.
Die Debatte über die Verwendung von bedingten gegenüber unbedingten Tests dauert bereits seit Jahrzehnten an und wird wahrscheinlich auch in naher Zukunft nicht beigelegt werden können. Unser Ziel ist hier bescheidener: Wir wollen die Verwendung alternativer Signifikanztests als Entscheidungshilfe bei der Bewertung negativer Auswirkungen evaluieren. In diesem Zusammenhang sind vor allem die Fehlerquoten der Entscheidungsregel von Bedeutung. Konkret geht es uns um die Wahrscheinlichkeit von falsch-positiven Ergebnissen (Fehler vom Typ I) und falsch-negativen Ergebnissen (Fehler vom Typ II). Dies führt zur zweiten und wichtigeren Kritik am FET: Der Test ist zu konservativ.
Im Bereich der Statistik herrscht allgemein die Meinung, dass der FET zu konservativ ist (siehe Referenzbehörden zu den Einschränkungen des Fisher-Exakt-Tests für eine unvollständige Liste von Zitaten, die diese Position vertreten). In diesem Zusammenhang bezieht sich „konservativ” auf die Tatsache, dass das gewünschte Signifikanzniveau, beispielsweise 0,05, aufgrund der diskreten Verteilung der Daten nicht genau erreicht werden kann und geringere Werte verwendet werden müssen. Diskretheit tritt auf, weil bei kleinen Stichprobengrößen die Anzahl der vom FET berücksichtigten möglichen Ergebnisse gering ist (Agresti, 2007). Infolgedessen kann der p-Wert nur eine begrenzte Anzahl möglicher Werte annehmen, und oft hat keines der möglichen Ergebnisse p-Werte, die nahe am nominalen Signifikanzniveau liegen, aber darunter liegen. Daher ist die erhaltene Wahrscheinlichkeit eines Fehlers vom Typ I geringer als das nominale Alpha-Niveau, oft sogar erheblich geringer.
Es ist wichtig zu beachten, dass das Problem nicht bei den p-Werten liegt, die unter den bedingten Annahmen korrekt sind, sondern vielmehr aus der Verwendung einer Entscheidungsregel resultiert, bei der der p-Wert mit a = 0,05 verglichen wird. Upton (1992) argumentierte, dass die Konservativität des FET auf die gängige Praxis zurückzuführen ist, das nominale Signifikanzniveau auf 0,05 festzulegen. Würde man beispielsweise stattdessen a = 0,055 festlegen, wären die Ergebnisse mit zwei eingestellten Frauen ebenfalls signifikant und die Fehlerquote vom Typ I (0,054) läge recht nahe am nominalen Niveau. Das Problem der Konservativität kann also vermieden werden, indem man p-Werte direkt interpretiert, anstatt Ergebnisse auf der Grundlage eines festen Alpha-Niveaus als signifikant oder nicht signifikant zu melden. In Situationen, die unter Titel VII fallen, sind jedoch feste Signifikanzniveaus der vorgeschriebene Standard, sodass die nachteiligen Folgen der Diskretion bestehen bleiben.
Diese Einschränkung führt dazu, dass der FET „weniger aussagekräftig ist als bedingte Mid-P-Tests und unbedingte Tests“, während diese anderen Tests „im Allgemeinen aussagekräftiger sind und dennoch die Testgröße beibehalten“ (Lydersen et al., 2009). Allein aufgrund dieser Einschränkung haben mehrere Statistiker empfohlen, dass der „traditionelle FET praktisch nie verwendet werden sollte“ (Lydersen et al., 2009), da „das tatsächliche Signifikanzniveau (oder die Größe) viel geringer ist als das nominale Niveau“ (Lin & Yang, 2009). Agresti (2007) empfiehlt die Verwendung der Mid-P-Anpassung selbst in Situationen, in denen die festen Randannahmen erfüllt werden können, „da die tatsächliche Fehlerquote [des FET] geringerist als die beabsichtigte”(S. 48).
Die Wahl eines Tests, der diesen 0,05-Standard genau festlegen kann – und nicht den Standard beansprucht, aber etwas Höheres liefert (wie beispielsweise der FET) – ist entscheidend für die Wahl einer wirksamen Rechtsstrategie. 
Zulässigkeit des FET in Rechtsstreitigkeiten nach Titel VII
Im Fall Daubert gegen Merrell Dow Pharmaceuticals (1993) vor dem Obersten Gerichtshof der Vereinigten Staaten waren sich sieben Mitglieder des Gerichts einig, dass Sachverständigenbeweise in Bundesgerichtsverfahren „wissenschaftliche Methoden” verwenden müssen, um eine Hypothese zu beweisen oder zu widerlegen. Eine Anforderung, die das Gericht mit diesem Standard eingeführt hat, ist, dass die Untersuchungsinstrumente eine bekannte oder potenzielle Fehlerquote aufweisen müssen und „zuverlässig auf die vorliegenden Fakten angewendet werden” müssen. Seit Jahrzehnten haben die Gerichte festgelegt, dass der Schwellenwert von 0,05 als Standard für die Identifizierung und Abwägung von nachteiligen Auswirkungen festgeschrieben ist. Die Wahl eines Tests, der diesen 0,05-Standard genau festlegen kann – und nicht den Standard beansprucht, aber etwas Höheres liefert (wie z. B. den FET) – ist der Schlüssel zur Wahl einer wirksamen Rechtsstrategie.
Der unkorrigierte FET wird seit Jahren (standardmäßig) in Rechtsstreitigkeiten nach Titel VII verwendet. Soweit uns bekannt ist, wurde der FET jedoch noch nicht speziell (im Vergleich zu Alternativen) unter den in den letzten Jahren vorgebrachten Kritikpunkten angefochten. Dies liegt wahrscheinlich daran, dass für eine solche Anfechtung die seltene Situation eintreten müsste, dass ein streitiger Fall mit nachteiligen Auswirkungen unter Verwendung eines Tests signifikant und unter Verwendung des anderen Tests nicht signifikant ist und jeder Test einem rechtlichen Auswahlverfahren unterzogen würde. Vor dem oben beschriebenen Hintergrund glauben wir nicht, dass der FET einer Daubert-Anfechtung standhalten würde. Sollte jedoch eine Situation eintreten, in der sich die gegnerischen Sachverständigen in einem EEO-Fall auf die 2 x 2-Stichprobenbedingungen für den Fall einigen, könnte eines der 2 x 2-Modelle gegenseitig angepasst werden. Selbst wenn die Situation einer bedingten Situation so nahe wie möglich käme, könnte die Entscheidung, ob eine Korrektur für Diskretion vorgenommen werden sollte, immer noch umstritten sein (siehe Agresti, 2007, S. 49).
Mit über 20 Artikeln, die in statistischen Fachzeitschriften veröffentlicht wurden, und der Tatsache, dass die meisten kategorischen statistischen Texte der letzten 10 Jahre nur eine bedingte Verwendung der FET zulassen (ein Umstand, der in Fällen mit negativen Auswirkungen selten vorkommt), die konservative Natur der FET gründlich dokumentieren und andere Techniken wie die Lancaster's Mid-P (im Folgenden „LMP“) empfehlen oder befürworten, wären Arbeitgeber in Rechtsstreitigkeiten mit der Verwendung derselben viel sicherer. Wahrscheinlich aus diesen Gründen wurde die Anwendung des LMP in jüngerer Zeit in der Literatur zu EEO-Rechtsstreitigkeiten und Compliance diskutiert (DCI Consulting, 2010; Ruggieri, Pedreschi & Turini, 2010), Softwareprogrammen (Biddle Consulting Group, 2010) und EEO-Gerichtsverfahren (Strong v. Blue Cross, 2010; Delgado-O’Neil v. City of Minneapolis, 2010) diskutiert wurde.
Abgesehen von den rechtlichen Implikationen und Herausforderungen, die sich aus Analysesystemen ergeben können, die den FET verwenden, werden Personalverantwortliche als „Haftungsanalysten“ wahrscheinlich ausgewogenere Methoden bevorzugen, die besser zu allen drei 2 x 2-Situationen passen und keine so konservativen Ergebnisse liefern. Der LMP bietet eine Alternative, die alle drei 2 x 2-Analysebedingungen erfüllt.
Lancasters Mid-P (LMP) als Lösung
Aus den oben genannten Gründen empfehlen wir die Verwendung der Lancaster-Mid-P-Korrektur für den FET, die den FET effektiv korrigiert, um die Wahrscheinlichkeitswerte des in einem der drei 2 x 2-Modelle analysierten negativen Auswirkungenfalls genauer widerzuspiegeln. Der Grund dafür ist, dass im eindeutig bedingten festen Modell der LMP eine Korrektur für Diskretheit bereitstellt, die den FET auf ein weniger konservatives Alpha-Niveau anpasst (Agresti, 2007). In gemischten und freien Randbedingungen führen die funktionalen Mechanismen der LMP zu berechneten Werten für verschiedene Einstellungen, die die Ergebnisse unbedingter exakter Tests genau nachbilden.
Die Vielseitigkeit des LMP ist ein wesentliches Merkmal für Praktiker und Arbeitgeber. Man kann sich nur vorstellen, wie schwierig es wäre, anhand eines Entscheidungsbaums zu wählen, welches der drei Modelle für jede einzelne Analyse der nachteiligen Auswirkungen am besten geeignet ist, und dann in einem Rechtsstreit oder bei der Durchsetzung genau zu verteidigen, welche Marge fest, gemischt oder frei war. Darüber hinaus müssten Praktiker zwischen den verschiedenen 22 Tests wählen, die für die Analyse von 2 x 2-Tabellen zur Verfügung stehen und jeweils ihre Stärken und Grenzen haben. Dann müsste man entscheiden, ob Korrekturen für Diskretion vorgenommen werden sollen. Unsere Untersuchungen haben gezeigt, dass das LMP sehr ausgewogen ist und in der Literatur für die Analyse von 2 x 2-Tabellen in einer Vielzahl von Situationen mit negativen Auswirkungen gut unterstützt wird.
Über das oben Genannte hinaus hat Hirji (2006) mehrere zusätzliche Gründe genannt, warum LMP die bevorzugte Korrektur für den FET ist: (1) Statistiker, die sehr unterschiedliche Ansichten zur statistischen Inferenz vertreten, haben entweder die Mid-P-Methode empfohlen oder begründet, (2) die Aussagekraft der Mid-P-Tests entspricht im Allgemeinen in etwa der Form der idealen Aussagekraftfunktion, (3) In einer Vielzahl von Designs und Modellen korrigiert die Mid-P-Methode die extreme Konservativität der traditionellen exakten bedingten Methode, ohne den Typ-I-Fehler ernsthaft zu beeinträchtigen, und (4) empirische Studien zeigen, dass die Leistung der Mid-P-Methode der der exakten unbedingten Methoden und der bedingten randomisierten Methoden ähnelt (Hirji 2006, S. 218-219). Hirji kommt zu folgendem Schluss: „Die Mid-P-Methode ist somit ein weithin anerkanntes, konzeptionell fundiertes, praktisches und eines der besseren Instrumente der Datenanalyse. Insbesondere für spärliche und nicht allzu große diskrete Datenmengen schließen wir uns daher den Worten von Cohen und Yang (1994) an, dass sie zu den „sinnvollen Instrumenten für den angewandten Statistiker” gehört.
Schlussfolgerungen
Die Wahl zwischen verschiedenen Verfahren zur Prüfung der statistischen Signifikanz in 2×2-Tabellen ist seit Jahrzehnten Gegenstand kontinuierlicher Forschung und Debatten. Unsere Literaturrecherche ergab nicht weniger als 22 Tests, zwischen denen gewählt werden kann, wobei jeder seine eigenen Annahmen, Stärken und Schwächen hat (Upton, 1982). Die Verfügbarkeit alternativer Signifikanztests deutet darauf hin, dass Arbeitgeber, die sich als Beklagte in Verfahren nach Titel VII wiederfinden, nicht nur die Ergebnisse ihrer Analyse der nachteiligen Auswirkungen verteidigen müssen, sondern auch die Art und Weise, wie diese Statistiken berechnet wurden.
Referenzen
Agresti, A. (2007). Eine Einführung in die Analyse kategorialer Daten (2. Auflage). Wiley.
Bobko, P., Roth, P.L. (Dezember 2004). Personalauswahl mit Top-Score-Referenz-Banding: Zur Unangemessenheit der derzeitigen Verfahren. International Journal of Selection and Assessment, 12 (4), 291-298.
Camilli, G. & Hopkins, K. D. (1979). Testen von Assoziationen in 2 x 2-Kontingenztafeln mit sehr kleinen Stichprobengrößen. Psychological Bulletin, 86, 1011-1014.
Collins, M. W. & Morris, S. B. (2008). Prüfung auf negative Auswirkungen bei kleiner Stichprobengröße. Journal of Applied Psychology, 93, 463-471.
Crans, G. G. & Shuster, J. J. (2008). Wie konservativ ist der exakte Test von Fisher? Eine quantitative Bewertung des binomialen Vergleichstests mit zwei Stichproben. Statistics in Medicine, 27 (8), 3598-3611.
Hirji, K. F., Tan, S. & Elashoff, R.M. (1991). Ein quasi-exakter Test zum Vergleich zweier binomialer Anteile. Statistics in Medicine, 10, 1137-1153.
Lin, C.Y & Yang, M.C. (2009). Verbesserte p-Wert-Tests zum Vergleich zweier unabhängiger binomialer Anteile. Communications in Statistics – Simulation and Computation, 38 (1), 78-91.
Lydersen, S. Fagerland, M.W. & Laake, P. (2009). Empfohlene Tests für Assoziationen in 2 x 2-Tabellen. Statistics in Medicine, 28, 1159–1175.
Mehrotra, D.V., Chan, I.S.F. & Berger, R.L. (2003). Eine warnende Anmerkung zur exakten unbedingten Inferenz für einen Unterschied zwischen zwei unabhängigen binomialen Anteilen. Biometrics, 59, 441–450.
Plackett, R. L. (1984). Diskussion zu Yates' „Signifikanztests für 2 x 2-Kontingenztafeln“. Journal of Royal Statistical Society, Serie A, 147, 426–463.
Upton G. (1992). Fisher’s exact test. Journal of the Royal Statistical Society, Serie A, 155: 395–402.
Anmerkung der Redaktion: Dieser Beitrag wurde ursprünglich auf Circaworks.com veröffentlicht. Im April 2023 übernahm Mitratech Circa, einen führenden Anbieter von Software für integratives Recruiting und OFCCP-Compliance. Der Inhalt wurde seitdem aktualisiert, um unser erweitertes Produktangebot, die sich entwickelnden Compliance-Vorschriften für die Talentakquise und Best Practices im Personalmanagement zu berücksichtigen.