Hat der CASE Score einen Gender Bias?

Hat der CASE Score einen Gender Bias?

In unserem FAIR Projekt arbeiten wir mit der Universität zu Köln an diskriminierungsfreien Recruiting Algorithmen. Aber wie sieht es eigentlich bei unserem CASE Score aus? Werden hier bestimmte Gruppen bei der Einschätzung ihrer akademischen Leistung bevorzugt? Die verkürzte Antwort ist ja, und zwar berechtigterweise Frauen. Im Detail ist es ein bisschen komplizierter. Wer gar keine Lust auf Statistik hat, kann gerne direkt bei „Schluss mit Statistik: Was bedeutet dieses Ergebnis für die HR-Praxis?“ weiterlesen.


Unbereinigte Unterschiede zwischen Männern und Frauen:
Im CASE Score schneiden Frauen im Schnitt rund vier Prozentränge besser ab. Wie man an der Überschrift erkennen kann, handelt es sich hierbei um den unkorrigierten Unterschied – das heißt etwaige Unterschiede zwischen Männern und Frauen, die einen Einfluss auf den CASE Score haben könnten, werden nicht herausgerechnet. Generell sollten wir zwei Fragen stellen, um eine solche Zahl besser verstehen zu können und zu entscheiden, ob und wie stark Männer hier denn tatsächlich diskriminiert werden.

( 1) Ist der Unterschied groß?
Nein, vier Prozentränge sind nicht besonders viel, wenn man berücksichtigt, dass die Skala von Top 1% bis Top 100% verläuft (Für Statistik-Nerds: Und uniform verteilt ist). Darüber hinaus sollte man berücksichtigen, dass es sich hier um den unkorrigierten Effekt handelt, dieser also ebenfalls andere Unterschiede zwischen Männern und Frauen beinhalten kann. Wirklich aussagekräftig ist diese Zahl deshalb nicht.

(2) Ist der Unterschied statistisch signifikant?
Ja, dieser Unterschied ist signifikant. Signifikanz bedeutet, dass dieses Ergebnis nicht zufällig durch eine ungünstige Stichprobe erhalten wurde. Da dieses Ergebnis auf den aktuellsten Befragungswellen der Fachkraft 2030 berechnet wurde umfasst die Stichprobe mehr als 30.000 Studierende. Bei so großen Stichproben bleibt wenig Platz für statistischen Zufall und ein signifikanter – wenngleich auch kleiner – Unterschied überrascht an dieser Stelle nicht.


Korrigierte Unterschiede zwischen Männern und Frauen:
Die Unterscheidung zwischen bereinigten und unbereinigten Unterschieden ist am ehesten durch die Diskussion um den Gender-Pay-Gap geläufig. Wenn man Informationen wie Branche, Position und Erfahrung berücksichtigt, dann schmilzt der unbereinigte Gender-Pay-Gap von 21% auf 6%. Natürlich kann man in diesem Fall diskutieren, dass Unterschiede in Variablen wie Position und Erfahrung ebenfalls diskriminierend sind und nicht rausgerechnet werden sollten.

Zurück zum Thema: Um ein aussagekräftigeres Ergebnis zu erhalten, sollten wir die Unterschiede im CASE Score zwischen Männern und Frauen bereinigen. Wenn Frauen im Schnitt bessere Noten erreichen, dann sollten wir diesen Effekt natürlich herausrechnen, da er einen echten Unterschied in der Studienleistung darstellt. Über die Wahl des richtigen Modells kann man an dieser Stelle durchaus diskutieren, Interessierte finden unter diesem Blogeintrag noch ein paar mehr Gedanken dazu. Stellen wir uns nochmal die gleichen zwei Fragen:

(1) Ist der bereinigte Unterschied groß?
Nein, er ist sogar ziemlich klein. Bereinigt beträgt der Unterschied nun lediglich knapp 0,3 Prozentränge – diesmal sogar zu Gunsten der Männer. Letztere Information ist allerdings nicht relevant, da die Ausprägung dieses Effektes winzig ist und wir die Frage nach der Signifikanz noch klären müssen.

(2) Ist der bereinigte Unterschied statistisch signifikant?
Nein, trotz der sehr großen Stichprobe kann nun nicht mehr ausgeschlossen werden, dass es gar keinen Unterschied zwischen Männern und Frauen im CASE Score gibt. Es ist sogar so, dass es ziemlich wahrscheinlich ist eine solche Stichprobe zu erhalten, wenn es keine Unterschiede im CASE Score gibt.

Der großen Stichprobe zum Trotz zeigen sich also keine signifikanten Unterschiede. Und hier ist die Stichprobengröße wirklich entscheidend, denn während mit kleinen Stichproben nur große Effekte verlässlich gemessen werden können, können mit großen Stichproben auch kleinere Effektstärken signifikant bestimmt werden.

Unterm Strich bleibt also festzuhalten, dass mit Blick auf den CASE Score unbereinigt ein kleiner Unterschied zwischen Männern und Frauen festzustellen ist. Dieses bessere Abschneiden der Frauen zeigt sich nicht mehr, wenn die durchschnittlich besseren Noten berücksichtigt werden - selbst in unserer großen Stichprobe von mehr als 30.000 Studierenden ist der Unterschied insignifikant.

Wir sollten aber noch einen Moment über die Art der statistischen Bereinigung nachdenken. Denn falls Männer im Studium für die gleiche Leistung schlechtere Noten erhalten würden, dann würden wir hier mit den Noten auch die Diskriminierung modellieren. Der bereinigte Unterschied wäre also nicht sonderlich hilfreich. Aber auch hierzu gibt es Forschung und die ist in ihren Ergebnissen nicht immer eindeutig. Eine Diskriminierung von Jungen wird in manchen Studien vor allem im schulischen Kontext beobachtet, aber gerade in mathematischen Fächern findet man hier dann eher eine Benachteiligung von Mädchen. Eine generelle Diskriminierung von Männern im tertiären Bildungsbereich lässt sich hiermit nicht belegen.

Und, selbst wenn es eine solche Diskriminierung gäbe und der CASE Score diese mitmessen würde (die Alternative wäre entgegen unserer aktuellen Praxis das Geschlecht abzufragen und Männern einen Bonus einzuräumen), dann bleibt dieser Effekt im Maximum klein (siehe unbereinigte Unterschiede). Und, vor allem wäre dieser Nachteil nicht nur klein, er wäre vor allem kleiner als der Vorteil, den Männer am Arbeitsmarkt erhalten. Was uns zu einer weiteren Frage bringt: Ist positive Diskriminierung erlaubt, um andere Formen der Diskriminierung auszugleichen? Ich finde ja, gebe aber zu bedenken, dass es sich hierbei um eine komplexe ethische Frage handelt.


Schluss mit Statistik: Was bedeutet dieses Ergebnis für die HR-Praxis?
Zum einen bedeutet dies, dass Frauen im Studium erfolgreicher sind als Männer – wenngleich auch nur minimal. Diesen kleinen Unterschied findet man auch im CASE Score (unbereinigt). Darüber hinaus gibt es aber keinerlei Unterschiede, wenn man für die erreichten Noten korrigiert. Der CASE Score bildet also die Leistung im Studium fair zwischen den Geschlechtern ab.

Und dies ist kein Zufall: Das Problem wurde in der Programmierung bedacht und anschließend empirisch überprüft. Diese Vorgehensweise sollte zum "1x1" der Personalauswahl gehören. Auswahlinstrumente müssen nicht nur eine gute Vorhersage treffen können (prädiktive Validität), sondern auch verschiedenen Bewerbergruppen gegenüber fair sein. Wir würden uns wünschen, dass Unternehmen diese beiden Kriterien stärker in die Entscheidung über Auswahlinstrumente einfließen lassen würden.

Der Status Quo am Arbeitsmarkt zeigt nämlich weiterhin, dass Frauen massiv benachteiligt werden. Und diese Diskriminierung resultiert fast ausschließlich aus menschlichen Entscheidungen. Darüber sollte man nachdenken, wenn man Dinge sagt wie: „Bei uns zählt noch das Bauchgefühl der Personaler“. Denn dieses subjektive Bauchgefühl ist nicht nur per Definition schlecht erklärbar, sondern häufig verzerrt. Das passiert nicht absichtlich, sondern wie Studien zeigen, eher unterbewusst. Die meisten Personaler wollen gar nicht diskriminieren und tun es doch. Deshalb möchte aber niemand die Personaler abschaffen, sondern diese durch gute Algorithmen, gute Eignungsdiagnostik oder gute Trainings zu Sensibilisierung bei ihrer Entscheidung unterstützen. So können wir die Diskriminierung am Arbeitsmarkt gemeinsam bekämpfen.

Denn diese Diskriminierung stellt nicht nur ein Problem für Frauen dar. Jeder einzelne Europäer wäre laut einer Studie der Weltbank aus 2018 um fast 50.000€ reicher, wenn der Arbeitsmarkt Frauen nicht benachteiligen würde. Warum? Weil es nicht nur ethisch falsch, sondern auch wirtschaftlich ineffizient ist, Positionen lieber mit Männern zu besetzen.



Über den Autor:
Dr. Philipp Karl Seegers beschäftigt sich als „Labour Economist" mit dem Übergang zwischen Bildung und Arbeitsmarkt. Zusammen mit Dr. Jan Bergerhoff und Dr. Max Hoyer hat Philipp das HR-Tech Unternehmen candidate select GmbH (CASE) gegründet, welches große Datensätze und wissenschaftliche Methoden nutzt, um Bildungsabschlüsse vergleichbar zu machen. Philipp ist Projektleiter des durch das Land NRW und die EU geförderten Projektes FAIR („Fair Artificial Intelligence Recruiting“). Darüber hinaus forscht Philipp als Research Fellow der Maastricht University und als Initiator der Studienreihe „Fachkraft 2030“ aktiv an Fragestellungen im Bereich Bildungsökonomie, psychologische Diagnostik und Arbeitsmarkt.


Statistik Exkurs: Wie sollte man den Geschlechterunterschied am besten bereinigen?
Im Text oben haben wir den Unterschied zwischen CASE Scores um den im Studium erzielten Notenschnitt / den aktuellen Notenschnitt bereinigt. Das bedeutet, wir rechnen eine multiple Regression, mit dem CASE Score als abhängige und dem Geschlecht und der Note als unabhängige Variablen. Der Geschlechtereffekt misst dann, ob bei gleicher Note ein Unterschied im CASE Score vorliegt.

Man kann jetzt durchaus argumentieren, dass neben der Note auch für das Studienfach, die Abschlussart und die Hochschule bereinigt werden sollte. Letztere Variablen sollten deswegen aufgenommen werden, da es große Unterschiede in der Notengebung zwischen Studienfächern, Abschlüssen und Hochschulen gibt. Sobald die Note dann Teil des Models wird, sollten solche Unterschiede ebenfalls modelliert werden.

Man kann aber auch dafür argumentieren, dass dies keine gute Idee ist, weil damit ein großer Teil der Input Variablen zur Bestimmung eines CASE Scores aufgenommen werden. Da der CASE Score das Geschlecht nicht abfragt, kann eine Diskriminierung überhaupt nur durch Unterschiede in den Input Variablen – und eben einer Korrelation ebenjener mit Geschlecht – abgebildet werden. Dies spricht dafür, weniger Variablen aufzunehmen – auch wenn man hier anmerken muss, dass der CASE Score nicht einfach nur die Hochschule oder das Studienfach berücksichtigt, sondern vor allem die Interaktionen dieser Variablen. Dies wird hier nicht abgebildet, das Argument ist also nicht ganz zutreffend.

Statistisch ist es aber immer gut, wenn die Ergebnisse möglichst robust sind. Auch wenn wir neben Geschlecht für weitere Variablen korrigieren finden wir keine signifikanten Unterschiede. Und hier ist noch nicht mal das Ende möglicher Kontrollvariablen erreicht: In dem Datensatz liegen viele weitere Informationen wie die Abiturnote oder psychologische Messwerte, wie ein kognitiver Leistungstests und ein Big-5 Persönlichkeitstest, vor. Auch mit diesen vielen Kontrollvariablen bleibt das Ergebnis bestehen: Es zeigt sich, wenn man für Noten, den Studienkontext und sogar psychologische Messwerte korrigiert keine Ungleichbehandlung von Männern und Frauen im CASE Score.

Zurück