Konsistente Bewertungen vs. Expert*innen-Urteile – Wer schneidet bei der Bewertung von Kandidat*innen besser ab?

Wichtige Entscheidungen erfordern eine gründliche Überlegung der Alternativen und deren Konsequenzen. Benjamin Franklin, Vater der “Moralen Algebra”, entschloss sich 1779 einem Freund bei der Entscheidung eines Jobwechsels und dem damit verbundenen Umzug zu helfen, indem er ihm beibrachte wie er entscheiden sollte, statt ihm zu sagen, was er entscheiden sollte. Franklin empfahl seinem Freund eine Liste mit allen Variablen zu erstellen und zu analysieren, welche Entscheidung durch welche Variable zustande käme. Danach solle er die Variablen der Wichtigkeit nach gewichten und die gewichteten Variablen summieren, um so seine Entscheidung treffen zu können (Graefe, 2015).

Die Frage der korrekten Entscheidungsfindung beschäftigt uns heutzutage noch – besonders häufig in der Personalauswahl. Wie soll ich entscheiden, ob ein*e Kandidat*in geeignet ist? Wie erkenne ich, dass er*sie besser ist, als jemand anderes? Woher weiß ich, wie ich die Informationen sinnvoll zusammenführe und zu einem Ergebnis gelange? Genau um diese Entscheidungsfindung anhand der Kombination von vorhandenen Informationen geht es im heutigen Paper “Pushing the Limits for Judgmental Consistency: Comparing Random Weighting Schemes with Expert Judgments” von Yu und Kuncel (2020). 

Bei der Personalauswahl werden verschiedene Instrumente (z.B. Interview und Persönlichkeitsfragebogen) eingesetzt, um herauszufinden, ob ein*e bzw. welche*r Kandidat*in für die Stelle am besten geeignet ist. Dabei entstehen viele Daten, die dann im letzten Schritt zusammengeführt und kombiniert werden müssen, um zu einer Entscheidung zu gelangen. Also zum Beispiel der Eindruck aus dem Interview mit dem Ergebnis des Persönlichkeitsfragebogens. 

In der Literatur wird häufig von der Überlegenheit der mechanischen (d.h. Informationen anhand einer festgelegten Regel kombinieren) gegenüber der holistischen Datenkombination (d.h. Informationen basierend auf Intuition im Kopf zusammenführen) in Entscheidungssituationen gesprochen, obwohl erstere in der Praxis aufgrund mangelnder Akzeptanz der Beurteiler*innen und der Kandidat*innen nicht immer angewandt wird. Um jedoch die Vorhersagekraft (die sogenannte prädiktive Validität) zu maximieren, wäre es hilfreich zu wissen, wie Beurteilungen zustande kommen und bei welcher Art von Datenkombination und -gewichtung die Vorhersagekraft am höchsten ist. 

Für ihre Studie untersuchten Yu und Kuncel Daten von Personalassessments zweier internationaler Management Beratungsunternehmen. Dabei stand die differenzierte Anwendung von wahllosen konsistenten und wahllosen inkonsistenten Gewichten für die Personalauswahl im Vordergrund. Gewichte beschreiben hier die Wichtigkeit der Merkmalsausprägung für die Entscheidung. Psychologische Doktorand*innen, spezialisiert in Personalauswahl und Management ACs beobachteten Kandidat*innen für Managementpositionen. Dabei wurden sieben Dimensionen gemessen (Anpassung, Verwaltung, Kommunikation, Zwischenmenschliche Beziehungen, Urteilsvermögen, Führung und Motivation). 

Die Forscher stellten in diesem Kontext zwei Hypothesen auf: zum einen gehen sie davon aus, dass das optimale Gewicht, d.h. wissenschaftlich fundierte vollständig fehlerfreie Gewichtung eines Merkmals und die Einheitsgewichtung (= alle Merkmale werden gleichermaßen mit 1 gewertet) besser seien, als die wahllos gewählten inkonsistenten Gewichte der Merkmale. Zum anderen behaupten sie, die konsistenten Gewichte seien der Expertenbeurteilungen überlegen. 

In Anlehnung an Dawes (1979) wählten die Forscher für die Überprüfung ihrer Hypothesen  wahllos ausschließlich sieben positive Gewichte zwischen 0 und 0,5 aus, die dann für die sieben Beurteilungsdimensionen jedes*r Bewerber*in zu einer Gesamtbewertung kombiniert wurden. Die Gesamtbewertungen wurden mit Beurteilungen von Vorgesetzten verglichen, um Übereinstimmungen oder Abweichungen zu ermitteln.  

Yu und Kuncel fanden 3 große Learnings:

Yu und Kuncel fanden heraus, dass Expert*innen-Beurteilungen in den meisten Fällen besser waren, als eine wahllose inkonsistente Gewichtung. Eine wahllos gewählte aber konsistente Gewichtung von Prädiktoren fiel in den meisten Fällen jedoch besser aus, als die Beurteilung der Expert*innen. Dies ist besonders interessant, da Expert*innen in der Beurteilung der Bewerber*innen schlechter abschnitten, als die reine mechanische Datenkombination, obwohl sie Zugang zu allerhand Informationen haben, die nicht von einem Algorithmus erfasst werden können, wie beispielsweise Lebensläufe, Reaktionen oder Job-Erfahrungen. Unternehmensübergreifend waren die inkonsistenten sowie konsistenten Gewichte nie den optimalen Gewichten überlegen. 

Basierend auf ihren Ergebnissen empfehlen die Forscher, die holistische Datenkombination wenn möglich durch die Einheitsgewichtung “abzulösen”, wenn die optimalen Gewichte nicht bekannt sind. Bei der mechanischen Datenkombination besteht jedoch das Problem der mangelnden Akzeptanz der AC Teilnehmer*innen. Daher schlagen die Forscher eine Mischung der mechanischen und holistischen Datenkombination für die Praxis vor. Beispielsweise könnten die Expert*innen die Gewichte selbst aussuchen und in einen Algorithmus eingeben, der die mechanische Kombination vornimmt. Ähnlich könnte ein Algorithmus den Expert*innen helfen, die Beurteilungen einzusehen und ggf. nachzuprüfen. Desweiteren könnte die mechanische Kombination für die Vorauswahl von Kandidat*innen eingesetzt werden und Expert*innen könnten nach dem holistischen Prinzip die besten Bewerber*innen auswählen. Die Forscher empfehlen auch mehrere Expert*innen für die Beurteilung der Kandidat*innen einzusetzen und den Mittelwert der Urteile zusammenzuführen, um der Unreliabilität der gewählten Gewichte entgegenzuwirken. 

Aus dem Artikel von Yu und Kuncel geht hervor, dass die Konsistenz in der Gewichtung der Prädiktoren durchaus eine wichtige Einflussgröße in der korrekten Beurteilung birgt. Sie fanden heraus, dass eine konsistente und wahllos gewählte Gewichtung zu einer besseren Einschätzung der Kandidat*innen führt, als eine Expert*innen-Beurteilung von geschultem Personal. Eine Kombination aus mechanischen und holistischen Daten erscheint am effektivsten, da eine rein mechanische Kombination dem Menschen noch zu “unmenschlich” erscheint. Auf diese Weise wird die prädiktive Validität maximiert, ohne auf die menschliche Beurteilung in der Personalauswahl zu verzichten. 


Literaturverzeichnis

Yu, M. C., & Kuncel, N. R. (2020). Pushing the limits for judgmental consistency: Comparing random weighting schemes with expert judgments. Personnel Assessment and Decisions, 6(2), 2. https://doi.org/10.25035/pad.2020.02.002 

Graefe, A. (2015). Improving forecasts using equally weighted predictors. Journal of Business Research, 68(8), 1792–1799. https://doi.org/10.1016/j.jbusres.2015.03.038

Share on twitter
Share on linkedin