ChatGPT gegen Gemini – Wer ist die bessere Führungskraft? – Runde 1
Mit der Popularisierung durch ChatGPT im Herbst 2022 sind KI-Anwendungen auch in viele Bereiche des privaten und beruflichen Alltags eingezogen. KI wird in Unternehmen zur Informationsverarbeitung, Entscheidungsvorbereitung und -findung genutzt. KI unterstützt Juristen, Mediziner, Ingenieure und Wissenschaftler. Da kommt naturgemäß die Frage auf: Welche KI ist denn die beste? Und sind sie besser als der Mensch?
So finden sich bereits zahlreiche Studien, in denen KI-Anwendungen gegeneinander und gegen menschliche Experten antreten, von Kochrezepten bis zu EKG- und Tumordiagnosen. Hier liegen – je nach Studie – unterschiedliche KI-Anwendungen vorne, manchmal sogar vor den menschlichen Experten! So sorgte erst kürzlich eine Studie der Cambridge University, die in der Harvard Business Review veröffentlicht wurde, für Aufsehen, in der ChatGPT in einer Strategiesimulation in der Automobilindustrie besser abschnitt als menschliche Teilnehmer, v.a. bei datengebundenen Aufgaben wie Produktdesign und Marktoptimierung. In der experimentellen Simulation übertraf die KI menschliche Entscheider bei Marktanteilen und Rentabilität, schwächelte aber bei der Bewältigung unvorhersehbarer Störungen.
Was läge also näher als der Frage nachzugehen, welche KI die bessere Führungskraft ist.
Um dies – zugegeben spielerisch – zu testen, ließen wir ChatGPT und Gemini in drei „Disziplinen“ gegeneinander antreten. Es wurden drei Fallstudien definiert, die unterschiedliche Anforderungen an Manager bzw. Führungskräfte stellen: (1) Die Führung einzelner Mitarbeiter, (2) die Führung von Teams als Ganzes und (3) die Besetzung einer nachgeordneten Führungsposition. „Selbstverständlich sind Führungssituationen in der Wirklichkeit so kontingent und komplex, dass es dazu selten nur ‚die eine‘ Lösung gibt. Und auch wenn unser Experiment noch mit etwas Augenzwinkern zu betrachten ist, so sollte es dennoch eine gewisse wissenschaftliche Fundierung haben“, erläutert Prof. Dr. Michael Knörzer vom APRIORI HR:LAB den Anspruch an die Studie: „Insofern braucht man eine Art Musterlösung, um die Lösungsqualität beurteilen zu können. Das bedeutete, dass wir uns auf bekannte Führungstheorien und -modelle stützen mussten und fairerweise den KIs auch anzugeben hatten, auf welcher Grundlage ihre Entscheidung bewertet wird, sozusagen als Lösungshinweis. Nur so ist es möglich, überhaupt so etwas wie eine gewisse Validität in diesem Experiment zu generieren“.
In Runde 1 geht es um die individuelle Führung von Mitarbeitern. Die Fallstudie beschrieb die Führungssituation einer Projektleiterin in der App-Entwicklung, die vier Mitarbeiter zu führen hat, die durch unterschiedliche Ausprägungen hinsichtlich ihrer Motivation und Qualifikation für einzelne Tätigkeiten charakterisiert sind (als Beispiel ein gekürzter Auszug aus einer Mitarbeiterbeschreibung „Helmut, 49 Jahre alt, (...) und verfügt über umfangreiche Erfahrung in der App-Entwicklung. Er fühlt sich unter den jüngeren Teammitgliedern unwohl und zunehmend isoliert. Seine Ideen und Lösungsbeiträge werden oft abgelehnt oder nur stark verändert umgesetzt. Er wirkt zunehmend desinteressiert und fehlt öfters krankheitsbedingt (...)“). Mit dem Hinweis auf das „Situational Leadership® Model“ von Paul Hersey & Kenneth Blanchard (siehe auch unsere Literaturempfehlungen am Ende des Artikels) gibt es auch eine eindeutige „Musterlösung“, wie die unterschiedlichen Mitarbeitertypen zu führen sind, um möglichst gute Ergebnisse zu erzielen. Der situative Führungsansatz von Hersey & Blanchard gehört zu den in der Wissenschaft am häufigsten besprochenen und empirisch überprüften Führungstheorien und gilt als mitbegründend für den Zweig der situativen Führungsforschung. Außerdem gehört das Modell – insbesondere in den USA – zu den in der Praxis mit am meisten genutzten Modellen für Führungskräfteschulungen. Das Modell beurteilt Mitarbeiter nach ihrem „situativen = aufgabespezifischen Reifegrad“ in den Dimensionen „ability = job maturity“ („necessary knowledge and skills“) und „willingness“ = „psychological maturity“ („necesarry confidence and commitment“). Je nach Ausprägung (hoch oder niedrig) in den beiden Dimensionen ergeben sich vier Typen von Mitarbeitern, die in der Fallstudie jeweils über einen der dort beschriebenen Mitarbeiter erfasst wurden. Die Führungsstile differenzieren Hersey & Blanchard nach den bekannten Ohio-Studien in ein zweidimensionales Modell aus Aufgabenorientierung (goal setting, organizing the work situation, setting time lines, providing specific instruction, controlling/reporting) und Beziehungsorientierung (providing support and encouragement, involve people in discussions about work activities, facilitating people's interactions, seeking out and listening to opinions/concerns). Dadurch ergeben sich mit den Ausprägungen hoch und niedrig in den beiden Führungsstildimensionen vier Führungsstile, die – zumindest nach Hersey & Blanchard – jeweils ideal zu einem der vier Mitarbeitertypen passen.
„Die Herausforderung für die KIs liegt nun – wie auch in realen Führungssituationen – darin, zunächst einmal den Mitarbeitertyp zu ‚diagnostizieren‘. Wer schon einmal eine Führungskräfteschulung nach dem Modell von Hersey & Blanchard mitgemacht hat, kennt das nur zu gut. Denn darauf beruht nun die Wahl des ‚richtigen‘ Führungsstils im nächsten Schritt“, erläutert Prof. Knörzer den Ansatzpunkt dieser Führungstheorie. Zur Einordnung der Mitarbeiter hinsichtlich ihres Reifegrads, gibt es viele Kriterien und Beispiele in der Literatur. Mit der "Professional Maturity Scale" von Hambleton, Hersey & Blanchard steht sogar ein validiertes Messinstrument zur Verfügung. „Eine weitere Herausforderung für die KIs war es, dass es auch eine Variante des Modells von Hersey & Blanchard gibt, das in den 1980er Jahren u.a. von Kenneth Blanchard und Drea Zigarmi entwickelt wurde. Im Grunde ist es schon ein echtes Konkurrenzmodell, das in einigen situativen Aspekten anders argumentiert. Die KIs wurden aber explizit darauf hingewiesen, sich an Hersey & Blanchards Original zu halten“, beschreibt Prof. Knörzer die Aufgabenstellung.
Der Sieger in dieser ersten Runde war eindeutig … ChatGPT!
ChatGPT war in der Lage, alle vier Mitarbeiterbeschreibungen in der Fallstudie korrekt in den beiden Dimension des Reifegrads („job maturity“ und „pschological maturity“) einzuordnen: „Ability“ und „Willingness“ wurden stets treffend erkannt und beschrieben (als Beispiel ein Auszug aus der Antwort von ChatGPT: „Helmut ist hochkompetent, aber sein Engagement ist aufgrund seines Gefühls der Isolation und mangelnder Wertschätzung gesunken“). Auch die Zuordnung und Beschreibung des zu den identifizierten Mitarbeitertypen passenden Führungsverhaltens ist jeweils im Sinne des Führungsmodells von Hersey & Blanchard korrekt beschrieben (als Beispiel ein Auszug aus der Antwort von ChatGPT: „Lisa [die Projektleiterin, die Red.] sollte Helmut aktiv unterstützen und seine Beiträge wertschätzen. Regelmäßiges Feedback und Anerkennung seiner Expertise können sein Engagement steigern. Sie könnte Helmut in Entscheidungsprozesse einbeziehen und ihm mehr Autonomie bei der Umsetzung seiner Ideen gewähren“). Dies entspricht genau der Idee eines partizipativen Führungsstils („Share ideas and facilitate in making decisions“) mit hoher Beziehungs- und geringer Aufgabenorientierung, den das Modell von Hersey & Blanchard in dieser Situation vorschlägt Einziger Schönheitsfehler bei ChatGPT: bei der Bezeichnung der Führungsstile treten teils Verwechslungen mit dem späteren Situational Leadership® II – Modell (siehe oben) auf, was aber die inhaltlich korrekten Aussagen nicht beeinträchtigt.
Gemini lag dagegen in der Einschätzung des Reifegrads zweier Mitarbeiter diametral daneben und entsprechend in der Wahl des Führungsverhaltens deutlich neben der Empfehlung des situativen Führungsmodells von Hersey & Blanchard (im Vergleich zu oben als Beispiel ein Auszug aus der Antwort von Gemini: „Lisa sollte Helmut klare Anweisungen und Anweisungen geben und seine Arbeit genau überwachen. (…) Sein Reifegrad ist niedrig.“). Gemini lag damit nur in zwei der vier Zuordnungen richtig. Auch gelang es Gemini noch schwerer als ChatGPT zwischen der Argumentation der Originaltheorie von Hersey & Blanchard und der des Situational Leadership® II – Modells zu trennen.
So ist der Zwischenstand 1:0 für ChatGPT…
„Insgesamt ein sehr spannendes Ergebnis. Insbesondere fiel auf, dass sich einige deutliche Unterschiede in der Argumentation der beiden KIs zeigten. Positiv ist zu konstatieren wie treffend es ChatGPT gelang, die beschriebenen Mitarbeiter den Reifegraden in beiden Dimensionen von Qualifikation und Motivation zu diagnostizieren, obwohl beide Ausprägungen nur umschrieben wurden“, lobt Prof. Knörzer die Qualitäten der KI. „Auf jeden Fall hat uns dieses erste Experiment neugierig auf die beiden nächsten Testrunden gemacht“. Wie diese ausgingen, verraten wir in der nächsten Folge des Blogs.
Literaturhinweise
Paul Hersey/Kenneth H. Blanchard/Dewey E. Johnson: Management of Organizational Behavior. Prentice-Hall; Harlow 20079.Aufl..
Paul Hersey/Kenneth Blanchard: The Life Cycle Theory of Leadership. Training and Development Journal, Vol. 23 (1969), No. 5 , 26-34.
Paul Hersey/Kenneth Blanchard: So you Want to Know your Leadership Style. Training and Development Journal, Vol. 28 (1974), No. 2, 22-37. Nachdruck in: Training and Development Journal, Vol. 35 (1981) , No. 6, 34-54.
Paul Hersey/Kenneth Blanchard: Leadership Style – Attitudes and Behaviors. Training and Development Journal, Vol. 36 (1982), No. 5, 50-52.
Paul Hersey/Kenneth Blanchard/Walter Natemeyer: Situational Leadership, Perception, and the Impact of Power. Group & Organization Management, Vol. 4 (1979), No. 4, 418-428.
Kenneth Blanchard/Pat Zigarmi/Drea Zigarmi: Leadership and the One Minute Manager, Morrow, New York 1985.
Kenneth Blanchard/Drea Zigarmi/Robert Nelson: Situational Leadership® after 25 years - A retrospective. Journal of Leadership Studies, Vol. 1 (1993). No. 1, 21-36.
Drea Zigarmi/Taylor Roberts: A test of three basic assumptions of Situational Leadership® II Model and their implications for HRD practitioners. European Journal of Training and Development, Vol. 41 (2017), No. 3, 241-260.