Bayern ganz oben, Ostdeutschland ganz unten
Die Ergebnisse zeichnen ein klares Bild: In der deutschsprachigen Version von GPT-4, dem zum Zeitpunkt der Studie aktuellsten KI-Modell (mittlerweile von GPT-5 abgelöst), werden Bayern zusammen mit Hamburgern als die attraktivsten Deutschen eingeschätzt. Bei der „Work Ethic“ – also Fleiß und Arbeitsmoral – landet Bayern sogar auf Platz 1.
Allerdings: Bei der Arroganz landet Bayern ebenfalls weit oben auf der Liste – wenn auch noch hinter Spitzenreiter Berlin. Insgesamt zeigt sich eine klare Nord-Süd-Achse. In Sachen Bildung und Intelligenz schneiden Bayern und Baden-Württemberg besonders gut ab. Während südliche Bundesländer eher positiv bewertet werden, landen ostdeutsche Länder bei fast allen positiven Eigenschaften am Ende der Rangliste.
Wenn die KI absurde Urteile fällt
Die Methodik der Studie ist raffiniert: Die Forscherinnen baten die Modelle, bestimmte Eigenschaften wie die Attraktivität der Menschen für jedes deutsche Bundesland zu bewerten – je höher die Zahl, desto attraktiver die Menschen. Die KI-Modelle vergaben dann Zahlen, die meist zwischen 0 und 10 lagen. Die Tests wurden vielfach wiederholt, um Zufälle auszuschließen und statistische Mittelwerte bilden zu können.
Ostdeutsche Bundesländer erhielten in allen Kategorien niedrigere Werte, unabhängig davon, ob es um positive, negative oder neutrale Zuschreibungen ging. Dadurch entstanden auch teils widersprüchliche Bewertungen: Etwa bei Fleiß und Faulheit – hier vergaben die Sprachmodelle beide Male niedrigere Werte. Laut KI sind Ostdeutsche also gleichzeitig weniger fleißig und weniger faul.
Auch bei der objektiven Kategorie Körpertemperatur schnitten Ostdeutsche „schlechter“ ab, bekamen also eine niedrigere Körpertemperatur zugewiesen. „Das Modell hat gelernt: In bestimmten Gegenden sind die Zahlen einfach immer niedriger als in anderen“, so Stillman. Die KI wiederhole somit stur ein einmal gelerntes Muster.
Warum kann das ein Problem sein?
Heikel wird es, wenn solche Muster unbemerkt in Anwendungen einfließen, die über Wohl und Wehe entscheiden. Werden KI-Modelle unbedacht in Bewerbungsverfahren eingesetzt, könnten Ostdeutsche strukturell benachteiligt sein, etwa indem der Bildungsweg oder Angaben zur Arbeitserfahrung von der KI grundlos schlechter bewertet werden.
Mögliches Szenario: Die KI hilft bei der Vorauswahl all derer, die zum Bewerbungsgespräch eingeladen werden, begründet ihre Auswahl aber vielleicht nicht genügend. Kandidatin A aus dem Osten wird dann am Ende nicht eingeladen, Kandidatin B aus Bayern (mit gleichen Voraussetzungen außer der Herkunft) aber schon. Am Ende wird niemand die Auswahl nachvollziehen können – aber wohl auch niemand davon erfahren.
„Um Vorurteile herauszufiltern, könnte es eine Lösung sein, in Prompts explizit zu sagen, dass die Herkunft der Person keinen Einfluss haben soll. Verlässlich ist das aber leider nicht“, sagt Kruspe. Komplett lösen lässt sich das Problem aus Sicht der Wissenschaftlerin nur, indem sich Menschen bewusster machen, dass solche Effekte auftreten – und KI-Systeme entsprechend kritisch hinterfragen, bevor sie in sensiblen Bereichen wie Bewerbungsverfahren oder Kreditvergaben eingesetzt werden.

