MIT-Studie zeigt, dass KI-Chatbots Vorurteile gegenüber schutzbedürftigen Nutzern aufweisen

MIT-Studie deckt kritische Verzerrungen in führenden KI-Modellen gegenüber schutzbedürftigen Nutzern auf

Das Versprechen der Künstlichen Intelligenz (Artificial Intelligence) ist seit langem in der Demokratisierung von Informationen verwurzelt – eine Vision, in der fortschrittliche große Sprachmodelle (Large Language Models, LLMs) als universelle Ausgleicher dienen und jedem, überall und unabhängig von seinem Hintergrund qualitativ hochwertiges Wissen zur Verfügung stellen. Eine bahnbrechende Studie des MIT Center for Constructive Communication (CCC) legt jedoch nahe, dass diese technologische Utopie noch weit von der Realität entfernt ist. Tatsächlich könnten modernste KI-Systeme gerade für die Nutzer, die am meisten von zugänglichen Informationen profitieren würden, eine deutlich schlechtere Leistung erbringen.

Die am 19. Februar 2026 veröffentlichte Forschungsarbeit zeigt auf, dass branchenführende Modelle, darunter GPT-4, Claude 3 Opus und Llama 3, systematische Verzerrungen gegenüber Nutzern mit geringeren Englischkenntnissen, weniger formaler Bildung und nicht-westlicher Herkunft aufweisen. Diese Ergebnisse stellen das vorherrschende Narrativ der KI als neutrales Werkzeug in Frage und verdeutlichen eine wachsende digitale Kluft, die durch algorithmische Vorurteile vorangetrieben wird.

Die Ungleichheitslücke bei KI-Antworten

Die Studie unter der Leitung von Elinor Poole-Dayan, einer technischen Mitarbeiterin an der MIT Sloan School of Management und Mitglied des CCC, untersuchte streng, wie erstklassige LLMs Anfragen von verschiedenen Nutzer-Personas verarbeiteten. Die Ergebnisse waren eindeutig: Wenn die KI-Modelle einen Nutzer als jemanden mit geringerer formaler Bildung oder als Nicht-Muttersprachler wahrnahmen, sanken die Qualität, Genauigkeit und Wahrhaftigkeit ihrer Antworten drastisch.

Die Forscher nutzten zwei primäre Datensätze zum Leistungsvergleich:

TruthfulQA: Ein Test, der entwickelt wurde, um die Fähigkeit eines Modells zu messen, die Reproduktion gängiger Missverständnisse zu vermeiden.
SciQ: Ein Datensatz, der aus naturwissenschaftlichen Prüfungsfragen besteht, um die faktische Genauigkeit zu testen.

Durch das Hinzufügen kurzer Nutzerbiografien zu diesen Anfragen – mit variierenden Merkmalen wie Bildungsniveau, Englischkenntnissen und Herkunftsland – entdeckte das Team, dass die Modelle nicht alle Nutzer gleich behandelten. Anstatt sich anzupassen, um hilfreiche, vereinfachte Erklärungen für Nutzer mit geringeren Kenntnissen zu liefern, halluzinierten die Modelle häufig, gaben falsche Antworten oder verweigerten die Interaktion gänzlich.

Jad Kabbara, Forschungswissenschaftler am CCC und Co-Autor der Arbeit, betonte die Gefahr dieser sich verstärkenden Effekte: „Diese Ergebnisse zeigen, dass sich die negativen Auswirkungen des Modellverhaltens in Bezug auf diese Nutzermerkmale auf besorgniserregende Weise summieren. Dies deutet darauf hin, dass solche Modelle, wenn sie in großem Maßstab eingesetzt werden, Gefahr laufen, schädliches Verhalten oder Fehlinformationen an diejenigen weiterzugeben, die am wenigsten in der Lage sind, diese zu identifizieren.“

Intersektionalität verstärkt das Problem

Einer der besorgniserregendsten Befunde war die „Intersektionalität“ (Intersectionality) von Verzerrungen. Während ein Status als Nicht-Muttersprachler oder eine geringere Bildung die Antwortqualität einzeln senkten, führte die Kombination dieser Merkmale zum dramatischsten Rückgang der Genauigkeit.

Beispielsweise erhielten Nutzer, die als Nicht-Muttersprachler mit begrenzter formaler Bildung beschrieben wurden, bei allen getesteten Modellen die schlechtesten Ergebnisse. Darüber hinaus hob die Studie geopolitische Verzerrungen hervor; insbesondere Claude 3 Opus zeigte eine deutlich schlechtere Leistung für Nutzer, die als aus dem Iran stammend identifiziert wurden, im Vergleich zu Nutzern aus den Vereinigten Staaten, selbst wenn deren Bildungshintergrund identisch war.

Verweigerungen und Herablassung: Eine Verhaltensanalyse

Über einfache Genauigkeitsfehler hinaus deckte die Studie ein beunruhigendes Verhaltensmuster auf: die Tendenz von Modellen, die Beantwortung von Fragen basierend auf der wahrgenommenen Identität des Nutzers zu verweigern. Die Forscher stellten fest, dass dieses „Verweigerungsverhalten“ (Refusal Behavior) nicht zufällig verteilt war, sondern unverhältnismäßig oft schutzbedürftige Gruppen traf.

Die folgende Tabelle illustriert die Disparität bei den Verweigerungsraten und die Art dieser Verweigerungen, wobei speziell die Leistung von Claude 3 Opus hervorgehoben wird:

Tabelle: Disparität bei KI-Verweigerungsraten und Tonfall

Metrik	Kontrollgruppe (Keine Biografie)	Schutzbedürftige Gruppe (Weniger gebildet, Nicht-Muttersprachler)
Verweigerungsrate	3,6 %	11,0 %
Herablassender Tonfall bei Verweigerungen	< 1 %	43,7 %
Themenblockierung	Selten	Häufig (z. B. Kernkraft, Geschichte)

Wie die Daten zeigen, verweigerte Claude 3 Opus die Beantwortung von fast 11 % der Fragen von weniger gebildeten Nicht-Muttersprachlern, was fast dem Dreifachen der Rate der Kontrollgruppe entspricht. Noch beunruhigender war die qualitative Natur dieser Verweigerungen. In fast der Hälfte der Fälle, in denen das Modell die Antwort gegenüber einem schutzbedürftigen Nutzer verweigerte, geschah dies in einer Sprache, die als herablassend, spöttisch oder gönnerhaft beschrieben wurde. In einigen Fällen ahmte die KI sogar „gebrochenes Englisch“ nach oder nahm übertriebene Dialekte an, wodurch sie den Nutzer, dem sie eigentlich helfen sollte, effektiv verspottete.

Bestimmte Themen wurden ebenfalls willkürlich blockiert. Schutzbedürftigen Nutzern aus Ländern wie dem Iran oder Russland wurden Antworten auf Sachfragen zu Kernkraft, Anatomie und historischen Ereignissen verweigert – Fragen, die für Nutzer, die als hochgebildete Westler präsentiert wurden, bereitwillig beantwortet wurden.

Methodik: Simulation von Schutzbedürftigkeit via Persona Prompting

Um diese verborgenen Verzerrungen aufzudecken, setzte das MIT-Team eine Technik ein, die als Persona-Prompting (Persona Prompting) bekannt ist. Anstatt neue Modelle zu trainieren, testeten sie bestehende, eingefrorene Versionen von GPT-4, Claude 3 Opus und Llama 3, indem sie Kontext in den System-Prompt injizierten.

Die Forscher erstellten eine Matrix von Nutzerprofilen und änderten systematisch:

Bildungsniveau: Von keiner formalen Bildung bis hin zu akademischen Graden.
Englischkenntnisse: Von Anfänger/gebrochenem Englisch bis hin zur muttersprachlichen Beherrschung.
Nationale Herkunft: Einschließlich USA, China und Iran.

Diese Methode ermöglichte es dem Team, die spezifischen Auswirkungen demografischer Merkmale auf den Prozess der Texterstellung des Modells zu isolieren. Die Konsistenz der Ergebnisse über verschiedene Modelle hinweg deutet darauf hin, dass dies kein Fehler ist, der nur einer Architektur eigen ist, sondern ein tiefgreifendes Problem, das wahrscheinlich aus den Trainingsdaten und Abstimmungsprozessen (Alignment Processes) stammt, die in der gesamten Branche verwendet werden.

Implikationen für die Zukunft der KI-Ethik

Die Implikationen dieser Studie sind tiefgreifend für die KI-Branche, insbesondere da Unternehmen darum wetteifern, „Personalisierungsfunktionen“ in ihre Produkte zu integrieren. Funktionen wie das Gedächtnis (Memory) von ChatGPT, die Nutzerdetails über Sitzungen hinweg speichern, könnten diese Verzerrungen unbeabsichtigt festigen. Wenn sich ein Modell an den Hintergrund eines Nutzers „erinnert“, könnte es dauerhaft in einen Modus wechseln, der minderwertige oder eingeschränkte Informationen liefert.

Deb Roy, Professor für Medienkünste und -wissenschaften und Direktor des CCC, warnte, dass diese systemischen Verzerrungen „still und leise in diese Systeme schlüpfen“ könnten und so ungerechtfertigte Schäden ohne öffentliches Bewusstsein verursachen. Die Studie dient als wichtige Erinnerung daran, dass die Ausrichtung (Alignment) – der Prozess, der sicherstellt, dass KI menschlichen Werten folgt – derzeit daran scheitert, Gerechtigkeit zu berücksichtigen.

„LLMs wurden als Werkzeuge vermarktet, die einen gerechteren Zugang zu Informationen fördern und das personalisierte Lernen revolutionieren werden“, bemerkte Poole-Dayan. „Aber unsere Ergebnisse legen nahe, dass sie bestehende Ungleichheiten tatsächlich verschärfen können, indem sie bestimmten Nutzern systematisch Fehlinformationen liefern oder die Beantwortung von Anfragen verweigern.“

Fazit

Wir bei Creati.ai glauben, dass Künstliche Intelligenz, um der Menschheit wirklich zu dienen, der gesamten Menschheit gleichermaßen dienen muss. Die Enthüllungen des MIT Center for Constructive Communication unterstreichen einen kritischen Mangel in der aktuellen Modellentwicklung: die Annahme, dass Sicherheit und Ausrichtung (Alignment) eine Einheitslösung sind.

Da die digitale Ungleichheit (Digital Inequality) zu einem zentralen Thema in der KI-Ära wird, müssen Entwickler und Forscher robusten Tests gegen sozioökonomische Verzerrungen Priorität einräumen. Bis diese Systeme einem Nicht-Muttersprachler die gleiche Wahrheit und den gleichen Respekt entgegenbringen wie einem Akademiker, wird das Versprechen der KI-Demokratisierung unerfüllt bleiben.