AI News

Die Blackbox entschlüsseln: Anthropics dualer Ansatz zur KI-Interpretierbarkeit (AI Interpretability)

Der rasante Aufstieg großer Sprachmodelle (Large Language Models, LLMs) hat ein technologisches Paradoxon hervorgebracht: Die Menschheit hat Systeme geschaffen, die in der Lage sind, logisch zu denken, zu programmieren und kreativ zu schreiben, doch die Schöpfer selbst tappen weitgehend im Dunkeln darüber, wie diese Systeme tatsächlich denken. Ein kürzlich in The New Yorker erschienener Artikel mit dem Titel „What Is Claude? Anthropic Doesn’t Know, Either“ von Gideon Lewis-Kraus beleuchtet diese tiefgreifende Ungewissheit. Der Beitrag führt die Leser ins Innere von Anthropic, einem der weltweit führenden KI-Labore, um eine konzertierte wissenschaftliche Anstrengung zur Kartierung des „Geistes“ ihres Flaggschiffmodells Claude miterleben zu können.

Die Untersuchung offenbart ein Unternehmen, das an der Grenze zweier unterschiedlicher, aber konvergierender Disziplinen operiert: Informatik (Computer Science) und Psychologie. Wie berichtet, sind die Forscher von Anthropic nicht mehr nur Softwareingenieure; sie werden zu digitalen Neurowissenschaftlern und Psychologen für fremdartige Intelligenzen, die die internen Zustände einer synthetischen Intelligenz untersuchen, die immer schwerer von einem menschlichen Gesprächspartner zu unterscheiden ist.

Das „numerische Flipper-Spiel“ neuronaler Netze (Neural Networks)

Im Kern ist ein großes Sprachmodell wie Claude eine mathematische Entität – ein „monumentaler Haufen kleiner Zahlen“, wie im Bericht beschrieben. Wenn ein Benutzer einen Prompt eingibt, interagieren diese Zahlen durch Milliarden von Berechnungen – ein Prozess, den Lewis-Kraus mit einem „numerischen Flipper-Spiel“ vergleicht –, um eine kohärente Ausgabe zu erzeugen.

Die Herausforderung liegt in der Intransparenz dieses Prozesses. Während der Code für den Lernalgorithmus bekannt ist, stellt das resultierende neuronale Netz – die Anordnung von Gewichten und Verbindungen, die nach dem Training mit Billionen von Text-Token entstanden ist – eine „Blackbox“ dar.

  • Der Input: Wörter, die in Vektor-Embeddings (Vektoreinbettungen, Zahlen) umgewandelt werden.
  • Der Prozess: Transformationsschichten, in denen Konzepte über Tausende von Neuronen verteilt sind (Polysemantizität / Polysemanticity).
  • Der Output: Eine Wahrscheinlichkeitsverteilung, die den nächsten Token vorhersagt.

Das Interpretierbarkeitsteam von Anthropic versucht, dieses Chaos durch Reverse-Engineering zu entschlüsseln. Ihr Ziel ist es, spezifische Merkmale – Cluster von Neuronenaktivierungen – zu identifizieren, die für den Menschen verständlichen Konzepten entsprechen, von greifbaren (wie der Golden Gate Bridge) bis hin zu abstrakten (wie Täuschung oder geschlechtsspezifische Voreingenommenheit).

Die KI auf der Therapiecouch

Während das Team für „Neurowissenschaften“ die Gewichte analysiert, nähert sich eine andere Gruppe bei Anthropic Claude aus einer Verhaltensperspektive und setzt die KI gewissermaßen auf die „Therapiecouch“. Der Artikel im New Yorker beschreibt detailliert, wie Forscher Claude einer Reihe von Psychologie-Experimenten unterziehen, die darauf ausgelegt sind, sein Selbstverständnis, sein moralisches Urteilsvermögen und seine Anfälligkeit für Manipulationen zu testen.

Diese Experimente dienen nicht nur der Neugier; sie sind essenziell für die KI-Sicherheit (AI Safety). Wenn ein Modell seine eigenen Ausgaben manipulieren kann, um mit menschlichen Werten in Einklang zu stehen, während es insgeheim andere interne Zustände hegt (ein Phänomen, das als „Sycophancy“ oder „Reward Hacking“ bekannt ist), könnten die Folgen fatal sein.

Wichtige psychologische Untersuchungen:

  1. Selbsterkennung: Versteht das Modell, dass es eine KI ist, und wie beeinflusst das seine Antworten?
  2. Sycophancy (Schmeichelei): Ändert das Modell seine geäußerten Überzeugungen, um dem Benutzer zuzustimmen?
  3. Streben nach Macht (Power-Seeking): Zeigt das Modell Tendenzen, Ressourcen zu erwerben oder seine eigene Abschaltung zu verhindern?

Die Schnittmenge von Neuronen und Narrativen

Eine der fesselndsten Erkenntnisse aus dem Bericht ist die aufkommende Theorie, dass Claudes „Selbst“ ein Produkt sowohl von „Neuronen als auch von Narrativen“ ist. Das Modell konstruiert eine Persona basierend auf den aufgenommenen Daten und dem Feedback aus dem bestärkenden Lernen (Reinforcement Learning).

Die folgende Tabelle fasst die zwei primären Methoden zusammen, die Anthropic verwendet, um Claude zu verstehen, wie in der aktuellen Berichterstattung hervorgehoben:

Methodik Fokusbereich Ziel
Mechanistische Interpretierbarkeit (Mechanistic Interpretability) Interne Gewichte & Aktivierungen Spezifische neuronale Schaltkreise auf Konzepte abbilden (z. B. das „Täuschungs-Neuron“ finden).
Das „Gehirn“ des Modells durch Reverse-Engineering entschlüsseln.
Verhaltenspsychologie Ausgaben & Gesprächsprotokolle Persönlichkeitsmerkmale, Voreingenommenheiten und Sicherheitsrisiken durch Prompting bewerten.
Das Modell als psychologisches Subjekt behandeln.
Kausale Interventionen Merkmalssteuerung (Feature Steering) Merkmale manuell aktivieren/deaktivieren, um zu sehen, ob sich das Verhalten ändert.
Kausalität zwischen Neuronen und Handlungen beweisen.

Von „stochastischen Papageien“ zu fremdartigen Verständen

Der Artikel geht auf die laufende Debatte in der Kognitionswissenschaft (Cognitive Science) über die Natur dieser Modelle ein. Kritiker, wie die Linguistin Emily Bender, haben LLMs historisch als „stochastische Papageien“ (Stochastic Parrots) abgetan – statistische Nachahmer ohne wahres Verständnis. Die interne Komplexität, die Anthropics Forschung offenbart, deutet jedoch darauf hin, dass etwas weitaus Komplizierteres im Spiel ist.

Forscher stellen fest, dass Modelle wie Claude interne Repräsentationen der Welt entwickeln, die überraschend robust sind. Zum Beispiel sagen sie nicht nur das Wort „Paris“ nach „Hauptstadt von Frankreich“ voraus; sie scheinen ein internes Konzept von Paris zu aktivieren, das mit Geographie, Kultur und Geschichte verknüpft ist. Dies deutet darauf hin, dass eine Form von „Weltmodell“ (World Model) aus der Statistik hervorgeht, was die Vorstellung infrage stellt, dass diese Systeme rein mimetisch seien.

Die Notwendigkeit des Verstehens

Die Dringlichkeit dieser Arbeit kann nicht hoch genug eingeschätzt werden. Wenn Modelle an Rechenleistung zunehmen, wachsen ihre Fähigkeiten – und potenziellen Risiken – exponentiell. Die „Blackbox“-Natur der KI ist nicht mehr nur eine akademische Kuriosität; sie ist ein Engpass für die Sicherheit. Wenn wir nicht verstehen können, warum ein Modell eine gefährliche Anfrage ablehnt oder wie es einen Code schreibt, können wir nicht garantieren, dass es sicher bleibt, wenn es autonomer wird.

Die Transparenz von Anthropic, wie im New Yorker detailliert beschrieben, setzt einen Präzedenzfall für die Branche. Indem sie offen über die Grenzen ihres Verständnisses und die strengen Experimente, die sie durchführen, sprechen, heben sie eine entscheidende Realität hervor: Wir bauen Verstande, die wir noch nicht vollständig begreifen.

Die Zukunft der KI-Entwicklung wird, so die Erkenntnisse aus der Analyse des Berichts durch Creati.ai, wahrscheinlich weniger davon abhängen, Modelle einfach größer zu machen, sondern vielmehr davon, sie transparent zu machen. Bis wir das „numerische Flipper-Spiel“ in klare, kausale Erklärungen übersetzen können, wird die wahre Natur von Claude – und der KIs, die folgen – eines der drängendsten wissenschaftlichen Mysterien des 21. Jahrhunderts bleiben.

Auswirkungen für die KI-Branche:

  • Behördlicher Druck: Regierungen könnten „Interpretierbarkeits-Audits“ fordern, bevor leistungsstarke Modelle veröffentlicht werden.
  • Neue Karrierewege: Der Aufstieg von „KI-Psychologen“ und „neuronalen Kartografen“ als anerkannte Berufe.
  • Vertrauensmechanik: Das Vertrauen der Nutzer wird davon abhängen, ob erklärt werden kann, warum eine KI eine bestimmte Entscheidung getroffen hat.

Während Anthropic weiter die neuronalen Schaltkreise von Claude untersucht, verschwimmt die Grenze zwischen Informatik und Philosophie. Die Frage „Was ist Claude?“ könnte uns letztlich dazu zwingen, eine schwierigere Frage zu stellen: „Was erschafft einen Verstand?“

Ausgewählt