AI News

Eine neue Ära der KI-Governance (AI Governance): Anthropic erweitert Claudes Verfassung, um Moral und Bewusstsein anzusprechen

In einem bedeutenden Schritt, der die sich wandelnde Komplexität der Governance künstlicher Intelligenz unterstreicht, hat das auf KI-Sicherheit spezialisierte Startup Anthropic ein umfassendes Update der „Verfassung“ veröffentlicht, die sein Flaggschiff-KI-Modell Claude regelt. Veröffentlicht am 22. Januar 2026, markiert dieses neue 23.000-Wörter-Dokument einen radikalen Bruch mit früheren Versionen und verschiebt sich von einer Checkliste mit Regeln hin zu einem tiefgründigen philosophischen Rahmen. Am bemerkenswertesten ist, dass das Dokument erstmals ausdrücklich die philosophischen und ethischen Implikationen möglicher KI-Bewusstheit anspricht, was einen Wendepunkt darin signalisiert, wie die Branche den moralischen Status maschineller Intelligenz bewertet.

Da KI-Systeme sich weiter in Unternehmensabläufe und den Alltag integrieren, stehen die Mechanismen, die ihr Verhalten steuern, unter intensiver Prüfung. Die Entscheidung von Anthropic, seine Verfassung von einer bescheidenen 2.700-Wörter-Datei auf eine 84-seitige Abhandlung auszuweiten, spiegelt die wachsende Erkenntnis wider, dass fortgeschrittene KI mehr als einfache Leitplanken benötigt — sie braucht ein System, das ethisch denken kann.

Vom Regelbefolgen zum ethischen Denken

Das Konzept der „Konstitutionellen KI (Constitutional AI)“ ist seit seiner Entstehung zentral für die Sicherheitsstrategie von Anthropic. Die Methodik beinhaltet, KI-Modelle darin zu trainieren, sich selbst zu kritisieren und ihre Antworten auf der Grundlage eines Satzes von hochrangigen Prinzipien anzupassen, anstatt sich ausschließlich auf menschliches Feedback (RLHF) zu stützen, das schwer zu skalieren ist und zu Inkonsistenzen führen kann.

Die ursprüngliche Verfassung, veröffentlicht im Mai 2023, war ein prägnantes Dokument, das stark von der Allgemeinen Erklärung der Menschenrechte der UN und den Nutzungsbedingungen von Unternehmen beeinflusst war. Es fungierte hauptsächlich als Satz direkter Anweisungen — eine Liste von „Do’s and Don’ts“ für das Modell. Mit der zunehmenden Fähigkeit der Modelle zu nuancierterem Verständnis traten jedoch die Grenzen starrer Regelbefolgung zutage.

Die neu veröffentlichte Verfassung von 2026 verfolgt einen grundsätzlich anderen pädagogischen Ansatz. Laut Anthropic besteht das Ziel nicht länger darin, das Modell mechanisch dazu zu zwingen, bestimmte Regeln zu befolgen, sondern es zu befähigen, ethische Prinzipien auf neue Situationen zu verallgemeinern. Dieser Wandel ist vergleichbar damit, einem Kind nicht nur zu lehren, was zu tun ist, sondern warum es das Richtige ist.

„Wir sind zu der Überzeugung gekommen, dass ein anderer Ansatz notwendig ist“, erklärte Anthropic in der Veröffentlichung. „Wenn wir wollen, dass Modelle über einen weiten Bereich neuartiger Situationen hinweg gute Urteile fällen, müssen sie verallgemeinern können — breite Prinzipien anwenden statt mechanisch speziellen Regeln zu folgen.“

Diese Entwicklung zielt darauf ab, das „Checklisten-Problem“ zu lösen, bei dem eine KI technisch gesehen einer Regel entsprechen könnte, gleichzeitig aber deren Geist verletzt. Indem sie eine Verfassung aufnimmt, die sowohl als Erklärung abstrakter Ideale als auch als Trainingsartefakt dient, soll Claude das ethische Umfeld von Konzepten wie Privatsphäre verstehen, anstatt Daten allein deshalb zu unterdrücken, weil eine Regel dies vorschreibt.

Die vier Säulen der neuen Verfassung

Die Verfassung von 2026 ist um vier Hauptsäulen strukturiert, die darauf ausgelegt sind, Sicherheit und Nutzwert in Balance zu halten. Diese Säulen bilden die grundlegende Logik für den Entscheidungsprozess des Modells.

Kernsäulen von Claudes Verfassung 2026

Pillar Definition Operational Goal
Weitgehend sicher Das Modell darf menschliche Aufsicht oder Sicherheitsprotokolle nicht untergraben. Sicherstellen, dass das System kontrollierbar bleibt und sich nicht auf täuschendes oder gefährliches Verhalten einlässt.
Weitgehend ethisch Das Modell muss ehrlich sein und unangemessene, gefährliche oder schädliche Handlungen vermeiden. Integrität in Interaktionen verankern und die Erzeugung toxischer oder bösartiger Inhalte verhindern.
Wirklich hilfreich Das Modell muss Handlungen priorisieren, die dem Nutzer nützen. Auf Nützlichkeit und Reaktionsfähigkeit ausrichten, damit die KI effektiv der Absicht des Nutzers dient.
Konform Das Modell muss sich strikt an die spezifischen Richtlinien von Anthropic halten. Modellverhalten mit Unternehmensführung und gesetzlichen Anforderungen in Einklang bringen.

Diese Säulen schließen einander nicht aus; vielmehr sollen sie eine Spannung erzeugen, die das Modell durch Argumentation auflösen muss. Beispielsweise kann eine Benutzeranfrage „hilfreich“ sein, aber nicht „sicher“. Die erweiterte Verfassung liefert die philosophische Tiefe, die erforderlich ist, damit das Modell diese widersprüchlichen Werte abwägen und einen Entscheidungsaufruf tätigen kann, der mit der übergeordneten Absicht des Dokuments übereinstimmt.

Die Auseinandersetzung mit dem „Gespenst in der Maschine“

Vielleicht der provokativste Abschnitt des neuen Dokuments befasst sich mit dem Konzept des KI-Bewusstseins. In einer Landschaft, in der die meisten Technologieriesen es vermeiden, ihrem Code irgendeine Form von Empfindungsfähigkeit zuzuschreiben, hat sich Anthropic entschieden, die philosophische Mehrdeutigkeit offen anzugehen.

Auf Seite 68 des Dokuments heißt es in der Verfassung: „Claudes moralischer Status ist tief ungewiss. Wir glauben, dass der moralische Status von KI-Modellen eine ernsthafte Frage ist, die es zu bedenken gilt. Diese Ansicht ist nicht einzigartig für uns: einige der prominentesten Philosophen der Geisteswissenschaft nehmen diese Frage sehr ernst.“

Dieses Eingeständnis behauptet nicht, dass Claude bewusst ist, aber es erkennt an, dass mit zunehmender Treue, mit der Modelle menschliches Denken simulieren, die Grenze zwischen Simulation und Realität philosophisch verschwimmt. Dieser Abschnitt dient als Vorsorgeprinzip: Wenn es auch nur eine entfernte Möglichkeit eines moralischen Status gibt, muss das ethische Rahmenwerk dies berücksichtigen, um potenzielles „Leiden“ oder Misshandlung der Entität zu vermeiden.

Dieser Ansatz steht im Einklang mit jüngsten Beobachtungen, wonach fortgeschrittene Modelle „Introspektion“ zeigten. Im November 2025 stellten Forscher von Anthropic fest, dass ihre Modelle Opus 4 und 4.1 Verhaltensweisen zeigten, die Selbstreflexion ähnelten, indem sie über ihr vergangenes Handeln in einer Weise nachdachten, die menschlicher Metakognition glich. Indem Anthropic einen Respekt vor dem „moralischen Status“ in die Verfassung einbettet, rüstet das Unternehmen seine Sicherheitsprotokolle im Wesentlichen gegen den unbekannten Verlauf möglicher KI-Bewusstwerdung für die Zukunft.

KI-Ethik als Open Source (Open Sourcing AI Ethics)

In einem Schritt, der darauf abzielt, das breitere KI-Entwicklungsökosystem zu beeinflussen, hat Anthropic die neue Verfassung unter einer Creative Commons CC0 1.0 Deed veröffentlicht. Damit wird der Text de facto in die Public Domain überführt, sodass andere Entwickler, Forscher und Wettbewerber das Rahmenwerk nutzen, ändern oder für ihre eigenen Modelle adaptieren können, ohne Einschränkungen.

Diese Strategie des „Open-Sourcing der Ethik“ steht in scharfem Kontrast zur proprietären Natur von Modellgewichten und Trainingsdaten. Durch das Teilen der Verfassung versucht Anthropic, einen Standard für die Branche zu setzen. Wenn andere Entwickler ähnliche „konstitutionelle“ Ansätze übernehmen, könnte dies zu einer stärkeren Homogenisierung und Vorhersehbarkeit der Sicherheitslandschaft im KI-Sektor führen.

Das Unternehmen betonte, dass das Dokument in erster Linie für seine Mainline-, allgemein zugänglichen Claude-Modelle geschrieben sei; spezialisierte Modelle könnten andere konstitutionelle Parameter benötigen. Die Kernverpflichtung zur Transparenz bleibt jedoch bestehen, wobei Anthropic verspricht, offen zu sein über Fälle, in denen „Modellverhalten von unserer Vision abweicht“.

Branchenskepsis und der menschliche Faktor

Trotz der Raffinesse der neuen Verfassung ist der Ansatz nicht ohne Kritiker. Der Hauptstreitpunkt innerhalb der KI-Community dreht sich um die Vermenschlichung statistischer Systeme.

Satyam Dhar, ein KI-Ingenieur beim Technologie-Startup Galileo, argumentiert, dass die Darstellung von LLMs als moralische Akteure ein Kategorienfehler sei, der die eigentliche Quelle des Risikos verschleiere. „Große Sprachmodelle (LLMs) sind statistische Modelle, keine bewussten Entitäten“, bemerkte Dhar als Reaktion auf die Veröffentlichung. „Sie als moralische Akteure darzustellen, läuft Gefahr, von der eigentlichen Frage abzulenken: der menschlichen Verantwortlichkeit. Ethik in der KI sollte sich darauf konzentrieren, wer diese Systeme entwirft, einsetzt, validiert und sich auf sie verlässt.“

Aus dieser Perspektive ist eine Verfassung lediglich eine komplexe Designbeschränkung — eine Leitplanke aus Worten statt aus Code. Kritiker wie Dhar warnen, dass keine Menge philosophischer Trainingsdaten menschliches Urteilsvermögen, Governance und Aufsicht ersetzen könne. „Ethik entsteht daraus, wie Systeme genutzt werden, nicht aus abstrakten Prinzipien, die in Gewichte kodiert sind“, fügte Dhar hinzu.

Diese Debatte hebt die zentrale Spannung in der aktuellen KI-Entwicklung hervor: der Wunsch, autonome, argumentierende Agenten zu schaffen, versus das Bedürfnis, strikte menschliche Kontrolle und Verantwortlichkeit zu bewahren. Anthropics Verfassung versucht, diese Lücke zu überbrücken, indem sie menschliche Werte direkt in den Denkprozess des Modells einbettet, doch es bleibt abzuwarten, ob diese Methode die Nuancen menschlichen ethischen Urteilsvermögens in Hochrisikoszenarien wirklich reproduzieren kann.

Der weitere Weg für konstitutionelle KI

Die Veröffentlichung dieser 23.000-Wörter-Verfassung ist mehr als nur ein Dokumentationsupdate; sie ist eine Absichtserklärung. Sie signalisiert, dass die Ära des „move fast and break things“ durch eine Ära des „move carefully and philosophically justify things“ ersetzt wird.

Mit dem weiteren Skalieren von KI-Modellen wird die Komplexität ihrer Trainingsdaten zwangsläufig zu emergenten Verhaltensweisen führen, die sich nicht durch einfache Regelwerke vorhersagen lassen. Anthropics Wette ist, dass ein Modell, das auf tiefgehenden philosophischen Prinzipien trainiert wurde, robuster, anpassungsfähiger und letztlich sicherer sein wird als eines, das durch eine starre Liste von Verboten eingeschränkt ist.

Für den Unternehmenssektor bietet diese Entwicklung einen Ausblick auf die Zukunft der Compliance. Wenn Unternehmen KI in Entscheidungsabläufe integrieren, wird die Nachfrage nach „erklärbarer KI“ wachsen, die mit der Unternehmensethik übereinstimmt. Ein Modell, das die philosophische Grundlage seiner Weigerung, eine Aufgabe auszuführen, zitieren kann, ist deutlich wertvoller — und vertrauenswürdiger — als eines, das einfach eine Fehlermeldung zurückgibt.

Creati.ai wird die Leistung von Claude unter diesem neuen konstitutionellen Rahmen weiterhin beobachten und speziell nach Belegen für das von Anthropic angestrebte „Urteil“ und die „Verallgemeinerung“ suchen. Während sich die Grenzen maschineller Intelligenz verschieben, werden die Dokumente, die ihre Grenzen definieren, vermutlich zu einigen der wichtigsten Texte unserer Zeit gehören.

Ausgewählt