Forscher offenbaren kritische Schwachstellen in KI-Abwehrsystemen

Die Illusion der Unverwundbarkeit: Bedeutende Abwehrmaßnahmen der Künstlichen Intelligenz (artificial intelligence, AI) brechen unter adaptivem Druck zusammen

In einer Enthüllung, die in der Sicherheitsgemeinschaft für Künstliche Intelligenz (artificial intelligence, AI) für Aufsehen sorgt, hat eine Koalition von Forschern von OpenAI, Anthropic und Google DeepMind kritische Schwachstellen in den vertrauenswürdigsten Verteidigungssystemen der Branche offengelegt. Die bahnbrechende Studie, die diese Woche veröffentlicht wurde, zeigt, dass 12 weithin publizierte AI-Abwehrmechanismen — die zuvor mit nahezu null Fehlerraten angepriesen wurden — bei „adaptiven Angriffen“ (adaptive Angriffe (adaptive attacks)) mit einer Erfolgsrate von über 90 % umgangen werden können.

Dieses Ergebnis zerstört die vorherrschende Annahme, dass die aktuellen Schutzmechanismen für große Sprachmodelle (große Sprachmodelle (large language model, LLM)) ausreichend sind, um entschlossenen gegnerischen Akteuren standzuhalten. Da AI-Agenten zunehmend in Unternehmensinfrastrukturen und in kritische Entscheidungsabläufe integriert werden, macht die Offenlegung solcher systemischer Schwächen die gefährliche Lücke zwischen wahrgenommener Sicherheit und tatsächlicher Robustheit deutlich.

Das Prinzip „Der Angreifer zieht als Zweiter“

Kern der Kritik der Forscher ist ein grundlegender Fehler in der Art und Weise, wie AI-Abwehrmaßnahmen historisch bewertet wurden. Traditionelle Sicherheits-Benchmarks arbeiten typischerweise statisch: Eine Verteidigung wird vorgeschlagen und gegen eine bereits vorhandene Bibliothek bekannter Angriffe getestet. Wenn die Verteidigung diese bekannten Bedrohungen blockiert, gilt sie als sicher.

Die neue Forschung legt jedoch nahe, dass diese Methodik gefährlich naiv ist. Sie geht davon aus, dass der „Angreifer zuerst zieht“ und statisch bleibt. In realen Szenarien operieren raffinierte Gegenspieler jedoch nach dem Paradigma „der Angreifer zieht als Zweiter“. Sie analysieren den spezifischen eingesetzten Verteidigungsmechanismus und optimieren ihre Angriffsstrategie, um ihn zu umgehen.

Indem sie diese adaptive Methodik anwandten — unter Nutzung von Techniken von gradientenbasierter Optimierung bis hin zu menschlich gesteuertem Verstärkungslernen (Verstärkungslernen (Reinforcement Learning, RL)) — konnten die Forscher Verteidigungen demontieren, die zuvor nahezu fehlerfreie Leistungen gemeldet hatten. Die Studie zeigt, dass das, was einst als „Robustheit“ galt, lediglich „Unklarheit“ war, wirksam nur solange, bis ein Angreifer genauer hinsah.

Methodik: Wie die Abwehr zusammenbrach

Das Forschungsteam setzte einen vielschichtigen Ansatz ein, um die 12 Zielverteidigungen zu untersuchen, die eine vielfältige Reihe von Techniken umfassten, wie Perplexity-Filterung (Perplexity-Filterung (perplexity filtering)), Eingabetransformation/-Bereinigung (Eingabetransformation/-Bereinigung (input transformation/sanitization)) und zusätzliche LLM-Überwachung (auxiliary LLM monitoring).

Der adaptive Angriffsrahmen nutzte vier primäre Vektoren:

Gradientenbasierte Optimierung (Gradient-Based Optimization): Nutzung des Zugriffs auf Modellgewichte (wenn verfügbar), um mathematisch den präzisen Input zu berechnen, der eine eingeschränkte Ausgabe auslöst.
Verstärkungslernen (Reinforcement Learning, RL): Training adversarialer Modelle, um automatisch Prompt-Strukturen zu entdecken, die Filter umgehen.
Zufallssuche & Fuzzing (Random Search & Fuzzing): Volumenstarke, automatisierte Mutation von Eingaben, um „blinde Flecken“ in der Verteidigungslogik zu finden.
Menschliches Red-Teaming (Human Red-Teaming): Expert*innen der Sicherheit erstellen manuell Prompts, basierend auf dem Verständnis der architektonischen Grenzen der Verteidigung.

Die Ergebnisse waren einheitlich und schockierend. Verteidigungen, die auf „geheimen“ Mechanismen oder statischen Schlüsselwörtern beruhten, wurden fast sofort umgangen. Komplexere Verteidigungen, die gegenüber naiven Angriffen widerstandsfähig waren, brachen zusammen, als die Angriffssoptimierung auf ihre spezifische Erkennungslogik zugeschnitten wurde.

Aufschlüsselung der Schwachstellen

Die Diskrepanz zwischen der behaupteten Wirksamkeit dieser Verteidigungen und ihrer tatsächlichen Leistung unter adaptivem Druck ist eklatant. Die folgende Tabelle fasst die von den Forschern in verschiedenen Kategorien von Verteidigungsmechanismen ermittelte Leistungslücke zusammen.

**Defense Category	Original Claimed Failure Rate	Adaptive Attack Success Rate**
Perplexity-Based Filtering	< 2%	> 94%
Input Transformation/Sanitization	< 5%	> 91%
LLM-based Supervisor Models	< 1%	> 88%
Token-Level Adversarial Detection	< 1%	> 96%
Prompt Structure Analysis	< 3%	> 92%

Hinweis: Die „Ursprünglich angegebene Ausfallrate“ (Original Claimed Failure Rate) stellt den Prozentsatz der Angriffe dar, die die Verteidigung in den initialen Veröffentlichungen angeblich nicht stoppen konnte. Die „Erfolgsrate adaptiver Angriffe“ (Adaptive Attack Success Rate) stellt den Prozentsatz der Angriffe dar, die in dieser neuen Studie erfolgreich an der Verteidigung vorbeigingen.

Der „Adaptive“-Paradigmenwechsel

Diese Forschung erzwingt einen Paradigmenwechsel in der AI-Sicherheit. Sie legt nahe, dass die aktuelle Generation von Verteidigungen an einer „Überanpassung“ an spezifische, bekannte Benchmarks leidet. Wenn eine Verteidigung darauf abgestimmt ist, einen bestimmten Datensatz von Jailbreak-Aufforderungen (Jailbreak-Aufforderungen (jailbreak prompts)) zu stoppen, erzeugt dies ein falsches Sicherheitsgefühl.

Die Forscher argumentieren, dass wahre Robustheit nicht durch statische Tests bewiesen werden kann. Sicherheitsansprüche müssen stattdessen durch rigorose, adversarielle Stresstests validiert werden, bei denen dem „Red Team“ vollständige Kenntnisse der Verteidigungsimplementierung gewährt werden (White-Box-Testung (white-box testing)). Dies spiegelt etablierte Praktiken in der traditionellen Cybersicherheit wider, in der „Sicherheit durch Verschleierung“ (security by obscurity) weithin abgelehnt wird.

Einer der beunruhigendsten Aspekte der Ergebnisse ist das Versagen von LLM-basierten Aufsichtsmodellen — sekundären AI-Modellen, die damit beauftragt sind, das primäre Modell zu überwachen. Die Studie zeigte, dass diese Supervisoren gegenüber denselben adversarialen Manipulationen anfällig sind wie die Modelle, die sie schützen sollen, wodurch eine rekursive Verwundbarkeitsschleife entsteht.

Auswirkungen für die Industrie: Ein Aufruf zu rigorosem Red-Teaming

Für Entscheidungsträger in Unternehmen und AI-Entwickler ist dieser Bericht ein dringender Aufruf zum Handeln. Die Abhängigkeit von fertigen Verteidigungs-Wrappers oder publizierten akademischen Techniken ohne interne Stresstests ist nicht länger eine tragfähige Sicherheitsstrategie.

Wesentliche Erkenntnisse für die Industrie sind:

Statische Benchmarks aufgeben: Sicherheitsbewertungen müssen über „Bestanden/Nicht bestanden“ auf statischen Datensätzen hinausgehen. Kontinuierliches, adaptives Red-Teaming ist unerlässlich.
In menschliche Tests im Loop investieren: Automatisierte Verteidigungen wurden konsequent von menschlich gesteuerten Angriffen übertroffen, was nahelegt, dass menschliche Intuition weiterhin eine kritische Komponente der Sicherheitsvalidierung ist.
Verteidigung-in-Tiefe (Defense-in-Depth): Keine einzelne Verteidigungsschicht ist undurchdringlich. Systeme müssen so entworfen werden, dass davon ausgegangen wird, dass äußere Schutzschranken durchbrochen werden — dies erfordert interne Überwachungs- und Eindämmungsprotokolle.

Die Beteiligung von Forschern von OpenAI, Anthropic und Google DeepMind an dieser Enthüllung signalisiert eine Reife im Sektor. Indem diese Labore die Fragilität der Abwehrmechanismen ihres eigenen Ökosystems anerkennen, bewegen sie sich hin zu einem transparenteren und gehärteten Ansatz für AI-Sicherheit.

Fazit

Die Enthüllung, dass 12 erstklassige AI-Verteidigungen mit 90%-igen Erfolgsraten demontiert werden konnten, ist ein demütigender Moment für die AI-Branche. Sie unterstreicht das Jugendstadium der Sicherheitsstandards des Feldes und die Raffinesse potenzieller Bedrohungen. Während wir durch 2026 gehen, muss der Fokus vom Einsatz „perfekter“ Schilde auf den Aufbau resilienter Systeme verlagert werden, die der unvermeidlichen Realität adaptiver, intelligenter Angriffe standhalten können. Die Ära der statischen AI-Sicherheit ist vorbei; die Ära der adaptiven Verteidigung hat begonnen.