
In einer Enthüllung, die in der Sicherheitsgemeinschaft für Künstliche Intelligenz (artificial intelligence, AI) für Aufsehen sorgt, hat eine Koalition von Forschern von OpenAI, Anthropic und Google DeepMind kritische Schwachstellen in den vertrauenswürdigsten Verteidigungssystemen der Branche offengelegt. Die bahnbrechende Studie, die diese Woche veröffentlicht wurde, zeigt, dass 12 weithin publizierte AI-Abwehrmechanismen — die zuvor mit nahezu null Fehlerraten angepriesen wurden — bei „adaptiven Angriffen“ (adaptive Angriffe (adaptive attacks)) mit einer Erfolgsrate von über 90 % umgangen werden können.
Dieses Ergebnis zerstört die vorherrschende Annahme, dass die aktuellen Schutzmechanismen für große Sprachmodelle (große Sprachmodelle (large language model, LLM)) ausreichend sind, um entschlossenen gegnerischen Akteuren standzuhalten. Da AI-Agenten zunehmend in Unternehmensinfrastrukturen und in kritische Entscheidungsabläufe integriert werden, macht die Offenlegung solcher systemischer Schwächen die gefährliche Lücke zwischen wahrgenommener Sicherheit und tatsächlicher Robustheit deutlich.
Kern der Kritik der Forscher ist ein grundlegender Fehler in der Art und Weise, wie AI-Abwehrmaßnahmen historisch bewertet wurden. Traditionelle Sicherheits-Benchmarks arbeiten typischerweise statisch: Eine Verteidigung wird vorgeschlagen und gegen eine bereits vorhandene Bibliothek bekannter Angriffe getestet. Wenn die Verteidigung diese bekannten Bedrohungen blockiert, gilt sie als sicher.
Die neue Forschung legt jedoch nahe, dass diese Methodik gefährlich naiv ist. Sie geht davon aus, dass der „Angreifer zuerst zieht“ und statisch bleibt. In realen Szenarien operieren raffinierte Gegenspieler jedoch nach dem Paradigma „der Angreifer zieht als Zweiter“. Sie analysieren den spezifischen eingesetzten Verteidigungsmechanismus und optimieren ihre Angriffsstrategie, um ihn zu umgehen.
Indem sie diese adaptive Methodik anwandten — unter Nutzung von Techniken von gradientenbasierter Optimierung bis hin zu menschlich gesteuertem Verstärkungslernen (Verstärkungslernen (Reinforcement Learning, RL)) — konnten die Forscher Verteidigungen demontieren, die zuvor nahezu fehlerfreie Leistungen gemeldet hatten. Die Studie zeigt, dass das, was einst als „Robustheit“ galt, lediglich „Unklarheit“ war, wirksam nur solange, bis ein Angreifer genauer hinsah.
Das Forschungsteam setzte einen vielschichtigen Ansatz ein, um die 12 Zielverteidigungen zu untersuchen, die eine vielfältige Reihe von Techniken umfassten, wie Perplexity-Filterung (Perplexity-Filterung (perplexity filtering)), Eingabetransformation/-Bereinigung (Eingabetransformation/-Bereinigung (input transformation/sanitization)) und zusätzliche LLM-Überwachung (auxiliary LLM monitoring).
Der adaptive Angriffsrahmen nutzte vier primäre Vektoren:
Die Ergebnisse waren einheitlich und schockierend. Verteidigungen, die auf „geheimen“ Mechanismen oder statischen Schlüsselwörtern beruhten, wurden fast sofort umgangen. Komplexere Verteidigungen, die gegenüber naiven Angriffen widerstandsfähig waren, brachen zusammen, als die Angriffssoptimierung auf ihre spezifische Erkennungslogik zugeschnitten wurde.
Die Diskrepanz zwischen der behaupteten Wirksamkeit dieser Verteidigungen und ihrer tatsächlichen Leistung unter adaptivem Druck ist eklatant. Die folgende Tabelle fasst die von den Forschern in verschiedenen Kategorien von Verteidigungsmechanismen ermittelte Leistungslücke zusammen.
| **Defense Category | Original Claimed Failure Rate | Adaptive Attack Success Rate** |
|---|---|---|
| Perplexity-Based Filtering | < 2% | > 94% |
| Input Transformation/Sanitization | < 5% | > 91% |
| LLM-based Supervisor Models | < 1% | > 88% |
| Token-Level Adversarial Detection | < 1% | > 96% |
| Prompt Structure Analysis | < 3% | > 92% |
Hinweis: Die „Ursprünglich angegebene Ausfallrate“ (Original Claimed Failure Rate) stellt den Prozentsatz der Angriffe dar, die die Verteidigung in den initialen Veröffentlichungen angeblich nicht stoppen konnte. Die „Erfolgsrate adaptiver Angriffe“ (Adaptive Attack Success Rate) stellt den Prozentsatz der Angriffe dar, die in dieser neuen Studie erfolgreich an der Verteidigung vorbeigingen.
Diese Forschung erzwingt einen Paradigmenwechsel in der AI-Sicherheit. Sie legt nahe, dass die aktuelle Generation von Verteidigungen an einer „Überanpassung“ an spezifische, bekannte Benchmarks leidet. Wenn eine Verteidigung darauf abgestimmt ist, einen bestimmten Datensatz von Jailbreak-Aufforderungen (Jailbreak-Aufforderungen (jailbreak prompts)) zu stoppen, erzeugt dies ein falsches Sicherheitsgefühl.
Die Forscher argumentieren, dass wahre Robustheit nicht durch statische Tests bewiesen werden kann. Sicherheitsansprüche müssen stattdessen durch rigorose, adversarielle Stresstests validiert werden, bei denen dem „Red Team“ vollständige Kenntnisse der Verteidigungsimplementierung gewährt werden (White-Box-Testung (white-box testing)). Dies spiegelt etablierte Praktiken in der traditionellen Cybersicherheit wider, in der „Sicherheit durch Verschleierung“ (security by obscurity) weithin abgelehnt wird.
Einer der beunruhigendsten Aspekte der Ergebnisse ist das Versagen von LLM-basierten Aufsichtsmodellen — sekundären AI-Modellen, die damit beauftragt sind, das primäre Modell zu überwachen. Die Studie zeigte, dass diese Supervisoren gegenüber denselben adversarialen Manipulationen anfällig sind wie die Modelle, die sie schützen sollen, wodurch eine rekursive Verwundbarkeitsschleife entsteht.
Für Entscheidungsträger in Unternehmen und AI-Entwickler ist dieser Bericht ein dringender Aufruf zum Handeln. Die Abhängigkeit von fertigen Verteidigungs-Wrappers oder publizierten akademischen Techniken ohne interne Stresstests ist nicht länger eine tragfähige Sicherheitsstrategie.
Wesentliche Erkenntnisse für die Industrie sind:
Die Beteiligung von Forschern von OpenAI, Anthropic und Google DeepMind an dieser Enthüllung signalisiert eine Reife im Sektor. Indem diese Labore die Fragilität der Abwehrmechanismen ihres eigenen Ökosystems anerkennen, bewegen sie sich hin zu einem transparenteren und gehärteten Ansatz für AI-Sicherheit.
Die Enthüllung, dass 12 erstklassige AI-Verteidigungen mit 90%-igen Erfolgsraten demontiert werden konnten, ist ein demütigender Moment für die AI-Branche. Sie unterstreicht das Jugendstadium der Sicherheitsstandards des Feldes und die Raffinesse potenzieller Bedrohungen. Während wir durch 2026 gehen, muss der Fokus vom Einsatz „perfekter“ Schilde auf den Aufbau resilienter Systeme verlagert werden, die der unvermeidlichen Realität adaptiver, intelligenter Angriffe standhalten können. Die Ära der statischen AI-Sicherheit ist vorbei; die Ära der adaptiven Verteidigung hat begonnen.