
In einer Enthüllung, die gleichzeitig den gewaltigen Fortschritt der Künstlichen Intelligenz (Artificial Intelligence, AI) aufzeigt und eine kritische Sicherheitslücke im dezentralen Finanzökosystem (Decentralized Finance, DeFi) offenlegt, hat OpenAI EVMbench vorgestellt, ein neues umfassendes Test-Framework zur Bewertung der Fähigkeiten von KI-Agenten (AI Agents) in der Blockchain-Sicherheit. Die Ergebnisse des ersten Benchmarks sind ebenso beeindruckend wie beunruhigend: Das neueste spezialisierte Modell von OpenAI, GPT-5.3-Codex, konnte in 72,2 % der Testfälle Kryptowährungs-Wallets erfolgreich exploitieren und leeren. Dies demonstriert eine Kompetenz in der Cyber-Offensive, die ihre defensiven Gegenstücke derzeit bei weitem übertrifft.
EVMbench wurde in Zusammenarbeit mit der Krypto-Investmentfirma Paradigm ins Leben gerufen und dient als standardisierte Arena, um zu messen, wie gut KI-Modelle Schwachstellen in Smart Contracts der Ethereum Virtual Machine (EVM) erkennen, patchen und ausnutzen können. Während die Initiative darauf abzielt, die Sicherheit durch „Red Teaming“ zu stärken, deuten die unmittelbaren Daten auf eine wachsende Kluft zwischen Schwert und Schild hin. Während sich GPT-5.3-Codex als formidabler digitaler Prädator erwies, hat seine Fähigkeit zu schützen – mit deutlich niedrigeren Werten bei Erkennungs- und Patching-Aufgaben – dringende Diskussionen über die Sicherheit der weltweit in Smart Contracts gebundenen 100 Milliarden $ ausgelöst.
Die Schlagzeile einer Erfolgsrate von 72,2 % in der Kategorie „Exploit“ markiert einen massiven Generationssprung in den KI-Fähigkeiten. Nur sechs Monate zuvor erreichte das Standardmodell GPT-5 bei ähnlichen Aufgaben eine Erfolgsrate von lediglich 31,9 %. Diese Verdoppelung der Wirksamkeit deutet darauf hin, dass die spezialisierte Abstimmung in GPT-5.3-Codex ein tieferes Verständnis für komplexe Logikflüsse und wirtschaftliche Anreize freigesetzt hat, die Blockchain-Protokollen eigen sind.
Der Benchmark hob jedoch auch eine besorgniserregende Asymmetrie hervor. Während die KI hervorragend darin war, Systeme zu knacken, hatte sie Mühe, diese zu reparieren. Im „Patch“-Modus – in dem der Agent eine Schwachstelle beheben muss, ohne die beabsichtigte Funktionalität des Vertrags zu beeinträchtigen – lagen die Erfolgsraten bei etwa 41,5 %. Ähnlich verhielt es sich im „Detect“-Modus, der ein traditionelles Code-Audit simuliert: Hier scheiterten Modelle oft daran, bekannte Fehler zu identifizieren, wobei Spitzenreiter wie Claude Opus 4.6 nur eine Erkennungsrate von 45,6 % erreichten.
Diese Disparität unterstreicht eine grundlegende Realität der aktuellen LLM-Architektur: Es ist rechnerisch einfacher für einen Agenten, einen einzelnen Pfad zum Scheitern (Exploitation) zu finden, als die Abwesenheit aller Fehler zu garantieren (Sicherheitsverifizierung). Die folgende Tabelle illustriert den starken Leistungs-Kontrast zwischen den verschiedenen Betriebsmodi im neuen Benchmark.
Tabelle 1: KI-Modellleistung in EVMbench-Modi
| Metrik | GPT-5.3-Codex (Aktuell) | GPT-5 (vor 6 Monaten) | Claude Opus 4.6 |
|---|---|---|---|
| Exploit-Erfolgsrate | 72,2 % | 31,9 % | N/A |
| Patch-Erfolgsrate | 41,5 % | N/A | N/A |
| Erkennungs-Recall | N/A | N/A | 45,6 % |
Um sicherzustellen, dass diese Ergebnisse reale Risiken widerspiegeln und nicht nur theoretische Übungen sind, konstruierten OpenAI und Paradigm EVMbench unter Verwendung von 120 kuratierten Schwachstellen aus 40 professionellen Smart-Contract-Audits. Dies waren keine synthetischen Fehler, sondern tatsächliche Mängel in Produktionscode, viele davon stammten von wettbewerbsorientierten Audit-Plattformen wie Code4rena.
Der Benchmark wird in einer Sandbox-Umgebung namens Anvil betrieben, die es KI-Agenten ermöglicht, mit einer lokalen Blockchain-Simulation zu interagieren. Diese Isolierung erlaubt es den Modellen, destruktive Aktionen zu versuchen – wie Reentrancy-Angriffe oder Logikmanipulation –, ohne tatsächliche Nutzergelder zu riskieren.
Das Framework bewertet Agenten in drei verschiedenen Kompetenzbereichen:
Tabelle 2: EVMbench-Evaluationsmodi
| Modus | Zielsetzung | Erfolgskriterien |
|---|---|---|
| Erkennen | Ein Repository auditieren, um Schwachstellen zu finden. | Recall der von menschlichen Auditoren bestätigten Ground-Truth-Fehler. |
| Patchen | Code umschreiben, um die Schwachstelle zu entfernen. | Die Schwachstelle ist beseitigt UND die Kernfunktionalität bleibt intakt. |
| Exploit | Einen bereitgestellten Vertrag angreifen, um Gelder zu stehlen. | Erfolgreiches Leeren des Krypto-Guthabens des Vertrags. |
Entscheidend ist, dass der Benchmark Szenarien der Tempo blockchain enthält, einem neuen Layer-1-Netzwerk, das von Stripe und Paradigm entwickelt wurde und sich auf Stablecoin-Zahlungen mit hohem Durchsatz konzentriert. Die Einbeziehung von Tempo-spezifischen Herausforderungen deutet darauf hin, dass OpenAI nicht nur auf alten Ethereum-Code blickt, sondern aktiv gegen Infrastrukturen der nächsten Generation testet, in denen eine Zunahme von Agenten-basierten Zahlungen erwartet wird.
Die vielleicht alarmierendste Anekdote aus dem begleitenden Forschungspapier betrifft einen spezifischen Testfall, bei dem ein von GPT-5.2 (einer Zwischenversion) angetriebener Agent einen komplexen „Flash-Loan-Angriff“ (Flash Loan Attack) ausführte.
Flash-Loan-Angriffe sind anspruchsvolle finanzielle Exploits, die das Ausleihen einer massiven Menge an Kapital erfordern, um damit Marktpreise oder die Protokolllogik zu manipulieren und den Kredit innerhalb eines einzigen Transaktionsblocks zurückzuzahlen. Aufgrund der erforderlichen präzisen Sequenzierung sind sie normalerweise die Domäne von Elite-Hacker-Teams.
Im EVMbench-Test hat der KI-Agent:
Er erreichte dies ohne menschliche Anleitung, Schritt-für-Schritt-Anweisungen oder vorherige Beispiele der Architektur dieses spezifischen Vertrags. Diese Fähigkeit signalisiert, dass autonome Agenten über einfaches Pattern Matching hinaus zu mehrstufigem strategischem Denken übergehen – eine Entwicklung, die existenzielle Risiken für schlecht auditierte decentralized finance (DeFi) Protokolle darstellt.
OpenAI erkennt das Potenzial dieser Werkzeuge, als Waffe eingesetzt zu werden, und rahmt die Veröffentlichung von EVMbench und GPT-5.3-Codex als „defensive Notwendigkeit“ ein. Die Logik dahinter ist, dass durch die Bereitstellung dieser mächtigen Offensivwerkzeuge für „White Hat“-Sicherheitsforscher Schwachstellen gefunden und behoben werden können, bevor bösartige Akteure sie ausnutzen.
Um dieses defensive Ökosystem zu unterstützen, kündigte OpenAI das Cybersecurity Grant Program an und sagte 10 Millionen $ in API-Credits für Entwickler und Forscher zu, die an Open-Source-Verteidigungswerkzeugen arbeiten. Ziel ist es, die Eintrittsbarriere für automatisiertes Auditing zu senken und selbst kleinen Projekten den Zugang zu modernsten Sicherheitsprüfungen zu ermöglichen.
Darüber hinaus erweitert das Unternehmen die private Beta von Aardvark, einem dedizierten Sicherheitsforschungs-Agenten. Im Gegensatz zu den Allzweck-Codex-Modellen ist Aardvark speziell auf Sicherheitsliteratur, Audit-Berichte und formale Verifizierungsmethoden trainiert. Erste interne Tests deuten darauf hin, dass Aardvark helfen könnte, die Lücke zwischen Offensive und Defensive zu schließen, indem es das „Attacker-Mindset“ von GPT-5.3 nutzt, um Exploits vorherzusagen und proaktiv Patches vorzuschlagen.
Die Veröffentlichung von EVMbench erfolgt in einem entscheidenden Moment für die Kryptoindustrie, nach einer Reihe von medienwirksamen Exploits, einschließlich des jüngsten Verlusts von 2,7 Millionen $ im Moonwell-Protokoll aufgrund eines Fehlers in KI-generiertem Code. Die Branche kämpft derzeit mit einem zweischneidigen Schwert: KI wird zunehmend verwendet, um Smart Contracts zu schreiben, was oft subtile Fehler einführt, während sie gleichzeitig das einzige Werkzeug ist, das skalierbar genug ist, um das explodierende Volumen an Blockchain-Code zu auditieren.
Die Beteiligung von Paradigm deutet darauf hin, dass große institutionelle Akteure KI-Sicherheit nicht als Luxus, sondern als Voraussetzung für die Massenadaption von Stablecoins und dezentralen Finanzstrukturen betrachten. Wenn KI-Agenten autonome Zahlungen in Netzwerken wie Tempo abwickeln sollen, müssen sie resistent gegen gegnerische KI sein, die versucht, sie zu berauben.
Experten warnen, dass die „Exploit-Rate von 72 %“ wahrscheinlich eine Untergrenze und keine Obergrenze darstellt. Da Modelle weiter skalieren und Techniken wie „Chain-of-Thought“-Denken während der Inferenz nutzen, wird ihre Fähigkeit, obskure „Black Swan“-Schwachstellen zu finden, wahrscheinlich zunehmen.
Vorerst ist die Botschaft an Smart-Contract-Entwickler klar: Die KI, die Ihnen beim Schreiben Ihres Codes hilft, ist auch in der Lage, Sie zu berauben. Bis die defensiven Fähigkeiten aufholen, ist der einzige sichere Weg ein gründliches, von Menschen geführtes Auditing, ergänzt – aber nicht ersetzt – durch genau jene KI-Werkzeuge, die das System bedrohen.