OpenAI und Paradigm bringen EVMbench heraus, um Smart Contracts mit KI zu sichern

Eine neue Ära für die Blockchain-Sicherheit: OpenAI und Paradigm enthüllen EVMbench

In einem entscheidenden Schritt zur Stärkung der Schnittstelle zwischen künstlicher Intelligenz und dezentralem Finanzwesen hat OpenAI eine strategische Partnerschaft mit der Krypto-Investmentfirma Paradigm angekündigt. Die Zusammenarbeit führt EVMbench ein, einen umfassenden Benchmark, der entwickelt wurde, um die Fähigkeiten von KI-Agenten (AI Agents) bei der Erkennung, Behebung und Ausnutzung von Schwachstellen in Smart Contracts zu bewerten.

Bis Februar 2026 sichert das Krypto-Ökosystem über 100 Milliarden US-Dollar an Open-Source-Assets, was es zu einem lukrativen Ziel für böswillige Akteure macht. Die Veröffentlichung von EVMbench stellt einen kritischen Übergang von der theoretischen KI-Anwendung zum praktischen, strengen Testen in wirtschaftlich bedeutsamen Umgebungen dar. Durch die Bereitstellung eines standardisierten Rahmens zielen OpenAI und Paradigm darauf ab, die Entwicklung defensiver KI-Systeme zu beschleunigen, die in der Lage sind, Code zu prüfen und zu stärken, bevor er das Mainnet erreicht.

Diese Initiative unterstreicht die wachsende Erkenntnis, dass KI-Agenten (AI Agents), während sie immer kompetenter im Lesen und Schreiben von Code werden, streng gegen die spezifischen, risikoreichen Einschränkungen der Ethereum Virtual Machine (EVM) getestet werden müssen.

Dekonstruktion von EVMbench: Die Dreifaltigkeit der Sicherheitsaufgaben

EVMbench ist nicht nur ein Datensatz, sondern eine dynamische Evaluierungsumgebung. Es geht über die statische Code-Analyse hinaus, indem es KI-Agenten in eine Sandbox-Blockchain-Umgebung eintaucht, in der sie mit Live-Bytecode interagieren müssen. Der Benchmark bewertet Agenten in drei verschiedenen, aber miteinander verknüpften Fähigkeitsmodi, die jeweils eine kritische Phase im Lebenszyklus der Smart-Contract-Sicherheit (Smart Contract Security) nachahmen.

1. Erkennen (Detect): Der digitale Auditor

Im Erkennungsmodus haben die Agenten die Aufgabe, ein Smart-Contract-Repository zu prüfen. Das Ziel besteht darin, Ground-Truth-Schwachstellen zu identifizieren – solche, die von menschlichen Auditoren bestätigt wurden – und diese genau zu kennzeichnen. Die Agenten werden basierend auf ihrem „Recall“ bewertet, also dem Prozentsatz der bekannten Schwachstellen, die sie erfolgreich identifizieren. Dieser Modus fordert die Fähigkeit der KI heraus, komplexe Logikflüsse zu verstehen und Muster zu erkennen, die auf Sicherheitsmängel hinweisen, wie etwa Reentrancy-Angriffe oder Integer-Overflows.

2. Patchen (Patch): Die chirurgische Fehlerbehebung

Der Patch-Modus ist vielleicht der komplexeste der drei und erfordert von den Agenten, eine Schwachstelle nicht nur zu finden, sondern auch zu beheben. Die Einschränkungen hierbei sind erheblich: Der Agent muss den anfälligen Vertrag so modifizieren, dass der Exploit beseitigt wird, während die ursprünglich beabsichtigte Funktionalität erhalten bleibt. Dies wird durch eine Reihe automatisierter Tests verifiziert. Wenn ein Agent einen Fehler „behebt“, aber versehentlich die Kernlogik des Vertrags bricht oder Kompilierungsfehler einführt, wird der Versuch als Fehlschlag gewertet. Dies ahmt den realen Druck auf Entwickler nach, Hotfixes anzuwenden, ohne den Protokollbetrieb zu stören.

3. Ausnutzen (Exploit): Der Red-Teamer

In diesem Modus agieren die Agenten als Angreifer. Sie erhalten einen bereitgestellten Vertrag in einer Sandbox-Umgebung und müssen einen End-to-End-Angriff ausführen, um Gelder abzuziehen. Die Bewertung erfolgt programmatisch über Transaction-Replay und On-Chain-Verifizierung. Dieser Modus ist entscheidend für das „Red Teaming“ – den Einsatz von KI zur Simulation von Angriffen, damit Verteidigungen gegen die kreativsten gegnerischen Strategien praxiserprobt werden können.

Der Datensatz: In der Realität verwurzelt

Um sicherzustellen, dass der Benchmark reale Risiken widerspiegelt, haben OpenAI und Paradigm 120 Schwachstellen mit hohem Schweregrad aus 40 verschiedenen Audits kuratiert. Die Mehrheit davon stammte aus offenen Code-Audit-Wettbewerben wie Code4rena, die dafür bekannt sind, subtile und weitreichende Fehler aufzudecken.

Eine bemerkenswerte Ergänzung zum Datensatz umfasst Schwachstellenszenarien, die aus dem Sicherheitsauditprozess für die Tempo-Blockchain (Tempo Blockchain) abgeleitet wurden. Tempo ist eine speziell entwickelte Layer-1-Blockchain für Stablecoin-Zahlungen mit hohem Durchsatz und niedrigen Kosten. Durch die Einbeziehung von Szenarien von Tempo erweitert EVMbench seine Reichweite auf zahlungsorientierten Smart-Contract-Code, einen Bereich, in dem ein massives Wachstum erwartet wird, da agentische Stablecoin-Zahlungen alltäglich werden.

Die technische Infrastruktur, die EVMbench antreibt, ist ebenso robust. Sie nutzt ein Rust-basiertes Harness, das Verträge bereitstellt und Agententransaktionen deterministisch wiedergibt. Um versehentliche Schäden zu vermeiden, laufen Exploit-Aufgaben in einer isolierten lokalen Anvil-Umgebung und nicht in Live-Netzwerken, was sicherstellt, dass das Testgelände sicher, reproduzierbar und in sich geschlossen ist.

Benchmarking der technologischen Spitze: GPT-5.3 übernimmt die Führung

Der Start von EVMbench hat die ersten öffentlichen Einblicke darüber geliefert, wie die neueste Generation von KI-Modellen im Bereich der Krypto-Sicherheit abschneidet. OpenAI nutzte den Benchmark, um seine Frontier-Agenten zu testen, was einen signifikanten Sprung in den Fähigkeiten im Vergleich zu den letzten sechs Monaten offenbarte.

Die Leistungsmetriken unterstreichen eine dramatische Verbesserung der „offensiven“ Fähigkeiten, insbesondere im Exploit-Modus. Die Daten zeigen, dass die neueste Iteration von OpenAIs Coding-Modell, GPT-5.3-Codex, seinen Vorgänger deutlich übertrifft.

Tabelle 1: Vergleichende Leistung im Exploit-Modus

Modellversion	Ausführungsumgebung	Erfolgsrate beim Exploit
GPT-5.3-Codex	Codex CLI	72,2%
GPT-5	Standard	31,9%
GPT-4o (Referenz)	Standard	< 15,0%

Der Sprung von einer Erfolgsrate von 31,9 % bei GPT-5 auf 72,2 % bei GPT-5.3-Codex deutet darauf hin, dass KI-Agenten außergewöhnlich kompetent darin werden, Exploit-Pfade zu identifizieren und auszuführen, wenn ihnen ein klares, explizites Ziel gegeben wird (z. B. „Gelder abziehen“).

Die Lücke zwischen Offensive und Defensive

Der Benchmark offenbarte jedoch auch eine hartnäckige Lücke zwischen offensiven und defensiven Fähigkeiten. Während die Agenten bei der Exploit-Aufgabe glänzten, blieb ihre Leistung bei den Aufgaben Detect (Erkennen) und Patch (Beheben) niedriger.

Herausforderungen bei der Erkennung: Agenten beendeten die Prüfung oft nach dem Auffinden eines einzelnen Problems und versäumten es, die umfassende Überprüfung durchzuführen, die erforderlich ist, um eine Codebasis als sicher zu zertifizieren.
Komplexitäten beim Patchen: Die Anforderung, die volle Funktionalität beizubehalten, während subtile Fehler entfernt werden, erwies sich als schwierig. Agenten generierten häufig Patches, die zwar die Sicherheitslücke schlossen, aber den beabsichtigten Nutzen des Vertrags beeinträchtigten – ein Szenario, in dem die „Heilung schlimmer als die Krankheit“ ist, was in Produktionsumgebungen inakzeptabel ist.

Strategische Auswirkungen für die Krypto-Industrie

Die Zusammenarbeit zwischen OpenAI und Paradigm signalisiert eine Reifung des „KI x Krypto“-Narrativs. Paradigm, bekannt für seine tiefe technische Expertise und seinen forschungsorientierten Ansatz bei Krypto-Investitionen, lieferte das notwendige Domänenwissen, um sicherzustellen, dass die Aufgaben des Benchmarks nicht nur syntaktisch korrekt, sondern für Blockchain-Entwickler auch semantisch bedeutsam sind.

Durch die Veröffentlichung der Aufgaben, Werkzeuge und des Evaluierungsrahmens von EVMbench als Open Source geben die Partner effektiv einen „Aufruf zum Handeln“ an die Entwickler-Community aus. Das Ziel ist es, den Zugang zu hochgradigen Sicherheitstools zu demokratisieren, sodass einzelne Entwickler und kleine Teams ihre Smart Contracts mit der gleichen Strenge prüfen können wie erstklassige Sicherheitsfirmen.

Erweiterung des defensiven Toolkits: Projekt Aardvark

Gleichzeitig mit der Veröffentlichung des Benchmarks kündigte OpenAI die Erweiterung der privaten Beta für Aardvark an, ihren speziellen Agenten für Sicherheitsforschung. Aardvark repräsentiert die praktische Anwendung der aus EVMbench gewonnenen Erkenntnisse – ein KI-Agent, der speziell für defensive Sicherheitsaufgaben feinabgestimmt wurde.

Darüber hinaus stellt OpenAI 10 Millionen US-Dollar an API-Guthaben bereit, um die Cyber-Abwehrforschung (Cyber Defense Research) zu beschleunigen. Dieses Förderprogramm konzentriert sich darauf, die fähigsten Modelle des Unternehmens zum Schutz von Open-Source-Software und kritischen Infrastruktursystemen einzusetzen, um sicherzustellen, dass die Vorteile der KI-Sicherheit weit im Ökosystem verbreitet werden.

Der Weg in die Zukunft

Die Einführung von EVMbench dient sowohl als Messinstrument als auch als Warnung. Die rasante Verbesserung der Fähigkeit von KI, Verträge auszunutzen (belegt durch die Erfolgsrate von 72,2 % bei GPT-5.3-Codex), deutet darauf hin, dass sich das Zeitfenster für „Sicherheit durch Unklarheit“ (Security by Obscurity) schnell schließt. Da KI-Agenten zu fähigeren Angreifern werden, müssen sich defensive Werkzeuge mit gleicher oder höherer Geschwindigkeit entwickeln.

Für die Blockchain-Industrie bedeutet dies, dass KI-gestützte Auditierung bald von einem Luxus zu einer Notwendigkeit werden wird. Zukünftige Iterationen von EVMbench könnten auf Multi-Chain-Umgebungen, Cross-Bridge-Schwachstellen und komplexere Social-Engineering-Angriffe ausgeweitet werden, was die sich entwickelnde Bedrohungslandschaft von Web3 widerspiegelt.

Während wir tiefer in das Jahr 2026 vordringen, setzt die Synergie zwischen OpenAIs Reasoning-Engines und Paradigms krypto-nativen Erkenntnissen einen neuen Standard dafür, wie wir digitales Vertrauen (Digital Trust) angehen. Die Frage ist nicht mehr, ob KI zur Sicherung von Smart Contracts eingesetzt wird, sondern wie schnell die Industrie diese Benchmarks übernehmen kann, um der nächsten Generation automatisierter Bedrohungen voraus zu sein.