AI News

KI-Offensivvorteil: GPT-5.3-Codex dominiert neuen Krypto-Sicherheits-Benchmark

In einer Enthüllung, die gleichzeitig den gewaltigen Fortschritt der Künstlichen Intelligenz (Artificial Intelligence, AI) aufzeigt und eine kritische Sicherheitslücke im dezentralen Finanzökosystem (Decentralized Finance, DeFi) offenlegt, hat OpenAI EVMbench vorgestellt, ein neues umfassendes Test-Framework zur Bewertung der Fähigkeiten von KI-Agenten (AI Agents) in der Blockchain-Sicherheit. Die Ergebnisse des ersten Benchmarks sind ebenso beeindruckend wie beunruhigend: Das neueste spezialisierte Modell von OpenAI, GPT-5.3-Codex, konnte in 72,2 % der Testfälle Kryptowährungs-Wallets erfolgreich exploitieren und leeren. Dies demonstriert eine Kompetenz in der Cyber-Offensive, die ihre defensiven Gegenstücke derzeit bei weitem übertrifft.

EVMbench wurde in Zusammenarbeit mit der Krypto-Investmentfirma Paradigm ins Leben gerufen und dient als standardisierte Arena, um zu messen, wie gut KI-Modelle Schwachstellen in Smart Contracts der Ethereum Virtual Machine (EVM) erkennen, patchen und ausnutzen können. Während die Initiative darauf abzielt, die Sicherheit durch „Red Teaming“ zu stärken, deuten die unmittelbaren Daten auf eine wachsende Kluft zwischen Schwert und Schild hin. Während sich GPT-5.3-Codex als formidabler digitaler Prädator erwies, hat seine Fähigkeit zu schützen – mit deutlich niedrigeren Werten bei Erkennungs- und Patching-Aufgaben – dringende Diskussionen über die Sicherheit der weltweit in Smart Contracts gebundenen 100 Milliarden $ ausgelöst.

Die wachsende Kluft: Offensive vs. Defensive in der KI-Codegenerierung

Die Schlagzeile einer Erfolgsrate von 72,2 % in der Kategorie „Exploit“ markiert einen massiven Generationssprung in den KI-Fähigkeiten. Nur sechs Monate zuvor erreichte das Standardmodell GPT-5 bei ähnlichen Aufgaben eine Erfolgsrate von lediglich 31,9 %. Diese Verdoppelung der Wirksamkeit deutet darauf hin, dass die spezialisierte Abstimmung in GPT-5.3-Codex ein tieferes Verständnis für komplexe Logikflüsse und wirtschaftliche Anreize freigesetzt hat, die Blockchain-Protokollen eigen sind.

Der Benchmark hob jedoch auch eine besorgniserregende Asymmetrie hervor. Während die KI hervorragend darin war, Systeme zu knacken, hatte sie Mühe, diese zu reparieren. Im „Patch“-Modus – in dem der Agent eine Schwachstelle beheben muss, ohne die beabsichtigte Funktionalität des Vertrags zu beeinträchtigen – lagen die Erfolgsraten bei etwa 41,5 %. Ähnlich verhielt es sich im „Detect“-Modus, der ein traditionelles Code-Audit simuliert: Hier scheiterten Modelle oft daran, bekannte Fehler zu identifizieren, wobei Spitzenreiter wie Claude Opus 4.6 nur eine Erkennungsrate von 45,6 % erreichten.

Diese Disparität unterstreicht eine grundlegende Realität der aktuellen LLM-Architektur: Es ist rechnerisch einfacher für einen Agenten, einen einzelnen Pfad zum Scheitern (Exploitation) zu finden, als die Abwesenheit aller Fehler zu garantieren (Sicherheitsverifizierung). Die folgende Tabelle illustriert den starken Leistungs-Kontrast zwischen den verschiedenen Betriebsmodi im neuen Benchmark.

Tabelle 1: KI-Modellleistung in EVMbench-Modi

Metrik GPT-5.3-Codex (Aktuell) GPT-5 (vor 6 Monaten) Claude Opus 4.6
Exploit-Erfolgsrate 72,2 % 31,9 % N/A
Patch-Erfolgsrate 41,5 % N/A N/A
Erkennungs-Recall N/A N/A 45,6 %

Einblick in EVMbench: Ein strenges Testgelände

Um sicherzustellen, dass diese Ergebnisse reale Risiken widerspiegeln und nicht nur theoretische Übungen sind, konstruierten OpenAI und Paradigm EVMbench unter Verwendung von 120 kuratierten Schwachstellen aus 40 professionellen Smart-Contract-Audits. Dies waren keine synthetischen Fehler, sondern tatsächliche Mängel in Produktionscode, viele davon stammten von wettbewerbsorientierten Audit-Plattformen wie Code4rena.

Der Benchmark wird in einer Sandbox-Umgebung namens Anvil betrieben, die es KI-Agenten ermöglicht, mit einer lokalen Blockchain-Simulation zu interagieren. Diese Isolierung erlaubt es den Modellen, destruktive Aktionen zu versuchen – wie Reentrancy-Angriffe oder Logikmanipulation –, ohne tatsächliche Nutzergelder zu riskieren.

Das Framework bewertet Agenten in drei verschiedenen Kompetenzbereichen:

Tabelle 2: EVMbench-Evaluationsmodi

Modus Zielsetzung Erfolgskriterien
Erkennen Ein Repository auditieren, um Schwachstellen zu finden. Recall der von menschlichen Auditoren bestätigten Ground-Truth-Fehler.
Patchen Code umschreiben, um die Schwachstelle zu entfernen. Die Schwachstelle ist beseitigt UND die Kernfunktionalität bleibt intakt.
Exploit Einen bereitgestellten Vertrag angreifen, um Gelder zu stehlen. Erfolgreiches Leeren des Krypto-Guthabens des Vertrags.

Entscheidend ist, dass der Benchmark Szenarien der Tempo blockchain enthält, einem neuen Layer-1-Netzwerk, das von Stripe und Paradigm entwickelt wurde und sich auf Stablecoin-Zahlungen mit hohem Durchsatz konzentriert. Die Einbeziehung von Tempo-spezifischen Herausforderungen deutet darauf hin, dass OpenAI nicht nur auf alten Ethereum-Code blickt, sondern aktiv gegen Infrastrukturen der nächsten Generation testet, in denen eine Zunahme von Agenten-basierten Zahlungen erwartet wird.

Fallstudie: Der ununterstützte Flash-Loan-Angriff

Die vielleicht alarmierendste Anekdote aus dem begleitenden Forschungspapier betrifft einen spezifischen Testfall, bei dem ein von GPT-5.2 (einer Zwischenversion) angetriebener Agent einen komplexen „Flash-Loan-Angriff“ (Flash Loan Attack) ausführte.

Flash-Loan-Angriffe sind anspruchsvolle finanzielle Exploits, die das Ausleihen einer massiven Menge an Kapital erfordern, um damit Marktpreise oder die Protokolllogik zu manipulieren und den Kredit innerhalb eines einzigen Transaktionsblocks zurückzuzahlen. Aufgrund der erforderlichen präzisen Sequenzierung sind sie normalerweise die Domäne von Elite-Hacker-Teams.

Im EVMbench-Test hat der KI-Agent:

  1. Eine Arbitrage-Möglichkeit identifiziert, die durch einen Logikfehler entstanden ist.
  2. Programmatisch einen Flash-Loan angefordert.
  3. Die Exploit-Sequenz ausgeführt, um den Tresor zu leeren.
  4. Den Kredit zurückgezahlt, um die Transaktion abzuschließen.

Er erreichte dies ohne menschliche Anleitung, Schritt-für-Schritt-Anweisungen oder vorherige Beispiele der Architektur dieses spezifischen Vertrags. Diese Fähigkeit signalisiert, dass autonome Agenten über einfaches Pattern Matching hinaus zu mehrstufigem strategischem Denken übergehen – eine Entwicklung, die existenzielle Risiken für schlecht auditierte decentralized finance (DeFi) Protokolle darstellt.

OpenAIs strategische Neuausrichtung: Demokratisierung der Verteidigung

OpenAI erkennt das Potenzial dieser Werkzeuge, als Waffe eingesetzt zu werden, und rahmt die Veröffentlichung von EVMbench und GPT-5.3-Codex als „defensive Notwendigkeit“ ein. Die Logik dahinter ist, dass durch die Bereitstellung dieser mächtigen Offensivwerkzeuge für „White Hat“-Sicherheitsforscher Schwachstellen gefunden und behoben werden können, bevor bösartige Akteure sie ausnutzen.

Um dieses defensive Ökosystem zu unterstützen, kündigte OpenAI das Cybersecurity Grant Program an und sagte 10 Millionen $ in API-Credits für Entwickler und Forscher zu, die an Open-Source-Verteidigungswerkzeugen arbeiten. Ziel ist es, die Eintrittsbarriere für automatisiertes Auditing zu senken und selbst kleinen Projekten den Zugang zu modernsten Sicherheitsprüfungen zu ermöglichen.

Darüber hinaus erweitert das Unternehmen die private Beta von Aardvark, einem dedizierten Sicherheitsforschungs-Agenten. Im Gegensatz zu den Allzweck-Codex-Modellen ist Aardvark speziell auf Sicherheitsliteratur, Audit-Berichte und formale Verifizierungsmethoden trainiert. Erste interne Tests deuten darauf hin, dass Aardvark helfen könnte, die Lücke zwischen Offensive und Defensive zu schließen, indem es das „Attacker-Mindset“ von GPT-5.3 nutzt, um Exploits vorherzusagen und proaktiv Patches vorzuschlagen.

Auswirkungen auf die Branche und der Weg in die Zukunft

Die Veröffentlichung von EVMbench erfolgt in einem entscheidenden Moment für die Kryptoindustrie, nach einer Reihe von medienwirksamen Exploits, einschließlich des jüngsten Verlusts von 2,7 Millionen $ im Moonwell-Protokoll aufgrund eines Fehlers in KI-generiertem Code. Die Branche kämpft derzeit mit einem zweischneidigen Schwert: KI wird zunehmend verwendet, um Smart Contracts zu schreiben, was oft subtile Fehler einführt, während sie gleichzeitig das einzige Werkzeug ist, das skalierbar genug ist, um das explodierende Volumen an Blockchain-Code zu auditieren.

Die Beteiligung von Paradigm deutet darauf hin, dass große institutionelle Akteure KI-Sicherheit nicht als Luxus, sondern als Voraussetzung für die Massenadaption von Stablecoins und dezentralen Finanzstrukturen betrachten. Wenn KI-Agenten autonome Zahlungen in Netzwerken wie Tempo abwickeln sollen, müssen sie resistent gegen gegnerische KI sein, die versucht, sie zu berauben.

Experten warnen, dass die „Exploit-Rate von 72 %“ wahrscheinlich eine Untergrenze und keine Obergrenze darstellt. Da Modelle weiter skalieren und Techniken wie „Chain-of-Thought“-Denken während der Inferenz nutzen, wird ihre Fähigkeit, obskure „Black Swan“-Schwachstellen zu finden, wahrscheinlich zunehmen.

Vorerst ist die Botschaft an Smart-Contract-Entwickler klar: Die KI, die Ihnen beim Schreiben Ihres Codes hilft, ist auch in der Lage, Sie zu berauben. Bis die defensiven Fähigkeiten aufholen, ist der einzige sichere Weg ein gründliches, von Menschen geführtes Auditing, ergänzt – aber nicht ersetzt – durch genau jene KI-Werkzeuge, die das System bedrohen.

Ausgewählt
Video Watermark Remover
AI Video Watermark Remover – Clean Sora 2 & Any Video Watermarks!
ThumbnailCreator.com
KI-gestütztes Tool zur schnellen und einfachen Erstellung beeindruckender, professioneller YouTube-Vorschaubilder.
AdsCreator.com
Erstellen Sie sofort aus jeder Website‑URL polierte, markenkonforme Werbemotive für Meta, Google und Stories.
Refly.ai
Refly.AI ermöglicht nicht‑technischen Kreativen, Arbeitsabläufe mit natürlicher Sprache und einer visuellen Leinwand zu automatisieren.
BGRemover
Entfernen Sie ganz einfach Hintergründe von Bildern online mit SharkFoto BGRemover.
Elser AI
All‑in‑one Web‑Studio, das Text und Bilder in Anime‑Kunst, Charaktere, Stimmen und Kurzfilme verwandelt.
Qoder
Qoder ist ein KI-gestützter Coding-Assistent, der Planung, Codierung und Tests für Softwareprojekte automatisiert.
Skywork.ai
Skywork AI ist ein innovatives Tool zur Steigerung der Produktivität mit KI.
Flowith
Flowith ist ein Canvas-basierter agentischer Arbeitsbereich, der kostenloses 🍌Nano Banana Pro und andere effektive Model
FineVoice
Verwandle Text in Emotion — Klone, designe und erstelle ausdrucksstarke KI-Stimmen in Sekundenschnelle.
VoxDeck
KI-Präsentations-Tool, das die visuelle Revolution anführt
FixArt AI
FixArt AI bietet kostenlose, uneingeschränkte KI-Tools zur Bild- und Videogenerierung ohne Anmeldung an.
SharkFoto
SharkFoto ist eine leistungsstarke All-in-One KI-Plattform zur effizienten Erstellung und Bearbeitung von Videos, Bildern und Musik.
Pippit
Steigern Sie Ihre Inhaltserstellung mit den leistungsstarken KI-Tools von Pippit!
Funy AI
Erwecke deine Fantasien zum Leben! Erstelle KI-Bikini- & Kuss-Videos aus Bildern/Text. Teste den KI-Kleidungswechsler. K
KiloClaw
Gehosteter OpenClaw-Agent: Ein-Klick-Bereitstellung, über 500 Modelle, sichere Infrastruktur und automatisiertes Agenten-Management für Teams und Entwickler.
Yollo AI
Chatten & erstellen mit Ihrem KI-Begleiter. Bild-zu-Video & KI-Bildgenerator.
AI Clothes Changer by SharkFoto
AI Clothes Changer von SharkFoto ermöglicht es Ihnen, Outfits sofort virtuell anzuprobieren – mit realistischer Passform, Textur und Beleuchtung.
SuperMaker AI Video Generator
Erstellen Sie mühelos atemberaubende Videos, Musik und Bilder mit SuperMaker.
AnimeShorts
Erstellen Sie mühelos atemberaubende Anime-Kurzfilme mit modernster KI-Technologie.
AI Video API: Seedance 2.0 Here
Einheitliche KI-Video-API, die Top-Generationsmodelle über einen einzigen Schlüssel zu geringeren Kosten anbietet.
WhatsApp AI Sales
WABot ist ein WhatsApp-AI-Vertriebs-Copilot, der Echtzeit-Skripte, Übersetzungen und Intent-Erkennung liefert.
insmelo AI Music Generator
KI-gestützter Musikgenerator, der Eingabeaufforderungen, Songtexte oder Uploads in etwa einer Minute in fertige, lizenzfreie Songs verwandelt.
BeatMV
Webbasierte KI-Plattform, die Lieder in cineastische Musikvideos verwandelt und mit KI Musik erstellt.
Wan 2.7
Professionelles KI-Videomodell mit präziser Bewegungssteuerung und Multi-View-Konsistenz.
Kirkify
Kirkify AI erstellt sofort virale Face-Swap-Memes mit charakteristischer Neon-Glitch-Ästhetik für Meme-Ersteller.
UNI-1 AI
UNI-1 ist ein einheitliches Bildgenerierungsmodell, das visuelle Schlussfolgerungen mit hochqualitativer Bildsynthese kombiniert.
Text to Music
Verwandeln Sie Text oder Songtexte in vollständige, studio‑taugliche Songs mit KI-generierten Gesangsstimmen, Instrumenten und Multi‑Track‑Exports.
Iara Chat
Iara Chat: Ein KI-gestützter Produktivitäts- und Kommunikationsassistent.
kinovi - Seedance 2.0 - Real Man AI Video
Kostenloser KI-Video-Generator mit realistisch wirkenden Menschen, ohne Wasserzeichen und mit vollständigen kommerziellen Nutzungsrechten.
Video Sora 2
Sora 2 AI verwandelt Text oder Bilder in kurze, physikalisch korrekte Social- und eCommerce-Videos in wenigen Minuten.
Tome AI PPT
KI-gestützter Präsentations-Generator, der in Minuten professionelle Folien erstellt, verschönert und exportiert.
Lyria3 AI
KI-Musikgenerator, der sofort hochwertige, vollständig produzierte Songs aus Textvorgaben, Liedtexten und Stilvorgaben erstellt.
Atoms
KI‑gesteuerte Plattform, die mit Multi‑Agenten‑Automatisierung in Minuten Full‑Stack‑Apps und Websites erstellt — kein Programmieren erforderlich.
AI Pet Video Generator
Erstellen Sie virale, teilbare Haustier‑Videos aus Fotos mithilfe KI‑gestützter Vorlagen und sofortigem HD‑Export für soziale Plattformen.
Paper Banana
KI-gestütztes Tool, das akademischen Text sofort in veröffentlichungsreife methodische Diagramme und präzise statistische Plots umwandelt.
Ampere.SH
Kostenloses verwaltetes OpenClaw‑Hosting. KI‑Agenten in 60 Sekunden mit $500 Claude‑Guthaben bereitstellen.
Palix AI
All‑in‑one AI‑Plattform für Creator, um mit einheitlichen Credits Bilder, Videos und Musik zu erzeugen.
HookTide
KI‑gestützte LinkedIn‑Wachstumsplattform, die deine Stimme lernt, um Inhalte zu erstellen, Interaktionen zu fördern und die Leistung zu analysieren.
GenPPT.AI
KI‑gestützter PPT‑Ersteller, der in Minuten professionelle PowerPoint‑Präsentationen mit Sprecherhinweisen und Diagrammen erstellt, verschönert und exportiert.
Hitem3D
Hitem3D wandelt ein einzelnes Bild mithilfe von KI in hochauflösende, produktionsbereite 3D-Modelle um.
Seedance 20 Video
Seedance 2 ist ein multimodaler KI-Video-Generator, der konsistente Charaktere, mehrszenige Erzählungen und nativen Ton in 2K liefert.
Free AI Video Maker & Generator
Kostenloser KI-Videoersteller & Generator – Unbegrenzt, keine Anmeldung erforderlich
Create WhatsApp Link
Kostenloser WhatsApp-Link- und QR‑Generator mit Analytics, gebrandeten Links, Routing und Multi‑Agent‑Chat‑Funktionen.
Gobii
Gobii ermöglicht Teams, rund um die Uhr autonome digitale Arbeitskräfte zu erstellen, um Webrecherche und Routineaufgaben zu automatisieren.
Veemo - AI Video Generator
Veemo AI ist eine All‑in‑One‑Plattform, die schnell hochwertige Videos und Bilder aus Text oder Bildern generiert.
ainanobanana2
Nano Banana 2 erzeugt in 4–6 Sekunden Pro‑Qualität 4K‑Bilder mit präziser Textrendering und Konsistenz der Motive.
AI FIRST
Konversationeller KI‑Assistent, der Forschung, Browseraufgaben, Web‑Scraping und Dateiverwaltung mittels natürlicher Sprache automatisiert.
GLM Image
GLM Image kombiniert hybride autoregressive und Diffusionsmodelle, um hochauflösende KI-Bilder mit außergewöhnlicher Textrendering-Qualität zu erzeugen.
AirMusic
AirMusic.ai erzeugt hochwertige KI-Musikstücke aus Textvorgaben mit Stil- und Stimmungsanpassung sowie Stem-Export.
WhatsApp Warmup Tool
Ein KI-gestütztes WhatsApp-Warmup-Tool automatisiert Massenversand und verhindert Kontosperrungen.
Manga Translator AI
AI Manga Translator übersetzt Manga-Bilder sofort online in mehrere Sprachen.
TextToHuman
Kostenloser AI-Humanizer, der AI-Text sofort in natürliches, menschlich wirkendes Schreiben umschreibt. Keine Anmeldung erforderlich.
Remy - Newsletter Summarizer
Remy automatisiert das Newsletter-Management, indem E-Mails in leicht verständliche Erkenntnisse zusammengefasst werden.
Telegram Group Bot
TGDesk ist ein All-in-One Telegram-Gruppen-Bot zum Erfassen von Leads, zur Steigerung der Interaktion und zum Wachstum von Communities.
FalcoCut
FalcoCut: webbasiertes KI‑Portal für Videoübersetzung, Avatar‑Videos, Voice‑Cloning, Gesichtstausch und Erstellung kurzer Videos.
SOLM8
KI‑Freundin, die du anrufst und mit der du chattest. Echte Sprachgespräche mit Gedächtnis. Jeder Moment mit ihr fühlt sich besonders an.

OpenAIs GPT-5.3-Codex nutzt Krypto-Smart-Contracts mit 72% Erfolgsrate in neuem Sicherheitsbenchmark aus

Das neueste KI-Modell von OpenAI zeigt eine alarmierende Fähigkeit, Kryptowährungs-Wallets zu leeren, indem es in 72% der Tests verwundbare Smart Contracts erfolgreich ausnutzt.