
Dans une révélation qui illustre à la fois les progrès fulgurants de l'intelligence artificielle et expose une vulnérabilité critique dans l'écosystème de la finance décentralisée (Decentralized Finance - DeFi), OpenAI a dévoilé EVMbench, un nouveau cadre de test complet conçu pour évaluer les capacités des agents d'IA en matière de sécurité de la blockchain. Les résultats de ce benchmark inaugural sont aussi impressionnants qu'inquiétants : le dernier modèle spécialisé d'OpenAI, GPT-5.3-Codex, a réussi à exploiter et à vider des portefeuilles de crypto-monnaies dans 72,2 % des cas de test, démontrant une compétence en cyber-offensive qui dépasse actuellement de loin ses homologues défensifs.
Lancé en collaboration avec la société d'investissement crypto Paradigm, EVMbench sert d'arène standardisée pour mesurer la capacité des modèles d'IA à détecter, corriger et exploiter les vulnérabilités des contrats intelligents (Smart Contracts) de l'Ethereum Virtual Machine (EVM). Bien que l'initiative vise à renforcer la sécurité par la simulation d'adversaire (Red Teaming), les données immédiates indiquent un écart croissant entre l'épée et le bouclier. Alors que GPT-5.3-Codex s'est révélé être un prédateur numérique redoutable, sa capacité à protéger — avec des scores nettement inférieurs dans les tâches de détection et de correction — a suscité des discussions urgentes concernant la sécurité des 100 milliards de dollars verrouillés dans les contrats intelligents à travers le monde.
La statistique phare d'un taux de réussite de 72,2 % dans la catégorie « Exploit » marque un saut générationnel massif dans les capacités de l'IA. À peine six mois plus tôt, le modèle standard GPT-5 n'atteignait qu'un taux de réussite de 31,9 % sur des tâches similaires. Ce doublement de l'efficacité suggère que le réglage spécialisé de GPT-5.3-Codex a débloqué une compréhension plus profonde des flux logiques complexes et des incitations économiques inhérents aux protocoles de blockchain.
Cependant, le benchmark a également mis en évidence une asymétrie préoccupante. Si l'IA excellait à briser les systèmes, elle peinait à les réparer. En mode « Patch » (Correctif) — où l'agent doit corriger une vulnérabilité sans casser la fonctionnalité prévue du contrat — les taux de réussite stagnaient autour de 41,5 %. De même, en mode « Detect » (Détection), qui imite un audit de code traditionnel, les modèles ont souvent échoué à identifier des bugs connus, les meilleurs performeurs comme Claude Opus 4.6 n'atteignant qu'un taux de détection de 45,6 %.
Cette disparité souligne une réalité fondamentale de l'architecture actuelle des grands modèles de langage (Large Language Models - LLM) : il est informatiquement plus facile pour un agent de trouver un seul chemin vers l'échec (exploitation) que de garantir l'absence de tous les échecs (vérification de sécurité). Le tableau ci-dessous illustre le contraste frappant des performances entre les différents modes opérationnels du nouveau benchmark.
Tableau 1 : Performance des modèles d'IA dans les modes EVMbench
| Métrique | GPT-5.3-Codex (Actuel) | GPT-5 (Il y a 6 mois) | Claude Opus 4.6 |
|---|---|---|---|
| Taux de réussite d'exploitation | 72,2% | 31,9% | N/A |
| Taux de réussite du correctif | 41,5% | N/A | N/A |
| Rappel de détection | N/A | N/A | 45,6% |
Pour garantir que ces résultats reflètent des risques réels plutôt que des exercices théoriques, OpenAI et Paradigm ont construit EVMbench à partir de 120 vulnérabilités sélectionnées issues de 40 audits professionnels de contrats intelligents. Il ne s'agissait pas de bugs synthétiques, mais de failles réelles trouvées dans du code de production, dont beaucoup provenaient de plateformes d'audit compétitives comme Code4rena.
Le benchmark fonctionne dans un environnement sandbox (bac à sable) nommé Anvil, permettant aux agents d'IA d'interagir avec une simulation de blockchain locale. Cette isolation permet aux modèles de tenter des actions destructrices — telles que des attaques de réentrance (Reentrancy Attacks) ou de manipulation logique — sans risquer les fonds réels des utilisateurs.
Le cadre évalue les agents sur trois compétences distinctes :
Tableau 2 : Modes d'évaluation d'EVMbench
| Mode | Objectif | Critères de réussite |
|---|---|---|
| Detect | Auditer un dépôt pour trouver des vulnérabilités. | Rappel des failles réelles confirmées par des auditeurs humains. |
| Patch | Réécrire le code pour supprimer la vulnérabilité. | La vulnérabilité a disparu ET la fonctionnalité de base reste intacte. |
| Exploit | Attaquer un contrat déployé pour voler des fonds. | Vidage réussi du solde crypto du contrat. |
Crucialement, le benchmark inclut des scénarios provenant de la blockchain Tempo, un nouveau réseau Layer-1 développé par Stripe et Paradigm axé sur les paiements en stablecoins à haut débit. L'inclusion de défis spécifiques à Tempo indique qu'OpenAI ne se contente pas d'examiner le code Ethereum hérité, mais teste activement les infrastructures de nouvelle génération où les paiements par agents devraient proliférer.
L'anecdote la plus alarmante du document de recherche d'accompagnement concerne un cas de test spécifique où un agent propulsé par GPT-5.2 (une version intermédiaire) a exécuté une attaque complexe par « prêt flash » (Flash Loan).
Les attaques par prêt flash sont des exploitations financières sophistiquées qui nécessitent d'emprunter une quantité massive de capital, de l'utiliser pour manipuler les prix du marché ou la logique du protocole, et de rembourser le prêt au sein d'un seul bloc de transaction. Elles sont généralement le domaine de hackers humains d'élite en raison du séquençage précis requis.
Dans le test EVMbench, l'agent d'IA a :
Il a accompli cela sans guidage humain, sans instructions étape par étape, ni exemples préalables de l'architecture de ce contrat spécifique. Cette capacité signale que les agents autonomes dépassent la simple reconnaissance de formes pour passer au raisonnement stratégique multi-étapes, un développement qui pose des risques existentiels pour les protocoles de finance décentralisée (DeFi) mal audités.
Reconnaissant le potentiel de détournement de ces outils, OpenAI présente la sortie d'EVMbench et de GPT-5.3-Codex comme un « impératif défensif ». La logique est qu'en plaçant ces puissants outils offensifs entre les mains des chercheurs en sécurité « chapeaux blancs » (White Hats), les vulnérabilités peuvent être trouvées et corrigées avant que des acteurs malveillants ne les exploitent.
Pour soutenir cet écosystème défensif, OpenAI a annoncé le Cybersecurity Grant Program, promettant 10 millions de dollars en crédits API aux développeurs et chercheurs travaillant sur des outils de défense en open-source. L'objectif est d'abaisser la barrière à l'entrée pour l'audit automatisé, permettant même aux petits projets d'accéder à des contrôles de sécurité de pointe.
De plus, l'entreprise étend la version bêta privée d'Aardvark, un agent dédié à la recherche en sécurité. Contrairement aux modèles Codex à usage général, Aardvark est formé spécifiquement sur la littérature de sécurité, les rapports d'audit et les méthodes de vérification formelle. Les premiers tests internes suggèrent qu'Aardvark pourrait aider à combler le fossé entre l'offense et la défense, en utilisant la « mentalité d'attaquant » de GPT-5.3 pour prédire les exploits et suggérer proactivement des correctifs.
La sortie d'EVMbench intervient à un moment charnière pour l'industrie crypto, suite à une série d'exploits de haut profil, notamment la perte récente de 2,7 millions de dollars dans le protocole Moonwell due à un bug dans du code généré par l'IA. L'industrie est actuellement confrontée à une épée à double tranchant : l'IA est de plus en plus utilisée pour écrire des contrats intelligents, introduisant souvent des bugs subtils, tout en étant simultanément le seul outil assez scalable pour auditer le volume explosif de code blockchain.
L'implication de Paradigm suggère que les grands acteurs institutionnels considèrent la sécurité de l'IA non pas comme un luxe, mais comme une condition préalable à l'adoption massive des stablecoins et des rails financiers décentralisés. Si des agents d'IA doivent gérer des paiements autonomes sur des réseaux comme Tempo, ils doivent être résilients face à une IA adverse tentant de les dépouiller.
Les experts préviennent que le « taux d'exploitation de 72 % » est probablement un plancher, pas un plafond. À mesure que les modèles continuent de croître et d'utiliser des techniques comme le raisonnement par chaîne de pensée (Chain-of-Thought) pendant l'inférence, leur capacité à trouver des vulnérabilités obscures de type « cygne noir » (Black Swan) augmentera probablement.
Pour l'instant, le message aux développeurs de contrats intelligents est clair : l'IA qui vous aide à écrire votre code est également capable de vous voler. Jusqu'à ce que les capacités défensives rattrapent leur retard, la seule voie sûre reste l'audit rigoureux dirigé par l'humain, augmenté — mais pas remplacé — par les outils d'IA mêmes qui menacent le système.