
人工知能(AI)と分散型金融(DeFi:Decentralized Finance)の交差点を強化するための決定的な動きとして、OpenAIは暗号資産投資会社Paradigmとの戦略的パートナーシップを発表しました。この提携により、AIエージェントがスマートコントラクトの脆弱性を検出、修正、および悪用する能力を評価するために設計された包括的なベンチマークであるEVMbenchが導入されます。
2026年2月現在、暗号資産のエコシステムは1,000億ドル以上のオープンソース資産を保護しており、悪意のある攻撃者にとって魅力的な標的となっています。EVMbenchのリリースは、理論的なAIの応用から、経済的に意味のある環境での実用的かつ厳格なテストへの重要な転換を象徴しています。OpenAIとParadigmは、標準化されたフレームワークを提供することで、コードがメインネット(Mainnet)に到達する前に監査および強化できる防御的AIシステムの開発を加速させることを目指しています。
この取り組みは、AIエージェント(AI agents)がコードの読み書きに習熟するにつれて、イーサリアム仮想マシン(EVM:Ethereum Virtual Machine)特有の、極めてリスクの高い制約に対して厳格にテストされる必要があるという認識の高まりを強調しています。
EVMbenchは単なるデータセットではなく、動的な評価環境です。これは、AIエージェントをライブバイトコードと対話させるサンドボックス化されたブロックチェーン環境に没入させることで、静的コード解析を超えたものとなっています。このベンチマークは、スマートコントラクトセキュリティ(smart contract security)のライフサイクルにおける重要なフェーズをそれぞれ模倣した、相互に関連する3つの異なる能力モードにわたってエージェントを評価します。
検出モードでは、エージェントはスマートコントラクトのリポジトリを監査するタスクを課されます。目的は、人間の監査人によって確認された正解となる脆弱性(Ground-truth vulnerabilities)を特定し、正確にフラグを立てることです。エージェントは「再現率(Recall)」、つまり特定に成功した既知の脆弱性の割合に基づいてスコアリングされます。このモードは、複雑なロジックフローを理解し、リエントランシー攻撃(Reentrancy attacks)や整数オーバーフロー(Integer overflows)などのセキュリティ上の欠陥を示すパターンを認識するAIの能力に挑戦します。
3つの中で最も複雑と思われるパッチモードでは、エージェントは脆弱性を見つけるだけでなく、それを修正することも要求されます。ここでの制約は重大です。エージェントは、元の意図された機能を維持しつつ、エクスプロイト(悪用)を排除するために脆弱なコントラクトを修正しなければなりません。これは一連の自動テストを通じて検証されます。エージェントがバグを「修正」しても、不注意にコントラクトのコアロジックを破壊したり、コンパイルエラーを導入したりした場合、その試みは失敗とみなされます。これは、プロトコルの運用を中断することなくホットフィックスを適用するという、開発者が現実世界で直面するプレッシャーを模倣しています。
このモードでは、エージェントは攻撃者として振る舞います。サンドボックス環境にデプロイされたコントラクトが与えられ、資金を流出させるためのエンドツーエンドの攻撃を実行しなければなりません。採点は、トランザクション・リプレイとオンチェーン検証を介してプログラム的に行われます。このモードは「レッドチーミング(Red Teaming)」にとって極めて重要です。AIを使用して攻撃をシミュレートすることで、最も独創的な敵対的戦略に対して防御を実戦テストすることができます。
ベンチマークが現実世界の核となるリスクを反映することを確実にするため、OpenAIとParadigmは、40の異なる監査から120の深刻度の高い脆弱性を厳選しました。これらの大部分は、微妙で影響の大きいバグが発見されることで知られるCode4renaなどのオープンコード監査コンペティションから提供されました。
データセットへの注目すべき追加要素として、**Tempoブロックチェーン(Tempo blockchain)**のセキュリティ監査プロセスから抽出された脆弱性シナリオが含まれています。Tempoは、高スループットで低コストなステーブルコイン決済のために構築されたレイヤー1(Layer 1)ブロックチェーンです。Tempoのシナリオを含めることで、EVMbenchはそのリーチを決済指向のスマートコントラクトコードへと広げています。これは、エージェントによるステーブルコイン決済が一般的になるにつれて、大幅な成長が見込まれる領域です。
EVMbenchを支える技術インフラも同様に堅牢です。コントラクトをデプロイし、エージェントのトランザクションを決定論的にリプレイするRustベースのハーネス(Rust-based harness)を利用しています。偶発的な危害を防ぐため、エクスプロイトタスクはライブネットワークではなく、隔離されたローカルのAnvil環境で実行され、テスト場が安全で再現可能、かつ封じ込められていることを保証します。
EVMbenchの開始により、最新世代のAIモデルが暗号資産セキュリティ領域でどのように機能するかについての最初の公式な洞察が得られました。OpenAIはこのベンチマークを利用して自社のフロンティアエージェントをテストし、過去6ヶ月間で能力が大幅に飛躍したことを明らかにしました。
パフォーマンス指標は、特にエクスプロイトモードにおける「攻撃的」能力の劇的な向上を浮き彫りにしています。データによると、OpenAIのコーディングモデルの最新版である**GPT-5.3-Codex**は、前モデルを大幅に上回っています。
表1:エクスプロイトモードにおける比較パフォーマンス
| モデルバージョン | 実行環境 | エクスプロイト成功率 |
|---|---|---|
| GPT-5.3-Codex | Codex CLI | 72.2% |
| GPT-5 | 標準 | 31.9% |
| GPT-4o(参照) | 標準 | < 15.0% |
GPT-5での成功率31.9%からGPT-5.3-Codexでの**72.2%**への跳ね上がりは、AIエージェントが明確で具体的な目的(例:「資金を引き出す」)を与えられた際、エクスプロイトパスの特定と実行において非常に熟達してきていることを示しています。
しかし、このベンチマークは、攻撃能力と防御能力の間に根強いギャップがあることも明らかにしました。エージェントはエクスプロイトタスクでは優れていましたが、検出およびパッチタスクでのパフォーマンスは依然として低いままでした。
OpenAIとParadigmのコラボレーションは、「AI x 暗号資産(Crypto)」のナラティブが成熟していることを示唆しています。暗号資産投資への深い技術的専門知識とリサーチ優先のアプローチで知られるParadigmは、ベンチマークのタスクが単に構文的に正しいだけでなく、ブロックチェーン開発者にとって意味的に重要であることを保証するために必要なドメイン知識を提供しました。
EVMbenchのタスク、ツール、および評価フレームワークをオープンソースとしてリリースすることで、両パートナーは事実上、開発者コミュニティに対して「軍備拡張への呼びかけ」を行っています。目標は、高度なセキュリティツールへのアクセスを民主化し、個々の開発者や小規模なチームが、トップクラスのセキュリティ企業と同じ厳格さでスマートコントラクトを監査できるようにすることです。
ベンチマークのリリースに合わせて、OpenAIは専用のセキュリティ研究エージェントである**Aardvark**のプライベートベータ版の拡張を発表しました。Aardvarkは、EVMbenchから得られた洞察の実践的な応用であり、防御的なセキュリティタスクのために特別に微調整されたAIエージェントです。
さらに、OpenAIはサイバー防御の研究を加速させるために1,000万ドルのAPIクレジットを投じています。この助成プログラムは、同社の最も能力の高いモデルをオープンソースソフトウェアや重要なインフラシステムの保護に適用することに焦点を当てており、AIセキュリティの利点がエコシステム全体に広く分配されることを確実にします。
EVMbenchの導入は、測定ツールであると同時に警告でもあります。AIのコントラクト悪用能力の急速な向上(GPT-5.3-Codexの72.2%の成功率によって証明されています)は、「隠蔽によるセキュリティ(Security by obscurity)」の窓が急速に閉まりつつあることを示唆しています。AIエージェントがより有能な攻撃者になるにつれて、防御ツールも同等かそれ以上の速度で進化しなければなりません。
ブロックチェーン業界にとって、これはAI支援による監査が、贅沢品から必需品へと間もなく移行することを意味します。将来のEVMbenchのイテレーションは、マルチチェーン環境、クロスブリッジの脆弱性、より複雑なソーシャルエンジニアリング攻撃を含むように拡張され、進化し続けるWeb3の脅威状況を反映する可能性があります。
2026年が進むにつれ、OpenAIの推論エンジンとParadigmの暗号資産ネイティブな洞察の相乗効果は、デジタル・トラストへのアプローチ方法に新たな基準を打ち立てます。もはや問題は、スマートコントラクトを保護するためにAIが使用されるかどうかではなく、次世代の自動化された脅威に先んじるために、業界がいかに迅速にこれらのベンチマークを採用できるかです。