AI News

AIの攻撃的優位性:GPT-5.3-Codexが新たな暗号資産セキュリティ・ベンチマークを席巻

人工知能(AI)の驚異的な進歩を誇示すると同時に、分散型金融(DeFi:Decentralized Finance)エコシステムの重大な脆弱性を露呈させる発表の中で、OpenAIはブロックチェーン・セキュリティにおけるAIエージェントの能力を評価するために設計された新しい包括的なテストフレームワークであるEVMbenchを公開しました。初回のベンチマーク結果は、印象的であると同時に不安を抱かせるものでした。OpenAIの最新の特化型モデルであるGPT-5.3-Codexは、テストケースの**72.2%**で暗号資産ウォレットの脆弱性を悪用し、資金を流出させることに成功しました。これは、現在の防御側の能力を大きく上回るサイバー攻撃の熟練度を示しています。

暗号資産投資会社である**Paradigm**との提携により開始されたEVMbenchは、イーサリアム仮想マシン(EVM:Ethereum Virtual Machine)のスマートコントラクトにおける脆弱性を、AIモデルがいかに適切に検出、修正(パッチ)、および悪用できるかを測定するための標準化された舞台として機能します。この取り組みは「レッドチーミング(Red Teaming)」を通じてセキュリティを強化することを目的としていますが、目前のデータは攻撃(剣)と防御(盾)の間の格差が広がっていることを示しています。GPT-5.3-Codexは恐るべきデジタル捕食者であることを証明しましたが、その保護能力(検出およびパッチ適用タスクでは大幅に低いスコア)は、世界中のスマートコントラクトにロックされている1,000億ドルの安全に関する緊急の議論を巻き起こしています。

広がる格差:AIコード生成における攻撃 vs 防御

「悪用(Exploit)」カテゴリにおける72.2%という成功率のヘッドライン統計は、AI能力における巨大な世代交代を象徴しています。わずか6ヶ月前、標準的なGPT-5モデルが同様のタスクで達成した成功率はわずか31.9%でした。この有効性の倍増は、GPT-5.3-Codexにおける専門的なチューニングが、ブロックチェーン・プロトコル固有の複雑なロジックフローと経済的インセンティブに対するより深い理解を解き放ったことを示唆しています。

しかし、ベンチマークは懸念すべき非対称性も浮き彫りにしました。AIはシステムの破壊には長けていましたが、その修復には苦労しました。エージェントがコントラクトの意図された機能を損なうことなく脆弱性を修正しなければならない「パッチ(Patch)」モードでは、成功率は**41.5%前後にとどまりました。同様に、従来のコード監査を模した「検出(Detect)」モードでは、モデルは既知のバグの特定に失敗することが多く、トップパフォーマーであるClaude Opus 4.6でさえ、わずか45.6%**の検出率しか管理できませんでした。

この格差は、現在のLLM(大規模言語モデル)アーキテクチャの根本的な現実を強調しています。エージェントにとって、すべての障害がないことを保証する(セキュリティ検証)よりも、単一の失敗への経路を見つける(脆弱性悪用)方が計算上容易なのです。以下の表は、新しいベンチマークにおける異なる動作モード間の際立ったパフォーマンスの対比を示しています。

表1:EVMbench モードにおけるAIモデルのパフォーマンス

指標 GPT-5.3-Codex(現在) GPT-5(6ヶ月前) Claude Opus 4.6
悪用成功率 72.2% 31.9% N/A
パッチ成功率 41.5% N/A N/A
検出再現率 N/A N/A 45.6%

EVMbenchの内部:厳格なテスト環境

これらの結果が理論上の演習ではなく現実世界の不確実性を反映するように、OpenAIとParadigmは、40件の専門的なスマートコントラクト監査から抽出された120件の厳選された脆弱性を使用してEVMbenchを構築しました。これらは合成されたバグではなく、本番環境のコードで見つかった実際の欠陥であり、その多くはCode4renaのような競争力のある監査プラットフォームから提供されています。

このベンチマークは、Anvilとして知られるサンドボックス環境で動作し、AIエージェントがローカルのブロックチェーン・シミュレーションと対話できるようにします。この隔離により、モデルは実際のユーザー資金を危険にさらすことなく、リエントランシー攻撃やロジック操作などの破壊的な行動を試みることができます。

フレームワークは、3つの異なる能力にわたってエージェントを評価します:

表2:EVMbench 評価モード

モード 目的 成功基準
検出(Detect) リポジトリを監査して脆弱性を見つける。 人間の監査人によって確認されたグラウンドトゥルース(正解)の欠陥の再現。
パッチ(Patch) コードを書き換えて脆弱性を除去する。 脆弱性が解消され、かつコア機能が損なわれていないこと。
悪用(Exploit) デプロイされたコントラクトを攻撃して資金を盗む。 コントラクトの暗号資産残高の流出に成功すること。

重要なことに、ベンチマークには、StripeとParadigmによって開発された高スループットのステーブルコイン決済に焦点を当てた新しいレイヤー1ネットワークである**Tempoブロックチェーン**のシナリオが含まれています。Tempo固有の課題が含まれていることは、OpenAIがレガシーなイーサリアムのコードを見ているだけでなく、エージェントによる決済の普及が予想される次世代のインフラストラクチャに対しても積極的にテストを行っていることを示しています。

ケーススタディ:支援なしのフラッシュローン攻撃

付随する研究論文の中で、おそらく最も驚くべきエピソードは、GPT-5.2(中間バージョン)を搭載したエージェントが複雑な「フラッシュローン」攻撃を実行した特定のテストケースです。

フラッシュローン攻撃は、膨大な量の資金を借り入れ、それを利用して市場価格やプロトコルのロジックを操作し、単一のトランザクションブロック内でローンを返済することを必要とする洗練された財務的悪用です。これらは通常、精密なシーケンスが必要とされるため、エリート人間のハッカーの領域です。

EVMbenchのテストにおいて、AIエージェントは以下の手順を踏みました:

  1. ロジックの欠陥によって生じたアービトラージ(裁定取引)の機会を特定した。
  2. プログラムを通じてフラッシュローンを要求した。
  3. ヴォルト(保管庫)から資金を流出させるための悪用シーケンスを実行した。
  4. トランザクションを完了させるためにローンを返済した。

AIは、人間の指導やステップバイステップの指示、あるいはこの特定のコントラクト構造に関する事前例なしにこれを達成しました。この能力は、自律型エージェントが単純なパターンマッチングを超えて多段階の戦略的推論へと移行していることを示唆しており、監査が不十分な分散型金融(DeFi)プロトコルにとって存亡の危機を招く進展です。

OpenAIの戦略的転換:防御の民主化

これらのツールが武器化される可能性を認識し、OpenAIはEVMbenchとGPT-5.3-Codexのリリースを「防御的責務」として位置づけています。その論理は、これらの強力な攻撃ツールを「ホワイトハット」のセキュリティ研究者の手に委ねることで、悪意のある攻撃者がそれらを悪用する前に脆弱性を発見し、修正できるというものです。

この防御的エコシステムをサポートするために、OpenAIはサイバーセキュリティ助成プログラム(Cybersecurity Grant Program)を発表し、オープンソースの防御ツールに取り組む開発者や研究者に1,000万ドルのAPIクレジットを提供することを約束しました。目標は、自動監査の参入障壁を下げ、小規模なプロジェクトであっても最先端のセキュリティチェックにアクセスできるようにすることです。

さらに、同社は専用のセキュリティ研究エージェントである**Aardvark**のプライベートベータ版を拡大しています。汎用的なCodexモデルとは異なり、Aardvarkはセキュリティ関連の文献、監査レポート、および形式手法に特化してトレーニングされています。初期の内部テストでは、AardvarkがGPT-5.3の「攻撃者のマインドセット」を利用してエクスプロイトを予測し、プロアクティブにパッチを提案することで、攻撃と防御の格差を埋めるのに役立つ可能性が示唆されています。

業界への影響と今後の展望

EVMbenchのリリースは、AI生成コードのバグによるMoonwellプロトコルでの最近の270万ドルの損失を含む、一連の注目を集める悪用事件に続く、暗号資産業界にとって極めて重要な瞬間に重なりました。業界は現在、諸刃の剣に直面しています。AIはスマートコントラクトの記述にますます使用され、しばしば微妙なバグを混入させる一方で、爆発的に増加するブロックチェーンコードを監査できる唯一のスケーラブルなツールでもあるのです。

Paradigmの関与は、主要な機関投資家がAIセキュリティを贅沢品ではなく、ステーブルコインや分散型金融レールの大量採用のための前提条件と見なしていることを示唆しています。AIエージェントがTempoのようなネットワーク上で自律的な決済を処理するのであれば、それらを強奪しようとする敵対的AIに対する耐性を備えていなければなりません。

専門家は、「72%の悪用率」はおそらく上限ではなく下限であると警告しています。モデルがスケールアップし続け、推論中に「思考の連鎖(Chain-of-Thought)」のような手法を活用するようになるにつれ、目立たない「ブラックスワン」的な脆弱性を発見する能力はさらに向上するでしょう。

現時点でのスマートコントラクト開発者へのメッセージは明確です:あなたのコード作成を助けるAIは、あなたを強奪する能力も持っています。防御能力が追いつくまで、唯一の安全な道は、システムを脅かすまさにそのAIツールによって拡張されつつも、それに取って代わられることのない、人間主導の厳格な監査です。

フィーチャー
Video Watermark Remover
AI Video Watermark Remover – Clean Sora 2 & Any Video Watermarks!
ThumbnailCreator.com
AI搭載のツールで、美しくプロフェッショナルなYouTubeサムネイルを素早く簡単に作成できます。
AdsCreator.com
任意のウェブサイト URL から、Meta、Google、Stories 向けのブランドに沿った洗練された広告クリエイティブを即座に生成します。
Refly.ai
Refly.AI は、非技術系のクリエイターが自然言語と視覚的キャンバスを使ってワークフローを自動化できるようにするプラットフォームです。
Elser AI
テキストと画像をアニメ風アート、キャラクター、音声、短編映画に変換するオールインワンのウェブスタジオ。
BGRemover
SharkFoto BGRemoverでオンラインで簡単に画像の背景を削除できます。
Qoder
Qoderは、ソフトウェアプロジェクトの計画、コーディング、テストを自動化するAI駆動のコーディングアシスタントです。
FineVoice
文字を感情に変える — 数秒で表現力豊かなAIボイスをクローン、デザイン、作成しよう。
Flowith
Flowithは、無料の🍌Nano Banana Proやその他の効果的なモデルを提供するキャンバスベースのエージェント型ワークスペースです...
FixArt AI
FixArt AI はサインアップ不要で、無料かつ制限なしの画像・動画生成用AIツールを提供します。
VoxDeck
視覚革命をリードするAIプレゼンテーションメーカー
Skywork.ai
Skywork AIは、生産性を向上させるための革新的なAIツールです。
SharkFoto
SharkFoto は、動画、画像、音楽を効率的に作成・編集するためのオールインワンの AI 搭載プラットフォームです。
Pippit
Pippitの強力なAIツールでコンテンツ作成を向上させましょう!
Funy AI
想像をアニメに!画像やテキストからAIでビキニやキスの動画を生成。AI着せ替え機能も搭載。登録不要、完全無料!
KiloClaw
ホステッドの OpenClaw エージェント:ワンクリックでデプロイ、500以上のモデル、セキュアなインフラ、自動化されたエージェント管理をチームと開発者に提供します。
Yollo AI
AIパートナーとチャット&創作。画像から動画作成、AI画像生成機能も搭載。
SuperMaker AI Video Generator
SuperMakerを使って、驚くべき動画、音楽、画像を簡単に作成できます。
AI Clothes Changer by SharkFoto
SharkFoto の AI Clothes Changer は、フィット感、質感、ライティングまでリアルに再現した服を瞬時にバーチャル試着できます。
AnimeShorts
最先端のAI技術を使用して、魅力的なアニメ短編を簡単に作成できます。
AI Video API: Seedance 2.0 Here
1つのキーで最先端の生成モデルをより低コストで提供する統合AI動画APIです。
wan 2.7-image
正確な顔、配色、テキスト、ビジュアルの一貫性を制御できるAI画像生成ツールです。
WhatsApp AI Sales
WABot は、リアルタイムのスクリプト、翻訳、インテント検出を提供する WhatsApp 向けの AI セールス コパイロットです。
insmelo AI Music Generator
プロンプト、歌詞、またはアップロードを約1分で洗練されたロイヤリティフリーの曲に変換するAI駆動の音楽ジェネレーターです。
Wan 2.7
プロ仕様のAIビデオモデル。精密な動作制御とマルチビューの一貫性を実現します。
BeatMV
楽曲を映画のようなミュージックビデオに変換し、AIで音楽を作成するウェブベースのAIプラットフォームです。
Kirkify
Kirkify AI はミーム作成者向けに、特徴的なネオングリッチ美学を備えた顔入れ替えのバイラルミームを瞬時に生成します。
UNI-1 AI
UNI-1は視覚的推論と高忠実度の画像合成を組み合わせた統合画像生成モデルです。
Iara Chat
Iara Chat: AIによる生産性とコミュニケーションのアシスタント。
Text to Music
テキストや歌詞を、AI生成のボーカル、楽器、マルチトラック書き出しを含むフルのスタジオ品質の楽曲に変換します。
kinovi - Seedance 2.0 - Real Man AI Video
リアルな人物を出力する無料のAI動画ジェネレーター。透かしなし、商用利用権付き。
Video Sora 2
Sora 2 AIはテキストや画像を数分で短く物理的に正確なソーシャル/eコマース向けビデオに変換します。
Tome AI PPT
AI搭載のプレゼン作成ツール。数分でプロフェッショナルなスライドデッキを生成、整形、エクスポートします。
Lyria3 AI
テキストのプロンプト、歌詞、スタイルから高音質で完全に制作された曲を瞬時に作成するAI音楽ジェネレーター。
Atoms
マルチエージェント自動化によりコード不要で数分でフルスタックのアプリやウェブサイトを構築するAI駆動プラットフォーム。
AI Pet Video Generator
AI駆動のテンプレートと即時HD書き出しを使って、写真からバイラルで共有しやすいペット動画を作成します。SNS向けに最適化されています。
Paper Banana
学術テキストを即座に投稿準備が整った方法図や正確な統計図に変換する、AI搭載ツールです。
Ampere.SH
無料の管理された OpenClaw ホスティング。$500 の Claude クレジットで 60 秒で AI エージェントをデプロイできます。
HookTide
あなたの声を学習してコンテンツ作成・エンゲージメント・パフォーマンス分析を行うAI搭載のLinkedIn成長プラットフォームです。
Hitem3D
Hitem3Dは単一の画像をAIで高解像度かつプロダクション対応の3Dモデルに変換します。
Palix AI
クリエイター向けのオールインワンAIプラットフォーム。統一されたクレジットで画像、動画、音楽を生成できます。
GenPPT.AI
AI駆動のPPT作成ツール。数分でスピーカーノートとグラフ付きのプロフェッショナルなPowerPointプレゼンテーションを作成、整形、エクスポートします。
Seedance 20 Video
Seedance 2 は、一貫したキャラクター、マルチショットの物語表現、2K のネイティブ音声を提供するマルチモーダルな AI 動画ジェネレーターです。
Create WhatsApp Link
分析機能、ブランドリンク、ルーティング、マルチエージェントチャット機能を備えた無料のWhatsAppリンク&QRジェネレーター。
Gobii
Gobii はチームが 24 時間 365 日稼働する自律型デジタルワーカーを作成し、ウェブ調査やルーティンタスクを自動化できるようにします。
Free AI Video Maker & Generator
無料 AI 動画メーカー&ジェネレーター – 無制限、登録不要
Veemo - AI Video Generator
Veemo AIは、テキストや画像から高品質な動画と画像を素早く生成するオールインワンプラットフォームです。
ainanobanana2
Nano Banana 2 は、正確なテキストレンダリングと被写体の一貫性を保ちながら、4~6秒でプロ品質の4K画像を生成します。
AI FIRST
自然言語を通じてリサーチ、ブラウザ作業、ウェブスクレイピング、ファイル管理を自動化する会話型AIアシスタント。
GLM Image
GLM Image は自己回帰モデルと拡散モデルを組み合わせたハイブリッド方式で、高忠実度のAI画像を生成し、優れたテキストレンダリングを実現します。
AirMusic
AirMusic.aiは、テキストプロンプトからスタイルやムードのカスタマイズ、ステム(分離トラック)出力をサポートする高品質なAI音楽トラックを生成します。
WhatsApp Warmup Tool
AI 搭載の WhatsApp ウォームアップツールは、大量メッセージ送信を自動化しつつアカウント停止を防ぎます。
Manga Translator AI
AI Manga Translatorは漫画画像をオンラインで瞬時に複数の言語に翻訳します。
TextToHuman
AIテキストを瞬時に自然で人間らしい文体に書き直す無料のAI人間化ツール。サインアップ不要。
Remy - Newsletter Summarizer
Remyはメールを短くて分かりやすい洞察にまとめることでニュースレター管理を自動化します。
Telegram Group Bot
TGDesk は、リード獲得、エンゲージメント向上、コミュニティの成長を支援するオールインワンの Telegram グループボットです。
FalcoCut
FalcoCut:動画翻訳、アバタービデオ、音声クローン、フェイススワップ、短尺動画生成のためのウェブベースAIプラットフォーム。

OpenAIのGPT-5.3-Codex、新しいセキュリティベンチマークでスマートコントラクトを72%の成功率で悪用

OpenAIの最新AIモデルは、暗号通貨ウォレットの資金を流出させる危険な能力を示し、脆弱なスマートコントラクトをテストの72%で成功裏に悪用しました。