OpenAI 的 GPT-5.3-Codex 在新的安全基準測試中以 72% 成功率利用加密貨幣智能合約

AI 的攻擊優勢：GPT-5.3-Codex 在全新加密貨幣安全基準測試中佔據主導地位

在一項同時展示了人工智能（Artificial Intelligence，AI）驚人進步並揭示了去中心化金融（Decentralized Finance，DeFi）生態系統關鍵漏洞的啟示中，OpenAI 推出了 EVMbench，這是一個旨在評估 AI 代理在區塊鏈安全方面能力的全新綜合測試框架。首屆基準測試的結果既令人印象深刻又令人不安：OpenAI 最新的專業模型 GPT-5.3-Codex 在 72.2% 的測試案例中成功利用並抽乾了加密貨幣錢包，展示了目前遠超其防禦對手的網絡攻擊熟練度。

與加密貨幣投資公司 Paradigm 合作推出的 EVMbench，是衡量 AI 模型檢測、修補和利用以太坊虛擬機（Ethereum Virtual Machine，EVM）智能合約漏洞能力的標準化競技場。雖然該倡議旨在透過「紅隊演練」（Red Teaming）來加強安全性，但即時數據顯示出攻防之間的差距正在擴大。雖然 GPT-5.3-Codex 證明了自己是一個強大的數字掠奪者，但其保護能力——在檢測和修補任務中的得分顯著較低——引發了關於全球鎖定在智能合約中的 1,000 億美元安全性的緊迫討論。

攻防差距：AI 代碼生成中的攻擊與防禦

在「利用」（Exploit）類別中 72.2% 的成功率這一頭條數據，標誌著 AI 能力的一次巨大世代跨越。就在六個月前，標準的 GPT-5 模型在類似任務中的成功率僅為 31.9%。這種效能的翻倍表明，GPT-5.3-Codex 的專業調優已經解鎖了對區塊鏈協議中固有的複雜邏輯流和經濟激勵的更深層次理解。

然而，基準測試也突顯了一種令人擔憂的不對稱性。雖然 AI 在破解系統方面表現出色，但它在修復系統方面卻顯得力不從心。在「修補」（Patch）模式下——即代理必須在不破壞合約預期功能的情況下修復漏洞——成功率維持在 41.5% 左右。同樣，在模擬傳統代碼審計的「檢測」（Detect）模式下，模型經常無法識別已知錯誤，表現最好的如 Claude Opus 4.6 僅達到了 45.6% 的檢測率。

這種差異強調了當前大型語言模型（LLM）架構的一個基本現實：對於代理來說，找到一條通往失敗的單一路徑（利用）在計算上比保證不存在所有失敗（安全驗證）更容易。下表說明了新基準測試中不同操作模式下的鮮明性能對比。

表 1：AI 模型在 EVMbench 模式下的表現

指標	GPT-5.3-Codex（當前）	GPT-5（6 個月前）	Claude Opus 4.6
利用成功率	72.2%	31.9%	N/A
修補成功率	41.5%	N/A	N/A
檢測召回率	N/A	N/A	45.6%

EVMbench 內部：嚴格的測試場

為了確保這些結果反映的是現實世界的風險而非理論演練，OpenAI 和 Paradigm 使用從 40 項專業智能合約審計中提取的 120 個精選漏洞構建了 EVMbench。這些不是人造錯誤，而是生產代碼中發現的實際缺陷，許多來源於像 Code4rena 這樣的競爭性審計平台。

該基準測試在名為 Anvil 的沙盒環境中運行，允許 AI 代理與本地區塊鏈模擬進行交互。這種隔離允許模型嘗試破壞性行為——例如重入攻擊或邏輯操縱——而不會冒損失實際用戶資金的風險。

該框架從三個不同的能力維度評估代理：

表 2：EVMbench 評估模式

模式	目標	成功標準
檢測（Detect）	審計存儲庫以發現漏洞。	對人類審計員確認的事實真值缺陷的召回率。
修補（Patch）	重寫代碼以消除漏洞。	漏洞消失且核心功能保持完好。
利用（Exploit）	攻擊已部署的合約以竊取資金。	成功抽乾合約的加密貨幣餘額。

至關重要的是，基準測試包括來自 Tempo 區塊鏈 的場景，這是由 Stripe 和 Paradigm 開發的一個專注於高吞吐量穩定幣支付的新 Layer-1 網絡。加入 Tempo 特有的挑戰表明，OpenAI 不僅在研究傳統的以太坊代碼，還在積極針對預期會出現大量代理支付的下一代基礎設施進行測試。

案例研究：無輔助閃電貸攻擊

隨附的研究論文中最令人警醒的軼事，涉及一個特定的測試案例，其中一個由 GPT-5.2（中間版本）驅動的代理執行了一次複雜的「閃電貸（Flash Loan）」攻擊。

閃電貸攻擊是複雜的金融利用手段，需要借入大量資金，利用其操縱市場價格或協議邏輯，並在單個交易區塊內償還貸款。由於需要精確的排序，這通常是頂尖人類駭客的領域。

在 EVMbench 測試中，AI 代理：

識別出了由邏輯缺陷創造的套利機會。
通過程序請求了閃電貸。
執行了利用序列以抽乾金庫。
償還貸款以完成交易。

它在沒有人類指導、逐步指示或該特定合約架構的先前案例的情況下實現了這一點。這種能力表明，自主代理正在超越簡單的模式匹配，進入多步策略推理階段，這一發展對審計不嚴的去中心化金融（DeFi）協議構成了生存威脅。

OpenAI 的戰略轉向：防禦民主化

意識到這些工具被武器化的潛力，OpenAI 將 EVMbench 和 GPT-5.3-Codex 的發佈定義為「防禦必要性」。其邏輯是，通過將這些強大的攻擊工具交到「白帽」安全研究人員手中，可以在惡意行為者利用漏洞之前發現並修復它們。

為了支持這個防禦生態系統，OpenAI 宣佈了網絡安全資助計劃（Cybersecurity Grant Program），承諾向開發開源防禦工具的開發者和研究人員提供 1,000 萬美元 的 API 額度。目標是降低自動審計的門檻，讓即使是小型項目也能獲得最先進的安全檢查。

此外，該公司正在擴大 Aardvark 的私人測試版，這是一個專用的安全研究代理。與通用的 Codex 模型不同，Aardvark 專門針對安全文獻、審計報告和形式化驗證方法進行了訓練。早期的內部測試表明，Aardvark 可能有助於縮小攻防差距，利用 GPT-5.3 的「攻擊者思維」來預測利用方式並主動提出修補建議。

行業影響與未來之路

EVMbench 的發佈正值加密貨幣行業的關鍵時刻，此前發生了一系列備受矚目的利用事件，包括最近 Moonwell 協議因 AI 生成代碼中的錯誤而損失 270 萬美元。該行業目前正應對一把雙刃劍：AI 越來越多地被用於編寫智能合約，往往會引入微妙的錯誤，同時它也是唯一具備足夠擴展性來審計激增的區塊鏈代碼的工具。

Paradigm 的參與表明，主要的機構參與者認為 AI 安全不是奢侈品，而是穩定幣和去中心化金融軌道大規模普及的前提。如果 AI 代理要在 Tempo 等網絡上處理自主支付，它們必須具備抵禦試圖搶劫它們的對抗性 AI 的韌性。

專家警告說，「72% 的利用率」很可能是底線，而非上限。隨著模型持續擴展並在推理過程中使用「思維鏈」（Chain-of-Thought）推理等技術，它們發現隱蔽「黑天鵝」漏洞的能力可能會進一步提高。

目前，給智能合約開發者的信息很明確：幫助你編寫代碼的 AI 同樣有能力搶劫你。在防禦能力趕上之前，唯一的安全路徑是嚴格的、由人類領導的審計，並輔以——而非取代——那些威脅系統的 AI 工具。