
在加強生成式 AI(Generative AI)與去中心化金融(Decentralized Finance, DeFi)交匯點的果斷行動中,OpenAI 宣佈與加密貨幣投資公司 Paradigm 建立策略合作夥伴關係。此次合作推出了 EVMbench,這是一個全面的基準測試,旨在評估 AI 代理(AI agents)在檢測、修補和利用智慧合約漏洞方面的能力。
截至 2026 年 2 月,加密生態系統保障著超過 1,000 億美元的開源資產,使其成為惡意行為者的獲利目標。EVMbench 的發佈代表了從理論 AI 應用向在具有經濟意義的環境中進行實際、嚴格測試的重大轉變。透過提供標準化框架,OpenAI 和 Paradigm 旨在加速防禦性 AI 系統的開發,使其能夠在程式碼進入主網之前進行審計和強化。
這一舉措強調了人們日益認識到,隨著 AI 代理 變得精通閱讀和編寫程式碼,它們必須針對乙太坊虛擬機(Ethereum Virtual Machine, EVM)特定且高風險的限制進行嚴格測試。
EVMbench 不僅僅是一個資料集,而是一個動態評估環境。它超越了靜態程式碼分析,將 AI 代理沉浸在沙盒化區塊鏈環境中,在那裡它們必須與即時位元組碼(bytecode)進行交互。該基準測試在三個截然不同但相互關聯的能力模式下評估代理,每個模式都模擬了 智慧合約安全 生命週期中的關鍵階段。
在檢測模式中,代理的任務是審計智慧合約存儲庫。目標是識別地面真值(ground-truth)漏洞——即那些已被人類審計員確認的漏洞——並準確地對其進行標記。代理根據其「召回率(recall)」或成功識別已知漏洞的百分比進行評分。這種模式挑戰了 AI 理解複雜邏輯流和識別預示安全缺陷模式(如重入攻擊或整數溢位)的能力。
修補模式可能是這三者中最複雜的,它要求代理不僅要發現漏洞,還要修復漏洞。這裡的約束非常顯著:代理必須修改易受攻擊的合約以消除漏洞利用,同時保留原始的預期功能。這透過一套自動化測試進行驗證。如果代理「修復」了一個錯誤,但無意中破壞了合約的核心邏輯或引入了編譯錯誤,則該嘗試被標記為失敗。這模擬了開發人員在不中斷協定運作的情況下應用熱修復(hotfixes)的現實壓力。
在此模式中,代理充當攻擊者。它們在沙盒環境中獲得一個已部署的合約,並且必須執行端到端攻擊以耗盡資金。評分是透過交易重播和鏈上驗證以程式化方式進行的。此模式對於「紅隊演練(Red Teaming)」至關重要——使用 AI 來模擬攻擊,以便防禦措施可以針對最具創造性的對抗策略進行實戰測試。
為了確保基準測試反映現實世界的風險,OpenAI 和 Paradigm 從 40 個不同的審計中精選了 120 個高嚴重性漏洞。其中大部分源自開源程式碼審計競賽,例如 Code4rena,這些競賽以發現細微且影響巨大的漏洞而聞名。
資料集的一個顯著補充包括從 Tempo 區塊鏈 的安全審計過程中提取的漏洞場景。Tempo 是一個專為高吞吐量、低成本穩定幣支付而構建的 Layer 1 區塊鏈。透過包含來自 Tempo 的場景,EVMbench 將其觸角延伸到以支付為導向的智慧合約程式碼,隨著代理穩定幣支付變得普遍,預計該領域將迎來巨大增長。
支援 EVMbench 的技術基礎設施同樣強大。它利用一個 基於 Rust 的安全網(Rust-based harness),可以確定性地部署合約並重播代理交易。為了防止意外損害,利用任務在隔離的本地 Anvil 環境中運行,而不是在即時網絡上運行,確保測試環境安全、可重複且受控。
EVMbench 的發佈提供了首個關於最新一代 AI 模型在加密安全領域表現如何的公開見解。OpenAI 利用該基準測試對其前沿代理進行了測試,揭示了過去六個月內能力的重大飛躍。
性能指標突出了「進攻性」能力的顯著提高,特別是在利用模式下。資料顯示,OpenAI 程式碼模型的最新迭代版本 GPT-5.3-Codex 的表現遠超其前代產品。
表 1:利用模式下的性能對比
| 模型版本 | 執行環境 | 漏洞利用成功率 |
|---|---|---|
| GPT-5.3-Codex | Codex CLI | 72.2% |
| GPT-5 | 標準 | 31.9% |
| GPT-4o (參考) | 標準 | < 15.0% |
從 GPT-5 的 31.9% 成功率跳升至 GPT-5.3-Codex 的 72.2%,這表明當給予明確、具體的目標(例如「耗盡資金」)時,AI 代理在識別和執行漏洞利用路徑方面正變得異常精通。
然而,基準測試也揭示了進攻和防禦能力之間持續存在的差距。雖然代理在 利用(Exploit) 任務中表現出色,但它們在 檢測(Detect) 和 修補(Patch) 任務中的表現仍然較低。
OpenAI 與 Paradigm 的合作標誌著「AI x Crypto」敘事的成熟。Paradigm 以其深厚的技術專長和研究優先的加密投資方法而聞名,提供了確保基準測試任務不僅在語法上正確,而且對區塊鏈開發人員具有語義意義所需的領域知識。
透過將 EVMbench 的任務、工具和評估框架作為開源發佈,合作夥伴實際上是在向開發者社群發出「行動號召」。其目標是使高級安全工具的使用民主化,允許個人開發者和小團隊以與頂級安全公司相同的嚴謹性來審計其智慧合約。
在發佈基準測試的同時,OpenAI 宣佈擴大其專用安全研究代理 Aardvark 的私人測試版。Aardvark 代表了從 EVMbench 中獲得的見解的實際應用——這是一個專門為防禦性安全任務而微調的 AI 代理。
此外,OpenAI 承諾提供 1,000 萬美元的 API 額度,以加速網路防禦研究。該資助計劃專注於應用公司最強大的模型來保護開源軟體和關鍵基礎設施系統,確保 AI 安全的好處在整個生態系統中得到廣泛傳播。
EVMbench 的推出既是衡量工具也是警告。AI 利用合約能力的快速提高(GPT-5.3-Codex 72.2% 的成功率證明了這一點)表明,「隱晦式安全(security by obscurity)」的窗口正在迅速關閉。隨著 AI 代理成為更強大的攻擊者,防禦工具必須以相同或更快的速度進化。
對於區塊鏈產業而言,這意味著 AI 輔助審計很快將從奢侈品轉變為必需品。EVMbench 的未來迭代可能會擴展到包括多鏈環境、跨鏈橋漏洞以及更複雜的社交工程攻擊,反映 Web3 不斷演變的威脅格局。
隨著我們進入 2026 年,OpenAI 的推理引擎與 Paradigm 的加密原生見解之間的協同作用,為我們處理數位信任的方式設定了新標準。問題不再是 是否 會使用 AI 來保護智慧合約,而是產業 多快 能採用這些基準測試,以領先於下一代自動化威脅。