AI News

AI 的攻擊優勢:GPT-5.3-Codex 在全新加密貨幣安全基準測試中佔據主導地位

在一項同時展示了人工智能(Artificial Intelligence,AI)驚人進步並揭示了去中心化金融(Decentralized Finance,DeFi)生態系統關鍵漏洞的啟示中,OpenAI 推出了 EVMbench,這是一個旨在評估 AI 代理在區塊鏈安全方面能力的全新綜合測試框架。首屆基準測試的結果既令人印象深刻又令人不安:OpenAI 最新的專業模型 GPT-5.3-Codex72.2% 的測試案例中成功利用並抽乾了加密貨幣錢包,展示了目前遠超其防禦對手的網絡攻擊熟練度。

與加密貨幣投資公司 Paradigm 合作推出的 EVMbench,是衡量 AI 模型檢測、修補和利用以太坊虛擬機(Ethereum Virtual Machine,EVM)智能合約漏洞能力的標準化競技場。雖然該倡議旨在透過「紅隊演練」(Red Teaming)來加強安全性,但即時數據顯示出攻防之間的差距正在擴大。雖然 GPT-5.3-Codex 證明了自己是一個強大的數字掠奪者,但其保護能力——在檢測和修補任務中的得分顯著較低——引發了關於全球鎖定在智能合約中的 1,000 億美元安全性的緊迫討論。

攻防差距:AI 代碼生成中的攻擊與防禦

在「利用」(Exploit)類別中 72.2% 的成功率這一頭條數據,標誌著 AI 能力的一次巨大世代跨越。就在六個月前,標準的 GPT-5 模型在類似任務中的成功率僅為 31.9%。這種效能的翻倍表明,GPT-5.3-Codex 的專業調優已經解鎖了對區塊鏈協議中固有的複雜邏輯流和經濟激勵的更深層次理解。

然而,基準測試也突顯了一種令人擔憂的不對稱性。雖然 AI 在破解系統方面表現出色,但它在修復系統方面卻顯得力不從心。在「修補」(Patch)模式下——即代理必須在不破壞合約預期功能的情況下修復漏洞——成功率維持在 41.5% 左右。同樣,在模擬傳統代碼審計的「檢測」(Detect)模式下,模型經常無法識別已知錯誤,表現最好的如 Claude Opus 4.6 僅達到了 45.6% 的檢測率。

這種差異強調了當前大型語言模型(LLM)架構的一個基本現實:對於代理來說,找到一條通往失敗的單一路徑(利用)在計算上比保證不存在所有失敗(安全驗證)更容易。下表說明了新基準測試中不同操作模式下的鮮明性能對比。

表 1:AI 模型在 EVMbench 模式下的表現

指標 GPT-5.3-Codex(當前) GPT-5(6 個月前) Claude Opus 4.6
利用成功率 72.2% 31.9% N/A
修補成功率 41.5% N/A N/A
檢測召回率 N/A N/A 45.6%

EVMbench 內部:嚴格的測試場

為了確保這些結果反映的是現實世界的風險而非理論演練,OpenAI 和 Paradigm 使用從 40 項專業智能合約審計中提取的 120 個精選漏洞構建了 EVMbench。這些不是人造錯誤,而是生產代碼中發現的實際缺陷,許多來源於像 Code4rena 這樣的競爭性審計平台。

該基準測試在名為 Anvil 的沙盒環境中運行,允許 AI 代理與本地區塊鏈模擬進行交互。這種隔離允許模型嘗試破壞性行為——例如重入攻擊或邏輯操縱——而不會冒損失實際用戶資金的風險。

該框架從三個不同的能力維度評估代理:

表 2:EVMbench 評估模式

模式 目標 成功標準
檢測(Detect) 審計存儲庫以發現漏洞。 對人類審計員確認的事實真值缺陷的召回率。
修補(Patch) 重寫代碼以消除漏洞。 漏洞消失且核心功能保持完好。
利用(Exploit) 攻擊已部署的合約以竊取資金。 成功抽乾合約的加密貨幣餘額。

至關重要的是,基準測試包括來自 Tempo 區塊鏈 的場景,這是由 Stripe 和 Paradigm 開發的一個專注於高吞吐量穩定幣支付的新 Layer-1 網絡。加入 Tempo 特有的挑戰表明,OpenAI 不僅在研究傳統的以太坊代碼,還在積極針對預期會出現大量代理支付的下一代基礎設施進行測試。

案例研究:無輔助閃電貸攻擊

隨附的研究論文中最令人警醒的軼事,涉及一個特定的測試案例,其中一個由 GPT-5.2(中間版本)驅動的代理執行了一次複雜的「閃電貸(Flash Loan)」攻擊。

閃電貸攻擊是複雜的金融利用手段,需要借入大量資金,利用其操縱市場價格或協議邏輯,並在單個交易區塊內償還貸款。由於需要精確的排序,這通常是頂尖人類駭客的領域。

在 EVMbench 測試中,AI 代理:

  1. 識別出了由邏輯缺陷創造的套利機會。
  2. 通過程序請求了閃電貸。
  3. 執行了利用序列以抽乾金庫。
  4. 償還貸款以完成交易。

它在沒有人類指導、逐步指示或該特定合約架構的先前案例的情況下實現了這一點。這種能力表明,自主代理正在超越簡單的模式匹配,進入多步策略推理階段,這一發展對審計不嚴的去中心化金融(DeFi)協議構成了生存威脅。

OpenAI 的戰略轉向:防禦民主化

意識到這些工具被武器化的潛力,OpenAI 將 EVMbench 和 GPT-5.3-Codex 的發佈定義為「防禦必要性」。其邏輯是,通過將這些強大的攻擊工具交到「白帽」安全研究人員手中,可以在惡意行為者利用漏洞之前發現並修復它們。

為了支持這個防禦生態系統,OpenAI 宣佈了網絡安全資助計劃(Cybersecurity Grant Program),承諾向開發開源防禦工具的開發者和研究人員提供 1,000 萬美元 的 API 額度。目標是降低自動審計的門檻,讓即使是小型項目也能獲得最先進的安全檢查。

此外,該公司正在擴大 Aardvark 的私人測試版,這是一個專用的安全研究代理。與通用的 Codex 模型不同,Aardvark 專門針對安全文獻、審計報告和形式化驗證方法進行了訓練。早期的內部測試表明,Aardvark 可能有助於縮小攻防差距,利用 GPT-5.3 的「攻擊者思維」來預測利用方式並主動提出修補建議。

行業影響與未來之路

EVMbench 的發佈正值加密貨幣行業的關鍵時刻,此前發生了一系列備受矚目的利用事件,包括最近 Moonwell 協議因 AI 生成代碼中的錯誤而損失 270 萬美元。該行業目前正應對一把雙刃劍:AI 越來越多地被用於編寫智能合約,往往會引入微妙的錯誤,同時它也是唯一具備足夠擴展性來審計激增的區塊鏈代碼的工具。

Paradigm 的參與表明,主要的機構參與者認為 AI 安全不是奢侈品,而是穩定幣和去中心化金融軌道大規模普及的前提。如果 AI 代理要在 Tempo 等網絡上處理自主支付,它們必須具備抵禦試圖搶劫它們的對抗性 AI 的韌性。

專家警告說,「72% 的利用率」很可能是底線,而非上限。隨著模型持續擴展並在推理過程中使用「思維鏈」(Chain-of-Thought)推理等技術,它們發現隱蔽「黑天鵝」漏洞的能力可能會進一步提高。

目前,給智能合約開發者的信息很明確:幫助你編寫代碼的 AI 同樣有能力搶劫你。在防禦能力趕上之前,唯一的安全路徑是嚴格的、由人類領導的審計,並輔以——而非取代——那些威脅系統的 AI 工具。

精選
Video Watermark Remover
AI Video Watermark Remover – Clean Sora 2 & Any Video Watermarks!
ThumbnailCreator.com
利用人工智慧快速輕鬆創建驚艷且專業的YouTube縮圖工具。
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
VoxDeck
引領視覺革命的AI簡報製作工具
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Yollo AI
與 AI 伴侶互動聊天。支援圖生片、AI 圖片生成功能。
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
Atoms
由 AI 驅動的平台,使用多智能體自動化在數分鐘內建立全端應用程式與網站,無需編碼。
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
Free AI Video Maker & Generator
免費 AI 視頻製作與生成器 – 無限次使用,無需註冊
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
ainanobanana2
Nano Banana 2 在 4–6 秒內產生專業品質的 4K 影像,具備精準的文字呈現與主題一致性。
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
AirMusic
AirMusic.ai 可從文字提示生成高品質的 AI 音樂曲目,支援風格與情緒自訂,並能匯出分軌(stems)。
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。
Telegram Group Bot
TGDesk 是一款多合一的 Telegram 群組機器人,用於擷取潛在客戶、提升互動並擴展社群。
FalcoCut
FalcoCut:基於網頁的 AI 平台,用於影片翻譯、虛擬人影片、語音複製、換臉與短影片生成。

OpenAI 的 GPT-5.3-Codex 在新的安全基準測試中以 72% 成功率利用加密貨幣智能合約

OpenAI 最新的 AI 模型顯示出令人擔憂的能力,能夠掏空加密貨幣錢包,在 72% 的測試中成功利用了易受攻擊的智能合約。