AI News

OpenAI 憑藉 GPT-5.3-Codex-Spark 與 Cerebras 聯盟打破速度障礙

OpenAI 再次重新定義了人工智慧領域,特別是針對軟體開發部門推出了 GPT-5.3-Codex-Spark。在一次對硬體產業造成衝擊的戰略轉向中,這款最新模型並非由迄今為止定義生成式 AI(Generative AI)時代的普及 NVIDIA 叢集驅動,而是由 Cerebras Systems 的晶圓級引擎(Wafer-Scale Engines)驅動。

週四凌晨發布的這項公告介紹了一款每秒能生成超過 1,000 個 Token 的模型,這一指標有效地消除了人類思維與 AI 執行之間的延遲差距。對於開發者而言,這意味著等待代碼補全的時代已經結束;GPT-5.3-Codex-Spark 生成複雜重構和範本代碼(boilerplate code)的速度超過了使用者的閱讀速度,實現了真正的即時結對程式設計(pair programming)體驗。

對速度的需求:為何命名為「Spark」?

該模型名稱中的「Spark」代號突顯了其首要指令:瞬時推論。雖然之前的 GPT-4 和 GPT-5 等版本主要集中在推理深度和多模態能力上,但 GPT-5.3-Codex-Spark 純粹是為高速度的編碼任務而優化的。

OpenAI 執行長 Sam Altman 在發布會上強調,AI 輔助編碼的瓶頸不再是模型智慧,而是延遲。「透過 GPT-5.3,我們實現了開發者所需的推理能力。透過 Codex-Spark,我們正在解決流態(flow state)問題。當 AI 以每秒 1,000 個 Token 的速度寫作時,它感覺不再像是一個工具,更像是程式設計師思維的延伸。」

這一轉變解決了 AI 編碼助手用戶的一個常見抱怨:中斷注意力的 Token 生成「停頓」。透過利用 Cerebras 獨特的硬體架構,OpenAI 聲稱已經解決了這一物理限制。

Cerebras 的優勢:硬體範式的轉變

也許這條新聞最重要的方面是驅動它的硬體。與 Cerebras Systems 的合作標誌著 OpenAI 首次在如此規模上公開部署使用非 NVIDIA 推論運算旗艦模型。

Cerebras 以其晶圓級引擎(Wafer-Scale Engine, WSE)而聞名,這是一塊晚餐餐盤大小的晶片,在單個矽晶圓上整合了記憶體和運算。這種架構避免了「記憶體牆(memory wall)」瓶頸——即在獨立記憶體晶片和 GPU 核心之間移動數據造成的延遲——這是大型語言模型(LLM)推論速度的主要約束。

推論硬體架構比較

下表說明了為何 OpenAI 為此特定工作負載選擇了 Cerebras:

架構特性 傳統 GPU 叢集 Cerebras 晶圓級引擎
記憶體頻寬 受限於片外 HBM 連接 海量片上 SRAM 頻寬
互連延遲 高(需要 NVLink/InfiniBand) 微乎其微(所有內容都在一個晶圓上)
批次大小效率 需要大批次以維持效率 在批次大小為 1 時依然高效(即時)
Token 生成速度 約 100-200 Token/秒(標準) >1,000 Token/秒(Spark 優化)

透過將整個模型權重保持在晶片巨大的 SRAM 上,Cerebras 允許 GPT-5.3-Codex-Spark 立即訪問參數,從而實現了今日基準測試中報告的前所未有的吞吐量。

技術深度解析:GPT-5.3-Codex-Spark 的功能

雖然速度是頭條新聞,但該模型的架構已針對卓越的軟體工程進行了微調。GPT-5.3-Codex-Spark 是更廣泛的 GPT-5.3 訓練訓練運行中的精簡版本,專門採用了專家混合(Mixture-of-Experts, MoE)架構,該架構在程式語言、系統架構模式和偵錯邏輯方面具有很高的權重。

核心功能

  • 上下文視窗: 該模型擁有 256k 的上下文視窗(Context Window),使其能夠攝取整個儲存庫以理解專案範圍內的依賴關係。
  • 自我修正迴圈: 在每秒 1,000 個 Token 的情況下,模型可以生成解決方案,運行虛擬化的 Linter 或單元測試,檢測錯誤並在用戶完成查看第一個輸出之前重新編寫代碼。
  • 多語言精通: 雖然 Python、JavaScript 和 Rust 仍是主要優勢,但與 GPT-5 基礎模型相比,「Spark」在 COBOL 和 Fortran 等舊版語言中表現出了 40% 的進步。

「Spark」架構還引入了 投機性解碼(Speculative Decoding v2)。雖然傳統的投機性解碼使用較小的模型草擬 Token 並使用較大的模型進行驗證,但 Spark 在晶圓上原生執行此過程,允許驗證步驟與生成並行發生,而不會產生通常與投機方法相關的延遲懲罰。

基準測試效能:重新定義「業界領先」

Creati.ai 審查了 OpenAI 發布的初步白皮書。效能指標顯示,Codex-Spark 在「初稿」場景中不僅更快,而且更準確。

SWE-bench Verified 2026 評分:

  • GPT-5.3-Codex-Spark: 68.4%(解決 GitHub 問題)
  • GPT-5.3(標準版): 69.1%
  • Claude 3.7 Opus: 64.2%
  • Llama-4-Coder: 58.9%

雖然標準版 GPT-5.3 在解決問題的複雜推理方面略勝一籌,但 Spark 變體的推論時間快了 15 倍。對於構成開發者與 AI 互動 90% 的即時自動補全和函式生成而言,速度優勢使得邊際準確度差異變得微不足道。

業界反應與市場影響

該公告引發了科技界的立即反應。

NVIDIA 的立場:
市場分析師將此合作夥伴關係視為對 NVIDIA 霸權地位的「警告信」。雖然 NVIDIA GPU 仍然是訓練大型模型的黃金標準,但 Cerebras 成功證明了推論——特別是低延遲推論——需要不同的架構。消息傳出後,隨著投資者消化 AI 部署多硬體生態系統的現實,NVIDIA 股價出現了小幅調整。

開發者情緒:
X(前 Twitter)和 Hacker News 上的早期試用用戶一直在發布該模型的運行影片。一段瘋傳的短片顯示,一位開發者口頭描述了一個複雜的 React 組件,而代碼則逐字即時生成在螢幕上,由於極致的速度,它看起來像是一個完整的區塊。

「感覺 AI 正在預判我的擊鍵。我不是在等它;它是在等我。這改變了我對編碼的看法,」一位參與 Beta 計畫的 Stripe 資深首席工程師寫道。

Cerebras IPO 傳聞:
OpenAI 的這一高調認可顯著提升了 Cerebras 的地位。有關 Cerebras 潛在上市的傳聞愈演愈烈,這項合作夥伴關係成為其晶圓級引擎在面向消費者的、高需求應用中的最終概念驗證。

挑戰與安全考量

儘管令人興奮,但 GPT-5.3-Codex-Spark 的速度也帶來了新的安全挑戰。代碼生成的快速意味著漏洞的引入可能與功能邏輯的引入一樣快。

OpenAI 整合了**即時安全護欄(Real-Time Security Guardrail)**系統。由於模型生成文本的速度非常快,一個次要的、較小的「看門狗」模型會並行運行,以掃描常見的 CVE(常見漏洞與暴露,Common Vulnerabilities and Exposures),例如 SQL 注入或硬編碼憑據。如果檢測到漏洞,串流會立即停止並修正。

然而,批評者認為,這種高速生成引起的「盲目信任」可能會導致開發者對代碼的審查不夠徹底。如果 AI 在 0.5 秒內寫出一個 500 行的模組,人類粗略閱讀的傾向就會增加,從而可能讓細微的邏輯錯誤溜進生產環境。

AI 編碼的下一步是什麼?

GPT-5.3-Codex-Spark 的推出標誌著從「基於對話」的編碼輔助向「基於串流」的輔助轉變。我們預計 VS Code 和 JetBrains 等 IDE 將迅速更新其插件以適應這種吞吐量,從「Tab 鍵補全」介面轉向「持續生成」介面,在這種介面中,AI 會在後台不斷提出和改進代碼。

這種合作夥伴關係也為專業硬體樹立了先例。我們可能很快會看到 OpenAI 或其他實驗室與不同的晶片供應商(如 Groq 或 AMD)合作,用於其他特定形式,如即時影片生成或語音合成,進一步將硬體壟斷碎片化為專業化的生態系統。

目前,開發者從下週開始可以透過 OpenAI API 和 Github Copilot Enterprise 層級存取 GPT-5.3-Codex-Spark。

發布規格摘要

下表為企業決策者總結了新版本的核心規格:

規格 細節 影響
模型名稱 GPT-5.3-Codex-Spark 針對編碼與低延遲優化
硬體夥伴 Cerebras Systems 利用 CS-3 系統
Token 吞吐量 >1,000 Token/秒 近乎瞬時的代碼生成
價格模型 $5.00 / 1M 輸入 Token
$15.00 / 1M 輸出 Token
具備 GPT-4o 競爭力
可用性 API 與 Copilot Enterprise 立即推送到各層級

隨著 AI 軍備競賽從「誰擁有最聰明的模型」轉向「誰擁有最快的使用工具」,OpenAI 和 Cerebras 已經插上了一面難以忽視的旗幟。對於日常編碼人員來說,未來已經到來——而且載入速度飛快。

精選