OpenAI 推出 GPT-5.2，承諾減少幻覺並分階段開放使用

OpenAI Launch出 GPT-5.2：以「Code Red」回應重新定義專業 AI 可靠性

在一項決定性舉措中，為了進一步升級持續進行的生成式AI（Generative AI）軍備競賽，OpenAI 正式推出了其旗艦語言模型系列的強大新版本 GPT-5.2。在競爭對手（尤以 Google 的 Gemini 3 為代表）完成重大更新後僅隔數週，這次發布標誌著 OpenAI 的策略性轉向。GPT-5.2 擺脫早期生成式 AI 的「魔術般」效果，全面聚焦於「可靠性、精確性與專業實用性」，並引入分段模型架構以滿足企業與專家工作流程的嚴格需求。

此次更新不只是漸進式改良；它代表了模型處理資訊方式的全面改造，分為三個明確等級：Instant、Thinking、與 Pro。GPT-5.2 承諾大幅降低幻覺（hallucinations）發生率，並在程式編寫與推理基準測試上達到最先進的表現，目標是鞏固 OpenAI 在專業領域的主導地位。

一個三層式的通用智慧策略

GPT-5.2 發布的一大關鍵特色是將模型細分為專門變體。鑑於「一體適用」的模型已不再能有效應對全球使用者多樣化的需求，OpenAI 為 ChatGPT Plus、Team 與 Enterprise 訂閱者以及 API 提供了三種具體模式。

The GPT-5.2 Model Family

Model Variant	Target Audience & Use Case	Key Performance Characteristics
GPT-5.2 Instant	一般使用者、低延遲任務	為速度與效率最佳化；延遲約比先前的 turbo 型號低 40％。適合處理電子郵件、快速翻譯與基本詢問。
GPT-5.2 Thinking	開發者、分析師、研究人員	採用類似 o1 系列的思考鏈（Chain of Thought）處理，但整合得更流暢。事實錯誤減少約 30％，在複雜工作流程中提供更優的邏輯推斷能力。
GPT-5.2 Pro	企業、科學研究	配置為「前沿」模型，分配最高運算資源。在專家基準（如 GDPval、GPQA）上達到最先進成績。為準確性至關重要的任務而設計。
---	---	---

這種分層設計讓使用者能在成本、速度與智慧程度之間動態取捨。GPT-5.2 Instant 作為日常主力，可以前所未有的速度處理例行任務；相對地，GPT-5.2 Thinking 與 Pro 則針對「深度工作」而設，在推論階段使用延長的計算時間來事實查證、規劃與分步推理，然後再產生回應。

突破幻覺障礙

對專業使用者而言，GPT-5.2 最關鍵的改進是大幅降低「幻覺（hallucinations）」— 即模型自信地生成錯誤資訊的情況。OpenAI 宣稱，與前一代 GPT-5.1 相比，GPT-5.2 Thinking 在事實錯誤方面減少了 30％。

此可靠性提升來自強化式學習流程，該流程獎勵模型引用來源並驗證其內部邏輯鏈。內部基準測試顯示，模型在處理長上下文推理（long-context reasoning）方面展現卓越能力。在 MRCRv2（多參考上下文檢索（Multi-Reference Context Retrieval））基準——該基準測試模型跨越數十萬 token 的文件中尋找並綜合「關鍵資訊」的能力——GPT-5.2 Thinking 在 4-needle 變體上幾近達成 100% 的正確率。

此能力對依賴 AI 分析大量資料集、合約或研究論文的法律、金融與學術專業人士來說，具有翻轉局勢的意義，因為他們不再需要擔心模型為填補記憶空白而「編造」資訊。

主導產業基準

OpenAI 將 GPT-5.2 定位為專業知識工作的全新黃金標準。發布同時公布了令人印象深刻的效能指標，據稱在特定領域超越了人類專家與競爭對手模型。

Benchmark Performance Highlights

Benchmark Category	GPT-5.2 Score (Thinking/Pro)	Comparison / Previous SOTA	Significance
GDPval (Knowledge Work)	70.9% Win Rate vs. Experts	超越人類專業人士	衡量 44 種特定職業的表現；模型輸出被評為優於人類專家交付物。
SWE-bench Pro	55.6%	先前 SOTA 約 48–50%	嚴格測試真實世界軟體工程能力，包括除錯與功能實作。
GPQA Diamond	93.2%（Pro）	比較對象：Gemini Ultra / GPT-5.1	研究生水準的 Google-proof 問答；彰顯科學與生物領域的專家級知識。
---	---	---	---

對軟體開發社群而言，SWE-bench Pro 的成績尤為顯著。55.6％的分數意味著 GPT-5.2 能自動解決大多數真實世界的 GitHub issue，這比先前世代在處理複雜、多檔案程式庫相依性時的表現有顯著飛躍。

策略定價與開發者生態系

除了模型能力外，OpenAI 也積極調整其定價結構，以爭取可能關注 Google 大情境視窗產品的開發者。GPT-5.2 的 API 引入了「快取輸入折扣（Cached Input discount）」，對重複的上下文 token 提供高達 90% 的價格減免。

此定價策略直接打擊建構複雜檢索增強生成（RAG，Retrieval-Augmented Generation）應用的成本門檻。開發協助編碼的工具（如 Cursor 或 Windsurf）或客戶支援代理的開發者，現在可以在不承擔高昂成本的情況下，讓大量上下文維持「活躍」狀態。

Input Cost： 標準競爭價格。
Cached Input Cost： 每百萬 token $0.175（約 90% 折扣）。
Output Cost： 根據模型智識層級分階（Instant vs. Pro）。

所謂的「Code Red」背景：與 Gemini 3 的競爭

業界內部人士將 GPT-5.2 的加速發布形容為 OpenAI 頒布「Code Red」指令的高潮。Google 推出具備高達 200 萬 token 上下文視窗且與 Google Workspace 深度整合的 Gemini 3 後，OpenAI 面臨極大壓力，必須展現其技術領導力。

儘管 Gemini 3 在資料處理量上表現突出，GPT-5.2 似乎正開拓一條以「推理密度與代理式可靠性（agentic workflows）」為核心的利基市場。透過優先發展「Thinking」模式，OpenAI 押注專業用戶會更重視「正確」答案勝過「冗長」答案。GPT-5.2 處理代理式工作流程（agentic workflows）——當 AI 自主使用工具完成一連串任務（例如：「分析此試算表、製作圖表，並將摘要以電子郵件發送」）——的能力，讓其直接與人類虛擬助理競爭。

分階段推出與使用權限

如同以往重大版本，GPT-5.2 的存取受到管控，以管理伺服器負載並確保安全對齊。

Immediate Access： 目前已對 ChatGPT Plus、Team、與 Enterprise 使用者開放。
API Availability： 付費階層的開發者可立即存取三種模型變體的 API 端點。
Free Tier： 尚未公布對免費使用者的正式日期，但歷史慣例顯示可能會在未來數月逐步下放「迷你」版本。

使用者可在 ChatGPT 介面的模型選擇器中選擇「GPT-5.2」來存取新模型。OpenAI 表示，為讓對特定 prompt 有相依性的使用者平順過渡，GPT-5.1 將以「遺留」模型身分保留約三個月。

結論：AI 的成熟時代

GPT-5.2 的推出象徵著 AI 產業的成熟。焦點已從「驚嘆效果」示範，轉向具體、可靠的商業價值。憑藉其三管齊下的模型策略，OpenAI 承認未來的 AI 不僅要更聰明——還要更具多樣性、成本效益，最重要的是對企業夠可信。隨著開發者與專業人士開始壓力測試這些新能力，未來數週將揭示 GPT-5.2 是否真正兌現其重新定義自動化智慧標準的承諾。