AI News

Google 以 Gemini 3 Deep Think 更新重新定義 AI 推理

在人工智慧(Artificial Intelligence,簡稱 AI)的關鍵時刻,Google 發佈了 Gemini 3 Deep Think 的重大升級,這是其專門的「系統 2」(System 2)推理模型。這項由 Google DeepMind 今日宣佈的更新,標誌著 AI 系統從僅僅預測文本的聊天機器人,向具備真實、多步驟科學發現和複雜工程能力系統的決定性轉變。

這次更新帶來了一系列效能指標,這些指標不僅僅是微幅改進之前的當前最佳(State-of-the-art,簡稱 SOTA)基準,而是有效地打破了紀錄。憑藉在 ARC-AGI-2 上獲得 84.6% 的確認得分,以及在 Codeforces 上驚人的 3455 Elo 評分,Gemini 3 Deep Think 已將自己定位為邁向通用人工智慧(Artificial General Intelligence,簡稱 AGI)競賽中的事實領導者,特別是在需要嚴密邏輯、空間規劃和創新解決問題的領域。

推理引擎:超越模式匹配

此次升級的核心在於「Deep Think」架構,該架構優先考慮測試時運算(test-time compute)。與優先考慮回應速度的標準大型語言模型(Large Language Models,簡稱 LLMs)不同,Gemini 3 Deep Think 的設計旨在生成最終輸出之前進行暫停、模擬各種解決路徑、驗證其內部邏輯並自我修正。這種「思考」階段使模型能夠應對由模糊性、凌亂數據和缺乏明確護欄所定義的問題——這些挑戰是高階研究和工程中的典型特徵。

Google 執行長 Sundar Pichai 強調,這次更新是與領先科學家密切合作開發的,以確保該模型能夠在實驗室中擔任可靠的夥伴。其結果是一個不僅僅是檢索資訊,而是應用抽象推理來解決以前從未遇到過任務的 AI。

突破 ARC-AGI-2 天花板

今日公告中最顯著的指標或許是 ARC-AGI-2 的表現。抽象與推理語料庫(Abstraction and Reasoning Corpus,簡稱 ARC)被廣泛認為是 AGI 的「理智測試」,衡量模型僅透過幾個範例即時學習新技能的能力,而不是依賴記憶的訓練數據。

雖然之前的尖端模型難以突破 50-60% 的障礙(與人類平均表現相當),但 Gemini 3 Deep Think 達到了經獨立驗證的 84.6%。這個分數不僅僅是一個高數字;它代表了流動智力(fluid intelligence)的質變。

從長遠來看,目前的競爭格局明顯落後。根據最新的可用基準數據,Claude Opus 4.6 約為 69.2%,而 GPT-5.3 則落後於 54.2%。Google 的飛躍表明 Gemini 3 破解了多年來一直困擾業界的抽象泛化基本代碼。

特級大師級別的工程與編碼

對於軟體工程師和開發者來說,Gemini 3 Deep Think 的影響是深遠的。該模型在 Codeforces 平台上獲得了 3455 的 Elo 評分。在競技程式設計的世界中,這不僅僅是「專家」級別;它是「傳奇特級大師」(Legendary Grandmaster)的境界,將該 AI 置於全球人類和機器排名的前 8 位。

這種能力超出了演算法難題。Google 展示了該模型在空間推理和物理工程方面的能力,展示了一個工作流程:AI 分析了一個筆記型電腦支架的粗糙手繪草圖,建模了支撐重量和符合人體工學所需的複雜 3D 幾何結構,並生成了一個可 3D 列印的文件。最終的物理對象既實用又精確,縮小了抽象設計與物理製造之間的差距。

科學發現的夥伴

Google DeepMind 已明確將此模型定位為科學工具。發佈內容包括來自獲得早期訪問權限的著名學術機構的個案研究。

  • 羅格斯大學(Rutgers University): 數學家 Lisa Carbone 利用 Deep Think 審閱高等物理領域的稠密技術論文。該 AI 成功識別出一項證明中先前被人類同行評審員忽略的細微邏輯缺陷,展示了其審核複雜理論工作的能力。
  • 杜克大學(Duke University)Wang 實驗室: 研究人員將該模型應用於材料科學挑戰,特別是半導體研究。Deep Think 設計了一種生長大於 100 微米的薄晶體薄膜的新方法,達到了傳統方法未能達到的精度目標。

這些現實世界的應用得到了 2025 年國際物理與化學奧林匹亞(International Physics and Chemistry Olympiads)筆試部分的金牌級表現,以及在 CMT-Benchmark(測試高等理論物理熟練度)中獲得 50.5% 得分的支持。

基準測試分析

下表總結了今日發佈的關鍵效能指標,並將 Gemini 3 Deep Think 的表現與相關基準或先前標準進行了對比。

指標 得分/結果 意義
ARC-AGI-2 84.6% 展示了前所未有的流動智力和泛化能力,遠遠超過約 60% 的人類平均水平。
Codeforces Elo 3455 傳奇特級大師級別;位居全球競技程式設計師的頂尖梯隊。
人類最後的測驗(HLE) 48.4% (無工具) 在旨在對當前 AI 「不可能」的基準測試中設定了新的 SOTA,測試專家級的領域知識。
IMO 2025 金牌 以嚴密的邏輯一致性解決複雜的數學證明。
2025 年國際物理奧林匹亞 金牌 展示了對大學水平物理概念和解決問題能力的精通。
CMT-Benchmark 50.5% 顯示了在高等理論物理領域的能力,這是之前 AI 未曾涉足的領域。

應對「人類最後的測驗」

該模型還在**人類最後的測驗(Humanity's Last Exam,簡稱 HLE)**上設定了新標準,在不使用外部工具的情況下得分 48.4%。HLE 是由學科專家策劃的基準測試,對具有特定專業知識的人類來說很容易,但由於所需的知識細微差別和深度,對 AI 模型來說幾乎是不可能的。

雖然與 GSM8K 數學基準測試中常見的 90% 以上分數相比,48.4% 似乎較低,但在 HLE 的背景下,這是一項巨大的成就。它表明模型正開始滲透到數千個小眾學科的「專家」知識層級,擺脫了「樣樣通,樣樣鬆」的範式。

可用性與未來展望

Google 已積極採取行動,將此工具交給創作者和研究人員。更新後的 Gemini 3 Deep Think 立即透過 Gemini 應用程式提供給 Google AI Ultra 訂閱者。

此外,考慮到對代理工作流(agentic workflows)的需求,Google 正在向精選的研究小組和企業合作夥伴開放 Deep Think API 的存取權限。這使開發者能夠構建應用程式,利用模型的擴展推理能力處理需要高可靠性的任務,例如自動代碼審查、供應鏈優化和藥物化合物分析。

隨著 AI 行業消化這些數據,焦點轉向 OpenAI 和 Anthropic 等競爭對手將如何應對。但就目前而言,憑藉其推理凌亂數據、生成物理工程解決方案以及解決特級大師級別問題的能力,Gemini 3 Deep Think 已牢牢確立了自己作為 AI 生態系統新頂級掠食者的地位。

精選