AI News

Google 以 Gemini 3 Deep Think 升級重新定義科學人工智慧(Scientific AI)

在人工智慧領域的一次重大飛躍中,Google 宣布對其 Gemini 3 Deep Think 模型進行重大升級,將其定位為處理複雜科學推理和先進工程挑戰的首選工具。此更新於 2026 年 2 月 12 日發布,標誌著該模型從高性能的大型語言模型(Large Language Model, LLM)轉型為專業的「推理引擎(Reasoning Engine)」,其能力足以在專業領域與人類專家抗衡。

此次升級的首要成就,是在**人類最後測驗(Humanity's Last Exam, HLE)**中獲得了驚人的 48.4% 評分。該基準測試專為檢驗 AI 的學術和推理能力而設計,被認為是最嚴苛的終極測試。這一得分代表了對以往前沿模型(包括 Gemini 3 Pro 及其競爭對手)的決定性領先,標誌著一個新時代的到來:AI 代理現在可以可靠地解決需要深度、多步邏輯演繹的問題,而無需依賴外部工具。

對於 Creati.ai 的讀者來說,這一發展預示著開發者和研究人員與 AI 互動方式的轉變。我們正在超越「提問並祈禱(prompt and pray)」的時代,進入協作發現的新紀元,像 Deep Think 這樣的模型將作為經過驗證的研究助手,能夠處理混亂的數據集並識別隱晦的理論缺陷。

「系統 2」(System 2)優勢:推理重於檢索

Gemini 3 Deep Think 升級的核心區別在於其對「系統 2」思考過程的依賴。與根據統計概率預測下一個標記(Token)的標準 LLM(系統 1)不同,Deep Think 採用了深思熟慮的迭代推理過程。這使得模型在給出答案之前能夠「暫停」並評估多條邏輯路徑,模擬人類科學家所使用的緩慢、分析性的思考過程。

根據 Google DeepMind 的說法,這種架構是與活躍的科學家合作微調的,旨在解決「棘手」問題——即那些缺乏明確指導方針或單一正確解決方案的問題。在實際應用中,這意味著該模型在數據不完整或存在噪聲的環境中表現卓越,而這正是現實世界工程和實驗科學中常見的挫折。

核心架構能力:

  • 自我修正(Self-Correction): 在推理階段識別自身思維鏈中邏輯謬誤的能力。
  • 跨領域綜合(Cross-Domain Synthesis): 成功將理論物理學原理與實際工程約束相結合。
  • 視覺推理(Visual Reasoning): 將抽象的 2D 草圖轉換為可用於製造的複雜、物理上可行的 3D 模型。

衡量前所未有的突破

要理解此次發布的重要性,必須查看硬性指標。AI 社群長期以來一直面臨「基準測試飽和」的困境,模型能迅速精通 MMLU 等測試。Humanity's Last Exam (HLE) 的創立正是為了應對這一點,它彙整了數學、人文和自然科學領域中最困難的問題。

Gemini 3 Deep Think 在 HLE 上的表現,輔以在 ARC-AGI-2(一項通用智能和新穎模式識別測試)以及 Codeforces(一個競賽編程平台)上的破紀錄得分,顯得相得益彰。

下表總結了 Gemini 3 Deep Think 與本世代其他領向前沿模型的性能對比:

表:前沿基準測試性能對比

指標/基準測試|Gemini 3 Deep Think (升級版)|Gemini 3 Pro|主要競爭對手 (預計為 GPT-5 Pro)
---|---|----
人類最後測驗 (HLE)|48.4%|37.5%|~31.6%
ARC-AGI-2 (推理)|84.6%|~70%|N/A
Codeforces 評分 (Elo)|3455|~2900|~2800
國際物理奧林匹亞 (Intl. Physics Olympiad)|金牌水準|銀牌水準|N/A
國際化學奧林匹亞 (Intl. Chemistry Olympiad)|金牌水準|銅牌水準|N/A
CMT-Benchmark (物理)|50.5%|N/A|N/A

註:得分代表不使用外部工具的情況下的「pass@1」準確度,除非另有說明。競爭對手得分基於截至 2026 年 2 月可獲得的最新公開基準測試。

ARC-AGI-2 的 84.6% 得分對於開發者來說尤其值得注意。該基準測試由 ARC Prize Foundation 驗證,旨在測試 AI 適應其訓練數據中從未見過的全新任務的能力,有效地衡量了「流體智能(Fluid Intelligence)」而非記憶知識。

金牌與理論突破

除了標準化測試外,Google 還根據人類學術成就的最高標準驗證了該模型。升級後的 Deep Think 在 2025 International Physics Olympiad(國際物理奧林匹亞)和國際化學奧林匹亞的筆試部分均達到了金牌水準表現

這不僅僅是解決教科書上的問題。Google 強調了內部案例研究,在這些研究中,模型展現了在先進理論物理學方面的熟練程度,具體在 CMT-Benchmark 上獲得了 50.5% 的得分。這表明該模型可用於假設新的材料特性或驗證複雜的量子力學計算。

在一個展示的應用案例中,研究人員使用 Deep Think 來優化半導體晶體生長。該模型分析了歷史實驗數據,識別出先前被人類研究人員忽略的細微環境變量,並提出了一種改良的生長週期,從而實現了更高的純度產量。

從草圖到現實:實際工程

對於工程界而言,最切實的更新是 Deep Think 的多模態工程能力。Google 展示了一個工作流程,用戶上傳了一張機械零件的粗略手繪草圖。Deep Think 分析了圖紙,推斷出預期的物理約束和承載要求,並生成了一個精確的、可 3D 列印的文件。

這種「從草圖到產品(Sketch-to-Product)」的流水線展示了模型彌合抽象構思(創意)與物理約束(邏輯)之間鸿溝的能力。它要求 AI 不僅要理解圖紙「看起來」像什麼,還要理解物件在現實世界中必須如何「運作」。

可用性與企業整合

Google 正採取雙層方法部署此次升級,同時針對個人專業用戶和企業開發者。

  1. Google AI Ultra 訂閱者: 新的 Deep Think 模式即刻可在 Gemini 應用程式中使用。用戶可以針對需要高強度邏輯處理的查詢切換「Deep Think」選項。
  2. Gemini API (早期存取): Google 首次透過 API 向選定的企業和科學機構開放 Deep Think。對於構建第三方應用程式的 Creati.ai 讀者來說,這是一項至關重要的進展,因為它允許將這種「推理引擎」整合到自定義工作流程中——例如自動化代碼審查機器人或製藥研發流水線。

對 AI 生態系統的影響

升級版 Gemini 3 Deep Think 的發布強化了 2026 年的一個日益增長的趨勢:AI 模型分化為「快速、對話式代理」和「緩慢、深度推理者」。雖然前者(如 Gemini 3 Flash)專注於延遲和用戶體驗,但像 Deep Think 這樣的模型正在開闢作為非同步問題解決者的利基市場。

對於開發者而言,這需要架構上的改變。應用程式可能很快就會依賴「管理員-執行者(manager-worker)」模式,其中快速模型處理用戶交互,並將複雜、高風險的任務委託給 Deep Think。

隨著我們在 Creati.ai 進一步測試該模型,問題仍然存在:這些推理能力將如何轉化為開放式的創意任務?雖然基準測試側重於 STEM 領域,但在人類最後測驗中獲得 48.4% 分數所需的邏輯能力,暗示了一種細微差別的水平,這也可能徹底改變敘事結構和複雜內容的生成。

我們將持續關注 Gemini 3 Deep Think 觸及廣大開發者社群時的表現。目前,「金牌」標準已經確立。

精選