AI News

Google 揭曉 Gemini 3 Deep Think:並列推理(Parallel Reasoning)的新前沿

為了鞏固其在生成式 AI(Generative AI)領域的霸主地位,Google 已正式推出了 Gemini 3 Deep Think,這是一種專為其最先進的大型語言模型(Large Language Model, LLM)設計的專門推理模式。此新功能僅限 AI Ultra 方案的訂閱者使用,標誌著 Google 從通用聊天機器人轉向專門的高運算問題解決工具,能夠處理複雜的邏輯場景。

這一發展正值 AI 產業將焦點從簡單的查詢響應轉向「系統 2」(System 2)思維之際——即旨在解決數學、程式碼編寫和科學研究中多步驟問題的更慢、更深思熟慮的處理方式。

Deep Think 的架構:並列推理

Gemini 3 Deep Think 的核心在於模型解決問題方式的根本轉變。與通常以線性序列預測下一個標記(token)的標準大型語言模型不同,Deep Think 利用了先進的 並列推理(Parallel Reasoning)

這種架構允許模型同時探索多個假設。當面對複雜的提示時,Deep Think 不僅僅是匆忙得出結論,相反地,它會並列生成幾條潛在的推理線索,在收斂到最終答案之前評估每條路徑的有效性。這種方法鏡像了人類權衡選項和預期結果的認知過程,顯著降低了邏輯密集型任務中「幻覺」(Hallucinations)的發生率。

產業分析師指出,這種「分支」能力在計算上非常昂貴,這解釋了為何該功能被限制在 Google 的高級訂閱層級之後。

基準測試智力:人類最後的考試

為了展示 Gemini 3 Deep Think 的能力,Google 發布了針對目前最嚴格基準測試之一的性能指標:人類最後的考試(Humanity's Last Exam, HLE)

雖然標準基準測試已日益飽和——模型在 GSM8K 等測試中頻繁獲得 90% 以上的分數——但 HLE 代表了 AI 評估的新天花板。Gemini 3 Deep Think 在此基準測試中獲得了 41% 的分數。雖然這個百分比單獨看起來可能很低,但它在旨在難倒當前世代模型的測試中代表了實質性的領先地位。

HLE 基準測試評估:

  • 抽象推理能力
  • 跨新場景的泛化能力
  • 對抗性提示的抵抗力
  • 多學科知識整合

這一得分表明,雖然通用人工智慧(Artificial General Intelligence, AGI)仍是一個遙遠的目標,但 Deep Think 在「推理」而非僅僅是「檢索」方面取得了可衡量的進展。

AI Ultra 生態系統:定價與易用性

Gemini 3 Deep Think 的存取權保留給 Google 使用者群的高端階層。該功能目前僅對 AI Ultra 訂閱者開放,該方案的定價為每月 250 美元

這一預算策略清楚地劃分了目標受眾。雖然標準的 Gemini Advanced 方案迎合了專業消費者和創意專業人士,但 AI Ultra 的定位是針對需要工業級認知處理能力的企業進階使用者、研究人員和開發人員。

存取功能:
訂閱者可以直接在 Gemini 應用程式中啟用新模式。透過與提示列互動,使用者可以從下拉選單中選擇「Deep Think」,將模型切換到其高運算狀態。

訂閱層級比較

下表概述了 Google 目前消費者和專業 AI 產品之間的區別:

方案名稱 每月費用 主要功能 目標受眾
Gemini Standard 免費 基礎推理、標準速度 一般大眾
Gemini Advanced $20 Gemini 1.5 Pro、100 萬上下文視窗 創意人士與專業人士
AI Ultra $250 Gemini 3 Deep Think、並列推理 研究人員、企業

市場影響與競爭格局

Gemini 3 Deep Think 的發布在競爭激烈的 AI 市場產生了即時反應。報告顯示,包括 OpenAI 在內的競爭平台在 Google 最新功能發布後出現了使用者流失。具體而言,數據顯示在 Gemini 3 廣泛亮相後的一週內,OpenAI 的活躍使用者群下降了 6%,凸顯了使用者忠誠度在卓越模型性能面前的流動性。

然而,Deep Think 的高進入門檻為市場留下了空間。競爭對手可能會透過優化其自身的推理模型(如 OpenAI 的 o1 或 o3 系列)以降低成本,或者透過增強其各中階產品的推理能力來做出回應。

Google 對 Gemini 3 的激進部署也伴隨著基礎設施的限制。並列推理所需的大量運算能力對硬體資源造成了壓力,Google 透過將此特定模式限制在其最高付費層級來緩解這一挑戰。

Creati.ai 觀點:從速度向質量的轉變

從我們 Creati.ai 的角度來看,Gemini 3 Deep Think 代表了 AI 產業的成熟。競賽不再僅僅關乎誰能最快生成文本,而是關於誰能針對最難的問題生成正確的文本。

對於開發人員和研究人員來說,與能夠在沒有人類不斷糾偏的情況下,有效「思考」程式碼重構或數據分析的 AI 效用相比,250 美元的價格標籤可能是微不足道的。然而,對於普通使用者而言,並列推理的好處仍然遙不可及,這在獲取最強大形式的人工智慧方面保留了數位鴻溝。

隨著推廣的繼續,業界將密切關注「Deep Think」方法論是否會成為所有未來大型語言模型的標準,或者僅僅是少數精英的奢侈功能。

精選