AI News

自主科學探究的黎明

這是人工智慧的一個分水嶺時刻,Google DeepMind 宣布發布 Gemini Deep Think,這是一款專業推理模型(specialized reasoning model),其設計目的不僅是作為工具,更是作為高階科學研究中的協作夥伴。Deep Think 於 2026 年 2 月 11 日隨一系列技術報告一同發布,代表了與傳統大型語言模型(Large Language Models,LLMs)的根本背離。透過利用先進的推理時間運算擴展(inference-time compute scaling)和一種新型的「並行思考」(parallel thinking)架構,該模型已展現出解決博士級數學問題並在算術幾何(arithmetic geometry)到理論物理(theoretical physics)等領域生成自主研究的能力。

此次發表恰逢《財富》(Fortune)雜誌對 Google DeepMind 執行長 Sir Demis Hassabis 的一場高調訪談,他將這一突破描述為「極端豐裕」(radical abundance)新時代的催化劑。對於 AI 社群和科學機構而言,Gemini Deep Think 的發布標誌著從生成式 AI(Generative AI)向推理核心 AI(reasoning-centric AI)的長期理論轉型已成為現實。

超越順序思維:Deep Think 架構

推動 Gemini Deep Think 的核心創新在於它擺脫了定義前代前沿模型(frontier models)的線性順序思維鏈(sequential chain-of-thought)處理。標準 LLMs 通常一個接一個地生成推理步驟,這一過程容易受到級聯錯誤的影響,單個錯誤就可能導致整個解決方案偏離軌道。

相比之下,Gemini Deep Think 採用了並行推理架構(parallel reasoning architecture)。這種方法允許模型同時探索多個假設分支,有效地在推理時間模擬「思維樹」(tree of thought)搜尋。透過在推理階段分配更多運算能力——這一概念稱為推理時間擴展——模型可以驗證中間步驟,從死胡同中回溯,並在收斂到最終答案之前對不同分支的想法進行交叉授粉。

這種架構對於需要嚴密邏輯和多步驗證的領域特別有效,例如數學和程式碼合成(code synthesis)。根據 DeepMind 的技術報告,模型的性能不僅隨模型規模而達到平台期,而且隨分配給特定問題的「思考時間」量呈對數線性擴展。

Aletheia:解決不可解問題的代理

為了展示 Deep Think 的能力,DeepMind 推出了 Aletheia,這是一個建立在該模型之上的內部研究代理(agent)。Aletheia 以「生成-驗證-修訂」(Generate-Verify-Revise)循環運行,利用專用的自然語言驗證器來批判自己的輸出。

結果令人震驚。在新生建的 IMO-ProofBench Advanced(旨在測試奧林匹亞級別邏輯的基準測試)上,Aletheia 獲得了超過 90% 的分數,顯著優於之前的頂尖系統。更令人印象深刻的是,該代理在 FutureMath Basic 基準測試中展現了精通能力,該基準測試是由博士級課程和資格考試衍生的練習集。

Aletheia 的能力從標準化測試延伸到了新發現。DeepMind 透露,該代理自主解決了艾狄胥猜想(Erdős conjecture)資料庫中的四個開放問題。此外,它還生成了一篇完整的研究論文——內部編號為 Feng26——該論文計算了「特徵權重」(eigenweights),即算術幾何中的複雜結構常數。這篇論文是在極少的人為干預下完成的,標誌著 AI 系統首次在純數學領域貢獻出具備發表價值的結果。

科學加速案例研究

雖然數學是主要的試驗場,但 Gemini Deep Think 的效用跨越了自然科學。DeepMind 重點介紹了幾個模型加速研究工作流程的案例研究:

  • 理論物理: 在一項關於宇宙弦的研究中,研究人員使用 Deep Think 來計算重力輻射。該問題需要解決包含困難奇異點的積分。模型提出了一種使用蓋根鮑爾多項式(Gegenbauer polynomials)的新型解析解,這自然地吸收了奇異點,並將無限級數摺疊為有限的閉式和。
  • 電腦科學: 該模型已被部署用於驗證軟體驗證中的形式化證明,識別出人類稽核員遺漏的分散式系統協議中的邊緣案例。
  • 材料科學: Deep Think 目前正被試點用於預測下一代電池電解質的晶體結構,利用其推理能力比傳統模擬方法更有效地在廣大的化學組合搜尋空間中導航。

極端豐裕的願景

Gemini Deep Think 的發布與 Google DeepMind 領導層更廣泛的哲學願景深刻交織。在法律本週發布的《財富》訪談中,執行長 Demis Hassabis 詳細闡述了他對 AI 驅動的文藝復興的預測。Hassabis 主張,我們正進入一個「極端豐裕」的時期,智慧系統將透過優化能源網、發現新材料和治癒疾病來幫助解決資源稀缺問題。

「我們正在從 AI 組織世界資訊的時代,轉向 AI 幫助我們理解世界規律的時代,」Hassabis 表示。他強調,像 Deep Think 這樣的工具並非旨在取代人類科學家,而是作為「心智的望遠鏡」,讓研究人員比以往任何時候都看得更遠、更清晰。

然而,Hassabis 也警告說,這種力量需要負責任的管理(stewardship)。自主生成科學知識的能力帶有雙重用途風險,特別是在生物技術和網絡安全等領域。DeepMind 已為 Aletheia 實施了嚴格的「能力上限」(capability ceilings)和安全沙箱(safety sandboxes),以防止生成有害輸出。

比較分析:Gemini Deep Think 與標準 LLMs

為了理解這一轉變的規模,將 Gemini Deep Think 的運作特性與標準高效能大型語言模型(如 Gemini 1.5 系列或 GPT-4 等級模型)進行比較會很有幫助。

表 1:推理範式的技術比較

特性 標準前沿大型語言模型(Standard Frontier LLMs) Gemini Deep Think
推理架構 順序思維鏈(線性) 並行分支與樹狀搜尋
推理運算 恆定(每個 Token 固定) 動態(隨問題難度擴展)
錯誤處理 易受級聯錯誤影響 透過回溯與驗證進行自我修正
主要用例 通用知識、創意寫作、程式編寫 博士級數學、科學發現、邏輯
基準測試表現 本科數學約 60-70% 研究生/奧林匹亞數學 >90%
代理能力 需要外部提示循環 內在的「生成-驗證-修訂」循環

對 AI 行業的影響

Gemini Deep Think 的推出為 AI 行業設定了新標準,將競爭焦點從「誰擁有最大的上下文窗口」轉向「誰擁有最深的推理能力」。

對於企業用戶和開發者而言,這一轉變意味著 AI 應用構建方式的改變。「提示工程」(prompt engineering)範式正在演變為「流程工程」(flow engineering),其挑戰在於構建推理環境——為模型提供正確的工具、驗證器和約束,以解決多步驟問題。

競爭對手可能會加速自己在推理時間擴展方面的努力。Deep Think 的成功驗證了一個假設,即在生成期間花費的運算量與在訓練期間花費的運算量同樣有價值,甚至更有價值。這一認識可能導致市場的分化:適用於消費者應用的更輕、更快的模型,以及用於工業和科學研發的重量級「深度思考」模型。

未來展望

展望 2026 年剩餘時間,預計將 Gemini Deep Think 等系統整合到實驗室工作流程中的速度將會加快。DeepMind 已表示,Deep Think API 的商業版本將在未來幾個月內提供給特定合作夥伴,特別針對製藥公司和材料科學公司。

「Feng26」論文和艾狄胥問題的解決方案充當了概念驗證:AI 不再僅僅是從人類知識庫中檢索答案。它現在有能力擴展該資料庫。隨著這些系統不斷完善其推理、驗證和發現的能力,科學事業中人類與機器智慧之間的界限將繼續模糊,使極端豐裕的承諾更接近現實。

精選