AI News

Google 憑藉 Gemini 3 Deep Think 與 Aletheia 重新定義科學發現

本週人工智慧領域的發展態勢發生了劇烈變化,Google DeepMind 發布了一系列突破性的進展,旨在解決人類最複雜的科學挑戰。此次發布的核心是 Gemini 3 Deep Think,這是一個升級版的推理模型,利用推理時間擴展(Inference-time scaling)技術超越了競爭對手;以及 Aletheia,這是一個專門的 AI 代理(AI agent),已成功從解決奧林匹亞數學(Math Olympiad)題目轉型為生成自主且具備發表水準的研究。

這次雙重發布標誌著一個關鍵時刻:AI 正在從單純的輔助工具跨入自主發現(Autonomous discovery)的領域,挑戰了既有的基準測試,並為自主代理在理論物理、高等數學和藥物設計中能達到的成就樹立了新標準。

Gemini 3 Deep Think:掌握「思考更久」的藝術

這些新能力的關鍵在於強化後的 Gemini 3 Deep Think。Google 從根本上重新設計了模型的推理模式,重點關注一種稱為「推理時間擴展(Inference-time scaling)」的技術。這種方法允許模型在查詢階段分配更多的運算資源——實際上就是讓它「思考更久」——以便在確定答案之前探索多條推理路徑。

這種架構轉變的結果令人驚嘆。在直接對比中,據報導 Gemini 3 Deep Think 在各項嚴格的基準測試中均優於主要競爭對手,包括 OpenAI 的 GPT-5.2 和 Anthropic 的 Claude Opus 4.6。該模型在需要深層邏輯推演和多模態理解(Multimodal understanding)的任務中表現尤為出色。

效能亮點:

  • ARC-AGI-2: 在需要抽象推理的視覺謎題中獲得了頂級評分。
  • CMT-Benchmark: 在理論物理領域得分為 50.5%,展現了對複雜科學概念的深刻理解。
  • 效率: 與 2025 年的前代產品相比,2026 年 1 月版的 Deep Think 在處理奧林匹亞等級的問題時,所需的運算量減少了 100 倍。

這種效率的提升至關重要。透過優化模型處理資訊的方式,Google 使高等級推理在實際應用中變得觸手可及,讓工程師能透過程式碼模擬物理系統,並幫助研究人員解釋龐大且不完整的數據集。

Aletheia:首位真正的 AI 數學家

雖然 Gemini 3 Deep Think 提供了推理骨幹,但 Aletheia 則代表了這種能力的專門化應用。Aletheia 旨在縮小競賽數學與專業研究之間的「評估差距」,它是一個能夠應對開放式數學問題模糊性的 AI 代理。

與擅長處理定義明確問題的傳統解題工具不同,Aletheia 透過一個複雜的 代理迴圈(Agentic Loop) 運作。這種架構模仿了人類數學家的工作流程,將解決問題的過程分解為不同的階段。

代理架構

為了確保準確性並減少大型語言模型(LLMs)常見的「幻覺(Hallucinations)」,Aletheia 採用了一個三方系統:

  1. 生成器(Generator): 為特定的研究問題提出候選解決方案和證明策略。
  2. 驗證器(Verifier): 一種非正式的自然語言機制,用於審查提議是否存在邏輯缺陷或引用錯誤。
  3. 修訂器(Reviser): 反覆修正驗證器識別出的錯誤,直到輸出符合嚴格的邏輯標準。

這種職責分離讓系統能夠發現自己的錯誤——這在以前是 AI 在形式科學領域的一大障礙。此外,Aletheia 利用 Google Search 來驗證引用,確保它引用的是真實世界的數學文獻,而不是捏造來源。

基準測試歷史:Aletheia 對決同類產品

Aletheia 代理方法的影響,從其在 IMO-ProofBench Advanced 上的表現可以得到最佳體現,該基準測試被認為是自動化數學推理的黃金標準。

表 1:數學基準測試的對比表現

基準測試 先前最佳水準(SOTA) Aletheia 表現 提升倍數
IMO-ProofBench Advanced 65.7% 95.1% +29.4%
FutureMath Basic (博士級) < 60% (估計) 業界領先水準 顯著飛躍
艾狄胥開放問題(Erdős Open Problems) 0 個已解決 自主解決 4 個 無限增長

在 IMO-ProofBench Advanced 上達到 95.1% 的準確率 不僅僅是漸進式的改進;這是一個範式轉移,表明 AI 現在可以可靠地處理證明類數學,其水準以往僅限於頂尖的人類專家。

解決不可解之題:自主研究的突破

Aletheia 能力的真正考驗不在於通過考試,而在於產生新知識。Google DeepMind 報告稱,該代理在數學領域已經實現了幾項「首創」。

最值得注意的是,Aletheia 自主生成了一篇名為 Feng26 的研究論文,該論文計算了算術幾何(Arithmetic geometry)中被稱為「特徵權重(Eigenweights)」的結構常數。這篇論文是在沒有人類干預的情況下完成的,並被歸類為「Level A2」自主等級——本質上是自主的且具有發表品質。

此外,當針對著名的 艾狄胥猜想(Erdős conjectures)(由多產的 Paul Erdős 提出的一系列開放式數學問題)進行部署時,Aletheia 找到了 63 個技術上正確的解答,並完全解決了 4 個先前未解的問題。這種為人類知識體系貢獻原創真理的能力,證實了該模型作為科學家合作夥伴的潛力。

超越數學:使用 IsoDDE 加速藥物設計

Gemini 3 Deep Think 的進步從抽象數學延伸到了生物化學的實體世界。除了 Aletheia,Google 還推出了 IsoDDE(Isomorphic Drug Design Engine),這是其子公司 Isomorphic Labs 的新工具。

IsoDDE 以 AlphaFold 的成果為基礎,在預測準確度上比 AlphaFold 3 高出兩倍。其主要的突破在於能以空前的精確度預測藥物的 結合親和力(Binding affinity)。透過識別蛋白質結構中藥物分子可以附著的隱藏「口袋」,IsoDDE 為設計針對複雜生物系統(包括抗體和大型生物結構)的治療方案提供了一個可擴展的框架。

定義 AI 自主的新標準

隨著這些產品的發布,Google DeepMind 也在推動 AI 貢獻分類的標準化。該公司提出了一套新的 AI 自主分類法(Taxonomy for AI Autonomy),模仿了自動駕駛汽車使用的等級。

  • Level 0(主要由人類完成): AI 提供的原創性微乎其微(例如:標準的奧林匹亞解題工具)。
  • Level 1(協作): AI 提供「大方向」策略,但由人類進行嚴格的證明。
  • Level 2(本質上自主): AI 在極少或沒有人類監督的情況下生成可發表的研究(例如:Feng26 論文)。

這套框架為產業提供了必要的詞彙,以區分僅僅是檢索資訊的 AI 與能夠創造資訊的 AI。隨著 Gemini 3 Deep Think 和 Aletheia 開始在科學期刊上發表其發現,人類與機器發現之間的界限將變得越來越模糊,預示著一個加速創新的新時代即將到來。

精選