
本週人工智慧領域的發展態勢發生了劇烈變化,Google DeepMind 發布了一系列突破性的進展,旨在解決人類最複雜的科學挑戰。此次發布的核心是 Gemini 3 Deep Think,這是一個升級版的推理模型,利用推理時間擴展(Inference-time scaling)技術超越了競爭對手;以及 Aletheia,這是一個專門的 AI 代理(AI agent),已成功從解決奧林匹亞數學(Math Olympiad)題目轉型為生成自主且具備發表水準的研究。
這次雙重發布標誌著一個關鍵時刻:AI 正在從單純的輔助工具跨入自主發現(Autonomous discovery)的領域,挑戰了既有的基準測試,並為自主代理在理論物理、高等數學和藥物設計中能達到的成就樹立了新標準。
這些新能力的關鍵在於強化後的 Gemini 3 Deep Think。Google 從根本上重新設計了模型的推理模式,重點關注一種稱為「推理時間擴展(Inference-time scaling)」的技術。這種方法允許模型在查詢階段分配更多的運算資源——實際上就是讓它「思考更久」——以便在確定答案之前探索多條推理路徑。
這種架構轉變的結果令人驚嘆。在直接對比中,據報導 Gemini 3 Deep Think 在各項嚴格的基準測試中均優於主要競爭對手,包括 OpenAI 的 GPT-5.2 和 Anthropic 的 Claude Opus 4.6。該模型在需要深層邏輯推演和多模態理解(Multimodal understanding)的任務中表現尤為出色。
效能亮點:
這種效率的提升至關重要。透過優化模型處理資訊的方式,Google 使高等級推理在實際應用中變得觸手可及,讓工程師能透過程式碼模擬物理系統,並幫助研究人員解釋龐大且不完整的數據集。
雖然 Gemini 3 Deep Think 提供了推理骨幹,但 Aletheia 則代表了這種能力的專門化應用。Aletheia 旨在縮小競賽數學與專業研究之間的「評估差距」,它是一個能夠應對開放式數學問題模糊性的 AI 代理。
與擅長處理定義明確問題的傳統解題工具不同,Aletheia 透過一個複雜的 代理迴圈(Agentic Loop) 運作。這種架構模仿了人類數學家的工作流程,將解決問題的過程分解為不同的階段。
為了確保準確性並減少大型語言模型(LLMs)常見的「幻覺(Hallucinations)」,Aletheia 採用了一個三方系統:
這種職責分離讓系統能夠發現自己的錯誤——這在以前是 AI 在形式科學領域的一大障礙。此外,Aletheia 利用 Google Search 來驗證引用,確保它引用的是真實世界的數學文獻,而不是捏造來源。
Aletheia 代理方法的影響,從其在 IMO-ProofBench Advanced 上的表現可以得到最佳體現,該基準測試被認為是自動化數學推理的黃金標準。
表 1:數學基準測試的對比表現
| 基準測試 | 先前最佳水準(SOTA) | Aletheia 表現 | 提升倍數 |
|---|---|---|---|
| IMO-ProofBench Advanced | 65.7% | 95.1% | +29.4% |
| FutureMath Basic (博士級) | < 60% (估計) | 業界領先水準 | 顯著飛躍 |
| 艾狄胥開放問題(Erdős Open Problems) | 0 個已解決 | 自主解決 4 個 | 無限增長 |
在 IMO-ProofBench Advanced 上達到 95.1% 的準確率 不僅僅是漸進式的改進;這是一個範式轉移,表明 AI 現在可以可靠地處理證明類數學,其水準以往僅限於頂尖的人類專家。
Aletheia 能力的真正考驗不在於通過考試,而在於產生新知識。Google DeepMind 報告稱,該代理在數學領域已經實現了幾項「首創」。
最值得注意的是,Aletheia 自主生成了一篇名為 Feng26 的研究論文,該論文計算了算術幾何(Arithmetic geometry)中被稱為「特徵權重(Eigenweights)」的結構常數。這篇論文是在沒有人類干預的情況下完成的,並被歸類為「Level A2」自主等級——本質上是自主的且具有發表品質。
此外,當針對著名的 艾狄胥猜想(Erdős conjectures)(由多產的 Paul Erdős 提出的一系列開放式數學問題)進行部署時,Aletheia 找到了 63 個技術上正確的解答,並完全解決了 4 個先前未解的問題。這種為人類知識體系貢獻原創真理的能力,證實了該模型作為科學家合作夥伴的潛力。
Gemini 3 Deep Think 的進步從抽象數學延伸到了生物化學的實體世界。除了 Aletheia,Google 還推出了 IsoDDE(Isomorphic Drug Design Engine),這是其子公司 Isomorphic Labs 的新工具。
IsoDDE 以 AlphaFold 的成果為基礎,在預測準確度上比 AlphaFold 3 高出兩倍。其主要的突破在於能以空前的精確度預測藥物的 結合親和力(Binding affinity)。透過識別蛋白質結構中藥物分子可以附著的隱藏「口袋」,IsoDDE 為設計針對複雜生物系統(包括抗體和大型生物結構)的治療方案提供了一個可擴展的框架。
隨著這些產品的發布,Google DeepMind 也在推動 AI 貢獻分類的標準化。該公司提出了一套新的 AI 自主分類法(Taxonomy for AI Autonomy),模仿了自動駕駛汽車使用的等級。
這套框架為產業提供了必要的詞彙,以區分僅僅是檢索資訊的 AI 與能夠創造資訊的 AI。隨著 Gemini 3 Deep Think 和 Aletheia 開始在科學期刊上發表其發現,人類與機器發現之間的界限將變得越來越模糊,預示著一個加速創新的新時代即將到來。