
在追求通用人工智慧(Artificial General Intelligence,AGI)的過程中,這項舉動預示著潛在的範式轉移。據報導,開發 AlphaGo 與 AlphaZero 的著名研究員 David Silver 正為其新創公司 Ineffable Intelligence 籌集創紀錄的 10 億美元種子輪融資。這家總部位於倫敦的初創公司以約 40 億美元的估值脫離隱身模式,它正押注於反對目前業界對大語言模型(Large Language Models,LLMs)的執著,目標是透過純粹的 強化學習(reinforcement learning) 來實現超級智能。
本輪融資由 Sequoia Capital 領投,據悉包括 Nvidia、Google 和 Microsoft 在內的科技巨頭也正在討論參與其中。如果交易完成,這將成為歐洲科技史上規模最大的種子輪融資,凸顯了投資者對 Silver 的過往戰績及其對 AI 未來反傳統論點的高度重視。
如此巨大的資金注入——對於一家尚未發布產品的公司給予 10 億美元——反映了全球 AI 競賽中不斷升級的籌碼。雖然對於像 OpenAI 和 Anthropic 這樣的老牌業者來說,數十億美元的融資已成常態,但如此規模的種子輪融資卻是前所未有的。這表明風險投資家正準備迎接 AI 開發中資本密集型的新分歧,即超越單純擴展基於文本的模型。
Ineffable Intelligence 總部位於倫敦,這一決定顯著增強了英國作為尖端 AI 研究關鍵樞紐的地位。知情人士透露,Sequoia 合夥人 Alfred Lin 和 Sonya Huang 親自前往倫敦以促成這筆交易,這凸顯了風險投資公司在支持從 Google DeepMind 等主要實驗室離職的頂尖技術人才方面的激烈競爭。
David Silver 的聲譽建立在一段特殊且強大的歷史之上:他構建了曾經被認為不可能實現的系統。作為 AlphaGo 的首席研究員,他在 2016 年目睹了自己的作品擊敗了 18 次世界冠軍李世乭(Lee Sedol)。隨後,他又憑藉 AlphaZero 超越了那一成就,在沒有任何人類數據的情況下,僅透過自我對弈就精通了圍棋、西洋棋和將棋。
這段歷史構成了 Ineffable Intelligence 的知識基石。Silver 的核心觀點是,目前的行業標準——如 GPT-4 和 Gemini 這種大語言模型——在本質上是受限的,因為它們依賴於模仿人類數據。由於大語言模型是在互聯網文本上訓練的,它們受到人類集體知識和推理錯誤的束縛。它們可以逼近智慧,但無法輕易超越人類的能力。
Ineffable Intelligence 認為真正的超級智能需要強化學習(RL)。在這種範式中,代理(Agents)不是透過閱讀世界來學習,而是透過與世界互動來學習——提出行動、觀察後果,並根據獎勵更新其策略。這種方法通常被描述為「系統 2」思考或「搜尋」,它允許 AI 發現人類可能永遠無法構思的新穎解決方案,就像 AlphaGo 下出了「第 37 手」——那是任何人類棋手都不會下的一步,但卻是鎖定勝局的一步。
表格:實現超級智能的不同路徑
下表概述了主流的大語言模型方法與 Silver 專注於強化學習的方法之間的基本差異。
| 特性 | 大語言模型(LLMs) | 強化學習(RL) |
|---|---|---|
| 主要數據來源 | 靜態數據集(網路文本、書籍) | 動態經驗(模擬、自我對弈) |
| 學習機制 | 模式匹配與下一標記預測(next-token prediction) | 透過獎勵反饋進行試錯 |
| 能力上限 | 受限於人類知識的總合 | 理論上無上限;可超越人類極限 |
| 推理風格 | 直覺式,「系統 1」(快速) | 審慎式,「系統 2」(緩慢、基於搜尋) |
| 主要弱點 | 幻覺、缺乏真實落地(grounding) | 計算成本、在開放環境中的難度 |
Silver 此前曾在學術界闡述過這一願景,並與強化學習先驅 Richard Sutton 共同撰寫了一篇名為《經驗時代》(Era of Experience)的論文。他們認為,AI 的下一次飛躍不會來自於為模型提供更多標記(tokens),而是來自於能夠「自我發現所有知識基礎」的代理。
Ineffable Intelligence 面臨的挑戰將是如何將 AlphaZero 的成功——該系統運行在棋盤遊戲這種封閉、完美資訊的環境中——應用於現實世界混亂、開放式的複雜性中。這可能就是資金需求如此之高的原因。構建足夠強大的「世界模型」或模擬環境來訓練通用強化學習代理需要海量的計算資源,足以與訓練最大的大語言模型的基礎設施成本相抗衡。
Silver 從 Google DeepMind 離職是老牌 AI 實驗室高層離職大趨勢的一部分。隨著企業巨頭內部官僚主義的增長,構建基礎技術的科學家們正紛紛出走,以追求單一、純粹的通用人工智慧願景。
這一運動創造了一類新的「超級種子(Super-Seed)」初創公司——由 AI 泰斗創立,繞過傳統的融資階段,立即籌集數十億美元以購買必要的計算集群。
表格:AI 衍生公司的新前沿
下表將 Ineffable Intelligence 與由前大科技公司研究員領導的其他知名企業進行了比較。
| 初創公司 | 創始人 | 原屬實驗室 | 核心理念 |
|---|---|---|---|
| Ineffable Intelligence | David Silver | Google DeepMind | 純粹強化學習(超越人類) |
| Safe Superintelligence (SSI) | Ilya Sutskever | OpenAI | 安全優先的通用人工智慧(AGI)擴展 |
| Thinking Machines Lab | Mira Murati | OpenAI | 先進 AI 產品與研究 |
| xAI | Elon Musk | 各實驗室 | 追求真理、最大化好奇心 |
Ineffable Intelligence 的啟動給當前的 AI 領域領導者帶來了巨大壓力。如果 Silver 是正確的,擴展大語言模型的收益遞減效應很快就會顯現,業界可能會轉向強化學習方法。這將在另一個方向驗證計算的「擴展定律(scaling laws)」——不是為了處理文本,而是為了模擬經驗。
對於歐洲來說,這是一個分水嶺時刻。留住像 Silver 這樣的人才並為一家總部位於倫敦的實體獲得 10 億美元投資,反擊了所有前沿 AI 開發注定要留在舊金山的說法。
然而,未來的道路充滿了技術風險。強化學習在遊戲環境之外的穩定性是出了名的難。如果 Ineffable Intelligence 成功,它將不僅僅是構建一個更好的聊天機器人;它將構建一個能夠進行獨立科學發現和戰略規劃、超越人類認知極限的系統。如果失敗,它將成為計算機科學史上最昂貴的實驗之一。
隨著本輪融資談判進入尾聲,Nvidia 等戰略支持者的參與表明,硬體基礎設施已經開始調整,以支持 Silver 的願景。通用人工智慧的競賽實際上已分為兩條賽道:一條是透過閱讀互聯網來學習人類如何思考,另一條則是透過自我對弈來學習如何比人類思考得更好。