Google DeepMind 先驅大衛·西爾弗離開並創辦超級智能新創公司

AI 的新時代：David Silver 離開 DeepMind，追求名為 "Ineffable" 的超級智慧（Superintelligence）

在人工智慧領域發生劇變之際，AlphaGo 背後的首席研究科學家、Google DeepMind 的關鍵人物 David Silver 宣布他將離職，創辦一家新的獨立公司，Ineffable Intelligence。這一在週五確認的動向，標誌著又一位高知名度的人士自大型科技公司出走，並且顯示出產業界正從生成式AI（Generative AI）轉向追求自主、以目標為導向的超級智慧（Superintelligence）。

Silver 廣受視為「AlphaGo 之父」，他在 DeepMind 超過十年的歷程中，對強化學習（Reinforcement Learning）（RL）的研究從根本上改變了該領域的發展軌跡。他的新創公司目標是繞過目前業界對大型語言模型（Large Language Models，LLMs）的迷思，轉而加強「阿爾伯塔學派」的理念：即一個透過互動與獎勵學習的代理人，才是真正達到通用人工智慧（Artificial General Intelligence，AGI）可行的道路。

語言的侷限與 Ineffable Intelligence 的崛起

Silver 新實驗室的名稱 Ineffable Intelligence，本身就是對現狀的直接哲學挑戰。當前的 AI 熱潮由掌握人類語言的系統所驅動——透過機率預測序列中的下一個詞——而 Silver 的論點是，智慧中最關鍵的面向是「難以言喻的」，僅靠語言無法捕捉。

「語言是經驗的壓縮，而不是經驗本身，」Silver 在宣布後的記者會上表示。「要達到超級智慧，我們必須建立從基礎透過試誤與發現學習的代理人，就像 AlphaZero 所做的那樣。我們正在超越靜態資料集的時代，進入無限經驗的時代。」

該創業公司打算專注於能夠進行長期規劃與新穎科學發現的 強化學習（RL） 代理人，而非聊天機器人或生成媒體。這與 Silver 著名的 2021 年論文 獎勵即足夠（Reward is Enough） 的主張一致——該論文認為最大化獎勵就足以解釋所有智慧行為的出現。

分道揚鑣：「Neolab」趨勢

Silver 的離職是更大範圍「neolab」現象的一部分，頂尖研究人員正在離開集中化的企業實驗室，創立敏捷且有使命感的新創團隊。此趨勢反映了 AI 社群中對前進最佳路徑的分歧。當像 OpenAI 和 Google 這類公司專注於放大 transformer 架構時，像 Silver（以及前 OpenAI 首席科學家 Ilya Sutskever）等研究者則將賭注押在替代性架構上。

Ineffable Intelligence 加入了在倫敦和舊金山興起的一批菁英研究實驗室，目標是解決當前困擾大型語言模型（LLMs）的推理與可靠性瓶頸。

表格：現代 AI 發展的策略分歧

Feature	Generative AI (LLMs)	Reinforcement Learning (RL)
Core Objective	預測序列中的下一個詞	最大化累積未來獎勵
Learning Source	靜態資料集（網路文字/圖像）	與環境的動態互動
Capabilities	摘要、翻譯、內容創作	規劃、策略、新穎發現
Limitations	幻覺生成、缺乏真正的立足點	模擬的高計算成本
Primary Goal	模仿人類	超人類的優化

阿爾伯塔學派的影響

David Silver 的方法深植於由他的導師 Richard Sutton 影響的「阿爾伯塔學派」。此學派優先採用「計算上可擴展」且不依賴人工標註資料的方法。

在 Google DeepMind 任職期間，Silver 將這些原則運用於 AlphaGo，該系統在 2016 年擊敗世界冠軍李世石，震驚全球；隨後的 AlphaZero 與 MuZero 則在不依賴人類對局學習的情況下，掌握了西洋棋、將棋與圍棋。Ineffable Intelligence 預計會將類似 MuZero 的規劃演算法推向材料科學、數學與機器人等現實領域，那些領域可以取得「真實回饋（ground truth）」。

產業影響

Ineffable Intelligence 的成立暗示下一場 AI 優勢之爭，將不再是誰擁有最多文字語料庫，而是誰能為代理人打造最有效的學習環境。

轉向「系統二」思維： 雖然大型語言模型擅長「系統一」思維（快速、直覺回應），Silver 的強化學習方法則瞄準「系統二」思維（緩慢、深思熟慮的推理與搜尋），這對解決複雜工程或醫療問題至關重要。
資料牆的解法： 隨著業界擔心高品質人類文本資料將耗盡，RL 代理人提供了一種解法：它們透過自我對弈與模擬產生自身資料，理論上允許無限擴展。
人才流動： Silver 的聲望預計將吸引大量來自主要實驗室的強化學習專家，可能引發一場爭奪擅長決策理論與控制系統研究者的人才戰。

結論

David Silver 的離開不僅僅是人事變動；它更象徵了對該領域未來的宣示。透過押注 Ineffable Intelligence，Silver 正在下注：通往超級智慧的道路不在於讀遍整個網路，而在於體驗世界——無論是模擬或真實——並透過一次又一次的獎勵來掌握它。隨著 AI 熱潮逐漸成熟，產業界將密切觀察，強化學習是否能交付語言模型所承諾但尚未完全實現的推理能力。