
在人工智慧領域發生劇變之際,AlphaGo 背後的首席研究科學家、Google DeepMind 的關鍵人物 David Silver 宣布他將離職,創辦一家新的獨立公司,Ineffable Intelligence。這一在週五確認的動向,標誌著又一位高知名度的人士自大型科技公司出走,並且顯示出產業界正從生成式AI(Generative AI)轉向追求自主、以目標為導向的超級智慧(Superintelligence)。
Silver 廣受視為「AlphaGo 之父」,他在 DeepMind 超過十年的歷程中,對 強化學習(Reinforcement Learning)(RL) 的研究從根本上改變了該領域的發展軌跡。他的新創公司目標是繞過目前業界對大型語言模型(Large Language Models,LLMs)的迷思,轉而加強「阿爾伯塔學派」的理念:即一個透過互動與獎勵學習的代理人,才是真正達到通用人工智慧(Artificial General Intelligence,AGI)可行的道路。
Silver 新實驗室的名稱 Ineffable Intelligence,本身就是對現狀的直接哲學挑戰。當前的 AI 熱潮由掌握人類語言的系統所驅動——透過機率預測序列中的下一個詞——而 Silver 的論點是,智慧中最關鍵的面向是「難以言喻的」,僅靠語言無法捕捉。
「語言是經驗的壓縮,而不是經驗本身,」Silver 在宣布後的記者會上表示。「要達到超級智慧,我們必須建立從基礎透過試誤與發現學習的代理人,就像 AlphaZero 所做的那樣。我們正在超越靜態資料集的時代,進入無限經驗的時代。」
該創業公司打算專注於能夠進行長期規劃與新穎科學發現的 強化學習(RL) 代理人,而非聊天機器人或生成媒體。這與 Silver 著名的 2021 年論文 獎勵即足夠(Reward is Enough) 的主張一致——該論文認為最大化獎勵就足以解釋所有智慧行為的出現。
Silver 的離職是更大範圍「neolab」現象的一部分,頂尖研究人員正在離開集中化的企業實驗室,創立敏捷且有使命感的新創團隊。此趨勢反映了 AI 社群中對前進最佳路徑的分歧。當像 OpenAI 和 Google 這類公司專注於放大 transformer 架構時,像 Silver(以及前 OpenAI 首席科學家 Ilya Sutskever)等研究者則將賭注押在替代性架構上。
Ineffable Intelligence 加入了在倫敦和舊金山興起的一批菁英研究實驗室,目標是解決當前困擾大型語言模型(LLMs)的推理與可靠性瓶頸。
表格:現代 AI 發展的策略分歧
| Feature | Generative AI (LLMs) | Reinforcement Learning (RL) |
|---|---|---|
| Core Objective | 預測序列中的下一個詞 | 最大化累積未來獎勵 |
| Learning Source | 靜態資料集(網路文字/圖像) | 與環境的動態互動 |
| Capabilities | 摘要、翻譯、內容創作 | 規劃、策略、新穎發現 |
| Limitations | 幻覺生成、缺乏真正的立足點 | 模擬的高計算成本 |
| Primary Goal | 模仿人類 | 超人類的優化 |
David Silver 的方法深植於由他的導師 Richard Sutton 影響的「阿爾伯塔學派」。此學派優先採用「計算上可擴展」且不依賴人工標註資料的方法。
在 Google DeepMind 任職期間,Silver 將這些原則運用於 AlphaGo,該系統在 2016 年擊敗世界冠軍李世石,震驚全球;隨後的 AlphaZero 與 MuZero 則在不依賴人類對局學習的情況下,掌握了西洋棋、將棋與圍棋。Ineffable Intelligence 預計會將類似 MuZero 的規劃演算法推向材料科學、數學與機器人等現實領域,那些領域可以取得「真實回饋(ground truth)」。
Ineffable Intelligence 的成立暗示下一場 AI 優勢之爭,將不再是誰擁有最多文字語料庫,而是誰能為代理人打造最有效的學習環境。
David Silver 的離開不僅僅是人事變動;它更象徵了對該領域未來的宣示。透過押注 Ineffable Intelligence,Silver 正在下注:通往超級智慧的道路不在於讀遍整個網路,而在於體驗世界——無論是模擬或真實——並透過一次又一次的獎勵來掌握它。隨著 AI 熱潮逐漸成熟,產業界將密切觀察,強化學習是否能交付語言模型所承諾但尚未完全實現的推理能力。