
在一項震撼人工智慧(artificial intelligence)社群的舉措中,Yann LeCun──圖靈獎得主且曾任 Meta 首席 AI 科學家──向科技界發出嚴厲警告:產業對大型語言模型(Large Language Models,LLMs)的單一執著,是通往真正通用人工智慧(Artificial General Intelligence,AGI)道路上的「死胡同」。LeCun 坦率地談到當前 AI 研究的狀態,指出僅僅透過擴大現有架構──常被簡化為「只要加更多 GPU」──的主流策略,已經到了收益遞減的地步。
LeCun 的評論正值他轉向位於巴黎的新創事業 AMI(Advanced Machine Intelligence)Labs 之際。由於對 AI 發展戰略的根本分歧,他已經辭去在 Meta 的執行職務,並重押一種名為「世界模型(World Models)」的替代範式。他的批評指出,雖然像 GPT-4 與 Llama 這類大型語言模型已經掌握了人類語言的統計模式,但它們在推理能力、物理直覺與規劃技巧上根本不足,無法在真實世界中進行智能化運作。
LeCun 主張的核心在於大型語言模型的自回歸(auto-regressive)本質的侷限性。這類模型透過根據前文脈預測序列中的下一個標記來運作。LeCun 認為,這種機制不足以產生真正的智能,因為它不涉及對現實的內部模擬。
「一個大型語言模型並不明白如果你把玻璃杯推下桌子,它會碎,」LeCun 在最近一次訪談中解釋道。「它只知道在那種語境下,『玻璃』和『破碎』這兩個詞經常共同出現。它在模仿推理,但實際上並不具備推理能力。」
為了說明這種不足,LeCun 常用「家貓」來做類比。他指出,一隻普通的家貓對物理世界──重力、動量、物體恆存性──的理解,遠比現存最大的語言模型來得複雜。貓可以規劃跳躍、預測著陸面的穩定性,並即時調整動作。相較之下,以數兆字訓練的大型語言模型無法在任何有意義的層面上「規劃」;它只是杜撰出一個聽起來合理的計畫敘述。
LeCun 主張,所謂的幻覺──模型自信地生成錯誤資訊的情況──不只是可以用更多資料或人類回饋強化學習(RLHF)修正的錯誤。相反地,這是概率性架構的特徵。由於模型在每一步都在擲骰子選擇下一個詞,隨著生成文本的長度增加,偏離事實現實的非零機率也會增大。LeCun 堅稱,對於安全關鍵的應用,這種不可預測性是不可接受的。
LeCun 提出的解方是轉向「世界模型(World Models)」,特別採用他所稱的聯合嵌入預測架構(Joint Embedding Predictive Architecture,JEPA)。不同於在離散文字標記空間運作的大型語言模型,JEPA 在抽象表示空間中運作。
世界模型的核心理念是模擬環境的因果關係。與其預測下一個像素或下一個詞(這既計算量大且易受噪音影響),世界模型預測的是抽象特徵空間中的世界狀態。這讓系統能夠忽略不相關的細節──例如在移動中的車子後方飄動的樹葉──並專注於相關的行為者與物體。
這種方法為 LeCun 所稱的「目標驅動型 AI(Objective-Driven AI)」鋪路。在此框架中,AI 代理不再只是被動的預測器,而是主動的規劃者。它會把高階目標(例如「準備一頓飯」)拆解成一連串子目標,並使用其內部的世界模型來模擬各種行動的結果,然後再執行。這種「先模擬、後行動」的迴路是生物大腦的運作方式,LeCun 認為這是通往通用人工智慧的唯一可行道路。
另一個關鍵分歧點是資料效率。LeCun 強調人類學習與大型語言模型訓練之間的龐大差距。
小孩透過互動與觀察(多半是在無監督的情況下)學會「常識」──例如物體在你閉上眼睛時不會消失、無支撐的物體會掉落。LeCun 的 AMI Labs 旨在複製這種從影片與感官資料中進行自監督學習的方式,以避開依賴人為標註文字的瓶頸。
LeCun 的立場使他與矽谷目前的勢頭產生對立。像 OpenAI、Google,甚至 Meta(在其新的 AI 領導下)等公司,仍然投入數十億資金建立更大的資料中心並訓練更大的 transformer 模型。LeCun 將此形容為「羊群心態」,並警告業界正朝向一個高原前進,在那裡再增加計算資源對推理能力的提升將微乎其微。
這場分歧代表了對科技未來的根本性押注。一方面是擴展假說(Scaling Hypothesis)──相信智慧會從大規模出現;另一方面是 LeCun 的架構假說(Architecture Hypothesis)──相信我們需要一個根本不同的藍圖,一個模仿哺乳類皮層層級與預測結構的藍圖。
當業界正在慶祝生成式對話機器人的能力時,LeCun 警告我們離具備「先進機器智慧(Advanced Machine Intelligence)」的機器仍有一段距離。他預測,要達成能夠可靠地推理、規劃並理解物理世界的系統,從大型語言模型轉向世界模型將是必要的。
AMI Labs 的成立標誌著這場辯論的新篇章。憑藉可觀的資金與致力於 JEPA 架構的研究團隊,LeCun 正從批評走向建構。他的世界模型願景是否會超越當前大型語言模型的主導地位,尚待觀察,但他的警告對於質疑「通往 AGI 的路就是依循擴展法則的直線」這一假設,具有重要的制衡意義。
| Feature | 大型語言模型(LLMs) | 世界模型(JEPA) |
|---|---|---|
| 核心機制 | 自回歸的下一標記預測 | 抽象表徵的預測 |
| 主要資料來源 | 文字(網路規模) | 感官資料(影片、音訊、物理交互) |
| 推理能力 | 透過模式比對模仿推理 | 模擬因果關係 |
| 處理現實的方式 | 易產生幻覺;缺乏內部真實模型 | 內部模擬物理約束 |
| 效率 | 低;需要大量資料才能達到基本能力 | 高;目標為接近人類的學習效率 |
Yann LeCun 宣稱大型語言模型是「死胡同」不僅僅是批評;它同時也是一個行動召喚,促請研究者超越聊天機器人的即時滿足感。隨著 Creati.ai 持續關注人工智慧的演進,這場「擴展派」與「世界模型派」之間的分歧,很可能將定義下一個十年的創新方向。如果 LeCun 的觀點正確,下一個 AI 的重大飛躍不會來自更大的聊天機器人,而會來自一個終於理解世界運作方式的系統。