AI 先驅 Yann LeCun 警告科技業在 LLM 上走入「死胡同」

分歧之路：LeCun 對 AI 產業的警告

在一項震撼人工智慧（artificial intelligence）社群的舉措中，Yann LeCun──圖靈獎得主且曾任 Meta 首席 AI 科學家──向科技界發出嚴厲警告：產業對大型語言模型（Large Language Models，LLMs）的單一執著，是通往真正通用人工智慧（Artificial General Intelligence，AGI）道路上的「死胡同」。LeCun 坦率地談到當前 AI 研究的狀態，指出僅僅透過擴大現有架構──常被簡化為「只要加更多 GPU」──的主流策略，已經到了收益遞減的地步。

LeCun 的評論正值他轉向位於巴黎的新創事業 AMI（Advanced Machine Intelligence）Labs 之際。由於對 AI 發展戰略的根本分歧，他已經辭去在 Meta 的執行職務，並重押一種名為「世界模型（World Models）」的替代範式。他的批評指出，雖然像 GPT-4 與 Llama 這類大型語言模型已經掌握了人類語言的統計模式，但它們在推理能力、物理直覺與規劃技巧上根本不足，無法在真實世界中進行智能化運作。

大型語言模型的「死胡同」

LeCun 主張的核心在於大型語言模型的自回歸（auto-regressive）本質的侷限性。這類模型透過根據前文脈預測序列中的下一個標記來運作。LeCun 認為，這種機制不足以產生真正的智能，因為它不涉及對現實的內部模擬。

「一個大型語言模型並不明白如果你把玻璃杯推下桌子，它會碎，」LeCun 在最近一次訪談中解釋道。「它只知道在那種語境下，『玻璃』和『破碎』這兩個詞經常共同出現。它在模仿推理，但實際上並不具備推理能力。」

「家貓」類比

為了說明這種不足，LeCun 常用「家貓」來做類比。他指出，一隻普通的家貓對物理世界──重力、動量、物體恆存性──的理解，遠比現存最大的語言模型來得複雜。貓可以規劃跳躍、預測著陸面的穩定性，並即時調整動作。相較之下，以數兆字訓練的大型語言模型無法在任何有意義的層面上「規劃」；它只是杜撰出一個聽起來合理的計畫敘述。

幻覺問題

LeCun 主張，所謂的幻覺──模型自信地生成錯誤資訊的情況──不只是可以用更多資料或人類回饋強化學習（RLHF）修正的錯誤。相反地，這是概率性架構的特徵。由於模型在每一步都在擲骰子選擇下一個詞，隨著生成文本的長度增加，偏離事實現實的非零機率也會增大。LeCun 堅稱，對於安全關鍵的應用，這種不可預測性是不可接受的。

進入世界模型：JEPA 架構

LeCun 提出的解方是轉向「世界模型（World Models）」，特別採用他所稱的聯合嵌入預測架構（Joint Embedding Predictive Architecture，JEPA）。不同於在離散文字標記空間運作的大型語言模型，JEPA 在抽象表示空間中運作。

世界模型的核心理念是模擬環境的因果關係。與其預測下一個像素或下一個詞（這既計算量大且易受噪音影響），世界模型預測的是抽象特徵空間中的世界狀態。這讓系統能夠忽略不相關的細節──例如在移動中的車子後方飄動的樹葉──並專注於相關的行為者與物體。

目標驅動型 AI

這種方法為 LeCun 所稱的「目標驅動型 AI（Objective-Driven AI）」鋪路。在此框架中，AI 代理不再只是被動的預測器，而是主動的規劃者。它會把高階目標（例如「準備一頓飯」）拆解成一連串子目標，並使用其內部的世界模型來模擬各種行動的結果，然後再執行。這種「先模擬、後行動」的迴路是生物大腦的運作方式，LeCun 認為這是通往通用人工智慧的唯一可行道路。

效率差距

另一個關鍵分歧點是資料效率。LeCun 強調人類學習與大型語言模型訓練之間的龐大差距。

大型語言模型訓練： 需要相當於數千個人類一生閱讀量的文字資料。
人類學習： 一個四歲小孩所見的資料量大約是大型語言模型的 50 倍，但大多是視覺與感官資料，而非文字。

小孩透過互動與觀察（多半是在無監督的情況下）學會「常識」──例如物體在你閉上眼睛時不會消失、無支撐的物體會掉落。LeCun 的 AMI Labs 旨在複製這種從影片與感官資料中進行自監督學習的方式，以避開依賴人為標註文字的瓶頸。

產業影響與「羊群」心態

LeCun 的立場使他與矽谷目前的勢頭產生對立。像 OpenAI、Google，甚至 Meta（在其新的 AI 領導下）等公司，仍然投入數十億資金建立更大的資料中心並訓練更大的 transformer 模型。LeCun 將此形容為「羊群心態」，並警告業界正朝向一個高原前進，在那裡再增加計算資源對推理能力的提升將微乎其微。

這場分歧代表了對科技未來的根本性押注。一方面是擴展假說（Scaling Hypothesis）──相信智慧會從大規模出現；另一方面是 LeCun 的架構假說（Architecture Hypothesis）──相信我們需要一個根本不同的藍圖，一個模仿哺乳類皮層層級與預測結構的藍圖。

通往 AGI 的道路

當業界正在慶祝生成式對話機器人的能力時，LeCun 警告我們離具備「先進機器智慧（Advanced Machine Intelligence）」的機器仍有一段距離。他預測，要達成能夠可靠地推理、規劃並理解物理世界的系統，從大型語言模型轉向世界模型將是必要的。

AMI Labs 的成立標誌著這場辯論的新篇章。憑藉可觀的資金與致力於 JEPA 架構的研究團隊，LeCun 正從批評走向建構。他的世界模型願景是否會超越當前大型語言模型的主導地位，尚待觀察，但他的警告對於質疑「通往 AGI 的路就是依循擴展法則的直線」這一假設，具有重要的制衡意義。

比較：大型語言模型 vs. 世界模型

Feature	大型語言模型（LLMs）	世界模型（JEPA）
核心機制	自回歸的下一標記預測	抽象表徵的預測
主要資料來源	文字（網路規模）	感官資料（影片、音訊、物理交互）
推理能力	透過模式比對模仿推理	模擬因果關係
處理現實的方式	易產生幻覺；缺乏內部真實模型	內部模擬物理約束
效率	低；需要大量資料才能達到基本能力	高；目標為接近人類的學習效率

結論

Yann LeCun 宣稱大型語言模型是「死胡同」不僅僅是批評；它同時也是一個行動召喚，促請研究者超越聊天機器人的即時滿足感。隨著 Creati.ai 持續關注人工智慧的演進，這場「擴展派」與「世界模型派」之間的分歧，很可能將定義下一個十年的創新方向。如果 LeCun 的觀點正確，下一個 AI 的重大飛躍不會來自更大的聊天機器人，而會來自一個終於理解世界運作方式的系統。