
在這一年,人工智慧(artificial intelligence)似乎已掌握從創意寫作到複雜程式碼的所有事務;然而,來自史丹佛大學的一項新研究指出一個驚人的侷限:先進的AI模型在理解基礎物理定律方面表現不佳。名為「QuantiPhy」的綜合性基準測試集揭露,即使是最複雜的視覺-語言模型(Vision-Language Models,VLMs)也常常無法準確估算速度、距離與大小——這些技能是人類直覺的基本要素,對自主系統的部署至關重要。
由史丹佛以人為中心人工智慧研究所(Stanford Institute for Human-Centered Artificial Intelligence,HAI)主導的這項研究指出,雖然AI能以詩意的方式描述一段物體下落的影片,但它常常無法以數值精度計算物體的下落速度或落點。這種「量化差距」為產業在機器人與自駕技術方面的野心造成了重大阻礙。
多年來,AI 評估偏重於定性理解——例如請模型辨識影片中的貓或描述一個人在走路的動作。然而,這些任務很少測試模型是否理解支配這些場景的物理性質。為了解決此問題,史丹佛團隊開發了 QuantiPhy,這是首個專門用來評估多模態 AI 量化物理推理能力的資料集。
該基準包含超過 3,300 個視訊-文字實例,要求模型執行「運動學推斷」。模型不只是描述場景,還必須根據視覺證據回答精確的數值問題,例如:
要解這些問題,模型不能靠猜測;它必須執行研究者所稱的「明確視覺測量」,利用提供的先驗(已知事實)將像素位移對應到實際單位。研究結果令人警醒:頂尖模型,包括廣泛使用的 ChatGPT-5.1,經常給出自信卻數學上不正確的答案。
研究中最關鍵的發現之一是,目前的 AI 模型並不真正「看見」物理現象——它們是記住了物理知識。當被呈現一段影片時,模型傾向於依賴訓練資料中的先驗(priors),而非實際的視覺輸入。
例如,若模型看到一頭大象,它會從訓練資料存取一個統計機率,暗示「大象是大型動物」。若影片顯示的是較小的幼象或因透視效果而顯得較小,模型常會忽視視覺現實,而偏向其記憶中的知識。
研究人員的實驗鮮明說明了這一現象。當視覺線索清晰且物體遵循預期模式(例如一般速度行駛的標準車輛)時,模型表現尚可。然而,當研究人員引入「反事實先驗」(counterfactual priors)——例如將物體縮放到不尋常的尺寸或速度以測試模型的適應性——AI 的推理便崩潰。它持續輸出與訓練資料一致的數值,而非依據眼前的影片證據。
研究者主張,這顯示出一種根本性的「接地」缺失。這些模型透過檢索相關文本與數字來模擬理解,而非從原始視覺資料計算物理性質。
QuantiPhy 基準揭露了各項物理任務中不一致的表現。雖然模型在簡單物體計數或靜態辨識上表現有一定能力,但處理動態運動學性質——速度與加速度——的能力明顯不足。
下表列出 QuantiPhy 資料集中具代表性的測試案例,說明真實物理值與 AI 估算之間的差異。
Table 1: QuantiPhy Benchmark Performance Examples
| Task Scenario | Visual Input Prior | Ground Truth | AI Model Estimate (ChatGPT-5.1) | Analysis of Failure |
|---|---|---|---|---|
| Velocity Estimation | Billiard ball diameter (57.4 mm) | 24.99 cm/s | 24.00 cm/s | **接近成功:**模型在此表現良好,可能是因為情境符合標準物理訓練資料,且視覺背景簡潔明確。 |
| Object Sizing | Elephant walking speed (2.31 m/s) | 2.20 meters | 1.30 meters | **重大失誤:**模型嚴重低估高度,未能將步行速度的先驗與動物的垂直尺寸相關聯。 |
| Distance Calculation | Pedestrian speed (1.25 m/s) | 4.77 meters | 7.00 meters | **空間誤差:**對路牌間距離的顯著高估,表示模型無法將 2D 像素深度映射到 3D 真實空間。 |
| Scale Sensitivity | Car length (scaled to 5,670 m) | Matches Scale | Normal Car Size | **先驗偏誤:**當面對數位操弄成「巨型」的車輛時,模型忽略視覺尺度,回歸到其記憶中的標準車輛尺寸。 |
無法進行精確的物理推理並非僅是學術上的好奇;對具身 AI 的部署而言,這是個關乎安全的關鍵議題。自駕車(AVs)、配送無人機與家用機器人都在一個受不可改變的運動定律支配的物理世界中運作。
對於自駕車而言,「看似合理」的推理並不夠。如果車輛的 AI 系統看到一個朝斑馬線奔跑的孩童,它必須精確計算該孩童相對於車輛本身的速度與軌跡,以判斷是否要煞車。即便只差幾公尺每秒的「幻覺式」速度估算,也可能是安全剎停與碰撞之間的關鍵差異。
史丹佛轉譯人工智慧(Stanford Translational Artificial Intelligence,STAI)實驗室主任、該論文的資深作者 Ehsan Adeli 強調,這項限制是達到 Level 5 自主性的主要瓶頸。目前的系統常依賴 LIDAR 與 radar 來繞過視覺推理的需求,但一個真正的通用 AI 代理人——能僅靠相機像人類般操作者——必須掌握這些直觀的物理計算。
儘管結果令人憂心,史丹佛團隊認為 QuantiPhy 提供了改進的路徑圖。研究指出,當前對於 視覺-語言模型(Vision-Language Models) 的訓練範式過度偏向語意理解(這是「這是什麼?」),而非量化推理(「這有多快?」)。
為了彌補這一差距,研究者建議在訓練方法上做出轉變:
隨著 AI 產業朝向人工通用智慧(AGI)的推進,理解物理世界的能力仍然是最後的疆域。在模型能夠可靠地僅憑視覺線索分辨出一輛正在高速行駛的車與一輛停著的車之前,它們在物理世界中的角色仍將受限。