
在自動駕駛車輛(Autonomous Vehicle, AV)開發的重大飛躍中,Waymo 正式發佈了其全新的「Waymo 世界模型(Waymo World Model)」,這是一個由 Google DeepMind 的 Genie 3 驅動的下一代模擬引擎。這次整合標誌著從傳統的、基於重放的模擬,向完全生成式、交互式環境的關鍵轉變,使這家 Alphabet 旗下的公司能夠在「長尾(long-tail)」邊緣案例(edge cases)上訓練其駕駛系統,而這些案例在統計學上幾乎不可能在現實世界中捕捉到。
本週早些時候發佈的這項公告,強調了 Google AI 研究部門與其自動駕駛子公司之間日益加深的協同效應。透過利用 Genie 3——一個能夠從文本或圖像提示生成可操作、擬真(Photorealistic)3D 環境的通用世界模型——Waymo 旨在解決行業內最持久的挑戰:開放道路的不可預測性。
多年來,自動駕駛車輛模擬的金科玉律涉及「重新模擬」現實世界的日誌。工程師會從車隊車輛中獲取記錄的傳感器數據,更改特定參數(例如行人的速度),並測試軟件如何響應。雖然這對於驗證已知場景非常有效,但該方法受限於實際收集的數據。如果車隊沒有見過特定的異常情況,它就無法準確地對其進行模擬。
Waymo 世界模型 打破了這種依賴。基於 Genie 3 構建,它不僅僅是重放數據;它在「夢想」新的現實。
根據 Waymo 的技術披露,該系統可以生成一致、高保真的傳感器數據——包括攝像頭影片和 3D 光學雷達(LiDAR) 點雲——這反映了物理世界的複雜性。這允許對危險或罕見的場景進行模擬,例如在高速公路附近形成的龍捲風、阻斷鄉村道路的野象,或在極端天氣條件下的複雜多代理交互。
DeepMind 的 Genie 3 最初被設計為生成交互式虛擬世界的基礎模型。其在自動駕駛中的應用利用了其對物理學、物體永恆性和因果關係的理解。Waymo 對這一基礎進行了調整,以創建一個具有三個獨特機制的受控模擬器:
這項技術背後的主要驅動力是安全性。自動駕駛系統通常精通處理 99% 的日常駕駛任務。剩餘的 1%——邊緣案例 的「長尾」——仍然是大規模 L4 和 L5 部署的障礙。
透過使用 生成式 AI(Generative AI) 來合成這些邊緣案例,Waymo 可以讓其「駕駛員」(自動駕駛車輛軟體)暴露於數百萬種關鍵場景的變體中,而無需行駛數十億英里的實體里程。這創造了一個反饋迴路,AI 從合成體驗中學習,而這些體驗對於車輛的傳感器來說與現實難以區分。
由 Genie 3 生成的 合成數據(Synthetic Data) 包括準確的光影反射、天氣對傳感器的影響,以及其他道路使用者(行人、自行車手和其他車輛)的真實行為,確保了從模擬到現實世界的遷移學習保持穩健。
行業目前正在見證從基於規則和日誌的模擬器向神經模擬器的轉變。下表概述了 Waymo 的新方法與傳統方法有何不同。
自動駕駛模擬範式比較
| 特徵 | 傳統模擬 | Waymo 世界模型 (Genie 3) |
|---|---|---|
| 數據來源 | 歷史日誌重放與手動素材 | 生成式影片與光學雷達(LiDAR)合成 |
| 場景創建 | 參與者/事件的手動腳本編寫 | 文本/圖像提示與程式化生成 |
| 物理保真度 | 剛體動力學 (遊戲引擎) | 習得的物理與因果推理 |
| 靈活性 | 受限於現有素材/地圖 | 透過潛在空間實現無限變化 |
| 邊緣案例處理 | 難以對未見事件建模 | 可以幻覺出真實的「黑天鵝」事件 |
| 傳感器輸出 | 近似渲染 | 擬真 神經渲染 |
這項發展並非孤立存在。它與 Waymo 的其他研究計劃並駕齊驅,例如 EMMA(自動駕駛端到端多模態模型)。雖然 EMMA 專注於使用基於 Gemini 的多模態模型來處理傳感器數據並做出駕駛決策,但基於 Genie 3 的世界模型則提供了訓練這些決策模型的「健身房」。
這種結合暗示了一個未來的趨勢,即整個自動駕駛技術棧都是 AI 原生的:生成模型創建世界(Genie 3),而多模態模型在其中駕駛(EMMA),從而創建一個閉環訓練系統,其改進速度比單純的現實世界測試要快得多。
Waymo 對 Genie 3 的採用標誌著機器人領域中「世界模型」概念的成熟。像 Tesla 這樣的競爭對手多年來一直宣揚自己的世界模型方法,主要基於影片預測。然而,Waymo 的實施似乎利用了 DeepMind 對交互式環境研究的特定優勢,在可控性和傳感器模擬(特別是 LiDAR)方面可能提供更高的保真度。
由於監管機構對 自動駕駛車輛 的審查依然嚴格,透過對極端場景進行嚴格、高保真的模擬來證明安全性的能力可能成為關鍵的差異化因素。Waymo 押注於在任何地方部署無人駕駛出租車(Robotaxis)的路徑始於在任何地方模擬它們。