
자율주행 차량(Autonomous Vehicle, AV) 개발의 중요한 도약으로, 웨이모(Waymo)는 구글 딥마인드(Google DeepMind)의 **지니 3(Genie 3)**로 구동되는 차세대 시뮬레이션 엔진인 새로운 "웨이모 월드 모델(Waymo World Model)"을 공식 발표했습니다. 이러한 통합은 기존의 재생 기반 시뮬레이션에서 완전한 생성형 대화형 환경으로의 중추적인 전환을 의미하며, 알파벳(Alphabet) 산하의 이 회사가 실제 세계에서는 통계적으로 포착하기 거의 불가능한 "롱테일(long-tail)" 엣지 케이스(edge cases)에 대해 주행 시스템을 학습시킬 수 있게 해줍니다.
이번 주 초에 발표된 이 소식은 구글의 AI 연구 부문과 자율주행 자회사 간의 깊어지는 시너지 효과를 강조합니다. 텍스트나 이미지 프롬프트로부터 플레이 가능한 포토리얼리스틱(Photorealistic) 3D 환경을 생성할 수 있는 범용 월드 모델인 지니 3(Genie 3)를 활용함으로써, 웨이모는 업계에서 가장 지속적인 과제인 개방형 도로의 예측 불가능성을 해결하고자 합니다.
수년 동안 자율주행 차량 시뮬레이션의 골드 표준은 실제 세계 로그를 "재시뮬레이션"하는 것이었습니다. 엔지니어들은 함대 차량에서 기록된 센서 데이터를 가져와 특정 매개변수(예: 보행자의 속도)를 변경하고 소프트웨어가 어떻게 반응하는지 테스트했습니다. 알려진 시나리오를 검증하는 데는 효과적이지만, 이 방법은 실제로 수집된 데이터에 의해 제약을 받습니다. 함대가 특정 이상 현상을 본 적이 없다면, 이를 정확하게 시뮬레이션할 수 없습니다.
웨이모(Waymo) 월드 모델은 이러한 의존성을 깨뜨립니다. 지니 3를 기반으로 구축된 이 모델은 데이터를 단순히 재생하는 것이 아니라 새로운 현실을 꿈꿉니다.
웨이모의 기술 공개에 따르면, 이 시스템은 물리적 세계의 복잡성을 반영하는 카메라 비디오 및 3D 라이다(LiDAR) 포인트 클라우드를 포함하여 일관되고 충실도 높은 센서 데이터를 생성할 수 있습니다. 이를 통해 고속도로 근처에서 형성되는 토네이도, 시골 길을 막고 있는 길 잃은 코끼리, 또는 극한의 기상 조건에서의 복잡한 다중 에이전트 상호작용과 같이 위험하거나 드문 시나리오를 시뮬레이션할 수 있습니다.
딥마인드의 지니 3는 원래 대화형 가상 세계를 생성하기 위한 파운데이션 모델(Foundation model)로 설계되었습니다. 자율주행에서의 응용은 물리 법칙, 객체 영속성 및 인과 관계에 대한 이해를 활용합니다. 웨이모는 세 가지 별개의 메커니즘을 가진 제어 가능한 시뮬레이터를 만들기 위해 이 토대를 조정했습니다.
이 기술의 주요 동력은 안전입니다. 자율주행 시스템은 일반적으로 일상적인 주행 작업의 99%를 처리하는 데 능숙합니다. 나머지 1%, 즉 엣지 케이스(edge cases)의 "롱테일"은 여전히 광범위한 L4 및 L5 배포의 장벽으로 남아 있습니다.
**생성형 AI(Generative AI)**를 사용하여 이러한 엣지 케이스를 합성함으로써, 웨이모는 수십억 마일의 물리적 주행 없이도 "드라이버(Driver)"(자율주행 소프트웨어)를 수백만 가지 변형된 임계 시나리오에 노출시킬 수 있습니다. 이는 차량의 센서가 현실과 구별할 수 없는 합성 경험으로부터 AI가 학습하는 피드백 루프를 생성합니다.
지니 3에 의해 생성된 **합성 데이터(Synthetic Data)**에는 정확한 조명 반사, 센서에 미치는 날씨 영향, 그리고 다른 도로 사용자(보행자, 자전거 이용자 및 다른 차량)의 현실적인 행동이 포함되어 시뮬레이션에서 실제 세계로의 전이 학습이 견고하게 유지되도록 보장합니다.
업계는 현재 규칙 기반 및 로그 기반 시뮬레이터에서 신경망 시뮬레이터로의 전환을 목격하고 있습니다. 아래 표는 웨이모의 새로운 접근 방식이 기존 방식과 어떻게 다른지 요약합니다.
자율주행 차량 시뮬레이션 패러다임 비교
| 기능 | 전통적 시뮬레이션 | 웨이모 월드 모델 (지니 3) |
|---|---|---|
| 데이터 소스 | 과거 로그 재생 및 수동 에셋 | 생성형 비디오 및 라이다(LiDAR) 합성 |
| 시나리오 생성 | 액터/이벤트의 수동 스크립팅 | 텍스트/이미지 프롬프트 및 절차적 생성 |
| 물리 충실도 | 강체 역학 (게임 엔진) | 학습된 물리학 및 인과 추론 |
| 유연성 | 기존 에셋/지도에 국한됨 | 잠재 공간을 통한 무한한 변형 |
| 엣지 케이스 처리 | 보지 못한 이벤트 모델링의 어려움 | 현실적인 "블랙 스완" 이벤트를 시뮬레이션 가능 |
| 센서 출력 | 근사 렌더링 | 포토리얼리스틱(Photorealistic) 신경망 렌더링 |
이러한 발전은 고립되어 존재하는 것이 아닙니다. 이는 EMMA(자율주행을 위한 엔드투엔드 멀티모달 모델)와 같은 다른 웨이모 연구 이니셔티브와 병행됩니다. EMMA가 제미나이(Gemini) 기반 멀티모달 모델을 사용하여 센서 데이터를 처리하고 주행 결정을 내리는 데 집중하는 반면, 지니 3 기반 월드 모델은 이러한 의사 결정 모델이 학습하는 "체육관"을 제공합니다.
이 조합은 전체 자율주행 스택이 AI 네이티브인 미래를 시사합니다. 생성형 모델이 세계를 생성하고(지니 3), 멀티모달 모델이 그 안에서 주행하며(EMMA), 실제 세계 테스트만으로는 불가능한 속도로 기하급수적으로 개선되는 폐쇄 루프 학습 시스템을 구축하는 것입니다.
웨이모의 지니 3 채택은 로봇 공학에서 "월드 모델" 개념의 성숙을 신호합니다. 테슬라(Tesla)와 같은 경쟁사들은 주로 비디오 예측에 기반하여 수년 동안 자신들만의 월드 모델 접근 방식을 홍보해 왔습니다. 그러나 웨이모의 구현은 대화형 환경에 대한 딥마인드 연구의 특정 강점을 활용하는 것으로 보이며, 제어 가능성 및 센서 시뮬레이션(특히 라이다) 측면에서 잠재적으로 더 높은 충실도를 제공합니다.
자율주행 차량(autonomous vehicles)에 대한 규제 조사가 여전히 높은 상황에서, 극한 시나리오에 대한 엄격하고 고충실도 시뮬레이션을 통해 안전성을 입증하는 능력은 핵심적인 차별화 요소가 될 수 있습니다. 웨이모는 로보택시를 모든 곳에 배포하는 길은 그들을 어디서든 시뮬레이션하는 것에서 시작된다는 데 베팅하고 있습니다.