
MWC 2026에서 모바일 인공지능의 중요한 순간으로, Google은 Gemini Live에 실시간 비디오와 화면 공유를 통해 세상을 "보고" 이해하는 능력을 부여하는 획기적인 업데이트를 발표했습니다. 이 발전은 "Project Astra" 비전의 상업적 실현을 의미하며, Gemini Live를 음성 전용 상호작용에서 시각 데이터를 실시간으로 처리하는 완전한 멀티모달 경험으로 확장합니다.
이 업데이트는 2026년 3월 Android 기기의 Advanced subscribers에게 제공될 예정으로, Google은 경쟁 멀티모달 모델들과 본격적으로 경쟁할 위치를 확보하게 됩니다. 사용자는 듣고 말하는 것뿐만 아니라 물리적 주변과 화면상의 콘텐츠를 관찰하고 분석할 수 있는 디지털 어시스턴트를 이용하게 됩니다.
이 업데이트의 핵심은 Gemini Live 인터페이스에 실시간 시각 처리 통합이 추가된 것입니다. 이전에는 사용자가 Gemini와 대화할 수 있었지만, 사진을 수동으로 업로드하지 않는 한 AI는 사용자의 즉각적인 환경에 대한 맥락을 알지 못했습니다. 새로운 라이브 비디오 분석 (Live Video Analysis) 기능으로 상황이 근본적으로 달라졌습니다.
사용자는 이제 Gemini Live 세션 내에서 카메라를 활성화하여 AI가 연속 비디오 피드를 처리하도록 할 수 있습니다. 이를 통해 AI는 정적인 이미지를 찍을 필요 없이 사물을 식별하고, 현장의 텍스트를 읽고, 상황에 맞는 조언을 제공하는 보다 자연스럽고 유동적인 상호작용을 수행할 수 있습니다.
이 기술의 실용적 적용 범위는 광범위합니다. Google은 발표 중 여러 설득력 있는 사용 사례를 시연했습니다:
물리적 세계를 넘어서, Google은 화면 컨텍스트 (Screen Context) 기능을 통해 디지털 작업 공간에 대한 Gemini Live의 깊은 통찰을 제공합니다. 이 기능은 대화 중 사용자의 화면을 "볼" 수 있게 하여 배경 지원과 적극적 협업 사이의 간극을 메웁니다.
활성화되면 사용자는 "Share screen with Live" 버튼을 탭하여 AI가 활성 앱이나 웹사이트를 분석할 수 있는 권한을 부여합니다. 단순한 스크린샷 분석과 달리, 사용자가 기기를 탐색하는 동안 지속적인 대화가 지원됩니다.
화면 공유의 주요 사용 사례:
이전 버전의 Gemini Live에서 이번 멀티모달 버전으로의 전환은 기능 측면에서 상당한 도약을 의미합니다. 다음 표는 주요 차이점을 요약합니다:
| **기능 세트 | Gemini Live (2025) | Gemini Live Multimodal (2026)** |
|---|---|---|
| Primary Input | Voice & Text | Voice, Text, Live Video, Screen Share |
| Visual Context | Static Image Uploads Only | Real-time Continuous Video Stream |
| Interaction Style | Turn-based Audio | Fluid, Multimodal Conversation |
| Latency | Standard Processing | Optimized Low-Latency (Project Astra Tech) |
| Screen Awareness | Limited (Screenshot based) | Active Screen Monitoring & Navigation Support |
이번 업데이트는 실시간으로 지각하고 추론하며 행동할 수 있는 범용 AI 에이전트를 구축하는 연구 이니셔티브인 Google의 "Project Astra"에서 이루어진 발전에 크게 힘입고 있습니다. 이러한 기능이 연구 데모에서 소비자 제품으로 전환된 것은 Google이 생성형 AI (Generative AI) 분야에서 가속화된 개발 주기를 보이고 있음을 강조합니다.
비디오에 대한 "라이브" 대화에 필요한 저지연(latency)을 달성하기 위해 Google은 Gemini 2.0 아키텍처를 최적화했습니다. 연속 비디오 프레임을 처리하려면 막대한 계산 능력이 필요하므로, Google은 일부 데이터를 장치에서(최신 Tensor 칩을 통해) 처리하고 복잡한 추론은 클라우드로 오프로드하는 하이브리드 접근법을 사용합니다. 이로 인해 사용자가 카메라를 팬(pan)하면서 "저 건물이 뭐야?"라고 물었을 때 응답이 거의 즉시 제공됩니다.
항상 시청하는 AI 기능의 도입과 함께, 개인정보 보호는 최우선 과제로 남아 있습니다. Google은 이러한 새로운 기능에 대해 엄격한 안전장치를 구현했습니다:
Google은 이러한 기능이 초기에는 Gemini의 무료 계층 사용자에게 제공되지 않을 것임을 확인했습니다. 롤아웃은 2026년 3월로 예정되어 있으며, Google One AI Premium 요금제의 Advanced 구독자에게만 독점적으로 제공됩니다.
출시는 Android 생태계를 우선시하며, Pixel 기기 및 Samsung의 최신 Galaxy S 시리즈에 대한 깊은 통합이 계획되어 있습니다. iOS 출시도 예상되지만 MWC 발표에서는 구체적인 일정이 제공되지 않았습니다. 이 전략은 Android 플랫폼에서 AI 역량을 핵심 차별화 요소로 활용하려는 Google의 의도를 강조합니다.
디지털 어시스턴트와 인간 수준의 지각 간 경계가 흐려짐에 따라, Gemini Live의 새로운 기능은 경쟁사에 높은 기준을 제시합니다. 말하고, 보여주고, 공유하는 동작을 원활하게 전환할 수 있는 능력은 마침내 항상 인지하는 AI 동반자의 공상과학적 약속에 부합하는 모바일 어시스턴트 (Mobile Assistant) 경험을 만들어냅니다.