
В ключевой момент для мобильного искусственного интеллекта на MWC 2026 Google анонсировала трансформирующее обновление для Gemini Live, наделяющее его разговорный ИИ способностью «видеть» и понимать мир через живое видео и общий доступ к экрану. Это развитие означает коммерческую реализацию видения "Project Astra", выводя Gemini Live за пределы голосовых взаимодействий в полностью мультимодальный опыт, который в реальном времени обрабатывает визуальные данные.
Обновление, которое планируется выпустить для подписчиков Advanced на устройствах Android в марте 2026 года, ставит Google в позицию агрессивной конкуренции с соперничающими мультимодальными моделями, предлагая пользователям цифрового помощника, который не только слышит и говорит, но и наблюдает и анализирует как физическое окружение, так и содержимое экрана.
В основе этого обновления лежит интеграция обработки визуальной информации в реальном времени в интерфейс Gemini Live. Ранее пользователи могли общаться с Gemini, но ИИ не имел контекста о текущем окружении пользователя, если только фотографии не были загружены вручную. С новой возможностью Анализ живого видео (Live Video Analysis) ситуация принципиально меняется.
Пользователи теперь могут активировать камеру в сессии Gemini Live, позволяя ИИ обрабатывать непрерывный видеопоток. Это обеспечивает более естественное, плавное взаимодействие, где ИИ может распознавать объекты, считывать текст на месте и давать контекстные советы без необходимости делать статичные снимки.
Практические применения этой технологии огромны. Во время анонса Google продемонстрировала несколько убедительных сценариев использования:
Кроме физического мира Google предоставляет Gemini Live глубокое понимание цифрового рабочего пространства через возможности Контекст экрана (Screen Context). Эта функция позволяет ИИ «видеть» экран пользователя во время разговора, сокращая разрыв между фоновым помощником и активным сотрудничеством.
Когда функция включена, пользователи могут нажать кнопку «Share screen with Live», предоставляя ИИ разрешение анализировать активное приложение или веб-сайт. В отличие от простого анализа скриншота, эта функция поддерживает непрерывный диалог по мере того, как пользователь перемещается по устройству.
Ключевые сценарии для совместного использования экрана:
Переход от предыдущей версии Gemini Live к новой мультимодальной версии представляет собой значительный скачок в возможностях. В следующей таблице приведены ключевые различия:
| **Набор функций | Gemini Live (2025) | Gemini Live Multimodal (2026)** |
|---|---|---|
| Primary Input | Voice & Text | Voice, Text, Live Video, Screen Share |
| Visual Context | Static Image Uploads Only | Real-time Continuous Video Stream |
| Interaction Style | Turn-based Audio | Fluid, Multimodal Conversation |
| Latency | Standard Processing | Optimized Low-Latency (Project Astra Tech) |
| Screen Awareness | Limited (Screenshot based) | Active Screen Monitoring & Navigation Support |
Это обновление во многом опирается на достижения проекта Google "Project Astra", исследовательской инициативы, направленной на создание универсальных ИИ-агентов, которые могут воспринимать, рассуждать и действовать в реальном времени. Переход этих функций из исследовательского демо в потребительский продукт подчёркивает ускоренный цикл разработки Google в области Генеративного ИИ (Generative AI).
Чтобы достичь низкой задержки, необходимой для «живого» диалога по видео, Google оптимизировала архитектуру Gemini 2.0. Обработка непрерывных кадров видео требует огромных вычислительных мощностей; Google использует гибридный подход, обрабатывая часть данных на устройстве (с помощью последних чипов Tensor), одновременно переводя сложные рассуждения в облако. Это обеспечивает практически мгновенный ответ, когда пользователь спрашивает: «Что это за здание?» во время панорамирования камеры.
С появлением функций постоянного наблюдения конфиденциальность остаётся первоочередной задачей. Google реализовала строгие меры безопасности для этих новых возможностей:
Google подтвердила, что эти функции изначально не будут доступны бесплатным пользователям Gemini. Выпуск запланирован на март 2026 года, эксклюзивно для подписчиков Advanced по плану Google One AI Premium.
Запуск будет сосредоточен на экосистеме Android с глубокой интеграцией для устройств Pixel и последней серии Samsung Galaxy S. Ожидается выпуск на iOS, но на момент объявления на MWC конкретных сроков не было указано. Такая стратегия подчёркивает намерение Google использовать свои достижения в ИИ в качестве ключевого дифференциатора для платформы Android.
По мере того как границы между цифровыми помощниками и человеческим уровнем восприятия стираются, новые возможности Gemini Live задают высокую планку для конкурентов. Способность бесшовно переключаться между разговором, показом и совместным использованием создаёт опыт Мобильного помощника (Mobile Assistant), который наконец реализует научно-фантастическое обещание всегда осведомлённого ИИ-компаньона.