AI News

Google Gemini Live превращается в по-настоящему мультимодального помощника

В ключевой момент для мобильного искусственного интеллекта на MWC 2026 Google анонсировала трансформирующее обновление для Gemini Live, наделяющее его разговорный ИИ способностью «видеть» и понимать мир через живое видео и общий доступ к экрану. Это развитие означает коммерческую реализацию видения "Project Astra", выводя Gemini Live за пределы голосовых взаимодействий в полностью мультимодальный опыт, который в реальном времени обрабатывает визуальные данные.

Обновление, которое планируется выпустить для подписчиков Advanced на устройствах Android в марте 2026 года, ставит Google в позицию агрессивной конкуренции с соперничающими мультимодальными моделями, предлагая пользователям цифрового помощника, который не только слышит и говорит, но и наблюдает и анализирует как физическое окружение, так и содержимое экрана.

Эра «глаз» для ИИ

В основе этого обновления лежит интеграция обработки визуальной информации в реальном времени в интерфейс Gemini Live. Ранее пользователи могли общаться с Gemini, но ИИ не имел контекста о текущем окружении пользователя, если только фотографии не были загружены вручную. С новой возможностью Анализ живого видео (Live Video Analysis) ситуация принципиально меняется.

Пользователи теперь могут активировать камеру в сессии Gemini Live, позволяя ИИ обрабатывать непрерывный видеопоток. Это обеспечивает более естественное, плавное взаимодействие, где ИИ может распознавать объекты, считывать текст на месте и давать контекстные советы без необходимости делать статичные снимки.

Применение в реальном мире

Практические применения этой технологии огромны. Во время анонса Google продемонстрировала несколько убедительных сценариев использования:

  • Устранение неполадок оборудования: пользователь может направить камеру на неработающий прибор или на конкретную деталь двигателя автомобиля, и Gemini Live сможет идентифицировать компоненты и в реальном времени проводить пользователя через шаги по ремонту.
  • Творческая помощь: в демонстрации, связанной с гончарным делом, пользователь показал Gemini набор обожжённых ваз. ИИ проанализировал текстуры и формы, чтобы предложить цвета глазури, которые помогут достичь эстетики «mid-century modern».
  • Доступность: для пользователей с нарушениями зрения эта функция предлагает высокоотзывчивый инструмент описания, который может мгновенно озвучивать окружение или читать вывески.

Интеллектуальная осведомлённость об экране

Кроме физического мира Google предоставляет Gemini Live глубокое понимание цифрового рабочего пространства через возможности Контекст экрана (Screen Context). Эта функция позволяет ИИ «видеть» экран пользователя во время разговора, сокращая разрыв между фоновым помощником и активным сотрудничеством.

Когда функция включена, пользователи могут нажать кнопку «Share screen with Live», предоставляя ИИ разрешение анализировать активное приложение или веб-сайт. В отличие от простого анализа скриншота, эта функция поддерживает непрерывный диалог по мере того, как пользователь перемещается по устройству.

Ключевые сценарии для совместного использования экрана:

  1. Шоппинг-компаньон: пользователь, просматривающий онлайн-магазин одежды, может спросить у Gemini, подходят ли одни джинсы к рубашке, которую он ранее смотрел, или попросить совет по стилю на основе текущих модных тенденций.
  2. Сложная навигация: при использовании карт или сайтов для бронирования поездок пользователи могут попросить Gemini заметить конкретные детали — например: «Какие из этих отелей предлагают бесплатный завтрак и находятся ближе всего к метро?» — экономя время на ручной фильтрации большого объёма информации.
  3. Образовательная поддержка: студенты могут поделиться экраном, рассматривая сложную диаграмму или статью на иностранном языке, прося Gemini объяснить концепции или перевести текст на месте.

Сравнение поколений Gemini Live

Переход от предыдущей версии Gemini Live к новой мультимодальной версии представляет собой значительный скачок в возможностях. В следующей таблице приведены ключевые различия:

**Набор функций Gemini Live (2025) Gemini Live Multimodal (2026)**
Primary Input Voice & Text Voice, Text, Live Video, Screen Share
Visual Context Static Image Uploads Only Real-time Continuous Video Stream
Interaction Style Turn-based Audio Fluid, Multimodal Conversation
Latency Standard Processing Optimized Low-Latency (Project Astra Tech)
Screen Awareness Limited (Screenshot based) Active Screen Monitoring & Navigation Support

Технология, лежащая в основе видения

Это обновление во многом опирается на достижения проекта Google "Project Astra", исследовательской инициативы, направленной на создание универсальных ИИ-агентов, которые могут воспринимать, рассуждать и действовать в реальном времени. Переход этих функций из исследовательского демо в потребительский продукт подчёркивает ускоренный цикл разработки Google в области Генеративного ИИ (Generative AI).

Чтобы достичь низкой задержки, необходимой для «живого» диалога по видео, Google оптимизировала архитектуру Gemini 2.0. Обработка непрерывных кадров видео требует огромных вычислительных мощностей; Google использует гибридный подход, обрабатывая часть данных на устройстве (с помощью последних чипов Tensor), одновременно переводя сложные рассуждения в облако. Это обеспечивает практически мгновенный ответ, когда пользователь спрашивает: «Что это за здание?» во время панорамирования камеры.

Конфиденциальность и контроль пользователя

С появлением функций постоянного наблюдения конфиденциальность остаётся первоочередной задачей. Google реализовала строгие меры безопасности для этих новых возможностей:

  • Явная активация: режимы камеры и совместного доступа к экрану по умолчанию никогда не активны. Пользователь должен явно нажать посвящённый значок, чтобы включить «зрение» для сессии.
  • Визуальные индикаторы: заметное уведомление на экране остаётся видимым всякий раз, когда ИИ «наблюдает» за экраном или видеопотоком камеры.
  • Хранение данных: Google заявляет, что видео, обрабатываемое во время этих живых сессий, является временным и по умолчанию не сохраняется постоянно для обучения моделей, хотя пользователи могут согласиться на сохранение истории взаимодействий.

Развертывание и доступность

Google подтвердила, что эти функции изначально не будут доступны бесплатным пользователям Gemini. Выпуск запланирован на март 2026 года, эксклюзивно для подписчиков Advanced по плану Google One AI Premium.

Запуск будет сосредоточен на экосистеме Android с глубокой интеграцией для устройств Pixel и последней серии Samsung Galaxy S. Ожидается выпуск на iOS, но на момент объявления на MWC конкретных сроков не было указано. Такая стратегия подчёркивает намерение Google использовать свои достижения в ИИ в качестве ключевого дифференциатора для платформы Android.

По мере того как границы между цифровыми помощниками и человеческим уровнем восприятия стираются, новые возможности Gemini Live задают высокую планку для конкурентов. Способность бесшовно переключаться между разговором, показом и совместным использованием создаёт опыт Мобильного помощника (Mobile Assistant), который наконец реализует научно-фантастическое обещание всегда осведомлённого ИИ-компаньона.

Рекомендуемые