AI News

Google преобразует визуальный ИИ с помощью Агентного зрения (Agentic Vision) для Gemini 3 Flash

Google официально представила «Агентное зрение (Agentic Vision)» — революционное обновление для лёгкой модели Gemini 3 Flash, которое принципиально меняет способ, которым искусственный интеллект интерпретирует визуальные данные. Выпущенная в конце января 2026 года, эта новая возможность переводит зрение ИИ из пассивного статического процесса наблюдения в активный исследовательский рабочий процесс. Интегрировав цикл «Думай‑Действуй‑Наблюдай» (Think‑Act‑Observe), Gemini 3 Flash теперь может писать и выполнять код для автономной проверки, манипуляции и анализа изображений с точностью, ранее недостижимой для стандартных мультимодальных моделей (multimodal models).

Это развитие знаменует собой значительный сдвиг в конкурентной среде генеративного ИИ (Generative AI), устраняя давние ограничения в том, как модели обрабатывают тонкие визуальные детали. Где традиционные модели могли «угадывать» мелкий текст или сложные диаграммы после однократного просмотра, Агентное зрение даёт ИИ возможность действовать как человеческий следователь — увеличивать, переориентировать и вычислять на основании визуальных доказательств.

Переход от статического наблюдения к активному

Ключевая инновация Агентного зрения — уход от «однопроходной» обработки. В предыдущих поколениях моделей визуального языка (Vision Language Models, VLMs) ИИ обрабатывал всё изображение за один прямой проход. Хотя это работало для общих описаний, такой подход часто не справлялся с задачами высокой плотности информации — например, с удалёнными уличными знаками, серийными номерами на микрочипах или переполненными техническими схемами.

Агентное зрение заменяет статичный подход динамической петлёй. При предъявлении сложной визуальной задачи Gemini 3 Flash не просто выдаёт немедленный ответ. Вместо этого оно вступает в структурированный процесс рассуждения:

  1. Думай: модель анализирует запрос пользователя и исходное изображение, чтобы сформулировать многошаговый план.
  2. Действуй: она генерирует и выполняет код на Python для активной манипуляции изображением. Это может включать обрезку конкретных участков, поворот изображения или применение аннотаций.
  3. Наблюдай: преобразованные данные изображения добавляются обратно в контекстное окно модели, что позволяет ей заново исследовать новые доказательства перед формированием окончательного ответа.

Этот рекурсивный процесс позволяет модели «закреплять» своё рассуждение в пиксельно-точных данных, значительно снижая галлюцинации. Google сообщает, что этот метод активного исследования обеспечивает стабильный прирост качества на 5–10% по большинству визуальных бенчмарков, с особенно высоким улучшением в задачах, требующих точной локализации и подсчёта.

«Визуальная черновая область» (visual scratchpad) и рассуждение, управляемое кодом

Одним из наиболее практичных применений Агентного зрения является «визуальная черновая область» (visual scratchpad). При запросах на подсчёт — например, определение числа пальцев на руке или предметов на полке — Gemini 3 Flash теперь может использовать Python для рисования ограничивающих рамок и присвоения числовых меток каждому обнаруженному объекту.

Эта возможность устраняет печально известную слабость генеративного ИИ: неспособность точно считать объекты в сложных сценах. Перенося логику подсчёта в детерминированное выполнение кода вместо опоры только на вероятностную генерацию токенов, модель обеспечивает более высокую точность.

Ключевые возможности Агентного зрения (Agentic Vision):

Feature Description Benefit
Активное увеличение (Active Zooming) Модель автономно обрезает и изменяет размер участков изображения для проверки мелких деталей. Позволяет читать мелкий текст, серийные номера и удалённые объекты без вмешательства пользователя.
Визуальная арифметика (Visual Arithmetic) Анализирует таблицы высокой плотности и выполняет код на Python для вычислений на извлечённых данных. Устраняет ошибки вычислений, типичные для стандартных LLM при обработке финансовых или научных данных.
Итеративная аннотация (Iterative Annotation) Использует «визуальную черновую область» для рисования ограничивающих рамок и меток на изображении в процессе анализа. Визуально проверяет подсчёты и локализации, снижая галлюцинации в задачах обнаружения объектов.
Динамическая манипуляция (Dynamic Manipulation) Может поворачивать или преобразовывать изображения для коррекции ориентации перед анализом. Улучшает понимание сканов документов или фотографий, сделанных под необычным углом.

Техническая реализация и доступность

Интеграция выполнения кода непосредственно в визуальный конвейер — то, что выделяет Gemini 3 Flash. Позволяя модели использовать инструменты — в частности Python — для модификации собственного визуального входа, Google фактически даёт ИИ увеличительное стекло и калькулятор.

В настоящее время Агентное зрение доступно разработчикам через Gemini API в Google AI Studio и Vertex AI. Также оно постепенно появляется у обычных пользователей через выбор модели «Thinking» в приложении Gemini. Хотя текущая версия фокусируется на неявном увеличении и выполнении кода, Google очертил дорожную карту, включающую более продвинутые неявные поведения. Будущие обновления нацелены на автоматизацию сложных преобразований, таких как поворот и визуальная арифметика, без необходимости явных подсказок от пользователя.

Кроме того, Google планирует расширить набор инструментов, доступных Агентному зрению. Предстоящие интеграции могут позволить модели использовать веб‑поиск и обратный поиск по изображению (reverse image search), давая ей возможность перекрёстно сверять визуальные данные с внешней информацией для более прочного обоснования понимания мира.

Последствия для предприятий и разработки

Для разработчиков и корпоративных пользователей Агентное зрение предлагает более надёжное решение для обработки документов и автоматизированной инспекции. Отрасли, которые зависят от извлечения данных из технических чертежей, проверки соответствия на фотографиях или оцифровки аналоговых записей, могут использовать способность модели «проверять» свою работу через цикл Думай‑Действуй‑Наблюдай.

Этот релиз позиционирует Gemini 3 Flash как высокоспециализированный инструмент для агентных рабочих процессов (agentic workflows), где точность и глубина рассуждений приоритетнее чистой скорости. По мере того как AI‑агенты становятся более автономными, способность активно верифицировать визуальные входные данные станет критической для перехода от экспериментальных прототипов к надёжным приложениям в реальном мире.

Рекомендуемые