Усовершенствованная версия Google Gemini 3 Deep Think превосходит GPT-5.2 и Claude Opus 4.6 в бенчмарках

Смена парадигмы: Google возвращает лидерство

В ходе поразительного развития событий, вызвавшего резонанс в сообществе искусственного интеллекта, компания Google официально представила обновленную модель Gemini 3 Deep Think. Выпущенная 12 февраля 2026 года, эта последняя итерация представляет собой монументальный скачок в машинном мышлении, эффективно разрушая предыдущие потолки производительности и устанавливая новую иерархию в ландшафте генеративного ИИ (Generative AI).

В течение нескольких месяцев в индустрии доминировало перетягивание каната между GPT-5.2 от OpenAI и Claude Opus 4.6 от Anthropic. Однако последние результаты бенчмарков Google указывают на решительный сдвиг. Новая Gemini 3 Deep Think не просто немного опередила конкурентов; она совершила качественный скачок в критических показателях подвижного интеллекта (fluid intelligence) и решения сложных проблем, в частности, достигнув исторического показателя 84,6% в бенчмарке ARC-AGI-2.

Этот релиз знаменует собой переход от моделей, которые преуспевают в вероятностном сопоставлении шаблонов, к системам, способным к подлинному многошаговому рассуждению и внутренней проверке. По мере ускорения гонки вооружений в сфере ИИ, последний шаг Google предполагает, что путь к сильному искусственному интеллекту (Artificial General Intelligence, AGI) может быть проложен не только за счет больших наборов данных, но и с помощью более глубоких и осознанных «мыслительных» архитектур.

Архитектура мышления: Внутри Deep Think

Основным отличием обновленной Gemini 3 является ее способность «Deep Think» — специализированный режим рассуждения, который задействует расширенные вычисления во время логического вывода (test-time compute). В отличие от традиционных больших языковых моделей (Large Language Models, LLMs), которые генерируют токены последовательно на основе немедленной вероятности, Deep Think использует рекурсивный внутренний монолог. Это позволяет модели исследовать несколько путей решения, проверять собственную логику и возвращаться назад при обнаружении ошибок — подобно эксперту-человеку, работающему над сложной задачей.

Согласно техническому отчету Google DeepMind, эта фаза «мышления» особенно оптимизирована для областей, требующих высокоточной логики, таких как высшая математика, теоретическая физика и спортивное программирование. Модель не просто извлекает ответ; она конструирует его путем строгой дедукции. Этот архитектурный поворот решает давнюю проблему галлюцинаций в LLMs, обеспечивая уровень логической последовательности перед генерацией окончательного результата.

Поле битвы бенчмарков: Разрушая потолок

Наиболее объективное измерение доминирования Gemini 3 Deep Think заключается в результатах ее бенчмарков. Сообщество было пристально сосредоточено на ARC-AGI-2 (Корпус абстракции и рассуждения / Abstraction and Reasoning Corpus) — тесте, разработанном для измерения способности системы обучаться новым навыкам «на лету», а не воспроизводить заученные обучающие данные.

В то время как эксперты-люди обычно набирают в среднем около 60% в ARC-AGI-2, а предыдущие передовые модели, такие как GPT-5.2, держались на отметке около 53%, Gemini 3 Deep Think достигла подтвержденного результата в 84,6%. Этот результат, подтвержденный фондом ARC Prize Foundation, широко рассматривается как «момент Спутника» для когнитивных способностей ИИ.

В следующей таблице приведены сравнительные показатели производительности ведущих моделей по ключевым метрикам:

Таблица 1: Сравнение производительности передовых моделей

Бенчмарк	Метрика	Gemini 3 Deep Think	GPT-5.2	Claude Opus 4.6
ARC-AGI-2	Точность общего рассуждения	84.6%	52.9%	~49.5%
Humanity's Last Exam (HLE)	Сложные мультидисциплинарные задачи	48.4%	< 30.0%	~32.0%
Codeforces	Спортивное программирование (Elo)	3455	~2800	~2750
GPQA Diamond	Наука на уровне выпускника вуза	94.5%	93.2%	91.8%
MATH-X	Высшая математика	96.2%	92.5%	90.4%

Анализ цифр

Разрыв в рейтинге Elo на Codeforces особенно показателен. Результат 3455 ставит Gemini 3 Deep Think на уровень «легендарный гроссмейстер (Legendary Grandmaster)» — статус, достигнутый лишь горсткой лучших программистов мира. Напротив, GPT-5.2 и Claude Opus 4.6, хотя и являются опытными кодировщиками, остаются в диапазоне более низкого ранга гроссмейстера или международного мастера. Это говорит о том, что в задачах, связанных со сложной алгоритмической оптимизацией и манипулированием структурами данных, модель Google перешла из статуса «помощника» в статус эксперта равного уровня.

Аналогично, в Последнем экзамене человечества (Humanity's Last Exam, HLE) — бенчмарке, специально созданном как «невыполнимый» для текущего ИИ, — результат Gemini в 48,4% (без внешних инструментов) затмевает конкурентов. Этот тест включает вопросы, разработанные профильными экспертами для противодействия простым стратегиям поиска информации, что требует синтеза данных из малоизвестных академических областей.

Реальные последствия: Наука и инженерия

Последствия этих обновлений выходят далеко за рамки хвастовства в списках лидеров. Google позиционирует Gemini 3 Deep Think как инструмент для ускорения научных открытий. Сообщается, что модель достигла стандартов золотой медали на Международных олимпиадах по физике и химии 2025 года, продемонстрировав мастерство в продвинутых теоретических концепциях.

В практических приложениях ранние партнеры используют модель для «агентного программирования (agentic coding)» — процесса, при котором ИИ автономно проектирует и выполняет программные решения, состоящие из множества файлов. Один примечательный кейс, выделенный Google, связан с оптимизацией моделью рецептов выращивания кристаллов для производства полупроводников — задачи, которая ранее требовала месяцев проб и ошибок со стороны исследователей-людей.

Кроме того, были расширены мультимодальные возможности рассуждения модели. Теперь пользователи могут вводить черновые 2D-эскизы, которые Deep Think анализирует для генерации точных файлов объектов для 3D-печати, эффективно преодолевая разрыв между концептуальным дизайном и физическим производством.

Конкурентная среда

Этот релиз оказывает огромное давление на OpenAI и Anthropic. GPT-5.2, выпущенная в конце 2025 года, получила высокую оценку за свой режим «мышления», который принес значительные улучшения в обработке цепочки рассуждений. Однако масштаб скачка Google с Gemini 3 предполагает, что законы масштабирования (scaling laws) интеллекта могут смещаться в сторону эффективность вычислений во время вывода (inference-time compute efficiency), а не просто количества параметров.

Модель Claude Opus 4.6 от Anthropic, известная своей нюансированностью и безопасностью, остается сильным соперником в задачах творческого письма и этического рассуждения. Тем не менее, в чистой вычислительной логике и бенчмарках «точных» наук она теперь значительно отстает от флагмана Google.

Отраслевые аналитики предсказывают быстрый ответ со стороны конкурентов, что потенциально ускорит графики выпуска GPT-5.5 или Claude 5. Однако «защитный ров», созданный производительностью Gemini в ARC-AGI-2 — тесте на адаптивность, а не на знания, — может быть труднее преодолеть, чем предыдущие разрывы.

Экспертный анализ и перспективы

Доктор Елена Ростова, ведущий исследователь Института оценки ИИ, отметила: «Прыжок до 84,6% в ARC — это не постепенное улучшение; это фундаментальный прорыв. Это говорит о том, что модель больше не просто предсказывает следующий токен, а выстраивает связную внутреннюю модель мира для решения новых задач. Мы вступаем в эру ИИ Системы 2 (System 2 AI)».

По мере того как доступ к Gemini 3 Deep Think расширяется для корпоративных пользователей и исследователей через Gemini API, фокус сместится на проверку в реальных условиях. Смогут ли эти баллы бенчмарков трансформироваться в надежных автономных агентов, способных ориентироваться в запутанной, неструктурированной реальности глобального бизнеса и науки?

На данный момент корона принадлежит Google. Планка для сильного искусственного интеллекта была поднята, и остальная часть индустрии теперь находится в роли догоняющих.