Google обновляет Gemini 3 Deep Think с научным мышлением уровня золотой медали

Google переопределяет научный ИИ с помощью обновления Gemini 3 Deep Think

В рамках значительного скачка в развитии искусственного интеллекта компания Google анонсировала масштабное обновление своей модели Gemini 3 Deep Think, позиционируя ее как ведущий инструмент для сложных научных рассуждений и решения продвинутых инженерных задач. Выпущенное 12 февраля 2026 года, это обновление превращает модель из высокопроизводительной Большой языковой модели (Large Language Model, LLM) в специализированный «движок рассуждений» (reasoning engine), способный конкурировать с экспертами-людьми в узкоспециализированных областях.

Главным достижением этого обновления стал ошеломляющий результат в 48,4% на «Последнем экзамене человечества» (Humanity's Last Exam, HLE) — бенчмарке, специально разработанном как финальное и самое строгое испытание академических способностей и навыков рассуждения для ИИ. Этот показатель знаменует собой решающее лидерство над предыдущими передовыми моделями, включая Gemini 3 Pro и конкурентов, открывая новую эру, когда агенты ИИ могут надежно решать задачи, требующие глубокой многошаговой логической дедукции без использования внешних инструментов.

Для аудитории Creati.ai это событие сигнализирует о сдвиге в том, как разработчики и исследователи будут взаимодействовать с ИИ. Мы переходим от эпохи «введи промпт и надейся» к веку совместных открытий, где такие модели, как Deep Think, служат проверенными научными ассистентами, способными ориентироваться в неупорядоченных наборах данных и выявлять неочевидные теоретические изъяны.

Преимущество «Системы 2»: Рассуждение вместо поиска

Ключевым отличием обновления Gemini 3 Deep Think является его опора на процессы мышления «Системы 2» (System 2 thinking). В отличие от стандартных LLM, которые предсказывают следующий токен на основе статистической вероятности («Система 1»), Deep Think использует осознанный итеративный процесс рассуждения. Это позволяет модели «делать паузу» и оценивать несколько логических путей, прежде чем дать ответ, имитируя медленный аналитический процесс мышления, используемый учеными.

По данным Google DeepMind, эта архитектура была доработана в сотрудничестве с действующими учеными для решения «неразрешимых» задач — тех, где отсутствуют четкие рамки или единственно верные решения. На практике это означает, что модель превосходно справляется с условиями, в которых данные неполны или зашумлены, что часто является проблемой в реальном инженерном деле и экспериментальной науке.

Ключевые архитектурные возможности:

Самокоррекция: Способность выявлять логические ошибки в собственной цепочке рассуждений на этапе инференса.
Междисциплинарный синтез: Успешное сочетание принципов теоретической физики с практическими инженерными ограничениями.
Визуальное рассуждение: Преобразование абстрактных 2D-эскизов в сложные, физически жизнеспособные 3D-модели для производства.

Бенчмаркинг беспрецедентного

Чтобы понять масштаб этого релиза, необходимо взглянуть на жесткие метрики. Сообщество ИИ долгое время боролось с «насыщением бенчмарков», когда модели быстро осваивали тесты вроде MMLU. Humanity's Last Exam (HLE) был создан, чтобы противостоять этому, объединив самые сложные вопросы по математике, гуманитарным и естественным наукам.

Производительность Gemini 3 Deep Think на HLE дополняется рекордно высокими баллами в ARC-AGI-2 (тесте на общий интеллект и распознавание новых паттернов) и на Codeforces, платформе для спортивного программирования.

В следующей таблице обобщены показатели Gemini 3 Deep Think в сравнении с другими ведущими передовыми моделями этого поколения:

Таблица: Сравнительная производительность на фронтирных бенчмарках

Метрика/Бенчмарк|Gemini 3 Deep Think (Обновление)|Gemini 3 Pro|Ключевой конкурент (оценка GPT-5 Pro)
---|---|----
Humanity's Last Exam (HLE)|48,4%|37,5%|~31,6%
ARC-AGI-2 (Рассуждение)|84,6%|~70%|N/A
Рейтинг Codeforces (Elo)|3455|~2900|~2800
Междунар. физическая олимпиада|Уровень золотой медали|Уровень серебряной медали|N/A
Междунар. химическая олимпиада|Уровень золотой медали|Уровень бронзовой медали|N/A
CMT-Benchmark (Физика)|50,5%|N/A|N/A

Примечание: Баллы представляют точность «pass@1» без использования внешних инструментов, если не указано иное. Результаты конкурентов основаны на последних доступных публичных данных на февраль 2026 года.

Результат 84,6% в ARC-AGI-2 особенно примечателен для разработчиков. Подтвержденный фондом ARC Prize Foundation, этот бенчмарк проверяет способность ИИ адаптироваться к совершенно новым задачам, которые никогда не встречались в обучающих данных, эффективно измеряя «подвижный интеллект» (fluid intelligence), а не заученные знания.

Золотые медали и теоретические прорывы

Помимо стандартизированных тестов, Google подтвердила возможности модели в соответствии с высочайшими стандартами человеческих академических достижений. Обновленный Deep Think продемонстрировал результаты уровня золотой медали в письменных секциях Международной олимпиады по физике 2025 года (International Physics Olympiad) и Международной химической олимпиады.

Речь идет не просто о решении задач из учебника. Google выделила внутренние кейсы, где модель продемонстрировала мастерство в продвинутой теоретической физике, набрав 50,5% в CMT-Benchmark. Это предполагает, что модель можно использовать для выдвижения гипотез о новых свойствах материалов или проверки сложных квантово-механических вычислений.

В одном из продемонстрированных сценариев использования исследователи применяли Deep Think для оптимизации роста кристаллов полупроводников. Модель проанализировала исторические экспериментальные данные, выявила тонкие переменные среды, которые ранее игнорировались исследователями-людьми, и предложила модифицированный цикл роста, что привело к получению продукции более высокой чистоты.

От эскиза к реальности: Практическая инженерия

Для инженерного сообщества наиболее ощутимым обновлением является мультимодальная инженерная способность Deep Think. Google продемонстрировала рабочий процесс, в котором пользователь загрузил грубый, нарисованный от руки эскиз механической детали. Deep Think проанализировал рисунок, вывел предполагаемые физические ограничения и требования к несущей способности, после чего сгенерировал точный файл для 3D-печати.

Этот конвейер «от эскиза к продукту» (Sketch-to-Product) демонстрирует способность модели преодолевать разрыв между абстрактным замыслом (креатив) и физическими ограничениями (логика). Это требует от ИИ понимания не только того, как рисунок выглядит, но и того, как объект должен функционировать в реальном мире.

Доступность и корпоративная интеграция

Google развертывает это обновление, используя двухуровневый подход, ориентированный как на индивидуальных опытных пользователей, так и на корпоративных разработчиков.

Подписчики Google AI Ultra: Новый режим Deep Think доступен немедленно в приложении Gemini. Пользователи могут включить опцию «Deep Think» для запросов, требующих интенсивной логической обработки.
Gemini API (ранний доступ): Впервые Google открывает доступ к Deep Think через API для избранных предприятий и научных учреждений. Это важнейшее событие для читателей Creati.ai, создающих сторонние приложения, поскольку оно позволяет интегрировать этот «движок рассуждений» в пользовательские рабочие процессы — такие как боты для автоматизированного анализа кода или конвейеры для разработки фармацевтических препаратов.

Последствия для экосистемы ИИ

Выпуск обновленной Gemini 3 Deep Think усиливает растущую тенденцию 2026 года: разделение моделей ИИ на «быстрых разговорных агентов» и «медленных, глубоких мыслителей». В то время как первые (например, Gemini 3 Flash) ориентированы на скорость отклика и пользовательский опыт, такие модели, как Deep Think, занимают нишу асинхронных решателей проблем.

Для разработчиков это влечет за собой необходимость изменения архитектуры. Приложения вскоре могут начать полагаться на паттерн «менеджер-исполнитель», где быстрая модель обрабатывает взаимодействие с пользователем и делегирует сложные, высокоответственные задачи Deep Think.

По мере того как мы продолжаем тестировать эту модель в Creati.ai, остается вопрос: как эти способности к рассуждению перенесутся на открытые творческие задачи? Хотя бенчмарки сосредоточены на STEM (наука, технологии, инженерия, математика), уровень нюансировки, необходимый для получения 48,4% на «Последнем экзамене человечества», подразумевает глубину, которая может революционизировать также структурирование повествования и генерацию сложного контента.

Мы будем продолжать следить за эффективностью Gemini 3 Deep Think по мере того, как она будет попадать в руки широкого сообщества разработчиков. На данный момент стандарт «золотой медали» установлен.