AI News

Google переосмысливает рассуждение ИИ с обновлением Gemini 3 Deep Think

В переломный момент для искусственного интеллекта компания Google выпустила монументальное обновление для Gemini 3 Deep Think, своей специализированной модели рассуждения «Системы 2» (System 2). Релиз, анонсированный сегодня подразделением Google DeepMind, знаменует собой решительный переход от чат-ботов, которые просто предсказывают текст, к системам ИИ, способным на подлинные многоэтапные научные открытия и сложное инженерное проектирование.

Это обновление сопровождается набором показателей производительности, которые не просто постепенно улучшают предыдущие передовые (state-of-the-art, SOTA) эталонные показатели, но фактически сокрушают их. С подтвержденным результатом 84,6% на ARC-AGI-2 и ошеломляющим рейтингом 3455 Эло (Elo) на Codeforces, Gemini 3 Deep Think позиционирует себя как фактический лидер в гонке за Общим искусственным интеллектом (Artificial General Intelligence, AGI), особенно в областях, требующих строгой логики, пространственного планирования и нестандартного решения задач.

Движок рассуждений: за пределами распознавания паттернов

Ядро этого обновления заключается в архитектуре «Deep Think», в которой приоритет отдается вычислениям во время инференса (test-time compute). В отличие от стандартных Больших языковых моделей (Large Language Models, LLMs), ориентированных на скорость ответа, Gemini 3 Deep Think спроектирована так, чтобы делать паузу, симулировать различные пути решения, проверять свою внутреннюю логику и самокорректироваться перед генерацией финального результата. Эта фаза «размышления» позволяет модели справляться с задачами, характеризующимися неопределенностью, запутанными данными и отсутствием четких ограничений — вызовами, типичными для высокоуровневых исследований и инженерии.

Сундар Пичаи (Sundar Pichai), генеральный директор Google, подчеркнул, что это обновление разрабатывалось в тесном сотрудничестве с ведущими учеными, чтобы гарантировать, что модель может служить надежным партнером в лаборатории. Результатом стал ИИ, который не просто извлекает информацию, но применяет абстрактное рассуждение для решения задач, с которыми он никогда раньше не сталкивался.

Преодоление потолка ARC-AGI-2

Возможно, самым значимым показателем в сегодняшнем анонсе является результат в ARC-AGI-2. Корпус абстракции и рассуждения (Abstraction and Reasoning Corpus, ARC) широко считается «тестом на вменяемость» для AGI, измеряющим способность модели на лету осваивать новые навыки на основе всего нескольких примеров, а не полагаться на заученные тренировочные данные.

В то время как предыдущие передовые модели с трудом преодолевали барьер в 50–60% — что сопоставимо со средними человеческими показателями — Gemini 3 Deep Think достигла независимо подтвержденного результата в 84,6%. Этот показатель не просто большое число; он представляет собой качественный скачок в подвижном интеллекте (fluid intelligence).

Для понимания контекста: текущие конкуренты значительно отстают. Согласно последним доступным бенчмаркам, Claude Opus 4.6 находится на отметке около 69,2%, в то время как GPT-5.3 отстает с результатом 54,2%. Прорыв Google предполагает, что Gemini 3 взломала фундаментальный код абстрактного обобщения, который ускользал от индустрии годами.

Инженерия и программирование на уровне гроссмейстера

Для программных инженеров и разработчиков последствия появления Gemini 3 Deep Think огромны. Модель достигла рейтинга Эло 3455 на платформе Codeforces. В мире спортивного программирования это не просто уровень «эксперта»; это территория «Легендарного гроссмейстера», что ставит ИИ в топ-8 мирового рейтинга как среди людей, так и среди машин.

Эта возможность выходит за рамки алгоритмических головоломок. Google продемонстрировала потенциал модели в пространственном рассуждении и физическом проектировании, показав рабочий процесс, в котором ИИ проанализировал черновой набросок подставки для ноутбука от руки, смоделировал сложную 3D-геометрию, необходимую для поддержки веса и эргономики, и сгенерировал файл для 3D-печати. Полученный физический объект был функциональным и точным, сокращая разрыв между абстрактным дизайном и физическим производством.

Партнер для научных открытий

Команда Google DeepMind явно позиционирует эту модель как инструмент для науки. Релиз включал тематические исследования из престижных академических институтов, получивших ранний доступ к модели.

  • Ратгерский университет: Математик Лиза Карбоне (Lisa Carbone) использовала Deep Think для рецензирования плотных технических статей по теоретической физике. ИИ успешно выявил тонкую логическую ошибку в доказательстве, которую ранее пропустили рецензенты-люди, продемонстрировав способность аудировать сложные теоретические работы.
  • Университет Дьюка (лаборатория Ванга): Исследователи применили модель для решения задач материаловедения, в частности в исследованиях полупроводников. Deep Think разработала новый метод выращивания тонких кристаллических пленок размером более 100 микрон, достигнув цели по точности, которую не удавалось достичь традиционными методами.

Эти реальные приложения подтверждаются результатами уровня золотых медалей в письменных секциях Международных олимпиад по физике и химии 2025 года, а также результатом 50,5% в CMT-бенчмарке, который тестирует компетенции в продвинутой теоретической физике.

Разбивка бенчмарков

В следующей таблице обобщены ключевые показатели производительности, опубликованные сегодня, в сравнении с соответствующими базовыми линиями или предыдущими стандартами.

Метрика Показатель/Результат Значимость
ARC-AGI-2 84,6% Демонстрирует беспрецедентный подвижный интеллект и обобщение, значительно превосходя средний человеческий показатель (~60%).
Codeforces Elo 3455 Уровень Легендарного гроссмейстера; входит в высший эшелон мировых спортивных программистов.
Humanity's Last Exam (HLE) 48,4% (Без инструментов) Устанавливает новый SOTA в бенчмарке, разработанном как «невозможный» для текущих ИИ, тестируя экспертные знания в предметных областях.
IMO 2025 Золотая медаль Решает сложные математические доказательства со строгой логической последовательностью.
Intl. Physics Olympiad 2025 Золотая медаль Демонстрирует владение концепциями физики университетского уровня и решением задач.
CMT-Benchmark 50,5% Показывает способности в продвинутой теоретической физике, области, ранее недоступной для ИИ.

Навигация по «Последнему экзамену человечества»

Модель также установила новый стандарт в «Последнем экзамене человечества» (Humanity's Last Exam, HLE), набрав 48,4% без использования внешних инструментов. HLE — это бенчмарк, курируемый экспертами в своих областях, который должен быть легким для людей с узкой специализацией, но почти невозможным для моделей ИИ из-за нюансов и глубины требуемых знаний.

Хотя 48,4%, на первый взгляд, может показаться низким результатом по сравнению с 90%+ баллами, часто встречающимися в математическом бенчмарке GSM8K, в контексте HLE это колоссальное достижение. Оно указывает на то, что модель начинает проникать в «экспертный» уровень знаний в тысячах нишевых дисциплин, уходя от парадигмы «мастера на все руки, не владеющего ни одним мастерством в совершенстве».

Доступность и перспективы на будущее

Google предприняла агрессивные шаги, чтобы передать этот инструмент в руки создателей и исследователей. Обновленная Gemini 3 Deep Think доступна немедленно для подписчиков Google AI Ultra через приложение Gemini.

Более того, признавая спрос на агентские рабочие процессы, Google открывает доступ к Deep Think API для избранной группы исследователей и корпоративных партнеров. Это позволяет разработчикам создавать приложения, использующие расширенные возможности рассуждения модели для задач, требующих высокой надежности, таких как автоматизированный аудит кода, оптимизация цепочек поставок и анализ фармацевтических соединений.

Пока индустрия ИИ анализирует эти цифры, фокус смещается на то, как ответят конкуренты, такие как OpenAI и Anthropic. Но на данный момент, благодаря своей способности рассуждать через запутанные данные, генерировать физические инженерные решения и решать задачи на уровне Гроссмейстера, Gemini 3 Deep Think прочно утвердилась в качестве нового «высшего хищника» в экосистеме ИИ.

Рекомендуемые