
В переломный момент для искусственного интеллекта компания Google выпустила монументальное обновление для Gemini 3 Deep Think, своей специализированной модели рассуждения «Системы 2» (System 2). Релиз, анонсированный сегодня подразделением Google DeepMind, знаменует собой решительный переход от чат-ботов, которые просто предсказывают текст, к системам ИИ, способным на подлинные многоэтапные научные открытия и сложное инженерное проектирование.
Это обновление сопровождается набором показателей производительности, которые не просто постепенно улучшают предыдущие передовые (state-of-the-art, SOTA) эталонные показатели, но фактически сокрушают их. С подтвержденным результатом 84,6% на ARC-AGI-2 и ошеломляющим рейтингом 3455 Эло (Elo) на Codeforces, Gemini 3 Deep Think позиционирует себя как фактический лидер в гонке за Общим искусственным интеллектом (Artificial General Intelligence, AGI), особенно в областях, требующих строгой логики, пространственного планирования и нестандартного решения задач.
Ядро этого обновления заключается в архитектуре «Deep Think», в которой приоритет отдается вычислениям во время инференса (test-time compute). В отличие от стандартных Больших языковых моделей (Large Language Models, LLMs), ориентированных на скорость ответа, Gemini 3 Deep Think спроектирована так, чтобы делать паузу, симулировать различные пути решения, проверять свою внутреннюю логику и самокорректироваться перед генерацией финального результата. Эта фаза «размышления» позволяет модели справляться с задачами, характеризующимися неопределенностью, запутанными данными и отсутствием четких ограничений — вызовами, типичными для высокоуровневых исследований и инженерии.
Сундар Пичаи (Sundar Pichai), генеральный директор Google, подчеркнул, что это обновление разрабатывалось в тесном сотрудничестве с ведущими учеными, чтобы гарантировать, что модель может служить надежным партнером в лаборатории. Результатом стал ИИ, который не просто извлекает информацию, но применяет абстрактное рассуждение для решения задач, с которыми он никогда раньше не сталкивался.
Возможно, самым значимым показателем в сегодняшнем анонсе является результат в ARC-AGI-2. Корпус абстракции и рассуждения (Abstraction and Reasoning Corpus, ARC) широко считается «тестом на вменяемость» для AGI, измеряющим способность модели на лету осваивать новые навыки на основе всего нескольких примеров, а не полагаться на заученные тренировочные данные.
В то время как предыдущие передовые модели с трудом преодолевали барьер в 50–60% — что сопоставимо со средними человеческими показателями — Gemini 3 Deep Think достигла независимо подтвержденного результата в 84,6%. Этот показатель не просто большое число; он представляет собой качественный скачок в подвижном интеллекте (fluid intelligence).
Для понимания контекста: текущие конкуренты значительно отстают. Согласно последним доступным бенчмаркам, Claude Opus 4.6 находится на отметке около 69,2%, в то время как GPT-5.3 отстает с результатом 54,2%. Прорыв Google предполагает, что Gemini 3 взломала фундаментальный код абстрактного обобщения, который ускользал от индустрии годами.
Для программных инженеров и разработчиков последствия появления Gemini 3 Deep Think огромны. Модель достигла рейтинга Эло 3455 на платформе Codeforces. В мире спортивного программирования это не просто уровень «эксперта»; это территория «Легендарного гроссмейстера», что ставит ИИ в топ-8 мирового рейтинга как среди людей, так и среди машин.
Эта возможность выходит за рамки алгоритмических головоломок. Google продемонстрировала потенциал модели в пространственном рассуждении и физическом проектировании, показав рабочий процесс, в котором ИИ проанализировал черновой набросок подставки для ноутбука от руки, смоделировал сложную 3D-геометрию, необходимую для поддержки веса и эргономики, и сгенерировал файл для 3D-печати. Полученный физический объект был функциональным и точным, сокращая разрыв между абстрактным дизайном и физическим производством.
Команда Google DeepMind явно позиционирует эту модель как инструмент для науки. Релиз включал тематические исследования из престижных академических институтов, получивших ранний доступ к модели.
Эти реальные приложения подтверждаются результатами уровня золотых медалей в письменных секциях Международных олимпиад по физике и химии 2025 года, а также результатом 50,5% в CMT-бенчмарке, который тестирует компетенции в продвинутой теоретической физике.
В следующей таблице обобщены ключевые показатели производительности, опубликованные сегодня, в сравнении с соответствующими базовыми линиями или предыдущими стандартами.
| Метрика | Показатель/Результат | Значимость |
|---|---|---|
| ARC-AGI-2 | 84,6% | Демонстрирует беспрецедентный подвижный интеллект и обобщение, значительно превосходя средний человеческий показатель (~60%). |
| Codeforces Elo | 3455 | Уровень Легендарного гроссмейстера; входит в высший эшелон мировых спортивных программистов. |
| Humanity's Last Exam (HLE) | 48,4% (Без инструментов) | Устанавливает новый SOTA в бенчмарке, разработанном как «невозможный» для текущих ИИ, тестируя экспертные знания в предметных областях. |
| IMO 2025 | Золотая медаль | Решает сложные математические доказательства со строгой логической последовательностью. |
| Intl. Physics Olympiad 2025 | Золотая медаль | Демонстрирует владение концепциями физики университетского уровня и решением задач. |
| CMT-Benchmark | 50,5% | Показывает способности в продвинутой теоретической физике, области, ранее недоступной для ИИ. |
Модель также установила новый стандарт в «Последнем экзамене человечества» (Humanity's Last Exam, HLE), набрав 48,4% без использования внешних инструментов. HLE — это бенчмарк, курируемый экспертами в своих областях, который должен быть легким для людей с узкой специализацией, но почти невозможным для моделей ИИ из-за нюансов и глубины требуемых знаний.
Хотя 48,4%, на первый взгляд, может показаться низким результатом по сравнению с 90%+ баллами, часто встречающимися в математическом бенчмарке GSM8K, в контексте HLE это колоссальное достижение. Оно указывает на то, что модель начинает проникать в «экспертный» уровень знаний в тысячах нишевых дисциплин, уходя от парадигмы «мастера на все руки, не владеющего ни одним мастерством в совершенстве».
Google предприняла агрессивные шаги, чтобы передать этот инструмент в руки создателей и исследователей. Обновленная Gemini 3 Deep Think доступна немедленно для подписчиков Google AI Ultra через приложение Gemini.
Более того, признавая спрос на агентские рабочие процессы, Google открывает доступ к Deep Think API для избранной группы исследователей и корпоративных партнеров. Это позволяет разработчикам создавать приложения, использующие расширенные возможности рассуждения модели для задач, требующих высокой надежности, таких как автоматизированный аудит кода, оптимизация цепочек поставок и анализ фармацевтических соединений.
Пока индустрия ИИ анализирует эти цифры, фокус смещается на то, как ответят конкуренты, такие как OpenAI и Anthropic. Но на данный момент, благодаря своей способности рассуждать через запутанные данные, генерировать физические инженерные решения и решать задачи на уровне Гроссмейстера, Gemini 3 Deep Think прочно утвердилась в качестве нового «высшего хищника» в экосистеме ИИ.