Google представляет Gemini 3 Deep Think и математического ИИ Aletheia

Google переосмысливает научные открытия с помощью Gemini 3 Deep Think и Aletheia

Ландшафт искусственного интеллекта кардинально изменился на этой неделе: компания Google DeepMind представила ряд революционных достижений, направленных на решение самых сложных научных задач человечества. В авангарде этого релиза находятся Gemini 3 Deep Think, обновленная модель рассуждения, использующая масштабирование во время логического вывода (inference-time scaling) для того, чтобы превзойти конкурентов, и Aletheia, специализированный ИИ-агент, который успешно перешел от решения задач математических олимпиад к генерации автономных научных исследований, готовых к публикации.

Этот двойной релиз знаменует собой переломный момент, когда ИИ выходит за рамки простой помощи и вступает в сферу независимых открытий, бросая вызов устоявшимся бенчмаркам и устанавливая новые стандарты того, чего могут достичь автономные агенты в теоретической физике, высшей математике и разработке лекарств.

Gemini 3 Deep Think: Освоение искусства «думать дольше»

В основе этих новых возможностей лежит усовершенствованная модель Gemini 3 Deep Think. Google фундаментально переработала режим рассуждения модели, сосредоточившись на технике, известной как «масштабирование во время логического вывода» (inference-time scaling). Этот подход позволяет модели выделять больше вычислительных ресурсов на этапе запроса — фактически «думая дольше» — для исследования нескольких путей рассуждения перед тем, как дать ответ.

Результаты этого архитектурного сдвига ошеломляют. В прямых сравнениях Gemini 3 Deep Think, по сообщениям, превзошла основных конкурентов, включая GPT-5.2 от OpenAI и Claude Opus 4.6 от Anthropic, в различных строгих бенчмарках. Мастерство модели особенно заметно в задачах, требующих глубокой логической дедукции и мультимодального понимания (multimodal understanding).

Ключевые показатели производительности:

ARC-AGI-2: Достигнуты высшие баллы в визуальных головоломках, требующих абстрактного мышления.
CMT-Benchmark: 50,5% в теоретической физике, что демонстрирует глубокое понимание сложных научных концепций.
Эффективность: Итерация Deep Think от января 2026 года сократила объем вычислений, необходимых для задач олимпиадного уровня, в 100 раз по сравнению со своим предшественником 2025 года.

Этот выигрыш в эффективности имеет решающее значение. Оптимизировав процесс обработки информации моделью, Google сделала высокоуровневые рассуждения доступными для практического применения, позволяя инженерам моделировать физические системы с помощью кода и помогая исследователям интерпретировать огромные массивы неполных данных.

Aletheia: Первый настоящий ИИ-математик

В то время как Gemini 3 Deep Think обеспечивает основу для рассуждений, Aletheia представляет собой специализированное применение этой мощи. Созданная для преодоления «разрыва в оценке» (evaluation gap) между олимпиадной математикой и профессиональными исследованиями, Aletheia — это ИИ-агент, способный ориентироваться в неоднозначности открытых математических проблем.

В отличие от традиционных решателей, которые преуспевают в четко определенных вопросах, Aletheia работает через сложный Agentic Loop. Эта архитектура имитирует рабочий процесс математика-человека, разделяя процесс решения задач на отдельные этапы.

Агентная архитектура

Для обеспечения точности и уменьшения «галлюцинаций», характерных для больших языковых моделей (Large Language Models, LLM), Aletheia использует трехстороннюю систему:

Генератор (Generator): Предлагает варианты решений и стратегии доказательства для данной исследовательской задачи.
Верификатор (Verifier): Неформальный механизм на естественном языке, который проверяет предложение на наличие логических ошибок или неточностей в цитировании.
Ревизор (Reviser): Итеративно исправляет ошибки, выявленные Верификатором, до тех пор, пока результат не будет соответствовать строгим логическим стандартам.

Такое разделение обязанностей позволяет системе исправлять собственные ошибки — черта, которая ранее была основным препятствием для ИИ в формальных науках. Кроме того, Aletheia использует Google Search для проверки цитат, гарантируя, что она ссылается на реальную математическую литературу, а не выдумывает источники.

История бенчмарков: Aletheia против всех

Влияние агентного подхода Aletheia лучше всего иллюстрируется ее результатами в IMO-ProofBench Advanced, бенчмарке, который считается золотым стандартом для автоматизированного математического рассуждения.

Таблица 1: Сравнительная производительность в математических бенчмарках

Бенчмарк	Предыдущий SOTA	Производительность Aletheia	Коэффициент улучшения
IMO-ProofBench Advanced	65,7%	95,1%	+29,4%
FutureMath Basic (уровень PhD)	< 60% (оценка)	Передовой уровень (State-of-the-Art)	Значительный скачок
Открытые проблемы Эрдёша	0 решено	4 решено автономно	Бесконечный прирост

Скачок к точности 95,1% на IMO-ProofBench Advanced — это не просто постепенное улучшение; это смена парадигмы, предполагающая, что ИИ теперь может надежно справляться с математикой на основе доказательств на уровне, ранее доступном только элитным экспертам-людям.

Решение нерешаемого: прорывы в автономных исследованиях

Настоящая проверка возможностей Aletheia заключается не в сдаче экзаменов, а в создании новых знаний. Google DeepMind сообщила, что агент уже достиг нескольких «первых результатов» в области математики.

Наиболее примечательно то, что Aletheia автономно подготовила исследовательскую работу под названием Feng26, в которой рассчитываются структурные константы, известные как «собственные веса» (eigenweights) в арифметической геометрии. Эта работа была создана без вмешательства человека и классифицирована как автономность «уровня A2» — по сути, автономная и обладающая качеством, пригодным для публикации.

Более того, при работе с известными Erdős conjectures — списком открытых математических проблем, поставленных плодовитым Паулем Эрдёшем, — Aletheia нашла 63 технически правильных решения и полностью разрешила 4 ранее открытых вопроса. Эта способность вносить оригинальные истины в свод человеческих знаний подтверждает потенциал модели как партнера для ученых.

За пределами математики: ускорение разработки лекарств с помощью IsoDDE

Достижения в Gemini 3 Deep Think выходят за рамки абстрактной математики в осязаемый мир биохимии. Наряду с Aletheia, Google представила IsoDDE (Isomorphic Drug Design Engine) — новый инструмент от своего подразделения Isomorphic Labs.

IsoDDE основывается на наследии AlphaFold, превосходя AlphaFold 3 в два раза по точности прогнозирования. Его главным прорывом является способность предсказывать аффинность связывания (binding affinity) лекарств с беспрецедентной точностью. Выявляя скрытые «карманы» в структурах белков, к которым могут присоединяться молекулы лекарств, IsoDDE предлагает масштабируемую основу для разработки методов лечения сложных биологических систем, включая антитела и крупные биологические структуры.

Определение нового стандарта автономности ИИ

С этими релизами Google DeepMind также продвигает стандартизированный способ классификации вклада ИИ. Компания предложила новую Таксономию автономности ИИ (Taxonomy for AI Autonomy), созданную по образцу уровней, используемых для автономных транспортных средств.

Уровень 0 (Преимущественно человек): ИИ предлагает незначительную новизну (например, стандартные решатели олимпиадных задач).
Уровень 1 (Сотрудничество): ИИ предлагает общую стратегию («общую картину»), но люди выполняют строгие доказательства.
Уровень 2 (Существенно автономный): ИИ генерирует исследования, пригодные для публикации, при минимальном контроле со стороны человека или его отсутствии (например, работа Feng26).

Эта структура дает отрасли необходимый словарь для разграничения ИИ, который просто извлекает информацию, и ИИ, который ее создает. По мере того как Gemini 3 Deep Think и Aletheia начинают наполнять научные журналы своими открытиями, грань между человеческими и машинными открытиями будет становиться все более размытой, возвещая о новой эре ускоренных инноваций.