AI News

Google переосмысливает научные открытия с помощью Gemini 3 Deep Think и Aletheia

Ландшафт искусственного интеллекта кардинально изменился на этой неделе: компания Google DeepMind представила ряд революционных достижений, направленных на решение самых сложных научных задач человечества. В авангарде этого релиза находятся Gemini 3 Deep Think, обновленная модель рассуждения, использующая масштабирование во время логического вывода (inference-time scaling) для того, чтобы превзойти конкурентов, и Aletheia, специализированный ИИ-агент, который успешно перешел от решения задач математических олимпиад к генерации автономных научных исследований, готовых к публикации.

Этот двойной релиз знаменует собой переломный момент, когда ИИ выходит за рамки простой помощи и вступает в сферу независимых открытий, бросая вызов устоявшимся бенчмаркам и устанавливая новые стандарты того, чего могут достичь автономные агенты в теоретической физике, высшей математике и разработке лекарств.

Gemini 3 Deep Think: Освоение искусства «думать дольше»

В основе этих новых возможностей лежит усовершенствованная модель Gemini 3 Deep Think. Google фундаментально переработала режим рассуждения модели, сосредоточившись на технике, известной как «масштабирование во время логического вывода» (inference-time scaling). Этот подход позволяет модели выделять больше вычислительных ресурсов на этапе запроса — фактически «думая дольше» — для исследования нескольких путей рассуждения перед тем, как дать ответ.

Результаты этого архитектурного сдвига ошеломляют. В прямых сравнениях Gemini 3 Deep Think, по сообщениям, превзошла основных конкурентов, включая GPT-5.2 от OpenAI и Claude Opus 4.6 от Anthropic, в различных строгих бенчмарках. Мастерство модели особенно заметно в задачах, требующих глубокой логической дедукции и мультимодального понимания (multimodal understanding).

Ключевые показатели производительности:

  • ARC-AGI-2: Достигнуты высшие баллы в визуальных головоломках, требующих абстрактного мышления.
  • CMT-Benchmark: 50,5% в теоретической физике, что демонстрирует глубокое понимание сложных научных концепций.
  • Эффективность: Итерация Deep Think от января 2026 года сократила объем вычислений, необходимых для задач олимпиадного уровня, в 100 раз по сравнению со своим предшественником 2025 года.

Этот выигрыш в эффективности имеет решающее значение. Оптимизировав процесс обработки информации моделью, Google сделала высокоуровневые рассуждения доступными для практического применения, позволяя инженерам моделировать физические системы с помощью кода и помогая исследователям интерпретировать огромные массивы неполных данных.

Aletheia: Первый настоящий ИИ-математик

В то время как Gemini 3 Deep Think обеспечивает основу для рассуждений, Aletheia представляет собой специализированное применение этой мощи. Созданная для преодоления «разрыва в оценке» (evaluation gap) между олимпиадной математикой и профессиональными исследованиями, Aletheia — это ИИ-агент, способный ориентироваться в неоднозначности открытых математических проблем.

В отличие от традиционных решателей, которые преуспевают в четко определенных вопросах, Aletheia работает через сложный Agentic Loop. Эта архитектура имитирует рабочий процесс математика-человека, разделяя процесс решения задач на отдельные этапы.

Агентная архитектура

Для обеспечения точности и уменьшения «галлюцинаций», характерных для больших языковых моделей (Large Language Models, LLM), Aletheia использует трехстороннюю систему:

  1. Генератор (Generator): Предлагает варианты решений и стратегии доказательства для данной исследовательской задачи.
  2. Верификатор (Verifier): Неформальный механизм на естественном языке, который проверяет предложение на наличие логических ошибок или неточностей в цитировании.
  3. Ревизор (Reviser): Итеративно исправляет ошибки, выявленные Верификатором, до тех пор, пока результат не будет соответствовать строгим логическим стандартам.

Такое разделение обязанностей позволяет системе исправлять собственные ошибки — черта, которая ранее была основным препятствием для ИИ в формальных науках. Кроме того, Aletheia использует Google Search для проверки цитат, гарантируя, что она ссылается на реальную математическую литературу, а не выдумывает источники.

История бенчмарков: Aletheia против всех

Влияние агентного подхода Aletheia лучше всего иллюстрируется ее результатами в IMO-ProofBench Advanced, бенчмарке, который считается золотым стандартом для автоматизированного математического рассуждения.

Таблица 1: Сравнительная производительность в математических бенчмарках

Бенчмарк Предыдущий SOTA Производительность Aletheia Коэффициент улучшения
IMO-ProofBench Advanced 65,7% 95,1% +29,4%
FutureMath Basic (уровень PhD) < 60% (оценка) Передовой уровень (State-of-the-Art) Значительный скачок
Открытые проблемы Эрдёша 0 решено 4 решено автономно Бесконечный прирост

Скачок к точности 95,1% на IMO-ProofBench Advanced — это не просто постепенное улучшение; это смена парадигмы, предполагающая, что ИИ теперь может надежно справляться с математикой на основе доказательств на уровне, ранее доступном только элитным экспертам-людям.

Решение нерешаемого: прорывы в автономных исследованиях

Настоящая проверка возможностей Aletheia заключается не в сдаче экзаменов, а в создании новых знаний. Google DeepMind сообщила, что агент уже достиг нескольких «первых результатов» в области математики.

Наиболее примечательно то, что Aletheia автономно подготовила исследовательскую работу под названием Feng26, в которой рассчитываются структурные константы, известные как «собственные веса» (eigenweights) в арифметической геометрии. Эта работа была создана без вмешательства человека и классифицирована как автономность «уровня A2» — по сути, автономная и обладающая качеством, пригодным для публикации.

Более того, при работе с известными Erdős conjectures — списком открытых математических проблем, поставленных плодовитым Паулем Эрдёшем, — Aletheia нашла 63 технически правильных решения и полностью разрешила 4 ранее открытых вопроса. Эта способность вносить оригинальные истины в свод человеческих знаний подтверждает потенциал модели как партнера для ученых.

За пределами математики: ускорение разработки лекарств с помощью IsoDDE

Достижения в Gemini 3 Deep Think выходят за рамки абстрактной математики в осязаемый мир биохимии. Наряду с Aletheia, Google представила IsoDDE (Isomorphic Drug Design Engine) — новый инструмент от своего подразделения Isomorphic Labs.

IsoDDE основывается на наследии AlphaFold, превосходя AlphaFold 3 в два раза по точности прогнозирования. Его главным прорывом является способность предсказывать аффинность связывания (binding affinity) лекарств с беспрецедентной точностью. Выявляя скрытые «карманы» в структурах белков, к которым могут присоединяться молекулы лекарств, IsoDDE предлагает масштабируемую основу для разработки методов лечения сложных биологических систем, включая антитела и крупные биологические структуры.

Определение нового стандарта автономности ИИ

С этими релизами Google DeepMind также продвигает стандартизированный способ классификации вклада ИИ. Компания предложила новую Таксономию автономности ИИ (Taxonomy for AI Autonomy), созданную по образцу уровней, используемых для автономных транспортных средств.

  • Уровень 0 (Преимущественно человек): ИИ предлагает незначительную новизну (например, стандартные решатели олимпиадных задач).
  • Уровень 1 (Сотрудничество): ИИ предлагает общую стратегию («общую картину»), но люди выполняют строгие доказательства.
  • Уровень 2 (Существенно автономный): ИИ генерирует исследования, пригодные для публикации, при минимальном контроле со стороны человека или его отсутствии (например, работа Feng26).

Эта структура дает отрасли необходимый словарь для разграничения ИИ, который просто извлекает информацию, и ИИ, который ее создает. По мере того как Gemini 3 Deep Think и Aletheia начинают наполнять научные журналы своими открытиями, грань между человеческими и машинными открытиями будет становиться все более размытой, возвещая о новой эре ускоренных инноваций.

Рекомендуемые