
Ландшафт искусственного интеллекта кардинально изменился на этой неделе: компания Google DeepMind представила ряд революционных достижений, направленных на решение самых сложных научных задач человечества. В авангарде этого релиза находятся Gemini 3 Deep Think, обновленная модель рассуждения, использующая масштабирование во время логического вывода (inference-time scaling) для того, чтобы превзойти конкурентов, и Aletheia, специализированный ИИ-агент, который успешно перешел от решения задач математических олимпиад к генерации автономных научных исследований, готовых к публикации.
Этот двойной релиз знаменует собой переломный момент, когда ИИ выходит за рамки простой помощи и вступает в сферу независимых открытий, бросая вызов устоявшимся бенчмаркам и устанавливая новые стандарты того, чего могут достичь автономные агенты в теоретической физике, высшей математике и разработке лекарств.
В основе этих новых возможностей лежит усовершенствованная модель Gemini 3 Deep Think. Google фундаментально переработала режим рассуждения модели, сосредоточившись на технике, известной как «масштабирование во время логического вывода» (inference-time scaling). Этот подход позволяет модели выделять больше вычислительных ресурсов на этапе запроса — фактически «думая дольше» — для исследования нескольких путей рассуждения перед тем, как дать ответ.
Результаты этого архитектурного сдвига ошеломляют. В прямых сравнениях Gemini 3 Deep Think, по сообщениям, превзошла основных конкурентов, включая GPT-5.2 от OpenAI и Claude Opus 4.6 от Anthropic, в различных строгих бенчмарках. Мастерство модели особенно заметно в задачах, требующих глубокой логической дедукции и мультимодального понимания (multimodal understanding).
Ключевые показатели производительности:
Этот выигрыш в эффективности имеет решающее значение. Оптимизировав процесс обработки информации моделью, Google сделала высокоуровневые рассуждения доступными для практического применения, позволяя инженерам моделировать физические системы с помощью кода и помогая исследователям интерпретировать огромные массивы неполных данных.
В то время как Gemini 3 Deep Think обеспечивает основу для рассуждений, Aletheia представляет собой специализированное применение этой мощи. Созданная для преодоления «разрыва в оценке» (evaluation gap) между олимпиадной математикой и профессиональными исследованиями, Aletheia — это ИИ-агент, способный ориентироваться в неоднозначности открытых математических проблем.
В отличие от традиционных решателей, которые преуспевают в четко определенных вопросах, Aletheia работает через сложный Agentic Loop. Эта архитектура имитирует рабочий процесс математика-человека, разделяя процесс решения задач на отдельные этапы.
Для обеспечения точности и уменьшения «галлюцинаций», характерных для больших языковых моделей (Large Language Models, LLM), Aletheia использует трехстороннюю систему:
Такое разделение обязанностей позволяет системе исправлять собственные ошибки — черта, которая ранее была основным препятствием для ИИ в формальных науках. Кроме того, Aletheia использует Google Search для проверки цитат, гарантируя, что она ссылается на реальную математическую литературу, а не выдумывает источники.
Влияние агентного подхода Aletheia лучше всего иллюстрируется ее результатами в IMO-ProofBench Advanced, бенчмарке, который считается золотым стандартом для автоматизированного математического рассуждения.
Таблица 1: Сравнительная производительность в математических бенчмарках
| Бенчмарк | Предыдущий SOTA | Производительность Aletheia | Коэффициент улучшения |
|---|---|---|---|
| IMO-ProofBench Advanced | 65,7% | 95,1% | +29,4% |
| FutureMath Basic (уровень PhD) | < 60% (оценка) | Передовой уровень (State-of-the-Art) | Значительный скачок |
| Открытые проблемы Эрдёша | 0 решено | 4 решено автономно | Бесконечный прирост |
Скачок к точности 95,1% на IMO-ProofBench Advanced — это не просто постепенное улучшение; это смена парадигмы, предполагающая, что ИИ теперь может надежно справляться с математикой на основе доказательств на уровне, ранее доступном только элитным экспертам-людям.
Настоящая проверка возможностей Aletheia заключается не в сдаче экзаменов, а в создании новых знаний. Google DeepMind сообщила, что агент уже достиг нескольких «первых результатов» в области математики.
Наиболее примечательно то, что Aletheia автономно подготовила исследовательскую работу под названием Feng26, в которой рассчитываются структурные константы, известные как «собственные веса» (eigenweights) в арифметической геометрии. Эта работа была создана без вмешательства человека и классифицирована как автономность «уровня A2» — по сути, автономная и обладающая качеством, пригодным для публикации.
Более того, при работе с известными Erdős conjectures — списком открытых математических проблем, поставленных плодовитым Паулем Эрдёшем, — Aletheia нашла 63 технически правильных решения и полностью разрешила 4 ранее открытых вопроса. Эта способность вносить оригинальные истины в свод человеческих знаний подтверждает потенциал модели как партнера для ученых.
Достижения в Gemini 3 Deep Think выходят за рамки абстрактной математики в осязаемый мир биохимии. Наряду с Aletheia, Google представила IsoDDE (Isomorphic Drug Design Engine) — новый инструмент от своего подразделения Isomorphic Labs.
IsoDDE основывается на наследии AlphaFold, превосходя AlphaFold 3 в два раза по точности прогнозирования. Его главным прорывом является способность предсказывать аффинность связывания (binding affinity) лекарств с беспрецедентной точностью. Выявляя скрытые «карманы» в структурах белков, к которым могут присоединяться молекулы лекарств, IsoDDE предлагает масштабируемую основу для разработки методов лечения сложных биологических систем, включая антитела и крупные биологические структуры.
С этими релизами Google DeepMind также продвигает стандартизированный способ классификации вклада ИИ. Компания предложила новую Таксономию автономности ИИ (Taxonomy for AI Autonomy), созданную по образцу уровней, используемых для автономных транспортных средств.
Эта структура дает отрасли необходимый словарь для разграничения ИИ, который просто извлекает информацию, и ИИ, который ее создает. По мере того как Gemini 3 Deep Think и Aletheia начинают наполнять научные журналы своими открытиями, грань между человеческими и машинными открытиями будет становиться все более размытой, возвещая о новой эре ускоренных инноваций.