Google DeepMind расширяет бенчмаркинг ИИ с Werewolf и покером, пока Gemini 3 доминирует в рейтингах

Ландшафт оценки искусственного интеллекта на этой неделе резко изменился. Поскольку отрасль уходит от эпохи вычислений «грубой силы», способность ИИ вычислить следующий ход на шахматной доске больше не является высшим лакмусовым тестом интеллекта. В значительном расширении своей тестовой инфраструктуры Google DeepMind объявила о добавлении двух социальных игр — Werewolf и Poker — в Kaggle Game Arena. Этот шаг сигнализирует о ключевом переходе от тестирования стратегической логики в вакууме к оценке «мягких навыков», обнаружения обмана и управления риском в хаотичных, несовершенных сценариях. Во главе этой новой эры стоят модели Gemini 3 Pro и Gemini 3 Flash, которые, по сообщениям, продемонстрировали убедительное преимущество в этих новых ориентированных на человека бенчмарках.

Beyond Perfect Information: The New Frontier of AI Testing

Десятилетиями такие игры, как Chess и Go, служили «плодовой мухой» исследований ИИ — стандартизированные, закрытые системы, где каждая фигура видна, а правила неизменны. Однако в реальном мире редко всё настолько прозрачно. В деловых переговорах, на финансовых рынках и в кибербезопасности информация часто скрыта, и участники не всегда говорят правду.

Google DeepMind’s расширение Kaggle Game Arena закрывает этот пробел, вводя окружения, определяемые «неполной информацией». Включение Poker (конкретно Heads-Up No-Limit Texas Hold’em) и социальной дедукционной игры Werewolf представляет собой целенаправленный поворот к оценке того, как агенты ИИ справляются с неопределённостью.

Оран Келли (Oran Kelly), менеджер продукта в Google DeepMind, подчеркнул этот сдвиг в официальном объявлении, отметив, что в то время как Chess — игра с полной информацией, реальный мир таким не является. Новые бенчмарки разработаны, чтобы проверить, справятся ли передовые модели с социальной динамикой и расчётным риском так же эффективно, как они справляются с синтаксисом и генерацией кода. Эта эволюция критична для внедрения в корпоративной среде, где бизнесу нужна уверенность, что агент ИИ сможет выявить недобросовестного участника в цепочке поставок или управлять финансовыми рисками без доступа ко всем переменным.

Werewolf: Benchmarking Social Intelligence and Deception

Возможно, самым интригующим дополнением в арене является Werewolf, карточная/вечеринная игра, которая в большой степени опирается на разговор, убеждение и способность лгать правдоподобно. В отличие от традиционных бенчмарков, измеряющих точность на статических наборах данных, Werewolf требует динамического социального рассуждения.

В стандартной конфигурации, используемой Game Arena, восемь игроков получают секретные роли: Villagers, Werewolves, Seer и Doctor. Werewolves должны устранить Villagers, не будучи пойманными, в то время как Villagers обязаны через диалог и голосование вычислить, кто является монстром. Эта конфигурация создаёт модель взаимодействия «многие-с-о- многими», где ИИ должен отслеживать состояния знаний семи других агентов, выявлять несоответствия в их высказываниях и при этом сохранять собственное прикрытие.

The Complexity of "Soft Skills"

Вызов, который представляет Werewolf для Больших языковых моделей (Large Language Models, LLMs), глубок. Он проверяет теорию разума (Theory of Mind) — способность приписывать другим ментальные состояния, такие как убеждения и намерения. Чтобы выиграть, модели недостаточно просто вычислять вероятности; они должны понимать, почему другой игрок сделал конкретное заявление.

Deception Detection: Моделям необходимо анализировать лингвистические сигналы, чтобы заметить, когда соперник фабрикует информацию.
Persuasion: Агенты должны убеждать других в своей невиновности, что часто требует тонкой манипуляции или эмоциональных апелляций, а не логических доказательств.
Dynamic Alliances: В отличие от игр 1 на 1, Werewolf требует формирования временных коалиций, проверяя способность ИИ сотрудничать для взаимной выгоды даже с потенциальными противниками.

Ранние результаты из арены указывают на то, что Gemini 3 Pro развила сложную способность «рассуждать о заявлениях и действиях других игроков в нескольких игровых раундах», эффективно перехитрив более старые модели, которым трудно поддерживать последовательный обманный нарратив во времени.

Poker: Risk Management in High-Stakes Environments

Если Werewolf проверяет социальную неоднозначность, то добавление Poker вводит строгую систему для оценки математического управления риском в условиях неопределённости. В Game Arena теперь представлен Heads-Up No-Limit Texas Hold’em — вариант, известный своей глубокой стратегической сложностью и агрессивностью.

В этой области ИИ не видит карт соперника. Ему необходимо выводить силу чужой руки на основе паттернов ставок, истории игры и «подразумеваемых шансов» (implied odds). Это отражает реальные финансовые торговые операции или стратегическое распределение ресурсов, где принимающие решения должны действовать при неполных данных.

Quantifying Uncertainty

Бенчмарк Poker оценивает способность модели балансировать риск и вознаграждение. Слишком консервативная модель будет вытеснена из банка, а безрассудная — обанкротится. Семейство Gemini 3 продемонстрировало замечательную склонность к вероятностному рассуждению (probabilistic reasoning), эффективно блефуя, чтобы вызвать ошибки у оппонентов, и пасуя, когда статистическая вероятность победы падает ниже жизнеспособного порога. Эта способность напрямую переводится на корпоративные кейсы, такие как автоматизированные системы переговоров или динамическое ценообразование, где «правильная» цена никогда не известна полностью и должна оцениваться в реальном времени.

Gemini 3 Dominates the Arena

Запуск этих новых бенчмарков совпал с доминированием последнего поколения моделей Google — Gemini 3. Согласно первоначальным таблицам лидеров, опубликованным на Kaggle, и Gemini 3 Pro, и высокоэффективный Gemini 3 Flash занимают ведущие позиции по всем направлениям.

Что отличает архитектуру Gemini 3, так это её способность справляться с «долговременным» рассуждением. В игре Werewolf ложь, сказанная в Раунде 1, должна быть согласована с защитой, представленной в Раунде 5. Предыдущие поколения моделей часто «забывали» собственные обманные нити, что приводило к галлюцинациям, раскрывавшим их роли. Gemini 3 поддерживает согласованную персону на протяжении всей сессии — критическое улучшение для рабочих процессов агентов с длинными контекстами.

Следующая таблица суммирует ключевые бенчмарки, которые в настоящее время активны в Game Arena, и то, как новое поколение показывает себя:

Benchmark Category	Specific Game	Core Skill Evaluated	Gemini 3 Performance Highlights
Perfect Information	Chess	Strategic Planning & Tactics	Top of Leaderboard; superior King Safety metrics
Imperfect Information	Poker	Risk Management & Probability	High win-rate in No-Limit Hold'em tournaments
Social Deduction	Werewolf	Deception, Persuasion & Intent	Consistent persona maintenance across rounds
Visual Reasoning	Arcade Retro	Pixel-level Adaptation	Real-time adaptation to novel game mechanics

Примечательно, что Gemini 3 Flash, разработанный для скорости и экономической эффективности, показывает конкурентоспособные результаты по сравнению с более крупными моделями «Pro». Это указывает на то, что навыки рассуждения, необходимые для социальной дедукции, становятся более эффективными, что потенциально открывает дверь для развёртывания социально-интеллектуальных агентов на edge-устройствах или в приложениях с высокой частотой.

Implications for AGI and Enterprise

Расширение Kaggle Game Arena — это не просто соревнование за право похвастаться; это превью следующего поколения агентов ИИ. По мере того как модели демонстрируют свою компетентность в Werewolf и Poker, они показывают базовые навыки, необходимые для Общего искусственного интеллекта (Artificial General Intelligence, AGI).

ИИ, который успешно справляется с обманом в Werewolf, лучше распознаёт фишинговые попытки, может вести переговоры по сложным контрактам с поставщиками или разбираться в деликатных спорах с клиентами, где задействованы человеческие эмоции. Аналогично, мастерство в Poker предполагает способность управлять инвестиционными портфелями или логистикой цепочки поставок на волатильных рынках.

Решение Google DeepMind открыть эти бенчмарки для публики на Kaggle обеспечивает прозрачное сравнение. Перемещая фокус с «кто может написать лучший код на Python» на «кто может сочинить лучшую ложь», отрасль признаёт, что истинный интеллект включает понимание беспорядочной, непредсказуемой природы человеческого взаимодействия. По мере продолжения турнира до 4 февраля 2026 года, собранные данные, вероятно, послужат отправной точкой для оценок безопасности и возможностей в 2026 году и далее.