
Ландшафт оценки искусственного интеллекта на этой неделе резко изменился. Поскольку отрасль уходит от эпохи вычислений «грубой силы», способность ИИ вычислить следующий ход на шахматной доске больше не является высшим лакмусовым тестом интеллекта. В значительном расширении своей тестовой инфраструктуры Google DeepMind объявила о добавлении двух социальных игр — Werewolf и Poker — в Kaggle Game Arena. Этот шаг сигнализирует о ключевом переходе от тестирования стратегической логики в вакууме к оценке «мягких навыков», обнаружения обмана и управления риском в хаотичных, несовершенных сценариях. Во главе этой новой эры стоят модели Gemini 3 Pro и Gemini 3 Flash, которые, по сообщениям, продемонстрировали убедительное преимущество в этих новых ориентированных на человека бенчмарках.
Десятилетиями такие игры, как Chess и Go, служили «плодовой мухой» исследований ИИ — стандартизированные, закрытые системы, где каждая фигура видна, а правила неизменны. Однако в реальном мире редко всё настолько прозрачно. В деловых переговорах, на финансовых рынках и в кибербезопасности информация часто скрыта, и участники не всегда говорят правду.
Google DeepMind’s расширение Kaggle Game Arena закрывает этот пробел, вводя окружения, определяемые «неполной информацией». Включение Poker (конкретно Heads-Up No-Limit Texas Hold’em) и социальной дедукционной игры Werewolf представляет собой целенаправленный поворот к оценке того, как агенты ИИ справляются с неопределённостью.
Оран Келли (Oran Kelly), менеджер продукта в Google DeepMind, подчеркнул этот сдвиг в официальном объявлении, отметив, что в то время как Chess — игра с полной информацией, реальный мир таким не является. Новые бенчмарки разработаны, чтобы проверить, справятся ли передовые модели с социальной динамикой и расчётным риском так же эффективно, как они справляются с синтаксисом и генерацией кода. Эта эволюция критична для внедрения в корпоративной среде, где бизнесу нужна уверенность, что агент ИИ сможет выявить недобросовестного участника в цепочке поставок или управлять финансовыми рисками без доступа ко всем переменным.
Возможно, самым интригующим дополнением в арене является Werewolf, карточная/вечеринная игра, которая в большой степени опирается на разговор, убеждение и способность лгать правдоподобно. В отличие от традиционных бенчмарков, измеряющих точность на статических наборах данных, Werewolf требует динамического социального рассуждения.
В стандартной конфигурации, используемой Game Arena, восемь игроков получают секретные роли: Villagers, Werewolves, Seer и Doctor. Werewolves должны устранить Villagers, не будучи пойманными, в то время как Villagers обязаны через диалог и голосование вычислить, кто является монстром. Эта конфигурация создаёт модель взаимодействия «многие-с-о- многими», где ИИ должен отслеживать состояния знаний семи других агентов, выявлять несоответствия в их высказываниях и при этом сохранять собственное прикрытие.
Вызов, который представляет Werewolf для Больших языковых моделей (Large Language Models, LLMs), глубок. Он проверяет теорию разума (Theory of Mind) — способность приписывать другим ментальные состояния, такие как убеждения и намерения. Чтобы выиграть, модели недостаточно просто вычислять вероятности; они должны понимать, почему другой игрок сделал конкретное заявление.
Ранние результаты из арены указывают на то, что Gemini 3 Pro развила сложную способность «рассуждать о заявлениях и действиях других игроков в нескольких игровых раундах», эффективно перехитрив более старые модели, которым трудно поддерживать последовательный обманный нарратив во времени.
Если Werewolf проверяет социальную неоднозначность, то добавление Poker вводит строгую систему для оценки математического управления риском в условиях неопределённости. В Game Arena теперь представлен Heads-Up No-Limit Texas Hold’em — вариант, известный своей глубокой стратегической сложностью и агрессивностью.
В этой области ИИ не видит карт соперника. Ему необходимо выводить силу чужой руки на основе паттернов ставок, истории игры и «подразумеваемых шансов» (implied odds). Это отражает реальные финансовые торговые операции или стратегическое распределение ресурсов, где принимающие решения должны действовать при неполных данных.
Бенчмарк Poker оценивает способность модели балансировать риск и вознаграждение. Слишком консервативная модель будет вытеснена из банка, а безрассудная — обанкротится. Семейство Gemini 3 продемонстрировало замечательную склонность к вероятностному рассуждению (probabilistic reasoning), эффективно блефуя, чтобы вызвать ошибки у оппонентов, и пасуя, когда статистическая вероятность победы падает ниже жизнеспособного порога. Эта способность напрямую переводится на корпоративные кейсы, такие как автоматизированные системы переговоров или динамическое ценообразование, где «правильная» цена никогда не известна полностью и должна оцениваться в реальном времени.
Запуск этих новых бенчмарков совпал с доминированием последнего поколения моделей Google — Gemini 3. Согласно первоначальным таблицам лидеров, опубликованным на Kaggle, и Gemini 3 Pro, и высокоэффективный Gemini 3 Flash занимают ведущие позиции по всем направлениям.
Что отличает архитектуру Gemini 3, так это её способность справляться с «долговременным» рассуждением. В игре Werewolf ложь, сказанная в Раунде 1, должна быть согласована с защитой, представленной в Раунде 5. Предыдущие поколения моделей часто «забывали» собственные обманные нити, что приводило к галлюцинациям, раскрывавшим их роли. Gemini 3 поддерживает согласованную персону на протяжении всей сессии — критическое улучшение для рабочих процессов агентов с длинными контекстами.
Следующая таблица суммирует ключевые бенчмарки, которые в настоящее время активны в Game Arena, и то, как новое поколение показывает себя:
| Benchmark Category | Specific Game | Core Skill Evaluated | Gemini 3 Performance Highlights |
|---|---|---|---|
| Perfect Information | Chess | Strategic Planning & Tactics | Top of Leaderboard; superior King Safety metrics |
| Imperfect Information | Poker | Risk Management & Probability | High win-rate in No-Limit Hold'em tournaments |
| Social Deduction | Werewolf | Deception, Persuasion & Intent | Consistent persona maintenance across rounds |
| Visual Reasoning | Arcade Retro | Pixel-level Adaptation | Real-time adaptation to novel game mechanics |
Примечательно, что Gemini 3 Flash, разработанный для скорости и экономической эффективности, показывает конкурентоспособные результаты по сравнению с более крупными моделями «Pro». Это указывает на то, что навыки рассуждения, необходимые для социальной дедукции, становятся более эффективными, что потенциально открывает дверь для развёртывания социально-интеллектуальных агентов на edge-устройствах или в приложениях с высокой частотой.
Расширение Kaggle Game Arena — это не просто соревнование за право похвастаться; это превью следующего поколения агентов ИИ. По мере того как модели демонстрируют свою компетентность в Werewolf и Poker, они показывают базовые навыки, необходимые для Общего искусственного интеллекта (Artificial General Intelligence, AGI).
ИИ, который успешно справляется с обманом в Werewolf, лучше распознаёт фишинговые попытки, может вести переговоры по сложным контрактам с поставщиками или разбираться в деликатных спорах с клиентами, где задействованы человеческие эмоции. Аналогично, мастерство в Poker предполагает способность управлять инвестиционными портфелями или логистикой цепочки поставок на волатильных рынках.
Решение Google DeepMind открыть эти бенчмарки для публики на Kaggle обеспечивает прозрачное сравнение. Перемещая фокус с «кто может написать лучший код на Python» на «кто может сочинить лучшую ложь», отрасль признаёт, что истинный интеллект включает понимание беспорядочной, непредсказуемой природы человеческого взаимодействия. По мере продолжения турнира до 4 февраля 2026 года, собранные данные, вероятно, послужат отправной точкой для оценок безопасности и возможностей в 2026 году и далее.