Google DeepMind, Werewolf와 포커로 AI 벤치마크 확대

인공지능 평가의 풍경은 이번 주에 극적으로 바뀌었습니다. 업계가 "무차별 계산(brute force)" 시대를 지나면서 체스판에서 다음 수를 계산하는 능력이 더 이상 지능의 궁극적 판정 기준이 아닙니다. 테스트 인프라를 크게 확장하면서 Google DeepMind는 Kaggle Game Arena에 사회적으로 복잡한 두 게임—Werewolf와 Poker—을 추가했다고 발표했습니다. 이 조치는 진공 환경에서 전략적 논리만을 테스트하는 것에서 벗어나 혼란스럽고 불완전한 시나리오에서의 "소프트 스킬(soft skills)", 기만 탐지, 위험 관리 등을 평가하는 전환을 의미합니다. 이 새로운 시대의 선봉에는 Gemini 3 Pro 및 Gemini 3 Flash 모델이 있으며, 이들은 이러한 인간 중심 벤치마크에서 우위를 점한 것으로 보고되었습니다.

완전 정보 너머: AI 테스트의 새 지평

수십 년 동안 체스와 바둑(Go) 같은 게임은 AI 연구의 "초파리" 역할을 해왔습니다—모든 말이 보이고 규칙이 불변인 표준화된 폐쇄 시스템입니다. 그러나 현실 세계는 거의 그런 투명성으로 작동하지 않습니다. 비즈니스 협상, 금융 시장, 사이버 보안에서는 정보가 종종 숨겨져 있고 행위자가 항상 진실을 말하지 않을 수 있습니다.

Google DeepMind의 Kaggle Game Arena 확장은 이러한 격차를 "불완전 정보(imperfect information)"로 정의되는 환경을 도입함으로써 해결합니다. Poker(구체적으로 Heads-Up No-Limit Texas Hold’em)와 사회적 추리 게임 Werewolf의 포함은 AI 에이전트가 모호성을 어떻게 다루는지를 평가하려는 의도적인 전환을 나타냅니다.

Google DeepMind의 제품 관리자 Oran Kelly는 공식 발표에서 이 변화를 강조하며, 체스는 완전 정보 게임인 반면 현실 세계는 그렇지 않다고 지적했습니다. 새로운 벤치마크는 최첨단 모델이 문법과 코드 생성만큼 사회적 역학과 계산된 위험을 효과적으로 처리할 수 있는지를 시험하도록 설계되었습니다. 이 진화는 기업 채택 측면에서 중요합니다. 기업은 AI 에이전트가 공급망에서 악의적인 행위를 감지하거나 모든 변수를 알지 못한 상태에서도 재무 위험을 관리할 수 있다는 보장을 필요로 하기 때문입니다.

Werewolf: 사회적 지능과 기만 벤치마크

어쩌면 아레나에 추가된 것 중 가장 흥미로운 것은 Werewolf입니다. 이 파티 게임은 대화, 설득, 그리고 설득력 있게 거짓말하는 능력에 크게 의존합니다. 정적 데이터셋에서 정확도를 측정하는 전통적 벤치마크와 달리 Werewolf는 동적 사회적 추론을 요구합니다.

표준 설정에서 Game Arena는 여덟 명의 플레이어에게 비밀 역할을 배정합니다: Villagers, Werewolves, Seer, Doctor. Werewolves는 들키지 않고 Villagers를 제거해야 하고, Villagers는 대화와 투표를 통해 괴물이 누구인지 추리해야 합니다. 이 설정은 AI가 나머지 일곱 에이전트의 지식 상태를 추적하고 그들의 진술에서 불일치를 식별하면서 자신의 정체를 은폐해야 하는 "다대다" 상호작용 모델을 만듭니다.

"소프트 스킬(soft skills)"의 복잡성

Werewolf가 대형 언어 모델(大형 언어 모델, Large Language Models, LLMs)에 제시하는 도전은 심오합니다. 이 게임은 마음 이론(Theory of Mind)—다른 사람들의 신념이나 의도 같은 정신 상태를 귀속시키는 능력—을 시험합니다. 승리하려면 모델은 단순히 확률을 계산하는 것을 넘어서, 다른 플레이어가 특정 발언을 한 이유를 이해해야 합니다.

기만 탐지(Deception Detection): 모델은 상대가 정보를 조작하고 있는지 여부를 알아보기 위해 언어적 단서를 분석해야 합니다.
설득(Persuasion): 에이전트는 자신의 무죄를 납득시키기 위해 종종 논리적 증명 대신 미묘한 조작이나 감정적 호소를 사용해야 합니다.
동적 연합(Dynamic Alliances): 1대1 게임과 달리 Werewolf는 일시적 연합을 형성해야 하므로, 잠재적 적과도 상호 이득을 위해 협력할 수 있는 능력을 시험합니다.

아레나의 초기 결과는 Gemini 3 Pro가 "여러 게임 라운드에 걸쳐 다른 플레이어의 발언과 행동에 대해 추론하는(sophisticated ability to reason about the statements and actions of other players across multiple game rounds)" 정교한 능력을 개발했음을 나타내며, 시간에 따라 일관된 기만 서사를 유지하는 데 어려움을 겪는 이전 모델들을 효과적으로 능가했습니다.

Poker: 고위험 환경에서의 위험 관리

Werewolf가 사회적 모호성을 시험한다면, Poker의 도입은 불확실성 하에서 수학적 위험을 평가하는 엄밀한 프레임워크를 도입합니다. Game Arena는 이제 막대한 전략적 깊이와 공격성으로 알려진 Heads-Up No-Limit Texas Hold’em을 특징으로 합니다.

이 분야에서 AI는 상대의 카드를 보지 못합니다. 베팅 패턴, 게임 역사, "암시된 배당(implied odds)"을 기반으로 상대의 핸드 강도를 추론해야 합니다. 이는 의사 결정자가 불완전한 데이터에 기반해 행동해야 하는 실제 금융 거래나 전략적 자원 배분을 반영합니다.

불확실성의 정량화

Poker 벤치마크는 모델이 위험과 보상을 균형 있게 다루는 능력을 평가합니다. 지나치게 보수적인 모델은 팟에서 밀려나고, 무모한 모델은 파산합니다. Gemini 3 계열은 "확률적 추론(probabilistic reasoning)"에 놀라운 적성을 보여주었으며, 효과적으로 블러핑하여 상대의 실수를 유도하고 승률의 통계적 가능성이 실용적 임계값 아래로 내려가면 접는 전략을 사용합니다. 이 능력은 자동화된 협상 시스템이나 동적 가격 책정 엔진처럼 "정답" 가격이 완전히 알려져 있지 않지만 실시간으로 추정해야 하는 기업용 사례에 직접적으로 적용됩니다.

Gemini 3가 아레나를 지배하다

이 새로운 벤치마크의 출시는 Google의 최신 모델 세대인 Gemini 3의 지배와 동시에 이루어졌습니다. Kaggle에 공개된 초기 리더보드에 따르면 Gemini 3 Pro와 고효율 Gemini 3 Flash는 모든 분야에서 상위권을 차지하고 있습니다.

Gemini 3 아키텍처를 구별하는 점은 "장기 전망(long-horizon)" 추론을 처리하는 능력입니다. Werewolf 게임에서 라운드 1에 한 거짓말은 라운드 5에 제시된 방어와 일관되어야 합니다. 이전 세대 모델은 종종 자신의 기만 맥락을 "잊어버려" 역할을 드러내는 환각(hallucinations)을 일으켰습니다. Gemini 3는 세션 전반에 걸쳐 일관된 페르소나를 유지하며, 이는 장기 컨텍스트를 필요로 하는 에이전트 워크플로우에서 중요한 개선입니다.

다음 표는 현재 Game Arena에서 활성화된 핵심 벤치마크와 신세대 모델의 성과 요약을 보여줍니다:

Benchmark Category	Specific Game	Core Skill Evaluated	Gemini 3 Performance Highlights
Perfect Information	Chess	Strategic Planning & Tactics	Top of Leaderboard; superior King Safety metrics
Imperfect Information	Poker	Risk Management & Probability	High win-rate in No-Limit Hold'em tournaments
Social Deduction	Werewolf	Deception, Persuasion & Intent	Consistent persona maintenance across rounds
Visual Reasoning	Arcade Retro	Pixel-level Adaptation	Real-time adaptation to novel game mechanics

속도와 비용 효율성을 위해 설계된 Gemini 3 Flash가 더 큰 "Pro" 모델과 경쟁력 있게 성과를 내고 있다는 점은 주목할 만합니다. 이는 사회적 추론에 필요한 능력이 더 효율적으로 되고 있음을 시사하며, 사회적 지능을 갖춘 에이전트를 엣지 장치나 고빈도 애플리케이션에 배치할 수 있는 가능성을 열어줍니다.

AGI와 기업에 대한 시사점

Kaggle Game Arena의 확장은 단순한 자랑 경쟁 이상의 의미를 가집니다; 이는 차세대 AI 에이전트의 미리보기입니다. 모델이 Werewolf와 Poker에서 그 능력을 입증함에 따라, 이들은 **범용 인공지능(Artificial General Intelligence, AGI)**에 필요한 기초 역량을 보여줍니다.

Werewolf의 기만을 성공적으로 다룰 수 있는 AI는 피싱 시도를 더 잘 식별하고, 복잡한 공급업체 계약을 협상하거나 인간 감정이 개입된 미묘한 고객 서비스 분쟁을 처리할 수 있는 AI입니다. 마찬가지로 Poker의 숙달은 변동성 높은 시장에서 투자 포트폴리오나 공급망 물류를 관리할 수 있는 능력을 의미합니다.

Google DeepMind가 이러한 벤치마크를 Kaggle에서 공개한 결정은 투명한 비교를 가능하게 합니다. "누가 최고의 Python 코드를 쓰는가"에서 "누가 최고의 거짓말을 하는가"로 목표를 이동함으로써 업계는 진정한 지능이 인간 상호작용의 뒤죽박죽이고 예측 불가능한 본질을 이해하는 것을 포함한다는 점을 인정하고 있습니다. 토너먼트가 2026년 2월 4일까지 계속되는 동안 수집되는 데이터는 2026년 이후의 안전 및 역량 평가의 기준선으로 사용될 가능성이 높습니다.