
지난 몇 년 동안 인공 일반 지능(Artificial General Intelligence, AGI)을 향한 경쟁은 주로 정적인 지식 기반 벤치마크에서 더 높은 점수를 얻으려는 추구에 의해 정의되어 왔습니다. 이러한 지표들은 거대 언어 모델(Large Language Models)의 급격한 진화를 측정하는 데 목적을 다해왔지만, 데이터 오염에 취약하고 진정한 일반 지능의 미묘한 차이를 포착하지 못한다는 비판을 점점 더 많이 받고 있습니다. 구글 딥마인드(Google DeepMind)는 이제 이러한 패러다임을 전환하고자 하며, 새로 발표된 인지적 분류 체계(Cognitive Taxonomy)를 통해 AI 발전을 측정하는 엄격하고 과학적인 접근 방식을 공개했습니다.
"Measuring Progress Toward AGI: A Cognitive Taxonomy"라는 논문에서 상세히 설명된 이 이니셔티브는 단순한 지식 검색을 넘어섭니다. 이는 우리가 AI 시스템을 평가하는 방식의 근본적인 재구조화를 제안하며, "일반 지능"의 평가를 인지 과학, 신경 과학 및 심리학의 확립된 원칙에 고정시킵니다. 이러한 전환을 촉진하기 위해 Google DeepMind는 200,000달러 규모의 캐글(Kaggle) 해커톤을 시작하여, 전 세계 연구 커뮤니티가 필요한 벤치마킹 인프라를 구축하는 데 도움을 줄 것을 요청했습니다.
이 새로운 프레임워크의 핵심에는 일반 지능을 10가지 별개의 인지 능력으로 세분화한 것이 자리 잡고 있습니다. 이 분류 체계는 AI 시스템이 단순히 무엇을 아는지가 아니라 어떻게 작동하는지에 대한 포괄적인 관점을 제공하도록 설계되었습니다. 지능을 이러한 구체적인 기능으로 해체함으로써 연구자들은 서로 다른 아키텍처의 강점과 약점을 더 잘 파악할 수 있습니다.
제안된 분류 체계에는 다음과 같은 핵심 능력이 포함됩니다:
이러한 변화의 규모를 이해하기 위해, 전통적인 벤치마킹 방법과 딥마인드 팀이 제안한 새로운 인지 우선 접근 방식을 대조해보는 것이 도움이 됩니다.
| 평가 중점 | 전통적 벤치마크 | 인지적 분류 체계 |
|---|---|---|
| 주요 목적 | 정적인 지식 검색 | 역동적인 인지 성능 |
| 데이터 무결성 | 오염에 매우 취약함 | 생성적 테스트를 통한 복원력 |
| 인간 정렬 | 테스트 점수와 상관관계가 있음 | 인간의 인지 분포에 매핑됨 |
| 시스템 관점 | 통합된 성능 점수 | 세분화된 능력 분석 |
프레임워크의 발표가 이론적 토대를 제공하지만, 딥마인드는 프레임워크만으로는 불충분하다는 점을 인정합니다. 과제는 확장 가능하고 견고하며 의미 있는 평가 프로토콜을 만드는 데 있습니다. 이 간극을 메우기 위해 Google DeepMind는 Kaggle과 파트너십을 맺고 “Measuring progress toward AGI: Cognitive abilities”라는 제목의 고액 상금 해커톤을 시작했습니다.
이 해커톤은 현대 AI의 더 복잡하고 추상적인 능력에 대한 표준화된 테스트가 현저히 부족한 "평가 격차"를 해결하기 위해 특별히 설계되었습니다. 이 대회는 현재의 평가 방법이 가장 취약한 5가지 핵심 트랙에 집중합니다:
해커톤은 고품질의 제출을 장려하기 위해 총 200,000달러의 상금 풀을 제공합니다. 구조는 특정 트랙의 우수성과 전반적인 혁신 모두에 보상하도록 설계되었습니다:
참가자들은 캐글의 커뮤니티 벤치마크(Community Benchmarks) 플랫폼을 활용하여 다양한 프런티어 AI 모델을 대상으로 자신들의 평가 방식을 테스트할 수 있습니다. 제출 창은 2026년 3월 17일부터 4월 16일까지 열려 있으며, 최종 결과는 2026년 6월 1일에 발표될 예정입니다.
이러한 인지적 프레임워크의 도입은 AI 연구 커뮤니티에 있어 성숙한 진일보를 의미합니다. 인지 과학의 관점을 통해 "지능"의 언어를 표준화함으로써, 딥마인드는 무엇이 의미 있는 진전인지에 대한 기준을 효과적으로 높이고 있습니다.
이 접근 방식의 가장 중요한 측면 중 하나는 제안된 3단계 평가 프로토콜입니다. 인구 통계학적으로 대표성 있는 샘플로부터 인간의 기준선을 수집하고 이러한 분포에 대해 AI 성능을 매핑함으로써, 연구자들은 특정 도메인에서 모델이 인간의 능력과 비교하여 어떻게 수행되는지를 나타내는 정규화된 점수를 생성할 수 있습니다. 이는 종종 모델 추론이나 신뢰성의 근본적인 결함을 가리는 리더보드 쫓기 방식보다 크게 개선된 것입니다.
업계가 AGI라는 이론적 이정표에 더 가까워짐에 따라, 내부의 "인지적" 진전을 측정하는 능력은 모델 자체의 배포만큼이나 중요해질 것입니다. 이 프레임워크를 통해 Google DeepMind는 단지 "이 AI가 얼마나 똑똑한가?"라고 묻는 것에 그치지 않고, 과학적인 엄격함을 갖추어 그 질문에 답할 수 있는 구조화되고 검증 가능한 방법론을 제공하고 있습니다. 연구자와 개발자에게 캐글 해커톤은 차세대 인공지능을 형성할 지표를 정의하는 데 도움을 달라는 공개적인 초대장 역할을 합니다.