
В течение последних нескольких лет гонка за созданием Общего искусственного интеллекта (Artificial General Intelligence, AGI) в значительной степени определялась стремлением к получению более высоких баллов в статических тестах, основанных на знаниях. Хотя эти метрики сослужили свою службу в измерении быстрой эволюции больших языковых моделей, их все чаще критикуют за уязвимость к загрязнению данных и неспособность уловить нюансы истинного общего интеллекта. Google DeepMind стремится изменить эту парадигму, представляя строгий, научно обоснованный подход к измерению прогресса ИИ (AI) через недавно опубликованную когнитивную таксономию.
Инициатива, подробно описанная в статье «Измерение прогресса на пути к AGI: Когнитивная таксономия» (Measuring Progress Toward AGI: A Cognitive Taxonomy), выходит за рамки простого поиска знаний. Она предлагает фундаментальную реструктуризацию того, как мы оцениваем системы ИИ, закрепляя оценку «общего интеллекта» в установленных принципах когнитивистики, нейробиологии и психологии. Чтобы ускорить этот переход, Google DeepMind также запустила хакатон на Kaggle с призовым фондом 200 000 долларов, приглашая мировое исследовательское сообщество помочь в создании необходимой инфраструктуры для тестирования.
В основе этой новой структуры лежит разделение общего интеллекта на десять дискретных когнитивных способностей. Эта таксономия (Cognitive Taxonomy) разработана для обеспечения комплексного представления о том, как функционирует система ИИ, а не только о том, что она знает. Деконструируя интеллект на эти специфические способности, исследователи могут лучше выявлять сильные и слабые стороны различных архитектур.
Предложенная таксономия включает следующие ключевые способности:
Чтобы понять масштаб этого сдвига, полезно сопоставить традиционные методы бенчмаркинга с новым когнитивно-ориентированным подходом, предложенным командой DeepMind.
| Объект оценки | Традиционные тесты | Когнитивная таксономия |
|---|---|---|
| Основная цель | Статический поиск знаний | Динамическая когнитивная эффективность |
| Целостность данных | Высокая склонность к загрязнению | Устойчивость через генеративное тестирование |
| Соответствие человеку | Коррелирует с результатами тестов | Соответствует человеческому когнитивному распределению |
| Системный взгляд | Единый балл производительности | Детализированная разбивка по способностям |
Хотя публикация структуры обеспечивает теоретическую основу, DeepMind признает, что одной структуры недостаточно. Проблема заключается в создании протоколов оценки, которые были бы масштабируемыми, надежными и значимыми. Чтобы восполнить этот пробел, Google DeepMind в партнерстве с Kaggle запустила масштабный хакатон под названием «Измерение прогресса на пути к AGI: Когнитивные способности».
Хакатон специально разработан для устранения «разрыва в оценке» — значительного дефицита стандартизированных тестов для более сложных и абстрактных возможностей современного ИИ. Конкурс сфокусирован на пяти основных направлениях, где текущие методы оценки наиболее слабы:
Хакатон предлагает общий призовой фонд в размере 200 000 долларов для стимулирования высококачественных работ. Структура вознаграждений разработана так, чтобы отметить как успехи в конкретных направлениях, так и общие инновации:
Участники будут использовать платформу Community Benchmarks от Kaggle, что позволит им тестировать свои оценки на различных передовых моделях ИИ. Окно подачи работ открыто с 17 марта по 16 апреля 2026 года, а окончательные результаты планируется объявить 1 июня 2026 года.
Внедрение этой когнитивной структуры (cognitive framework) представляет собой зрелый шаг вперед для сообщества исследователей ИИ. Стандартизируя язык «интеллекта» через призму когнитивистики, DeepMind фактически поднимает планку того, что считается значимым прогрессом.
Одним из наиболее критических аспектов этого подхода является предложенный трехэтапный протокол оценки. Собирая человеческие базовые показатели на репрезентативных демографических выборках и сопоставляя производительность ИИ с этими распределениями, исследователи могут создать нормализованный балл, который показывает, как модель работает относительно человеческих способностей в конкретных областях. Это значительное улучшение по сравнению с погоней за местами в таблицах лидеров, которая часто маскирует фундаментальные недостатки в рассуждениях или надежности моделей.
По мере того как индустрия приближается к теоретической вехе AGI, способность измерять внутренний «когнитивный» прогресс станет столь же важной, как и само развертывание моделей. С помощью этой структуры Google DeepMind не только задает вопрос «насколько умен этот ИИ?», но и предоставляет структурированную, проверяемую методологию для ответа на него с научной строгостью. Для исследователей и разработчиков хакатон Kaggle служит открытым приглашением помочь определить метрики, которые сформируют следующую эру искусственного интеллекта.