Google DeepMind публикует когнитивную рамку для измерения прогресса в направлении AGI и запускает хакатон Kaggle с призовым фондом $200,000

Переосмысление интеллекта: Новая когнитивная структура Google DeepMind

В течение последних нескольких лет гонка за созданием Общего искусственного интеллекта (Artificial General Intelligence, AGI) в значительной степени определялась стремлением к получению более высоких баллов в статических тестах, основанных на знаниях. Хотя эти метрики сослужили свою службу в измерении быстрой эволюции больших языковых моделей, их все чаще критикуют за уязвимость к загрязнению данных и неспособность уловить нюансы истинного общего интеллекта. Google DeepMind стремится изменить эту парадигму, представляя строгий, научно обоснованный подход к измерению прогресса ИИ (AI) через недавно опубликованную когнитивную таксономию.

Инициатива, подробно описанная в статье «Измерение прогресса на пути к AGI: Когнитивная таксономия» (Measuring Progress Toward AGI: A Cognitive Taxonomy), выходит за рамки простого поиска знаний. Она предлагает фундаментальную реструктуризацию того, как мы оцениваем системы ИИ, закрепляя оценку «общего интеллекта» в установленных принципах когнитивистики, нейробиологии и психологии. Чтобы ускорить этот переход, Google DeepMind также запустила хакатон на Kaggle с призовым фондом 200 000 долларов, приглашая мировое исследовательское сообщество помочь в создании необходимой инфраструктуры для тестирования.

Когнитивная таксономия из 10 способностей

В основе этой новой структуры лежит разделение общего интеллекта на десять дискретных когнитивных способностей. Эта таксономия (Cognitive Taxonomy) разработана для обеспечения комплексного представления о том, как функционирует система ИИ, а не только о том, что она знает. Деконструируя интеллект на эти специфические способности, исследователи могут лучше выявлять сильные и слабые стороны различных архитектур.

Предложенная таксономия включает следующие ключевые способности:

Восприятие (Perception): Способность извлекать и обрабатывать сложную сенсорную информацию из окружающей среды.
Генерация (Generation): Способность производить результаты, включая текст, речь и исполняемые действия.
Внимание (Attention): Навык фокусировки когнитивных ресурсов на релевантных стимулах в условиях шума.
Обучение (Learning): Непрерывный процесс приобретения новых знаний через опыт, взаимодействие и инструкции.
Память (Memory): Способность хранить, поддерживать и извлекать информацию в различных временных масштабах.
Рассуждение (Reasoning): Применение логического вывода для получения обоснованных заключений из имеющихся данных.
Метапознание (Metacognition): Высокоуровневая способность к знанию и мониторингу собственных внутренних когнитивных процессов.
Исполнительные функции (Executive Functions): Организация планирования, торможения и когнитивной гибкости.
Решение задач (Problem Solving): Специализированная способность находить эффективные решения в контексте конкретных областей.
Социальное познание (Social Cognition): Способность интерпретировать сложные социальные сигналы и адекватно реагировать в динамичных межличностных ситуациях.

Сравнение парадигм оценки

Чтобы понять масштаб этого сдвига, полезно сопоставить традиционные методы бенчмаркинга с новым когнитивно-ориентированным подходом, предложенным командой DeepMind.

Объект оценки	Традиционные тесты	Когнитивная таксономия
Основная цель	Статический поиск знаний	Динамическая когнитивная эффективность
Целостность данных	Высокая склонность к загрязнению	Устойчивость через генеративное тестирование
Соответствие человеку	Коррелирует с результатами тестов	Соответствует человеческому когнитивному распределению
Системный взгляд	Единый балл производительности	Детализированная разбивка по способностям

От теории к практике: Хакатон Kaggle

Хотя публикация структуры обеспечивает теоретическую основу, DeepMind признает, что одной структуры недостаточно. Проблема заключается в создании протоколов оценки, которые были бы масштабируемыми, надежными и значимыми. Чтобы восполнить этот пробел, Google DeepMind в партнерстве с Kaggle запустила масштабный хакатон под названием «Измерение прогресса на пути к AGI: Когнитивные способности».

Хакатон специально разработан для устранения «разрыва в оценке» — значительного дефицита стандартизированных тестов для более сложных и абстрактных возможностей современного ИИ. Конкурс сфокусирован на пяти основных направлениях, где текущие методы оценки наиболее слабы:

Обучение (Learning): Тестирование способности ИИ эффективно усваивать и применять новую информацию.
Метапознание (Metacognition): Оценка осознания ИИ ограничений собственных рассуждений.
Внимание (Attention): Оценка способности модели сохранять концентрацию на критически важных задачах в сложных средах.
Исполнительные функции (Executive Functions): Измерение когнитивной гибкости и планирования в условиях ограничений.
Социальное познание (Social Cognition): Оценка способности интерпретировать и участвовать в тонких социальных взаимодействиях.

Призовой фонд и логистика

Хакатон предлагает общий призовой фонд в размере 200 000 долларов для стимулирования высококачественных работ. Структура вознаграждений разработана так, чтобы отметить как успехи в конкретных направлениях, так и общие инновации:

Награды по направлениям: Призы по 10 000 долларов за две лучшие работы в каждом из пяти когнитивных направлений.
Главные призы: Призы по 25 000 долларов, присуждаемые четырем абсолютно лучшим работам во всем конкурсе.

Участники будут использовать платформу Community Benchmarks от Kaggle, что позволит им тестировать свои оценки на различных передовых моделях ИИ. Окно подачи работ открыто с 17 марта по 16 апреля 2026 года, а окончательные результаты планируется объявить 1 июня 2026 года.

Последствия для будущего исследований AGI

Внедрение этой когнитивной структуры (cognitive framework) представляет собой зрелый шаг вперед для сообщества исследователей ИИ. Стандартизируя язык «интеллекта» через призму когнитивистики, DeepMind фактически поднимает планку того, что считается значимым прогрессом.

Одним из наиболее критических аспектов этого подхода является предложенный трехэтапный протокол оценки. Собирая человеческие базовые показатели на репрезентативных демографических выборках и сопоставляя производительность ИИ с этими распределениями, исследователи могут создать нормализованный балл, который показывает, как модель работает относительно человеческих способностей в конкретных областях. Это значительное улучшение по сравнению с погоней за местами в таблицах лидеров, которая часто маскирует фундаментальные недостатки в рассуждениях или надежности моделей.

По мере того как индустрия приближается к теоретической вехе AGI, способность измерять внутренний «когнитивный» прогресс станет столь же важной, как и само развертывание моделей. С помощью этой структуры Google DeepMind не только задает вопрос «насколько умен этот ИИ?», но и предоставляет структурированную, проверяемую методологию для ответа на него с научной строгостью. Для исследователей и разработчиков хакатон Kaggle служит открытым приглашением помочь определить метрики, которые сформируют следующую эру искусственного интеллекта.