
Durante los últimos años, la carrera hacia la Inteligencia Artificial General (Artificial General Intelligence - AGI) se ha definido en gran medida por la búsqueda de puntuaciones más altas en evaluaciones comparativas (benchmarks) estáticas basadas en el conocimiento. Si bien estas métricas han cumplido su propósito al medir la rápida evolución de los modelos de lenguaje de gran tamaño (Large Language Models), cada vez son más criticadas por su vulnerabilidad a la contaminación de datos y su incapacidad para capturar los matices de la verdadera inteligencia general. Google DeepMind busca ahora cambiar este paradigma, presentando un enfoque riguroso y respaldado por la ciencia para medir el progreso de la Inteligencia Artificial (Artificial Intelligence - AI) a través de una taxonomía cognitiva recién publicada.
La iniciativa, detallada en el artículo "Measuring Progress Toward AGI: A Cognitive Taxonomy", va más allá de la mera recuperación de conocimientos. Propone una reestructuración fundamental de cómo evaluamos los sistemas de IA, anclando la evaluación de la "inteligencia general" en principios establecidos de la ciencia cognitiva, la neurociencia y la psicología. Para catalizar esta transición, Google DeepMind también ha lanzado un hackathon en Kaggle de 200.000 dólares, invitando a la comunidad de investigación global a ayudar a construir la infraestructura de evaluación comparativa necesaria.
En el corazón de este nuevo marco se encuentra un desglose de la inteligencia general en diez habilidades cognitivas discretas. Esta taxonomía está diseñada para proporcionar una visión integral de cómo funciona un sistema de IA, no solo de lo que sabe. Al deconstruir la inteligencia en estas facultades específicas, los investigadores pueden identificar mejor las fortalezas y debilidades de las diferentes arquitecturas.
La taxonomía propuesta incluye las siguientes habilidades clave:
Para comprender la magnitud de este cambio, resulta útil contrastar los métodos tradicionales de evaluación comparativa con el nuevo enfoque centrado en lo cognitivo propuesto por el equipo de DeepMind.
| Enfoque de la evaluación | Benchmarks tradicionales | Taxonomía cognitiva |
|---|---|---|
| Objetivo principal | Recuperación de conocimiento estático | Rendimiento cognitivo dinámico |
| Integridad de los datos | Muy propenso a la contaminación | Resiliente mediante pruebas generativas |
| Alineación humana | Se correlaciona con las puntuaciones de las pruebas | Se mapea con la distribución cognitiva humana |
| Visión del sistema | Puntuación de rendimiento unificada | Desglose granular de habilidades |
Si bien la publicación del marco proporciona la base teórica, DeepMind reconoce que un marco por sí solo es insuficiente. El desafío radica en crear protocolos de evaluación que sean escalables, robustos y significativos. Para cerrar esta brecha, Google DeepMind se ha asociado con Kaggle para lanzar un hackathon de alto nivel titulado “Measuring progress toward AGI: Cognitive abilities”.
El hackathon está diseñado específicamente para abordar la "brecha de evaluación": la escasez significativa de pruebas estandarizadas para las capacidades más complejas y abstractas de la IA moderna. La competencia se centra en cinco áreas principales donde los métodos de evaluación actuales son más débiles:
El hackathon ofrece una bolsa de premios total de 200.000 dólares para incentivar presentaciones de alta calidad. La estructura está diseñada para recompensar tanto la excelencia en áreas específicas como la innovación general:
Los participantes utilizarán la plataforma Community Benchmarks de Kaggle, lo que les permitirá probar sus evaluaciones frente a una variedad de modelos de IA de vanguardia. El periodo de presentación de candidaturas está abierto desde el 17 de marzo hasta el 16 de abril de 2026, y el anuncio de los resultados finales está previsto para el 1 de junio de 2026.
La introducción de este marco cognitivo representa un paso maduro hacia adelante para la comunidad de investigación de la IA. Al estandarizar el lenguaje de la "inteligencia" a través de la lente de la ciencia cognitiva, DeepMind está elevando efectivamente el nivel de lo que constituye un progreso significativo.
Uno de los aspectos más críticos de este enfoque es el protocolo de evaluación de tres etapas propuesto. Al recopilar líneas base humanas de muestras demográficamente representativas y mapear el rendimiento de la IA frente a estas distribuciones, los investigadores pueden crear una puntuación normalizada que indique cómo se desempeña un modelo en relación con las capacidades humanas en dominios específicos. Esta es una mejora significativa sobre la persecución de las tablas de clasificación, que a menudo enmascara fallas fundamentales en el razonamiento o la confiabilidad del modelo.
A medida que la industria se acerca al hito teórico de la AGI, la capacidad de medir el progreso "cognitivo" interno se volverá tan importante como el despliegue de los propios modelos. Con este marco, Google DeepMind no solo pregunta "¿qué tan inteligente es esta IA?", sino que proporciona una metodología estructurada y verificable para responder a esa pregunta con rigor científico. Para los investigadores y desarrolladores, el hackathon de Kaggle sirve como una invitación abierta para ayudar a definir las métricas que darán forma a la próxima era de la inteligencia artificial.