Google DeepMind publica un marco cognitivo para medir el progreso hacia la AGI y lanza un hackathon en Kaggle de $200,000

Redefiniendo la inteligencia: El nuevo marco cognitivo de Google DeepMind

Durante los últimos años, la carrera hacia la Inteligencia Artificial General (Artificial General Intelligence - AGI) se ha definido en gran medida por la búsqueda de puntuaciones más altas en evaluaciones comparativas (benchmarks) estáticas basadas en el conocimiento. Si bien estas métricas han cumplido su propósito al medir la rápida evolución de los modelos de lenguaje de gran tamaño (Large Language Models), cada vez son más criticadas por su vulnerabilidad a la contaminación de datos y su incapacidad para capturar los matices de la verdadera inteligencia general. Google DeepMind busca ahora cambiar este paradigma, presentando un enfoque riguroso y respaldado por la ciencia para medir el progreso de la Inteligencia Artificial (Artificial Intelligence - AI) a través de una taxonomía cognitiva recién publicada.

La iniciativa, detallada en el artículo "Measuring Progress Toward AGI: A Cognitive Taxonomy", va más allá de la mera recuperación de conocimientos. Propone una reestructuración fundamental de cómo evaluamos los sistemas de IA, anclando la evaluación de la "inteligencia general" en principios establecidos de la ciencia cognitiva, la neurociencia y la psicología. Para catalizar esta transición, Google DeepMind también ha lanzado un hackathon en Kaggle de 200.000 dólares, invitando a la comunidad de investigación global a ayudar a construir la infraestructura de evaluación comparativa necesaria.

La taxonomía cognitiva de 10 habilidades

En el corazón de este nuevo marco se encuentra un desglose de la inteligencia general en diez habilidades cognitivas discretas. Esta taxonomía está diseñada para proporcionar una visión integral de cómo funciona un sistema de IA, no solo de lo que sabe. Al deconstruir la inteligencia en estas facultades específicas, los investigadores pueden identificar mejor las fortalezas y debilidades de las diferentes arquitecturas.

La taxonomía propuesta incluye las siguientes habilidades clave:

Percepción (Perception): La capacidad de extraer y procesar información sensorial compleja del entorno.
Generación (Generation): La capacidad de producir resultados, incluyendo texto, habla y acciones ejecutables.
Atención (Attention): La habilidad de enfocar los recursos cognitivos en estímulos relevantes en medio del ruido.
Aprendizaje (Learning): El proceso continuo de adquirir nuevos conocimientos a través de la experiencia, la interacción y la instrucción.
Memoria (Memory): La capacidad de almacenar, mantener y recuperar información en diversas escalas de tiempo.
Razonamiento (Reasoning): La aplicación de la inferencia lógica para extraer conclusiones válidas a partir de los datos disponibles.
Metacognición (Metacognition): La capacidad de orden superior para el conocimiento y el monitoreo de los propios procesos cognitivos internos.
Funciones ejecutivas (Executive Functions): La orquestación de la planificación, la inhibición y la flexibilidad cognitiva.
Resolución de problemas (Problem Solving): La habilidad especializada para encontrar soluciones efectivas dentro de contextos específicos de un dominio.
Cognición social (Social Cognition): La capacidad de interpretar señales sociales complejas y responder adecuadamente en situaciones interpersonales dinámicas.

Comparación de paradigmas de evaluación

Para comprender la magnitud de este cambio, resulta útil contrastar los métodos tradicionales de evaluación comparativa con el nuevo enfoque centrado en lo cognitivo propuesto por el equipo de DeepMind.

Enfoque de la evaluación	Benchmarks tradicionales	Taxonomía cognitiva
Objetivo principal	Recuperación de conocimiento estático	Rendimiento cognitivo dinámico
Integridad de los datos	Muy propenso a la contaminación	Resiliente mediante pruebas generativas
Alineación humana	Se correlaciona con las puntuaciones de las pruebas	Se mapea con la distribución cognitiva humana
Visión del sistema	Puntuación de rendimiento unificada	Desglose granular de habilidades

De la teoría a la práctica: El hackathon de Kaggle

Si bien la publicación del marco proporciona la base teórica, DeepMind reconoce que un marco por sí solo es insuficiente. El desafío radica en crear protocolos de evaluación que sean escalables, robustos y significativos. Para cerrar esta brecha, Google DeepMind se ha asociado con Kaggle para lanzar un hackathon de alto nivel titulado “Measuring progress toward AGI: Cognitive abilities”.

El hackathon está diseñado específicamente para abordar la "brecha de evaluación": la escasez significativa de pruebas estandarizadas para las capacidades más complejas y abstractas de la IA moderna. La competencia se centra en cinco áreas principales donde los métodos de evaluación actuales son más débiles:

Aprendizaje (Learning): Evaluar la capacidad de una IA para interiorizar y aplicar nueva información de manera efectiva.
Metacognición (Metacognition): Evaluar la conciencia de una IA sobre sus propias limitaciones de razonamiento.
Atención (Attention): Evaluar la capacidad del modelo para mantener el enfoque en tareas críticas en entornos complejos.
Funciones ejecutivas (Executive Functions): Medir la flexibilidad cognitiva y la planificación bajo restricciones.
Cognición social (Social Cognition): Evaluar la capacidad de interpretar y participar en interacciones sociales matizadas.

Bolsa de premios y logística

El hackathon ofrece una bolsa de premios total de 200.000 dólares para incentivar presentaciones de alta calidad. La estructura está diseñada para recompensar tanto la excelencia en áreas específicas como la innovación general:

Premios por área: Premios de 10.000 dólares para las dos mejores presentaciones en cada una de las cinco áreas cognitivas.
Grandes premios: Premios de 25.000 dólares otorgados a las cuatro mejores presentaciones generales de toda la competencia.

Los participantes utilizarán la plataforma Community Benchmarks de Kaggle, lo que les permitirá probar sus evaluaciones frente a una variedad de modelos de IA de vanguardia. El periodo de presentación de candidaturas está abierto desde el 17 de marzo hasta el 16 de abril de 2026, y el anuncio de los resultados finales está previsto para el 1 de junio de 2026.

Implicaciones para el futuro de la investigación de la AGI

La introducción de este marco cognitivo representa un paso maduro hacia adelante para la comunidad de investigación de la IA. Al estandarizar el lenguaje de la "inteligencia" a través de la lente de la ciencia cognitiva, DeepMind está elevando efectivamente el nivel de lo que constituye un progreso significativo.

Uno de los aspectos más críticos de este enfoque es el protocolo de evaluación de tres etapas propuesto. Al recopilar líneas base humanas de muestras demográficamente representativas y mapear el rendimiento de la IA frente a estas distribuciones, los investigadores pueden crear una puntuación normalizada que indique cómo se desempeña un modelo en relación con las capacidades humanas en dominios específicos. Esta es una mejora significativa sobre la persecución de las tablas de clasificación, que a menudo enmascara fallas fundamentales en el razonamiento o la confiabilidad del modelo.

A medida que la industria se acerca al hito teórico de la AGI, la capacidad de medir el progreso "cognitivo" interno se volverá tan importante como el despliegue de los propios modelos. Con este marco, Google DeepMind no solo pregunta "¿qué tan inteligente es esta IA?", sino que proporciona una metodología estructurada y verificable para responder a esa pregunta con rigor científico. Para los investigadores y desarrolladores, el hackathon de Kaggle sirve como una invitación abierta para ayudar a definir las métricas que darán forma a la próxima era de la inteligencia artificial.