Google DeepMind lança estrutura cognitiva para medir o progresso rumo à AGI e inicia hackathon no Kaggle com US$200.000 em prêmios

Redefinindo a Inteligência: O Novo Framework Cognitivo do Google DeepMind

Nos últimos anos, a corrida rumo à Inteligência Artificial Geral (Artificial General Intelligence - AGI) tem sido amplamente definida por uma busca por pontuações mais altas em benchmarks estáticos baseados em conhecimento. Embora essas métricas tenham cumprido seu propósito ao medir a rápida evolução dos modelos de linguagem de grande porte (Large Language Models - LLMs), elas são cada vez mais criticadas por sua vulnerabilidade à contaminação de dados e por sua incapacidade de capturar as nuances da verdadeira inteligência geral. O Google DeepMind busca agora mudar esse paradigma, revelando uma abordagem rigorosa e baseada na ciência para medir o progresso da IA por meio de uma taxonomia cognitiva recém-lançada.

A iniciativa, detalhada no artigo "Measuring Progress Toward AGI: A Cognitive Taxonomy", vai além da mera recuperação de conhecimento. Ela propõe uma reestruturação fundamental de como avaliamos sistemas de IA, ancorando a avaliação da "inteligência geral" em princípios estabelecidos da ciência cognitiva, neurociência e psicologia. Para catalisar essa transição, o Google DeepMind também lançou um hackathon de US$ 200.000 no Kaggle, convidando a comunidade global de pesquisa para ajudar a construir a infraestrutura de benchmarking necessária.

A Taxonomia Cognitiva de 10 Habilidades

No cerne deste novo framework está uma divisão da inteligência geral em dez habilidades cognitivas distintas. Esta taxonomia foi projetada para fornecer uma visão abrangente de como um sistema de IA funciona, não apenas o que ele sabe. Ao desconstruir a inteligência nessas faculdades específicas, os pesquisadores podem identificar melhor os pontos fortes e as fraquezas de diferentes arquiteturas.

A taxonomia proposta inclui as seguintes habilidades fundamentais:

Percepção (Perception): A capacidade de extrair e processar informações sensoriais complexas do ambiente.
Geração (Generation): A habilidade de produzir resultados, incluindo texto, fala e ações executáveis.
Atenção (Attention): A competência de focar recursos cognitivos em estímulos relevantes em meio ao ruído.
Aprendizagem (Learning): O processo contínuo de adquirir novos conhecimentos por meio de experiência, interação e instrução.
Memória (Memory): A habilidade de armazenar, manter e recuperar informações em diferentes escalas de tempo.
Raciocínio (Reasoning): A aplicação de inferência lógica para tirar conclusões válidas a partir de dados disponíveis.
Metacognição (Metacognition): A capacidade de ordem superior para o conhecimento e monitoramento dos próprios processos cognitivos internos.
Funções Executivas (Executive Functions): A orquestração de planejamento, inibição e flexibilidade cognitiva.
Resolução de Problemas (Problem Solving): A habilidade especializada de encontrar soluções eficazes dentro de contextos específicos de domínio.
Cognição Social (Social Cognition): A capacidade de interpretar pistas sociais complexas e responder adequadamente em situações interpessoais dinâmicas.

Comparando Paradigmas de Avaliação

Para entender a magnitude dessa mudança, é útil contrastar os métodos tradicionais de benchmarking com a nova abordagem focada no cognitivo proposta pela equipe do DeepMind.

Foco da Avaliação	Benchmarks Tradicionais	Taxonomia Cognitiva
Objetivo Primário	Recuperação de conhecimento estático	Desempenho cognitivo dinâmico
Integridade dos Dados	Altamente propenso a contaminação	Resiliente via testes generativos
Alinhamento Humano	Correlaciona-se com pontuações de testes	Mapeia para a distribuição cognitiva humana
Visão do Sistema	Pontuação de desempenho unificada	Decomposição granular de habilidades

Passando da Teoria à Prática: O Hackathon do Kaggle

Embora a publicação do framework forneça a base teórica, o DeepMind reconhece que apenas um framework é insuficiente. O desafio reside em criar protocolos de avaliação que sejam escaláveis, robustos e significativos. Para preencher essa lacuna, o Google DeepMind fez uma parceria com o Kaggle para lançar um hackathon de alto risco intitulado “Measuring progress toward AGI: Cognitive abilities.”

O hackathon foi projetado especificamente para abordar a "lacuna de avaliação" — a escassez significativa de testes padronizados para as capacidades mais complexas e abstratas da IA moderna. A competição foca em cinco trilhas principais onde os métodos de avaliação atuais são mais fracos:

Aprendizagem: Testar a habilidade de uma IA de internalizar e aplicar novas informações de forma eficaz.
Metacognição: Avaliar a consciência de uma IA sobre suas próprias limitações de raciocínio.
Atenção: Avaliar a habilidade do modelo de manter o foco em tarefas críticas em ambientes complexos.
Funções Executivas: Medir a flexibilidade cognitiva e o planejamento sob restrições.
Cognição Social: Avaliar a habilidade de interpretar e se envolver em interações sociais matizadas.

Premiação e Logística

O hackathon oferece um prêmio total de US$ 200.000 para incentivar submissões de alta qualidade. A estrutura é desenhada para recompensar tanto a excelência em trilhas específicas quanto a inovação geral:

Prêmios por Trilha: Prêmios de US$ 10.000 para as duas melhores submissões em cada uma das cinco trilhas cognitivas.
Grandes Prêmios: Prêmios de US$ 25.000 concedidos às quatro melhores submissões gerais de toda a competição.

Os participantes utilizarão a plataforma Community Benchmarks do Kaggle, permitindo-lhes testar suas avaliações contra uma variedade de modelos de IA de fronteira. A janela de submissão está aberta de 17 de março a 16 de abril de 2026, com os resultados finais previstos para serem anunciados em 1º de junho de 2026.

Implicações para o Futuro da Pesquisa em AGI

A introdução deste framework cognitivo representa um passo maduro para a comunidade de pesquisa em IA. Ao padronizar a linguagem da "inteligência" através de uma lente da ciência cognitiva, o DeepMind está efetivamente elevando o nível do que constitui um progresso significativo.

Um dos aspectos mais críticos dessa abordagem é o protocolo de avaliação de três estágios proposto. Ao coletar bases de referência humanas de amostras demograficamente representativas e mapear o desempenho da IA em relação a essas distribuições, os pesquisadores podem criar uma pontuação normalizada que indica o desempenho de um modelo em relação às capacidades humanas em domínios específicos. Isso representa uma melhoria significativa em relação à disputa por rankings (leaderboard-chasing), que muitas vezes mascara falhas fundamentais no raciocínio ou na confiabilidade do modelo.

À medida que a indústria se aproxima do marco teórico da AGI, a capacidade de medir o progresso "cognitivo" interno se tornará tão importante quanto a própria implementação dos modelos. Com este framework, o Google DeepMind não está apenas perguntando "quão inteligente é esta IA?", mas fornecendo uma metodologia estruturada e verificável para responder a essa pergunta com rigor científico. Para pesquisadores e desenvolvedores, o hackathon do Kaggle serve como um convite aberto para ajudar a definir as métricas que moldarão a próxima era da inteligência artificial.