
Nos últimos anos, a corrida rumo à Inteligência Artificial Geral (Artificial General Intelligence - AGI) tem sido amplamente definida por uma busca por pontuações mais altas em benchmarks estáticos baseados em conhecimento. Embora essas métricas tenham cumprido seu propósito ao medir a rápida evolução dos modelos de linguagem de grande porte (Large Language Models - LLMs), elas são cada vez mais criticadas por sua vulnerabilidade à contaminação de dados e por sua incapacidade de capturar as nuances da verdadeira inteligência geral. O Google DeepMind busca agora mudar esse paradigma, revelando uma abordagem rigorosa e baseada na ciência para medir o progresso da IA por meio de uma taxonomia cognitiva recém-lançada.
A iniciativa, detalhada no artigo "Measuring Progress Toward AGI: A Cognitive Taxonomy", vai além da mera recuperação de conhecimento. Ela propõe uma reestruturação fundamental de como avaliamos sistemas de IA, ancorando a avaliação da "inteligência geral" em princípios estabelecidos da ciência cognitiva, neurociência e psicologia. Para catalisar essa transição, o Google DeepMind também lançou um hackathon de US$ 200.000 no Kaggle, convidando a comunidade global de pesquisa para ajudar a construir a infraestrutura de benchmarking necessária.
No cerne deste novo framework está uma divisão da inteligência geral em dez habilidades cognitivas distintas. Esta taxonomia foi projetada para fornecer uma visão abrangente de como um sistema de IA funciona, não apenas o que ele sabe. Ao desconstruir a inteligência nessas faculdades específicas, os pesquisadores podem identificar melhor os pontos fortes e as fraquezas de diferentes arquiteturas.
A taxonomia proposta inclui as seguintes habilidades fundamentais:
Para entender a magnitude dessa mudança, é útil contrastar os métodos tradicionais de benchmarking com a nova abordagem focada no cognitivo proposta pela equipe do DeepMind.
| Foco da Avaliação | Benchmarks Tradicionais | Taxonomia Cognitiva |
|---|---|---|
| Objetivo Primário | Recuperação de conhecimento estático | Desempenho cognitivo dinâmico |
| Integridade dos Dados | Altamente propenso a contaminação | Resiliente via testes generativos |
| Alinhamento Humano | Correlaciona-se com pontuações de testes | Mapeia para a distribuição cognitiva humana |
| Visão do Sistema | Pontuação de desempenho unificada | Decomposição granular de habilidades |
Embora a publicação do framework forneça a base teórica, o DeepMind reconhece que apenas um framework é insuficiente. O desafio reside em criar protocolos de avaliação que sejam escaláveis, robustos e significativos. Para preencher essa lacuna, o Google DeepMind fez uma parceria com o Kaggle para lançar um hackathon de alto risco intitulado “Measuring progress toward AGI: Cognitive abilities.”
O hackathon foi projetado especificamente para abordar a "lacuna de avaliação" — a escassez significativa de testes padronizados para as capacidades mais complexas e abstratas da IA moderna. A competição foca em cinco trilhas principais onde os métodos de avaliação atuais são mais fracos:
O hackathon oferece um prêmio total de US$ 200.000 para incentivar submissões de alta qualidade. A estrutura é desenhada para recompensar tanto a excelência em trilhas específicas quanto a inovação geral:
Os participantes utilizarão a plataforma Community Benchmarks do Kaggle, permitindo-lhes testar suas avaliações contra uma variedade de modelos de IA de fronteira. A janela de submissão está aberta de 17 de março a 16 de abril de 2026, com os resultados finais previstos para serem anunciados em 1º de junho de 2026.
A introdução deste framework cognitivo representa um passo maduro para a comunidade de pesquisa em IA. Ao padronizar a linguagem da "inteligência" através de uma lente da ciência cognitiva, o DeepMind está efetivamente elevando o nível do que constitui um progresso significativo.
Um dos aspectos mais críticos dessa abordagem é o protocolo de avaliação de três estágios proposto. Ao coletar bases de referência humanas de amostras demograficamente representativas e mapear o desempenho da IA em relação a essas distribuições, os pesquisadores podem criar uma pontuação normalizada que indica o desempenho de um modelo em relação às capacidades humanas em domínios específicos. Isso representa uma melhoria significativa em relação à disputa por rankings (leaderboard-chasing), que muitas vezes mascara falhas fundamentais no raciocínio ou na confiabilidade do modelo.
À medida que a indústria se aproxima do marco teórico da AGI, a capacidade de medir o progresso "cognitivo" interno se tornará tão importante quanto a própria implementação dos modelos. Com este framework, o Google DeepMind não está apenas perguntando "quão inteligente é esta IA?", mas fornecendo uma metodologia estruturada e verificável para responder a essa pergunta com rigor científico. Para pesquisadores e desenvolvedores, o hackathon do Kaggle serve como um convite aberto para ajudar a definir as métricas que moldarão a próxima era da inteligência artificial.