CEO da DeepMind desafia a estratégia da OpenAI e defende 'modelos de mundo'

O CEO da DeepMind desafia a estratégia da OpenAI, defendendo "Modelos do Mundo (World Models)"

Num momento definidor para a indústria de inteligência artificial, o CEO da Google DeepMind, Demis Hassabis, desafiou publicamente a dominância predominante dos Modelos de Linguagem de Grande Escala (Large Language Models, LLMs), argumentando que o caminho atual favorecido por concorrentes como a OpenAI é insuficiente para alcançar a verdadeira Inteligência Artificial Geral (Artificial General Intelligence, AGI). Falando no podcast "The Tech Download" da CNBC em 19 de janeiro de 2026, Hassabis articulou um pivô estratégico em direção aos "Modelos do Mundo (World Models)", sistemas capazes de simular a realidade física e compreender causalidade, em vez de apenas prever texto com base em correlações estatísticas.

Essa crítica marca uma divergência significativa nos roteiros filosóficos e técnicos dos principais laboratórios de IA do mundo. Enquanto a OpenAI, liderada por Sam Altman, historicamente apostou nas leis de escala — a ideia de que aumentar os recursos computacionais e o volume de dados inevitavelmente leva a uma inteligência superior — Hassabis sugere que essa abordagem bateu numa "barreira fundamental" quando se trata de invenção científica e raciocínio a partir de primeiros princípios.

A limitação do escalonamento baseado em texto

O cerne do argumento de Hassabis repousa na distinção entre processamento de informação e compreensão física. Os Modelos de Linguagem de Grande Escala, como a série GPT, são excelentes em analisar enormes quantidades de texto gerado por humanos para encontrar padrões. No entanto, Hassabis sustenta que esses modelos "não entendem verdadeiramente a causalidade". Eles podem descrever uma maçã caindo com base em descrições nos seus dados de treino, mas não conseguem simular a física da gravidade em um ambiente novo para prever um resultado que não tenham visto antes.

"Os grandes modelos de linguagem de hoje são fenomenais no reconhecimento de padrões", afirmou Hassabis durante a entrevista. "Mas eles realmente não sabem por que A leva a B. Eles apenas predizem o próximo token."

Para os leitores da Creati.ai, essa distinção é crucial. Implica que, enquanto os LLMs continuarão a melhorar como interfaces conversacionais e assistentes de programação, eles podem permanecer incapazes do tipo de "avanços em escala AlphaGo" exigidos para resolver problemas científicos complexos, como descobrir novos materiais ou curar doenças. Hassabis estima que a AGI ainda está a 5 a 10 anos de distância e exigirá arquiteturas que vão além do atual paradigma baseado em Transformer.

Definindo o "Modelo do Mundo"

A visão alternativa da DeepMind foca em criar IA que construa uma representação interna do mundo físico. Esses "Modelos do Mundo" funcionam menos como uma biblioteca e mais como um motor de jogo. Eles podem executar "experimentos mentais", simular resultados em espaço 3D e testar hipóteses contra um conjunto consistente de leis físicas.

A DeepMind já começou a demonstrar a viabilidade dessa abordagem. Hassabis apontou para o Genie 3, um sistema lançado em agosto de 2025, que gera ambientes 3D interativos a partir de prompts de texto, e SIMA 2, que treina agentes de IA para navegar e executar tarefas dentro desses mundos simulados. Pesquisas iniciais sugerem que esses sistemas híbridos — combinando compreensão de linguagem com raciocínio espacial — superam modelos puramente de linguagem em 20–30% em tarefas de raciocínio complexo e reduzem significativamente alucinações relativas à física básica.

Divergência estratégica: Google vs. OpenAI

O timing desses comentários não é coincidente. A indústria de IA está atualmente a navegar por um período de intensa volatilidade. Após o lançamento do Gemini 3 da Google no final de 2025, surgiram relatos de um "Code Red" interno na OpenAI, impulsionado por preocupações de que sua estratégia de escalonamento estava a produzir retornos decrescentes. Ao articular publicamente as limitações do caminho baseado apenas em LLMs, Hassabis está a posicionar a Google não apenas como concorrente, mas como a pioneira do próximo salto arquitetural em IA.

Essa mudança é operacional tanto quanto filosófica. Hassabis revelou que agora está em contato diário com o CEO da Alphabet, Sundar Pichai, uma mudança que sublinha o status elevado da DeepMind como a única "sala de máquinas" dos esforços de IA do Google. Essa estrutura simplificada visa acelerar a tradução de avanços de pesquisa em produtos de consumo, uma resposta direta às críticas de que o Google anteriormente tinha se movido devagar demais.

O contexto geopolítico: a China reduzindo a distância

Além do debate técnico, Hassabis ofereceu uma avaliação sóbria do panorama global de IA. Questionado sobre a competição internacional, ele observou que os modelos de IA chineses estão rapidamente reduzindo a lacuna de desempenho em relação aos seus equivalentes ocidentais.

"É uma questão de meses, não de anos", comentou Hassabis em relação ao atraso entre os modelos de fronteira dos EUA e da China. Ele citou avanços rápidos de empresas como Alibaba e startups como Moonshot AI. No entanto, introduziu uma distinção nuanceada: enquanto os laboratórios chineses são hábeis em seguir rapidamente e em excelência de engenharia, Hassabis questionou se o ecossistema atual na China fomenta a "mentalidade" específica requerida para avanços científicos do zero ao um, como a invenção original da arquitetura Transformer por pesquisadores do Google.

Análise comparativa: LLMs vs. Modelos do Mundo

Para entender os riscos deste debate arquitetural, é útil contrastar as capacidades e limitações das duas abordagens dominantes que atualmente competem por recursos.

Comparison of Large Language Models and World Models

Feature	Modelos de Linguagem de Grande Escala (LLMs)	Modelos do Mundo
Core Mechanism	Reconhecimento estatístico de padrões e predição de tokens	Simulação da realidade física e causalidade
Primary Data Source	Texto, código e imagens estáticas da internet	Ambientes 3D, motores físicos e dados de vídeo
Reasoning Capability	Correlacional (lógica associativa)	Causal (raciocínio por primeiros princípios)
Key Limitation	Alucinações e falta de consciência espacial	Alto custo computacional para simulação em tempo real
Ideal Use Case	Redação criativa, programação, sumarização	Robótica, descoberta científica, agentes autônomos
Example Systems	GPT-4, Claude 3, Llama 3	Genie 3, SIMA 2, AlphaFold

Implicações para a indústria de IA

A defesa de Hassabis pelos Modelos do Mundo sinaliza uma tendência mais ampla da indústria rumo a sistemas de IA "neuro-simbólicos (neuro-symbolic)" ou híbridos. Para desenvolvedores e líderes empresariais, isso sugere que a era de depender exclusivamente de engenharia de prompt para modelos baseados em texto pode estar a transitar para uma fase onde computação espacial e simulação se tornam componentes críticos da pilha de IA.

Se a hipótese da DeepMind se provar correta, a próxima geração de IA não apenas falará sobre o mundo — ela será capaz de navegá-lo. Essa capacidade é essencial para desbloquear a economia física, incluindo robótica avançada e experimentação científica autônoma. Enquanto a OpenAI continua a refinar o "cérebro" da IA por meio da linguagem, a DeepMind parece focada em dar a esse cérebro um corpo e um mundo para habitar.

À medida que 2026 se desenrola, a indústria provavelmente verá uma bifurcação no desenvolvimento de modelos: um caminho otimizando a fluência linguística e outro a inteligência física. Para a Creati.ai, estaremos acompanhando de perto como esses Modelos do Mundo se integram às ferramentas generativas existentes, potencialmente criando uma nova classe de aplicações que mesclam geração criativa com precisão científica.