
Em um ano em que a inteligência artificial aparentemente dominou de tudo, da escrita criativa à programação complexa, um novo estudo da Stanford University identificou uma limitação alarmante: modelos avançados de IA têm dificuldades para compreender as leis básicas da física. O lançamento do "QuantiPhy", um benchmark abrangente projetado para testar o raciocínio físico, revela que mesmo os Modelos Visão-Linguagem (Vision-Language Models, VLMs) mais sofisticados frequentemente não conseguem estimar com precisão velocidade, distância e tamanho — habilidades fundamentais para a intuição humana e críticas para a implantação de sistemas autônomos.
A pesquisa, liderada pelo Stanford Institute for Human-Centered Artificial Intelligence (HAI), sugere que, embora a inteligência artificial consiga descrever um vídeo de um objeto em queda com certa eloquência, muitas vezes ela não consegue calcular quão rápido ele está caindo ou onde irá aterrissar com qualquer grau de precisão numérica. Essa "lacuna quantitativa" representa um grande obstáculo para as ambições do setor em robótica e tecnologia de veículos autônomos.
Por anos, a avaliação de IA concentrou-se fortemente em compreensão qualitativa — pedir a um modelo para identificar um gato em um vídeo ou descrever a ação de uma pessoa caminhando. No entanto, essas tarefas raramente testam se o modelo entende as propriedades físicas que governam essas cenas. Para lidar com isso, a equipe de Stanford desenvolveu QuantiPhy, o primeiro conjunto de dados especificamente projetado para avaliar as capacidades de raciocínio físico quantitativo de IA multimodal.
O benchmark consiste em mais de 3.300 instâncias vídeo-texto que exigem que os modelos realizem "inferência cinemática (kinematic inference)". Em vez de simplesmente descrever uma cena, a IA deve responder a perguntas numéricas precisas baseadas em evidências visuais, tais como:
Para resolver esses problemas, um modelo não pode confiar em palpites; ele deve realizar o que os pesquisadores chamam de "medição visual explícita (explicit visual measurement)", mapeando o deslocamento de pixels para unidades do mundo real usando priors fornecidos (fatos conhecidos). Os resultados do estudo foram sóbrios: modelos de ponta, incluindo o amplamente usado ChatGPT-5.1, frequentemente produziram respostas confiantes, porém matematicamente incorretas.
Uma das descobertas mais críticas do estudo é que os modelos atuais de IA na verdade não "veem" a física — eles a lembram. Quando apresentados a um vídeo, os modelos tendem a confiar em seus dados de treinamento (priors) em vez das entradas visuais reais.
Por exemplo, se um modelo vê um elefante, ele acessa uma probabilidade estatística de seus dados de treinamento que sugere "elefantes são grandes". Se o vídeo mostra um elefante menor, juvenil, ou um truque de perspectiva, o modelo frequentemente ignora a realidade visual em favor de seu conhecimento memorizado.
Esse fenômeno foi ilustrado de forma clara nos experimentos dos pesquisadores. Quando as pistas visuais eram limpas e os objetos seguiam padrões esperados (como um carro padrão movendo-se a uma velocidade normal), os modelos tiveram desempenho aceitável. No entanto, quando os pesquisadores introduziram "priors contrafactuais (counterfactual priors)" — como escalonar um objeto para um tamanho ou velocidade incomuns para testar a adaptabilidade do modelo — o raciocínio da IA desabou. Ela continuou a fornecer números consistentes com seus dados de treinamento em vez das evidências do vídeo à sua frente.
Os pesquisadores argumentam que isso indica uma falta fundamental de "fundamentação (grounding)". Os modelos estão simulando compreensão ao recuperar textos e números relacionados, em vez de calcular propriedades físicas a partir dos dados visuais brutos.
O benchmark QuantiPhy expôs desempenho inconsistente em várias tarefas físicas. Enquanto os modelos demonstraram alguma competência em contagem simples de objetos ou identificação estática, sua capacidade de processar propriedades cinemáticas dinâmicas — velocidade e aceleração — foi significativamente deficiente.
A tabela a seguir destaca casos de teste específicos do conjunto de dados QuantiPhy, ilustrando a discrepância entre a verdade de referência (ground truth) da física e as estimativas da IA.
Table 1: QuantiPhy Benchmark Performance Examples
| Task Scenario | Visual Input Prior | Ground Truth | AI Model Estimate (ChatGPT-5.1) | Analysis of Failure |
|---|---|---|---|---|
| Velocity Estimation | Billiard ball diameter (57.4 mm) | 24.99 cm/s | 24.00 cm/s | Quase Sucesso: O modelo teve bom desempenho aqui, provavelmente porque o cenário se alinha com dados de treinamento padrão de física e fundos visuais simples e limpos. |
| Object Sizing | Elephant walking speed (2.31 m/s) | 2.20 meters | 1.30 meters | Falha Crítica: O modelo subestimou severamente a altura, falhando em correlacionar o prior de velocidade de caminhada com a dimensão vertical do animal. |
| Distance Calculation | Pedestrian speed (1.25 m/s) | 4.77 meters | 7.00 meters | Erro Espacial: Uma superestimação significativa da distância entre placas de trânsito, indicando incapacidade de mapear profundidade em pixels 2D para o espaço 3D do mundo real. |
| Scale Sensitivity | Car length (scaled to 5,670 m) | Matches Scale | Normal Car Size | Viés de Prior: Quando apresentado a um carro "gigante" manipulado digitalmente, o modelo ignorou a escala visual e retornou ao tamanho padrão de um carro de sua memória. |
A incapacidade de realizar raciocínio físico preciso não é meramente uma curiosidade acadêmica; é uma questão crítica de segurança para a implantação de IA incorporada. Veículos autônomos (AVs), drones de entrega e robôs domésticos operam em um mundo físico regido por leis imutáveis do movimento.
Para um veículo autônomo, o raciocínio "plausível" é insuficiente. Se o sistema de IA de um carro vê uma criança correndo em direção a uma faixa de pedestres, ele deve calcular com precisão a velocidade e a trajetória da criança em relação à própria velocidade do carro para decidir se deve frear. Uma estimativa de velocidade "alucinatória" — com erro de apenas alguns metros por segundo — pode ser a diferença entre uma parada segura e uma colisão.
Ehsan Adeli, diretor do Stanford Translational Artificial Intelligence (STAI) Lab e autor sênior do artigo, enfatizou que essa limitação é um gargalo primário para a Autonomia Nível 5 (Level 5 autonomy). Sistemas atuais muitas vezes dependem de LIDAR e radar para contornar a necessidade de raciocínio visual, mas um agente de IA verdadeiramente generalista — um que possa operar apenas com câmeras, semelhante a um humano — precisa dominar esses cálculos físicos intuitivos.
Apesar dos resultados desanimadores, a equipe de Stanford acredita que o QuantiPhy oferece um roteiro para melhoria. O estudo identifica que os paradigmas de treinamento atuais para Modelos Visão-Linguagem são fortemente tendenciosos para compreensão semântica (o que é isto?) em vez de raciocínio quantitativo (quão rápido isto está?).
Para reduzir essa lacuna, os pesquisadores sugerem uma mudança na metodologia de treinamento:
À medida que a indústria de IA avança rumo à Inteligência Artificial Geral (AGI), a capacidade de entender o mundo físico permanece uma fronteira final. Até que os modelos possam, de forma confiável, distinguir entre um carro em alta velocidade e um carro estacionado apenas com pistas visuais, seu papel no mundo físico continuará limitado.