
Dans une année où l'intelligence artificielle semble avoir maîtrisé tout, de l'écriture créative au codage complexe, une nouvelle étude de l'université de Stanford a identifié une limite surprenante : les modèles d'IA avancés peinent à comprendre les lois fondamentales de la physique. La publication de "QuantiPhy", un benchmark complet conçu pour tester le raisonnement physique, révèle que même les modèles vision-langage (Vision-Language Models, VLMs) les plus sophistiqués échouent fréquemment à estimer avec précision la vitesse, la distance et la taille — des compétences fondamentales pour l'intuition humaine et cruciales pour le déploiement de systèmes autonomes.
La recherche, dirigée par le Stanford Institute for Human-Centered Artificial Intelligence (HAI), suggère que si l'IA peut décrire une vidéo d'un objet en chute avec un lyrisme certain, elle ne peut souvent pas calculer avec précision la vitesse de chute ni prévoir exactement où il va atterrir. Cette « lacune quantitative » représente un obstacle important pour les ambitions de l'industrie en robotique et en technologie de conduite autonome.
Pendant des années, l'évaluation de l'IA s'est concentrée fortement sur la compréhension qualitative — demander à un modèle d'identifier un chat dans une vidéo ou de décrire l'action d'une personne qui marche. Cependant, ces tâches testent rarement si le modèle comprend les propriétés physiques qui régissent ces scènes. Pour remédier à cela, l'équipe de Stanford a développé QuantiPhy, le premier jeu de données spécifiquement conçu pour évaluer les capacités de raisonnement physique quantitatif des modèles multimodaux.
Le benchmark se compose de plus de 3 300 instances vidéo-texte qui obligent les modèles à effectuer de « l'inférence cinématique (kinematic inference) ». Au lieu de simplement décrire une scène, l'IA doit répondre à des questions numériques précises basées sur des preuves visuelles, telles que :
Pour résoudre ces problèmes, un modèle ne peut pas se fier au hasard ; il doit effectuer ce que les chercheurs appellent la « mesure visuelle explicite (explicit visual measurement) », en mappant le déplacement en pixels vers des unités du monde réel à l'aide de priors fournis (faits connus). Les résultats de l'étude sont édifiants : des modèles de premier plan, y compris le très utilisé ChatGPT-5.1, ont fréquemment produit des réponses confiantes mais mathématiquement incorrectes.
L'une des conclusions les plus critiques de l'étude est que les modèles d'IA ne « voient » pas réellement la physique — ils s'en souviennent. Lorsqu'on présente une vidéo, les modèles ont tendance à s'appuyer sur leurs données d'entraînement (priors) plutôt que sur les entrées visuelles réelles.
Par exemple, si un modèle voit un éléphant, il accède à une probabilité statistique issue de ses données d'entraînement qui suggère « les éléphants sont grands ». Si la vidéo montre un éléphant plus petit, juvénile, ou un tour de perspective, le modèle ignore souvent la réalité visuelle au profit de ses connaissances mémorisées.
Ce phénomène a été illustré de manière frappante dans les expériences des chercheurs. Lorsque les indices visuels étaient nets et que les objets suivaient des schémas attendus (comme une voiture standard se déplaçant à une vitesse normale), les modèles se comportaient de manière adéquate. Cependant, lorsque les chercheurs ont introduit des « priors contrefactuels » — comme l'échelle d'un objet portée à une taille ou une vitesse inhabituelle pour tester l'adaptabilité du modèle — le raisonnement de l'IA s'est effondré. Elle continuait à fournir des chiffres cohérents avec ses données d'entraînement plutôt qu'avec la preuve vidéo présentée.
Les chercheurs soutiennent que cela indique un manque fondamental d'« ancrage ». Les modèles simulent la compréhension en récupérant du texte et des nombres liés, plutôt qu'en calculant les propriétés physiques à partir des données visuelles brutes.
Le benchmark QuantiPhy a mis en évidence des performances inconsistantes selon les différentes tâches physiques. Si les modèles montraient une certaine compétence pour des comptages d'objets simples ou l'identification statique, leur capacité à traiter des propriétés cinématiques dynamiques — vitesse et accélération — était nettement insuffisante.
La table suivante met en évidence des cas de test spécifiques du jeu de données QuantiPhy, illustrant l'écart entre la physique de référence et les estimations de l'IA.
Table 1: Exemples de performances sur le benchmark QuantiPhy
| Task Scenario | Visual Input Prior | Ground Truth | AI Model Estimate (ChatGPT-5.1) | Analysis of Failure |
|---|---|---|---|---|
| Velocity Estimation | Diamètre de la boule de billard (57.4 mm) | 24.99 cm/s | 24.00 cm/s | Succès proche : Le modèle a bien performé ici, probablement parce que le scénario correspond aux données d'entraînement physiques standard et à des arrière-plans visuels simples et propres. |
| Object Sizing | Vitesse de marche de l'éléphant (2.31 m/s) | 2.20 meters | 1.30 meters | Échec critique : Le modèle a fortement sous-estimé la hauteur, n'ayant pas su corréler le prior de vitesse de marche avec la dimension verticale de l'animal. |
| Distance Calculation | Vitesse du piéton (1.25 m/s) | 4.77 meters | 7.00 meters | Erreur spatiale : Une surestimation significative de la distance entre les panneaux routiers, indiquant une incapacité à mapper la profondeur en 2D des pixels vers l'espace 3D du monde réel. |
| Scale Sensitivity | Longueur de la voiture (mise à l'échelle à 5 670 m) | Correspond à l'échelle | Taille normale d'une voiture | Biais de prior : Lorsqu'on présente une voiture « géante » manipulée numériquement, le modèle a ignoré l'échelle visuelle et est revenu à la taille standard d'une voiture issue de sa mémoire. |
L'incapacité à effectuer un raisonnement physique précis n'est pas une simple curiosité académique ; c'est un enjeu critique pour la sécurité du déploiement d'IA incarnées. Les véhicules autonomes (AV), les drones de livraison et les robots domestiques opèrent dans un monde physique régi par des lois du mouvement immuables.
Pour un véhicule autonome, un raisonnement « plausible » ne suffit pas. Si l'IA d'une voiture voit un enfant courir vers un passage pour piétons, elle doit calculer avec précision la vitesse et la trajectoire de l'enfant par rapport à sa propre vitesse pour décider de freiner. Une estimation de vitesse « hallucination » — erronée de quelques mètres par seconde — peut faire la différence entre un arrêt sûr et une collision.
Ehsan Adeli, directeur du Stanford Translational Artificial Intelligence (STAI) Lab et auteur senior de l'article, a souligné que cette limitation est un goulot d'étranglement majeur pour l'autonomie de niveau 5 (Level 5 autonomy). Les systèmes actuels s'appuient souvent sur le LIDAR et le radar pour contourner le besoin d'un raisonnement visuel, mais un agent d'IA véritablement généraliste — capable d'opérer uniquement à partir de caméras, comme un humain — doit maîtriser ces calculs intuitifs de physique.
Malgré des résultats préoccupants, l'équipe de Stanford estime que QuantiPhy offre une feuille de route pour l'amélioration. L'étude identifie que les paradigmes d'entraînement actuels pour les modèles vision-langage sont fortement biaisés vers la compréhension sémantique (qu'est-ce que c'est ?) plutôt que vers le raisonnement quantitatif (à quelle vitesse est-ce ?).
Pour combler cet écart, les chercheurs suggèrent un changement de méthodologie d'entraînement :
À mesure que l'industrie de l'IA progresse vers l'intelligence artificielle générale (intelligence artificielle générale, Artificial General Intelligence, AGI), la capacité à comprendre le monde physique demeure une frontière finale. Tant que les modèles ne pourront pas distinguer de manière fiable, uniquement à partir d'indices visuels, une voiture en dépassement de vitesse d'une voiture garée, leur rôle dans le monde physique restera limité.