
In einem Jahr, in dem künstliche Intelligenz scheinbar alles beherrscht hat, von kreativem Schreiben bis zu komplexem Programmieren, hat eine neue Studie der Stanford University eine verblüffende Einschränkung identifiziert: Fortgeschrittene AI-Modelle haben Schwierigkeiten, die grundlegenden Gesetze der Physik zu verstehen. Die Veröffentlichung von "QuantiPhy", einem umfassenden Benchmark zur Prüfung physikalischen Denkens, zeigt, dass selbst die anspruchsvollsten Vision-Language-Modelle (Vision-Language Models, VLMs) häufig nicht in der Lage sind, Geschwindigkeit, Entfernung und Größe genau zu schätzen — Fähigkeiten, die der menschlichen Intuition zugrunde liegen und für den Einsatz autonomer Systeme entscheidend sind.
Die Forschung, geleitet vom Stanford Institute for Human-Centered Artificial Intelligence (HAI), legt nahe, dass AI zwar ein Video eines fallenden Objekts poetisch beschreiben kann, oft jedoch nicht berechnen kann, wie schnell es fällt oder wo es landen wird — mit irgendeiner Form numerischer Präzision. Diese "quantitative Lücke" stellt ein erhebliches Hindernis für die Ambitionen der Branche in Robotik und selbstfahrender Technologie dar.
Jahrelang konzentrierte sich die AI-Bewertung stark auf qualitatives Verständnis — man bat ein Modell, in einem Video eine Katze zu identifizieren oder die Handlung einer gehenden Person zu beschreiben. Diese Aufgaben prüfen jedoch selten, ob das Modell die physikalischen Eigenschaften, die diese Szenen bestimmen, versteht. Um dem zu begegnen, entwickelte das Stanford-Team QuantiPhy, den ersten Datensatz, der speziell darauf ausgelegt ist, die quantitativen Fähigkeiten physikalischer Schlussfolgerungen multimodaler AI zu bewerten.
Der Benchmark besteht aus über 3.300 Video-Text-Instanzen, die von den Modellen "kinematische Inferenz (kinematic inference)" verlangen. Anstatt einfach eine Szene zu beschreiben, muss die AI präzise numerische Fragen auf Basis visueller Evidenz beantworten, wie beispielsweise:
Um diese Probleme zu lösen, kann ein Modell sich nicht auf Raten verlassen; es muss das, was Forscher als "explizite visuelle Messung (explicit visual measurement)" bezeichnen, durchführen — also die Pixelverschiebung auf reale Einheiten abbilden, dabei bereitgestellte Vorausannahmen (priors) nutzen. Die Ergebnisse der Studie waren ernüchternd: Spitzenmodelle, einschließlich des weit verbreiteten ChatGPT-5.1, lieferten häufig selbstbewusste, aber mathematisch falsche Antworten.
Eine der wichtigsten Erkenntnisse der Studie ist, dass aktuelle AI-Modelle Physik nicht wirklich "sehen" — sie merken sie sich. Wenn ihnen ein Video präsentiert wird, neigen Modelle dazu, auf ihre Trainingsdaten (Vorausannahmen, priors) zurückzugreifen, anstatt auf die tatsächlichen visuellen Eingaben.
Wenn ein Modell beispielsweise einen Elefanten sieht, greift es auf eine statistische Wahrscheinlichkeit aus seinen Trainingsdaten zurück, die nahelegt, dass "Elefanten groß sind". Zeigt das Video jedoch einen kleineren, jungen Elefanten oder einen Perspektivtrick, ignoriert das Modell oft die visuelle Realität zugunsten seines memorisierten Wissens.
Dieses Phänomen wurde in den Experimenten der Forscher deutlich veranschaulicht. Wenn visuelle Hinweise sauber waren und Objekte erwarteten Mustern folgten (wie ein Standardauto, das mit normaler Geschwindigkeit fährt), lieferten die Modelle akzeptable Ergebnisse. Sobald die Forscher jedoch "kontrafaktische Vorausannahmen (counterfactual priors)" einführten — etwa indem sie ein Objekt auf eine ungewöhnliche Größe oder Geschwindigkeit skalierten, um die Anpassungsfähigkeit des Modells zu testen — brach die Argumentation der AI zusammen. Sie gab weiterhin Zahlen aus, die mit ihren Trainingsdaten konsistent waren, statt den Videobeweis zu berücksichtigen.
Forscher argumentieren, dass dies auf einen grundlegenden Mangel an "Verankerung (grounding)" hinweist. Die Modelle simulieren Verständnis, indem sie verwandte Texte und Zahlen abrufen, anstatt physikalische Eigenschaften aus den rohen visuellen Daten zu berechnen.
Der QuantiPhy-Benchmark legte eine inkonsistente Leistung bei verschiedenen physikalischen Aufgaben offen. Während die Modelle bei einfachen Objektzählungen oder statischen Identifikationen gewisse Kompetenzen zeigten, mangelte es ihnen erheblich an der Fähigkeit, dynamische kinematische Eigenschaften — Geschwindigkeit und Beschleunigung — zu verarbeiten.
Die folgende Tabelle hebt spezifische Testfälle aus dem QuantiPhy-Datensatz hervor und veranschaulicht die Diskrepanz zwischen dem wahren physikalischen Wert und den AI-Schätzungen.
Table 1: QuantiPhy Benchmark Performance Examples
| Task Scenario | Visual Input Prior | Ground Truth | AI Model Estimate (ChatGPT-5.1) | Analysis of Failure |
|---|---|---|---|---|
| Velocity Estimation | Durchmesser der Billardkugel (57,4 mm) | 24,99 cm/s | 24,00 cm/s | Fast erfolgreich: Das Modell schnitt hier gut ab, wahrscheinlich weil das Szenario mit standardmäßigen physikalischen Trainingsdaten und einfachen, sauberen visuellen Hintergründen übereinstimmt. |
| Object Sizing | Elefanten-Gehgeschwindigkeit (2,31 m/s) | 2,20 Meter | 1,30 Meter | Kritischer Fehler: Das Modell unterschätzte die Höhe stark und konnte die Gehgeschwindigkeits-Vorausannahme nicht mit der vertikalen Dimension des Tieres korrelieren. |
| Distance Calculation | Fußgänger-Geschwindigkeit (1,25 m/s) | 4,77 Meter | 7,00 Meter | Räumlicher Fehler: Eine deutliche Überschätzung der Entfernung zwischen Verkehrsschildern, was auf die Unfähigkeit hinweist, 2D-Pixel-Tiefe in 3D-Realenraum zu überführen. |
| Scale Sensitivity | Autolänge (skaliert auf 5.670 m) | Entspricht der Skala | Normale Autogröße | Prior-Bias: Bei einem digital manipulierten "riesigen" Auto ignorierte das Modell die visuelle Skala und kehrte zur Standardgröße eines Autos aus seinem Gedächtnis zurück. |
Die Unfähigkeit, präzises physikalisches Denken durchzuführen, ist nicht nur eine akademische Kuriosität; sie ist ein sicherheitskritisches Problem für den Einsatz verkörperter AI. Autonome Fahrzeuge (AVs), Lieferdrohnen und Haushaltsroboter operieren in einer physischen Welt, die von unveränderlichen Bewegungsgesetzen bestimmt wird.
Für ein autonomes Fahrzeug ist "plausibles" Denken unzureichend. Wenn das AI-System eines Autos ein Kind sieht, das auf einen Zebrastreifen zurennt, muss es die Geschwindigkeit und Flugbahn des Kindes relativ zur eigenen Geschwindigkeit des Autos genau berechnen, um zu entscheiden, ob gebremst werden muss. Eine "halluzinierte" Geschwindigkeitsabschätzung — auch nur um wenige Meter pro Sekunde daneben — kann über einen sicheren Stopp oder eine Kollision entscheiden.
Ehsan Adeli, Direktor des Stanford Translational Artificial Intelligence (STAI) Lab und Seniorautor des Papiers, betonte, dass diese Einschränkung ein primärer Engpass für Autonomie der Stufe 5 (Level 5 autonomy) sei. Aktuelle Systeme verlassen sich oft auf LIDAR und Radar, um den Bedarf an visueller Schlussfolgerung zu umgehen, doch ein wirklich generalistischer AI-Agent — einer, der allein mit Kameras operieren kann, ähnlich wie ein Mensch — muss diese intuitiven physikalischen Berechnungen beherrschen.
Trotz der ernüchternden Ergebnisse glaubt das Stanford-Team, dass QuantiPhy einen Fahrplan zur Verbesserung bietet. Die Studie identifiziert, dass die aktuellen Trainingsparadigmen für Vision-Language-Modelle stark in Richtung semantischen Verständnisses (Was ist das?) statt quantitativer Schlussfolgerung (Wie schnell ist das?) verzerrt sind.
Um diese Lücke zu schließen, schlagen die Forscher eine Änderung der Trainingsmethodik vor:
Während die AI-Branche auf Artificial General Intelligence (Allgemeine Künstliche Intelligenz, AGI) zusteuert, bleibt die Fähigkeit, die physische Welt zu verstehen, eine letzte Grenze. Solange Modelle nicht zuverlässig allein anhand visueller Hinweise zwischen einem schnellen und einem geparkten Auto unterscheiden können, bleibt ihre Rolle in der physischen Welt eingeschränkt.