Forscher der Stanford University enthüllen eine kritische Schwäche der KI beim Verständnis physikalischer Eigenschaften

Stanford-Studie deckt AIs blinden Fleck in grundlegender Physik auf

In einem Jahr, in dem künstliche Intelligenz scheinbar alles beherrscht hat, von kreativem Schreiben bis zu komplexem Programmieren, hat eine neue Studie der Stanford University eine verblüffende Einschränkung identifiziert: Fortgeschrittene AI-Modelle haben Schwierigkeiten, die grundlegenden Gesetze der Physik zu verstehen. Die Veröffentlichung von "QuantiPhy", einem umfassenden Benchmark zur Prüfung physikalischen Denkens, zeigt, dass selbst die anspruchsvollsten Vision-Language-Modelle (Vision-Language Models, VLMs) häufig nicht in der Lage sind, Geschwindigkeit, Entfernung und Größe genau zu schätzen — Fähigkeiten, die der menschlichen Intuition zugrunde liegen und für den Einsatz autonomer Systeme entscheidend sind.

Die Forschung, geleitet vom Stanford Institute for Human-Centered Artificial Intelligence (HAI), legt nahe, dass AI zwar ein Video eines fallenden Objekts poetisch beschreiben kann, oft jedoch nicht berechnen kann, wie schnell es fällt oder wo es landen wird — mit irgendeiner Form numerischer Präzision. Diese "quantitative Lücke" stellt ein erhebliches Hindernis für die Ambitionen der Branche in Robotik und selbstfahrender Technologie dar.

Der QuantiPhy-Benchmark: Die Realität testen

Jahrelang konzentrierte sich die AI-Bewertung stark auf qualitatives Verständnis — man bat ein Modell, in einem Video eine Katze zu identifizieren oder die Handlung einer gehenden Person zu beschreiben. Diese Aufgaben prüfen jedoch selten, ob das Modell die physikalischen Eigenschaften, die diese Szenen bestimmen, versteht. Um dem zu begegnen, entwickelte das Stanford-Team QuantiPhy, den ersten Datensatz, der speziell darauf ausgelegt ist, die quantitativen Fähigkeiten physikalischer Schlussfolgerungen multimodaler AI zu bewerten.

Der Benchmark besteht aus über 3.300 Video-Text-Instanzen, die von den Modellen "kinematische Inferenz (kinematic inference)" verlangen. Anstatt einfach eine Szene zu beschreiben, muss die AI präzise numerische Fragen auf Basis visueller Evidenz beantworten, wie beispielsweise:

"Wie groß ist die Geschwindigkeit der Billardkugel bei der 1,0-Sekunden-Marke?"
"Unter Berücksichtigung der durchschnittlichen Gehgeschwindigkeit der Person, wie groß ist die Entfernung zwischen den beiden Verkehrsschildern?"
"Berechnen Sie die Höhe des Objekts basierend auf seiner Bewegung relativ zum Hintergrund."

Um diese Probleme zu lösen, kann ein Modell sich nicht auf Raten verlassen; es muss das, was Forscher als "explizite visuelle Messung (explicit visual measurement)" bezeichnen, durchführen — also die Pixelverschiebung auf reale Einheiten abbilden, dabei bereitgestellte Vorausannahmen (priors) nutzen. Die Ergebnisse der Studie waren ernüchternd: Spitzenmodelle, einschließlich des weit verbreiteten ChatGPT-5.1, lieferten häufig selbstbewusste, aber mathematisch falsche Antworten.

Die Falle des „memorisierten Vorauswissens (memorized priors)“

Eine der wichtigsten Erkenntnisse der Studie ist, dass aktuelle AI-Modelle Physik nicht wirklich "sehen" — sie merken sie sich. Wenn ihnen ein Video präsentiert wird, neigen Modelle dazu, auf ihre Trainingsdaten (Vorausannahmen, priors) zurückzugreifen, anstatt auf die tatsächlichen visuellen Eingaben.

Wenn ein Modell beispielsweise einen Elefanten sieht, greift es auf eine statistische Wahrscheinlichkeit aus seinen Trainingsdaten zurück, die nahelegt, dass "Elefanten groß sind". Zeigt das Video jedoch einen kleineren, jungen Elefanten oder einen Perspektivtrick, ignoriert das Modell oft die visuelle Realität zugunsten seines memorisierten Wissens.

Dieses Phänomen wurde in den Experimenten der Forscher deutlich veranschaulicht. Wenn visuelle Hinweise sauber waren und Objekte erwarteten Mustern folgten (wie ein Standardauto, das mit normaler Geschwindigkeit fährt), lieferten die Modelle akzeptable Ergebnisse. Sobald die Forscher jedoch "kontrafaktische Vorausannahmen (counterfactual priors)" einführten — etwa indem sie ein Objekt auf eine ungewöhnliche Größe oder Geschwindigkeit skalierten, um die Anpassungsfähigkeit des Modells zu testen — brach die Argumentation der AI zusammen. Sie gab weiterhin Zahlen aus, die mit ihren Trainingsdaten konsistent waren, statt den Videobeweis zu berücksichtigen.

Forscher argumentieren, dass dies auf einen grundlegenden Mangel an "Verankerung (grounding)" hinweist. Die Modelle simulieren Verständnis, indem sie verwandte Texte und Zahlen abrufen, anstatt physikalische Eigenschaften aus den rohen visuellen Daten zu berechnen.

Vergleichende Analyse: Modellleistung vs. Realität

Der QuantiPhy-Benchmark legte eine inkonsistente Leistung bei verschiedenen physikalischen Aufgaben offen. Während die Modelle bei einfachen Objektzählungen oder statischen Identifikationen gewisse Kompetenzen zeigten, mangelte es ihnen erheblich an der Fähigkeit, dynamische kinematische Eigenschaften — Geschwindigkeit und Beschleunigung — zu verarbeiten.

Die folgende Tabelle hebt spezifische Testfälle aus dem QuantiPhy-Datensatz hervor und veranschaulicht die Diskrepanz zwischen dem wahren physikalischen Wert und den AI-Schätzungen.

Table 1: QuantiPhy Benchmark Performance Examples

Task Scenario	Visual Input Prior	Ground Truth	AI Model Estimate (ChatGPT-5.1)	Analysis of Failure
Velocity Estimation	Durchmesser der Billardkugel (57,4 mm)	24,99 cm/s	24,00 cm/s	Fast erfolgreich: Das Modell schnitt hier gut ab, wahrscheinlich weil das Szenario mit standardmäßigen physikalischen Trainingsdaten und einfachen, sauberen visuellen Hintergründen übereinstimmt.
Object Sizing	Elefanten-Gehgeschwindigkeit (2,31 m/s)	2,20 Meter	1,30 Meter	Kritischer Fehler: Das Modell unterschätzte die Höhe stark und konnte die Gehgeschwindigkeits-Vorausannahme nicht mit der vertikalen Dimension des Tieres korrelieren.
Distance Calculation	Fußgänger-Geschwindigkeit (1,25 m/s)	4,77 Meter	7,00 Meter	Räumlicher Fehler: Eine deutliche Überschätzung der Entfernung zwischen Verkehrsschildern, was auf die Unfähigkeit hinweist, 2D-Pixel-Tiefe in 3D-Realenraum zu überführen.
Scale Sensitivity	Autolänge (skaliert auf 5.670 m)	Entspricht der Skala	Normale Autogröße	Prior-Bias: Bei einem digital manipulierten "riesigen" Auto ignorierte das Modell die visuelle Skala und kehrte zur Standardgröße eines Autos aus seinem Gedächtnis zurück.

Auswirkungen auf Robotik und autonome Systeme

Die Unfähigkeit, präzises physikalisches Denken durchzuführen, ist nicht nur eine akademische Kuriosität; sie ist ein sicherheitskritisches Problem für den Einsatz verkörperter AI. Autonome Fahrzeuge (AVs), Lieferdrohnen und Haushaltsroboter operieren in einer physischen Welt, die von unveränderlichen Bewegungsgesetzen bestimmt wird.

Für ein autonomes Fahrzeug ist "plausibles" Denken unzureichend. Wenn das AI-System eines Autos ein Kind sieht, das auf einen Zebrastreifen zurennt, muss es die Geschwindigkeit und Flugbahn des Kindes relativ zur eigenen Geschwindigkeit des Autos genau berechnen, um zu entscheiden, ob gebremst werden muss. Eine "halluzinierte" Geschwindigkeitsabschätzung — auch nur um wenige Meter pro Sekunde daneben — kann über einen sicheren Stopp oder eine Kollision entscheiden.

Ehsan Adeli, Direktor des Stanford Translational Artificial Intelligence (STAI) Lab und Seniorautor des Papiers, betonte, dass diese Einschränkung ein primärer Engpass für Autonomie der Stufe 5 (Level 5 autonomy) sei. Aktuelle Systeme verlassen sich oft auf LIDAR und Radar, um den Bedarf an visueller Schlussfolgerung zu umgehen, doch ein wirklich generalistischer AI-Agent — einer, der allein mit Kameras operieren kann, ähnlich wie ein Mensch — muss diese intuitiven physikalischen Berechnungen beherrschen.

Der Weg nach vorn: Von Plausibilität zu Präzision

Trotz der ernüchternden Ergebnisse glaubt das Stanford-Team, dass QuantiPhy einen Fahrplan zur Verbesserung bietet. Die Studie identifiziert, dass die aktuellen Trainingsparadigmen für Vision-Language-Modelle stark in Richtung semantischen Verständnisses (Was ist das?) statt quantitativer Schlussfolgerung (Wie schnell ist das?) verzerrt sind.

Um diese Lücke zu schließen, schlagen die Forscher eine Änderung der Trainingsmethodik vor:

Integration von Simulationsdaten: Modelle mit synthetischen Daten aus Physik-Engines trainieren, bei denen der Ground Truth für Geschwindigkeit, Masse und Reibung absolut bekannt ist.
Chain-of-Thought-Prompting für Physik: Modelle dazu ermutigen, "ihre Arbeit zu zeigen", indem sie explizit Pixel-zu-Meter-Verhältnisse berechnen, bevor sie eine endgültige Antwort ausgeben.
Hybrid-Architekturen: Die semantischen Stärken großer Sprachmodelle (Large Language Models) mit spezialisierten "neuronalen Physik-Engines (neural physics engines)" kombinieren, die die mathematische Berechnung der Szene übernehmen.

Während die AI-Branche auf Artificial General Intelligence (Allgemeine Künstliche Intelligenz, AGI) zusteuert, bleibt die Fähigkeit, die physische Welt zu verstehen, eine letzte Grenze. Solange Modelle nicht zuverlässig allein anhand visueller Hinweise zwischen einem schnellen und einem geparkten Auto unterscheiden können, bleibt ihre Rolle in der physischen Welt eingeschränkt.