DeepMind-CEO stellt OpenAIs Strategie in Frage und plädiert für 'Weltmodelle'

DeepMind-CEO stellt OpenAIs Strategie in Frage, plädiert für „Weltmodelle (World Models)“

In einem richtungsweisenden Moment für die Branche der künstlichen Intelligenz (artificial intelligence industry) hat der CEO von Google DeepMind, Demis Hassabis, öffentlich die vorherrschende Dominanz der Großen Sprachmodelle (Large Language Models, LLMs) infrage gestellt und argumentiert, dass der derzeit von Wettbewerbern wie OpenAI bevorzugte Weg nicht ausreiche, um echte Allgemeine Künstliche Intelligenz (Artificial General Intelligence, AGI) zu erreichen. In der Sendung „The Tech Download“ des Senders CNBC am 19. Januar 2026 erläuterte Hassabis eine strategische Kehrtwende hin zu „Weltmodellen (World Models)“, Systemen, die in der Lage sind, die physische Realität zu simulieren und Kausalität zu verstehen, statt lediglich Text anhand statistischer Korrelationen vorherzusagen.

Diese Kritik markiert eine bedeutende Abweichung in den philosophischen und technischen Fahrplänen der weltweit führenden KI‑Labore. Während OpenAI unter der Leitung von Sam Altman historisch auf Skalierungsgesetze gesetzt hat — die Idee, dass steigende Rechenleistung und Datenmengen zwangsläufig zu höherer Intelligenz führen — schlägt Hassabis vor, dass dieser Ansatz beim wissenschaftlichen Erfinden und dem Schlussfolgern aus ersten Prinzipien an eine „grundlegende Wand“ gestoßen sei.

Die Begrenzung der textbasierten Skalierung

Der Kern von Hassabis' Argument beruht auf der Unterscheidung zwischen Informationsverarbeitung und physischem Verständnis. LLMs, wie die GPT‑Serie, sind hervorragend darin, große Mengen menschlich erzeugten Textes zu analysieren, um Muster zu finden. Hassabis behauptet jedoch, dass diese Modelle „Kausalität nicht wirklich verstehen“. Sie können einen fallenden Apfel anhand von Beschreibungen in ihren Trainingsdaten beschreiben, aber sie können die Physik der Schwerkraft in einer neuen Umgebung nicht simulieren, um ein Ergebnis vorherzusagen, das sie zuvor nicht gesehen haben.

„Die heutigen großen Sprachmodelle sind phänomenal im Mustererkennen“, sagte Hassabis im Interview. „Aber sie wissen nicht wirklich, warum A zu B führt. Sie sagen nur das nächste Token voraus.“

Für Creati.ai‑Leser ist diese Unterscheidung entscheidend. Sie impliziert, dass LLMs sich zwar weiterhin als Konversationsschnittstellen und Programmierassistenten verbessern werden, aber möglicherweise unfähig bleiben, die Art von „Durchbrüchen im AlphaGo‑Maßstab“ zu erzielen, die nötig sind, um komplexe wissenschaftliche Probleme zu lösen, wie neue Materialien zu entdecken oder Krankheiten zu heilen. Hassabis schätzt, dass AGI noch 5 bis 10 Jahre entfernt ist und Architekturen erfordern wird, die über das derzeitige transformer‑basierte Paradigma hinausgehen.

Definition des „Weltmodells“

DeepMinds alternative Vision konzentriert sich darauf, KI zu schaffen, die eine interne Repräsentation der physischen Welt aufbaut. Diese „Weltmodelle (World Models)“ funktionieren weniger wie eine Bibliothek und mehr wie eine Spiel-Engine. Sie können „Gedankenexperimente“ durchführen, Ergebnisse im 3D‑Raum simulieren und Hypothesen gegen ein konsistentes Set physikalischer Gesetze testen.

DeepMind hat bereits begonnen, die Praktikabilität dieses Ansatzes zu demonstrieren. Hassabis verwies auf Genie 3, ein System, das im August 2025 veröffentlicht wurde und interaktive 3D‑Umgebungen aus Textaufforderungen erzeugt, und SIMA 2, das KI‑Agenten darin trainiert, sich in diesen simulierten Welten zu orientieren und Aufgaben auszuführen. Frühe Forschungen deuten darauf hin, dass diese hybriden Systeme — die Sprachverständnis mit räumlichem Denken kombinieren — in komplexen Denkaufgaben um 20–30 % besser abschneiden als reine LLMs und Halluzinationen bezüglich grundlegender Physik deutlich reduzieren.

Strategische Divergenz: Google vs. OpenAI

Das Timing dieser Äußerungen ist kein Zufall. Die KI‑Branche durchläuft derzeit eine Phase starker Volatilität. Nach dem Start von Googles Gemini 3 Ende 2025 tauchten Berichte über einen internen „Code Red“ bei OpenAI auf, ausgelöst durch Befürchtungen, dass deren Skalierungsstrategie abnehmende Erträge liefere. Indem Hassabis öffentlich die Grenzen des reinen‑LLM‑Pfads darlegt, positioniert er Google nicht nur als Wettbewerber, sondern als Wegbereiter des nächsten architektonischen Sprungs in der KI.

Dieser Wandel ist sowohl operativ als auch philosophisch. Hassabis gab bekannt, dass er jetzt täglich mit Alphabet‑CEO Sundar Pichai in Kontakt steht, eine Änderung, die DeepMinds erhöhten Status als die zentrale „Motor‑Werkstatt“ von Googles KI‑Bestrebungen unterstreicht. Diese schlankere Struktur zielt darauf ab, die Übersetzung von Forschungsdurchbrüchen in Konsumentenprodukte zu beschleunigen — eine direkte Antwort auf die Kritik, Google habe zuvor zu langsam gehandelt.

Der geopolitische Kontext: China holt auf

Über die technische Debatte hinaus gab Hassabis eine ernüchternde Einschätzung der globalen KI‑Landschaft. Auf die Frage nach internationaler Konkurrenz bemerkte er, dass chinesische KI‑Modelle schnell die Leistungslücke zu westlichen Pendanten schließen.

„Es ist eine Frage von Monaten, nicht von Jahren“, sagte Hassabis in Bezug auf den Rückstand zwischen US‑ und chinesischen Vorreiter‑Modellen. Er nannte schnelle Fortschritte von Unternehmen wie Alibaba und Startups wie Moonshot AI. Gleichzeitig zog er eine nuancierte Unterscheidung: Während chinesische Labore beim schnellen Nachziehen und bei ingenieurtechnischer Exzellenz sehr geschickt seien, stellte Hassabis infrage, ob das aktuelle Ökosystem in China die spezifische „Denkweise“ fördere, die für null‑auf‑eins‑wissenschaftliche Durchbrüche nötig ist, wie etwa die ursprüngliche Erfindung der Transformer‑Architektur durch Google‑Forscher.

Vergleichsanalyse: LLMs vs. Weltmodelle

Um die Einsatzfragen dieser architektonischen Debatte zu verstehen, ist es hilfreich, die Fähigkeiten und Grenzen der beiden dominierenden Ansätze gegenüberzustellen, die derzeit um Ressourcen konkurrieren.

Comparison of Large Language Models and World Models

Feature	Große Sprachmodelle (Large Language Models, LLMs)	Weltmodelle (World Models)
Core Mechanism	Statistische Mustererkennung und Token‑Vorhersage	Simulation der physischen Realität und Kausalität
Primary Data Source	Text, Code und statische Bilder aus dem Internet	3D‑Umgebungen, Physik‑Engines und Videodaten
Reasoning Capability	Korrelativ (assoziative Logik)	Kausal (Schlussfolgern aus ersten Prinzipien)
Key Limitation	Halluzinationen und fehlendes räumliches Bewusstsein	Hohe Rechenkosten für Echtzeitsimulation
Ideal Use Case	Kreatives Schreiben, Programmierung, Zusammenfassungen	Robotik, wissenschaftliche Entdeckung, autonome Agenten
Example Systems	GPT-4, Claude 3, Llama 3	Genie 3, SIMA 2, AlphaFold

Auswirkungen für die KI‑Branche

Hassabis' Befürwortung von Weltmodellen deutet auf einen breiteren Branchentrend hin zu „neuro‑symbolischen (neuro-symbolic)“ bzw. hybriden KI‑Systemen. Für Entwickler und Unternehmensleiter bedeutet das, dass die Ära, in der man sich allein auf Prompt‑Engineering (prompt engineering) für textbasierte Modelle verlässt, vermutlich in eine Phase übergeht, in der räumliches Computing (spatial computing) und Simulation zu kritischen Komponenten des KI‑Stacks werden.

Wenn sich DeepMinds Hypothese als richtig erweist, wird die nächste Generation von KI nicht nur über die Welt sprechen — sie wird sich in ihr zurechtfinden können. Diese Fähigkeit ist essentiell, um die physische Ökonomie zu erschließen, einschließlich fortschrittlicher Robotik und autonomer wissenschaftlicher Experimente. Während OpenAI weiterhin das „Gehirn“ der KI durch Sprache verfeinert, scheint DeepMind darauf abzuzielen, diesem Gehirn einen Körper und eine Welt zum Leben zu geben.

Im Laufe des Jahres 2026 wird die Branche voraussichtlich eine Bifurkation in der Modellentwicklung erleben: ein Pfad optimiert für sprachliche Flüssigkeit und ein anderer für physische Intelligenz. Für Creati.ai werden wir genau beobachten, wie diese Weltmodelle mit bestehenden generativen Werkzeugen integriert werden und möglicherweise eine neue Klasse von Anwendungen schaffen, die kreative Generierung mit wissenschaftlicher Genauigkeit verbinden.