KI-Pionier Yann LeCun warnt vor einer 'Sackgasse' der Techbranche mit LLMs

Ein abweichender Pfad: Lecuns Warnung an die KI‑Branche

In einer Bewegung, die in der Gemeinschaft der künstlichen Intelligenz für Erschütterung sorgt, hat Yann LeCun, Turing‑Preis‑Preisträger und ehemaliger Chief AI Scientist bei Meta, der Technikwelt eine deutliche Warnung ausgesprochen: die einseitige Obsession der Branche mit Großen Sprachmodellen (Large Language Models, LLMs) ist eine „Sackgasse“ auf dem Weg zur Allgemeinen Künstlichen Intelligenz (Artificial General Intelligence, AGI). LeCun erklärte offen zur aktuellen Lage der KI‑Forschung, dass die vorherrschende Strategie, bestehende Architekturen einfach zu skalieren – oft zusammengefasst als „einfach mehr GPUs hinzufügen“ – an einen Punkt abnehmender Erträge gelangt sei.

LeCuns Äußerungen fallen zusammen mit seiner Hinwendung zu einem neuen Unternehmen, AMI Labs (Fortgeschrittene Maschinenintelligenz, Advanced Machine Intelligence), mit Sitz in Paris. Nachdem er aufgrund grundlegender Meinungsverschiedenheiten über die strategische Ausrichtung der KI‑Entwicklung von seiner Führungsposition bei Meta zurückgetreten ist, setzt LeCun nun stark auf ein alternatives Paradigma, das als "Weltmodelle (World Models)" bekannt ist. Seine Kritik legt nahe, dass LLMs wie GPT‑4 und Llama zwar die statistischen Muster der menschlichen Sprache gemeistert haben, ihnen jedoch grundlegend die Fähigkeiten zum Schließen, physische Intuition und Planen fehlen, die nötig sind, um in der realen Welt intelligent zu handeln.

Die „Sackgasse“ der Großen Sprachmodelle

Im Kern von LeCuns Argument steht die inhärente Begrenzung der autoregressiven Natur von LLMs. Diese Modelle funktionieren, indem sie das nächste Token in einer Sequenz basierend auf dem vorangegangenen Kontext vorhersagen. LeCun postuliert, dass dieser Mechanismus für echte Intelligenz unzureichend ist, weil er keine interne Simulation der Realität beinhaltet.

„Ein LLM versteht nicht, dass wenn man ein Glas von einem Tisch stößt, es zerbrechen wird“, erklärte LeCun in einem jüngsten Interview. „Es weiß nur, dass die Wörter ‚Glas‘ und ‚brechen‘ in diesem Kontext oft zusammen vorkommen. Es imitiert Schlussfolgern, ohne es tatsächlich zu besitzen.“

Die Analogie mit der Hauskatze

Um das Defizit zu veranschaulichen, verwendet LeCun häufig die Analogie der „Hauskatze“. Er weist darauf hin, dass eine gewöhnliche Hauskatze ein weitaus ausgefeilteres Verständnis der physischen Welt—Schwerkraft, Impuls, Objektpermanenz—besitzt als die größten existierenden LLMs. Eine Katze kann einen Sprung planen, die Stabilität einer Landeoberfläche antizipieren und ihre Bewegungen in Echtzeit anpassen. Im Gegensatz dazu kann ein auf Billionen von Wörtern trainiertes LLM nicht im sinnvollen Sinne „planen“; es halluziniert lediglich eine plausibel klingende Erzählung eines Plans.

Das Halluzinationsproblem

LeCun argumentiert, dass Halluzinationen—Fälle, in denen Modelle selbstbewusst falsche Informationen erzeugen—nicht bloß Bugs sind, die mit mehr Daten oder Verstärkendem Lernen aus menschlichem Feedback (Reinforcement Learning from Human Feedback, RLHF) behoben werden können. Vielmehr seien sie ein Merkmal der probabilistischen Architektur. Da das Modell stets das nächste Wort „auswürfelt“, besteht eine nicht‑null Wahrscheinlichkeit, von der faktischen Realität abzuweichen, die mit zunehmender Länge des generierten Textes ansteigt. LeCun besteht darauf, dass diese Unvorhersehbarkeit für sicherheitskritische Anwendungen inakzeptabel ist.

Eintritt der Weltmodelle: Die JEPA‑Architektur

LeCuns vorgeschlagene Lösung ist eine Verschiebung hin zu „Weltmodellen“, speziell unter Verwendung einer Architektur, die er Joint Embedding Predictive Architecture (JEPA) nennt. Im Gegensatz zu LLMs, die im diskreten Raum von Texttokens operieren, arbeitet JEPA in einem abstrakten Repräsentationsraum.

Die zentrale Philosophie eines Weltmodells ist, Ursache‑und‑Wirkungs‑Beziehungen der Umwelt zu simulieren. Anstatt das nächste Pixel oder Wort vorherzusagen (was rechenintensiv und anfällig für Rauschen ist), sagt ein Weltmodell den Zustand der Welt in einem abstrakten Merkmalsraum voraus. Das ermöglicht dem System, irrelevante Details—wie das Geräusch von Blättern im Wind hinter einem fahrenden Auto—zu ignorieren und sich auf relevante Akteure und Objekte zu konzentrieren.

Zielorientierte KI

Dieser Ansatz ebnet den Weg für das, was LeCun „Zielorientierte KI (Objective‑Driven AI)“ nennt. In diesem Rahmen ist ein KI‑Agent nicht nur ein passiver Prädiktor, sondern ein aktiver Planer. Er zerlegt ein übergeordnetes Ziel (z. B. „ein Essen zubereiten“) in eine Sequenz von Unterzielen und verwendet sein internes Weltmodell, um die Ergebnisse verschiedener Handlungen zu simulieren, bevor er sie ausführt. Diese „Simulation vor der Handlung“ ist die Funktionsweise biologischer Gehirne und, so LeCun, der einzige gangbare Pfad zur AGI.

Die Effizienzlücke

Ein weiterer kritischer Divergenzpunkt ist die Dateneffizienz. LeCun hat die massive Diskrepanz zwischen menschlichem Lernen und dem Training von LLMs hervorgehoben.

LLM‑Training: Erfordert Textdaten in der Größenordnung von tausenden menschlichen Lebenszeiten des Lesens.
Menschliches Lernen: Ein vierjähriges Kind hat ungefähr 50‑mal mehr Daten gesehen als ein LLM, wobei der Großteil visuell und sensorisch und nicht textuell ist.

Das Kind erlernt „gesunden Menschenverstand“—dass Objekte nicht verschwinden, wenn man die Augen schließt, dass nicht gestützte Objekte fallen—durch Interaktion und Beobachtung, größtenteils ohne Überwachung. LeCuns AMI Labs zielen darauf ab, dieses selbstüberwachte Lernen aus Video‑ und Sensordaten zu replizieren und so die Engpässe menschlich gelabelter Texte zu umgehen.

Branchenimplikationen und die „Herde“-Mentalität

LeCuns Position stellt ihn in Gegensatz zum derzeitigen Momentum im Silicon Valley. Unternehmen wie OpenAI, Google und sogar Meta (unter seiner neuen KI‑Führung) investieren weiterhin Milliarden in den Bau größerer Rechenzentren und das Training größerer Transformer. LeCun charakterisiert dies als „Herde‑Mentalität“ und warnt, dass die Branche auf ein Plateau zusteuere, auf dem mehr Rechenleistung nur noch vernachlässigbare Gewinne in der Schlussfolgerungsfähigkeit bringt.

Diese Spaltung stellt eine grundlegende Wette auf die Zukunft der Technologie dar. Auf der einen Seite steht die Skalierungs‑Hypothese—der Glaube, dass Intelligenz aus massiver Skala entsteht. Auf der anderen Seite steht LeCuns Architekturoptimismus—der Glaube, dass wir einen grundsätzlich neuen Bauplan benötigen, einen, der die hierarchische und prädiktive Struktur des Säugetiergehirns nachahmt.

Der weitere Weg zur AGI

Während die Branche die Fähigkeiten generativer Chatbots feiert, warnt LeCun, dass wir noch weit von Maschinen entfernt sind, die „Fortgeschrittene Maschinenintelligenz (Advanced Machine Intelligence)“ besitzen. Er prognostiziert, dass der Übergang von LLMs zu Weltmodellen notwendig sein wird, um Systeme zu erreichen, die zuverlässig schließen, planen und die physische Welt verstehen.

Die Gründung von AMI Labs markiert ein neues Kapitel in dieser Debatte. Mit signifikanter Finanzierung und einem Forscherteam, das sich der JEPA‑Architektur widmet, geht LeCun vom Kritisieren zur Konstruktion über. Ob seine Vision der Weltmodelle die derzeitige Dominanz der LLMs übertrumpfen wird, bleibt abzuwarten, doch seine Warnung dient als wichtiger Dämpfer für die Annahme, dass der Weg zur AGI eine gerade Linie ist, die durch Skalierungsgesetze vorgegeben wird.

Vergleich: Große Sprachmodelle vs. Weltmodelle

Feature	Große Sprachmodelle (Large Language Models, LLMs)	Weltmodelle (JEPA)
Kernmechanismus	Autoregressive Vorhersage des nächsten Tokens	Vorhersage abstrakter Repräsentationen
Primäre Datenquelle	Text (Internet‑Skala)	Sensordaten (Video, Audio, physische Interaktion)
Schlussfolgerungsfähigkeit	Imitiert Schlussfolgern durch Mustererkennung	Simuliert Ursache‑und‑Wirkungs‑Beziehungen
Umgang mit der Realität	Anfällig für Halluzinationen; keine interne Wahrheit	Interne Simulation physikalischer Zwänge
Effizienz	Niedrig; erfordert massive Datenmengen für grundlegende Kompetenz	Hoch; zielt auf menschenähnliche Lerneffizienz ab

Fazit

Yann LeCuns Erklärung, dass LLMs eine „Sackgasse“ seien, ist mehr als eine Kritik; sie ist ein Aufruf an Forschende, über die unmittelbare Befriedigung durch Chatbots hinauszuschauen. Während Creati.ai die Entwicklung der künstlichen Intelligenz (artificial intelligence) weiter verfolgt, wird diese Divergenz zwischen den Lagern „Skalierung“ und „Weltmodell“ wahrscheinlich das nächste Jahrzehnt der Innovation prägen. Wenn LeCun recht behält, wird der nächste große Sprung in der KI nicht von einem größeren Chatbot kommen, sondern von einem System, das endlich versteht, wie die Welt funktioniert.