Le pionnier de l'IA Yann LeCun met en garde contre l'« impasse

Un chemin divergent : l’avertissement de LeCun à l’industrie de l’IA

Dans un mouvement qui a envoyé des ondes de choc dans la communauté de l’intelligence artificielle, Yann LeCun, lauréat du prix Turing et ancien Chief AI Scientist chez Meta, a lancé un avertissement sans détour au monde technologique : l’obsession singulière de l’industrie pour les grands modèles de langage (Large Language Models, LLMs) est une « impasse » sur la route vers la véritable intelligence artificielle générale (Artificial General Intelligence, AGI). Parlant librement de l’état actuel de la recherche en IA, LeCun a soutenu que la stratégie dominante consistant à simplement augmenter l’échelle des architectures existantes — souvent résumée par « il suffit d’ajouter plus de GPU » — a atteint un point de rendements décroissants.

Les commentaires de LeCun interviennent au moment où il se tourne vers une nouvelle entreprise, AMI (Advanced Machine Intelligence) Labs, basée à Paris. S’étant éloigné de son rôle exécutif chez Meta en raison de désaccords fondamentaux sur l’orientation stratégique du développement de l’IA, LeCun mise désormais fortement sur un paradigme alternatif connu sous le nom de « modèles du monde » (World Models). Sa critique suggère que, si les grands modèles de langage comme GPT-4 et Llama ont maîtrisé les motifs statistiques du langage humain, ils manquent fondamentalement des capacités de raisonnement, de l’intuition physique et des compétences de planification nécessaires pour fonctionner intelligemment dans le monde réel.

L’« impasse » des grands modèles de langage

Au cœur de l’argument de LeCun se trouve la limitation inhérente à la nature auto-régressive des grands modèles de langage. Ces modèles fonctionnent en prédisant le jeton suivant d’une séquence en se basant sur le contexte précédent. LeCun avance que ce mécanisme est insuffisant pour une intelligence véritable parce qu’il n’implique pas une simulation interne de la réalité.

« Un grand modèle de langage ne comprend pas que si vous poussez un verre hors d’une table, il va se briser, » a expliqué LeCun dans une récente interview. « Il sait seulement que les mots ‘verre’ et ‘briser’ apparaissent souvent ensemble dans ce contexte. Il mime le raisonnement sans réellement le posséder. »

L’analogie du « chat domestique »

Pour illustrer ce déficit, LeCun emploie fréquemment l’analogie du « chat domestique ». Il note qu’un chat domestique courant possède une compréhension bien plus sophistiquée du monde physique — la gravité, la quantité de mouvement, la permanence des objets — que les plus grands modèles de langage existants. Un chat peut planifier un saut, anticiper la stabilité d’une surface d’atterrissage et ajuster ses mouvements en temps réel. En revanche, un grand modèle de langage entraîné sur des billions de mots ne peut pas « planifier » au sens strict ; il hallucine simplement un récit plausiblement ressemblant à un plan.

Le problème des hallucinations

LeCun soutient que les hallucinations — des cas où les modèles génèrent avec assurance des informations fausses — ne sont pas de simples bugs corrigeables par davantage de données ou par l’apprentissage par renforcement à partir de retours humains (Reinforcement Learning from Human Feedback, RLHF). Elles constituent plutôt une caractéristique de l’architecture probabiliste. Parce que le modèle lance toujours les dés pour sélectionner le mot suivant, il existe une probabilité non nulle de divergence par rapport à la réalité factuelle qui augmente à mesure que le texte généré s’allonge. LeCun insiste que, pour des applications critiques en matière de sécurité, cette imprévisibilité est inacceptable.

Entrée des modèles du monde : l’architecture JEPA

La solution proposée par LeCun est un virage vers les modèles du monde, utilisant spécifiquement une architecture qu’il appelle architecture d’encodage prédictive conjointe (Joint Embedding Predictive Architecture, JEPA). Contrairement aux grands modèles de langage, qui opèrent dans l’espace discret des jetons textuels, JEPA opère dans un espace de représentation abstrait.

La philosophie centrale d’un modèle du monde est de simuler les relations de cause à effet de l’environnement. Plutôt que de prédire le pixel ou le mot suivant (ce qui est coûteux en calcul et sujet au bruit), un modèle du monde prédit l’état du monde dans un espace de caractéristiques abstrait. Cela permet au système d’ignorer les détails non pertinents — comme le mouvement des feuilles au vent derrière une voiture en mouvement — et de se concentrer sur les agents et objets pertinents.

Une IA orientée par des objectifs

Cette approche ouvre la voie à ce que LeCun appelle « une IA axée sur les objectifs » (Objective-Driven AI). Dans ce cadre, un agent IA n’est pas seulement un prédicteur passif mais un planificateur actif. Il décompose un objectif de haut niveau (par ex. « préparer un repas ») en une séquence de sous-objectifs, en utilisant son modèle du monde interne pour simuler l’issue de diverses actions avant de les exécuter. Cette boucle de « simulation avant action » est la façon dont fonctionnent les cerveaux biologiques et, selon LeCun, constitue la seule voie viable vers l’intelligence artificielle générale.

Le fossé d’efficacité

Un autre point critique de divergence est l’efficacité des données. LeCun a souligné l’énorme disparité entre l’apprentissage humain et l’entraînement des grands modèles de langage.

Entraînement des grands modèles de langage : nécessite des données textuelles équivalentes à des milliers de vies humaines de lecture.
Apprentissage humain : un enfant de quatre ans a vu environ 50 fois plus de données qu’un grand modèle de langage, mais la plupart sont visuelles et sensorielles, pas textuelles.

L’enfant acquiert le « sens commun » — que les objets ne disparaissent pas quand on ferme les yeux, que les objets non soutenus tombent — par l’interaction et l’observation, en grande partie sans supervision. Les AMI Labs de LeCun visent à reproduire cet apprentissage auto-supervisé à partir de vidéos et de données sensorielles, contournant le goulot d’étranglement des textes annotés par des humains.

Implications pour l’industrie et la mentalité de « troupeau »

La position de LeCun le place en désaccord avec l’élan actuel de la Silicon Valley. Des entreprises comme OpenAI, Google et même Meta (sous sa nouvelle direction IA) continuent d’investir des milliards dans la construction de centres de données plus importants et l’entraînement de transformeurs plus grands. LeCun qualifie cela de « mentalité de troupeau », avertissant que l’industrie marche vers un plateau où ajouter plus de calcul produira des gains négligeables en matière de capacité de raisonnement.

Cette scission représente un pari fondamental sur l’avenir de la technologie. D’un côté se trouve l’hypothèse de mise à l’échelle (Scaling Hypothesis) — la croyance que l’intelligence émerge à partir d’une échelle massive. De l’autre se trouve l’hypothèse d’architecture (Architecture Hypothesis) de LeCun — la conviction que nous avons besoin d’un plan fondamentalement nouveau, qui imite la structure hiérarchique et prédictive du cortex des mammifères.

La route vers l’AGI

Alors que l’industrie célèbre les capacités des chatbots génératifs, LeCun avertit que nous sommes encore loin de machines possédant une « intelligence machine avancée ». Il prédit que la transition des grands modèles de langage vers les modèles du monde sera nécessaire pour atteindre des systèmes capables de raisonner, de planifier et de comprendre le monde physique de manière fiable.

Le lancement des AMI Labs marque un nouveau chapitre dans ce débat. Avec un financement significatif et une équipe de chercheurs dédiée à l’architecture JEPA, LeCun passe de la critique à la construction. Que sa vision des modèles du monde éclipse la domination actuelle des grands modèles de langage reste à voir, mais son avertissement constitue une remise en question cruciale de l’hypothèse selon laquelle la voie vers l’AGI est une ligne droite tracée par les lois d’échelle.

Comparaison : grands modèles de langage vs. modèles du monde

Feature	Grands modèles de langage (LLMs)	Modèles du monde (JEPA)
Mécanisme central	Prédiction auto-régressive du jeton suivant	Prédiction de représentations abstraites
Source de données principale	Texte (à l’échelle d’Internet)	Données sensorielles (vidéo, audio, interaction physique)
Capacité de raisonnement	Mime le raisonnement via la détection de motifs	Simule les relations de cause à effet
Prise en charge de la réalité	Sujet aux hallucinations ; pas de vérité interne	Simulation interne des contraintes physiques
Efficacité	Faible ; nécessite des masses de données pour une compétence de base	Élevée ; vise une efficacité d’apprentissage proche de celle des humains

Conclusion

Yann LeCun a déclaré que les grands modèles de langage sont une « impasse » ; ce constat est plus qu’une critique : c’est un appel à l’action pour les chercheurs afin qu’ils regardent au-delà de la gratification immédiate des chatbots. Alors que Creati.ai continue de suivre l’évolution de l’intelligence artificielle, cette divergence entre les camps de la « mise à l’échelle » et des « modèles du monde » définira probablement la prochaine décennie d’innovation. Si LeCun a raison, le prochain grand bond en avant de l’IA ne viendra pas d’un chatbot plus grand, mais d’un système qui comprend enfin comment le monde fonctionne.