AI News

Une nouvelle ère pour l'IA (AI) : David Silver quitte DeepMind pour poursuivre la superintelligence « Ineffable »

Dans un bouleversement sismique du paysage de l'intelligence artificielle, David Silver, le principal chercheur derrière AlphaGo et une figure centrale de Google DeepMind, a annoncé son départ pour lancer une nouvelle entreprise indépendante, Ineffable Intelligence. Le mouvement, confirmé vendredi, marque la sortie la plus récente et la plus médiatisée d'un grand groupe technologique, signalant un pivot croissant de l'industrie depuis l'intelligence générative (Generative AI) vers la poursuite d'une superintelligence autonome et orientée vers des objectifs.

Silver, largement considéré comme le « père d'AlphaGo », a passé plus d'une décennie chez DeepMind, où son travail sur apprentissage par renforcement (Reinforcement Learning, RL) a fondamentalement changé la trajectoire du domaine. Sa nouvelle startup vise à contourner l'obsession actuelle de l'industrie pour les grands modèles de langage (Large Language Models, LLMs), en misant plutôt sur la philosophie de « l'Alberta School » : qu'un agent apprenant par interaction et récompense est la seule voie viable vers une Intelligence Artificielle Générale (Artificial General Intelligence, AGI).

Les limites du langage et l'essor d'Ineffable Intelligence

Le nom du nouveau laboratoire de Silver, Ineffable Intelligence, constitue un défi philosophique direct au statu quo. Alors que le boom actuel de l'IA est porté par des systèmes qui maîtrisent le langage humain — en prédisant de manière probabiliste le mot suivant dans une séquence — la thèse de Silver postule que les aspects les plus critiques de l'intelligence sont « ineffables », ou impossibles à saisir uniquement par le langage.

« Le langage est une compression de l'expérience, pas l'expérience elle‑même, » a déclaré Silver lors d'un point de presse suivant l'annonce. « Pour atteindre la superintelligence, nous devons construire des agents qui apprennent depuis le début par essais, erreurs et découvertes, à la manière d'AlphaZero. Nous passons de l'ère des jeux de données statiques à l'ère de l'expérience infinie. »

La startup a l'intention de se concentrer exclusivement sur des agents d'apprentissage par renforcement (RL) capables de planification à long terme et de découvertes scientifiques inédites, plutôt que sur des chatbots ou des médias génératifs. Cela s'aligne sur le célèbre article de Silver de 2021, Reward is Enough, qui soutenait que la maximisation de la récompense suffit à expliquer l'émergence de tout comportement intelligent.

Des chemins divergents : la tendance des « neolab »

Le départ de Silver s'inscrit dans un phénomène plus large de « neolab », où des chercheurs de premier plan quittent des laboratoires d'entreprise consolidés pour fonder des startups agiles et axées sur une mission. Cette tendance reflète une fragmentation dans la communauté de l'IA quant à la meilleure voie à suivre. Alors que des entreprises comme OpenAI et Google se concentrent sur la mise à l'échelle des transformeurs, des chercheurs comme Silver (et l'ancien Chief Scientist d'OpenAI, Ilya Sutskever) misent sur des architectures alternatives.

Ineffable Intelligence rejoint une cohorte croissante de laboratoires de recherche d'élite émergeant à Londres et à San Francisco, visant à résoudre les goulots d'étranglement de raisonnement et de fiabilité qui affligent actuellement les LLMs.

Tableau : Le clivage stratégique dans le développement moderne de l'IA

Feature Generative AI (LLMs) Reinforcement Learning (RL)
Core Objective Predict the next token in a sequence Maximize cumulative future reward
Learning Source Static datasets (internet text/images) Dynamic interaction with environments
Capabilities Summarization, translation, content creation Planning, strategy, novel discovery
Limitations Hallucinations, lack of true grounding High computational cost for simulation
Primary Goal Human-mimicry Superhuman optimization

L'influence de l'Alberta School

David Silver’s approach is deeply rooted in the "Alberta School" of AI, influenced by his mentor, Richard Sutton. Cette école de pensée privilégie des méthodes « calculablement extensibles » qui ne reposent pas sur des données étiquetées par des humains.

Pendant son mandat chez Google DeepMind, Silver a appliqué ces principes pour créer AlphaGo, qui a stupéfié le monde en 2016 en battant le champion du monde Lee Sedol, puis AlphaZero et MuZero, qui ont maîtrisé les échecs, le shogi et le go sans apprendre à partir de parties humaines. On s'attend à ce qu'Ineffable Intelligence pousse les algorithmes de planification de type MuZero dans des domaines réels tels que la science des matériaux, les mathématiques et la robotique, où des retours de « vérité terrain » sont disponibles.

Implications pour l'industrie

La formation d'Ineffable Intelligence suggère que le prochain champ de bataille pour la suprématie en IA ne se jouera pas sur qui possède le plus grand corpus textuel, mais sur qui peut construire les environnements les plus efficaces pour que les agents apprennent.

  • Virage vers la pensée « Système 2 » : Alors que les LLMs excellent dans la pensée de « Système 1 » (réponses rapides et intuitives), l'approche RL de Silver vise la pensée de « Système 2 » (raisonnement lent, délibéré et recherche), essentielle pour résoudre des problèmes d'ingénierie ou médicaux complexes.
  • Solution au mur des données : Alors que l'industrie s'inquiète d'un épuisement des données textuelles humaines de haute qualité pour entraîner des modèles, les agents RL offrent une solution : ils génèrent leurs propres données via l'auto-jeu et la simulation, permettant théoriquement une mise à l'échelle infinie.
  • Migration des talents : La réputation de Silver devrait attirer un nombre significatif de spécialistes en RL issus de grands laboratoires, déclenchant potentiellement une guerre des talents pour les chercheurs compétents en théorie de la décision et en systèmes de contrôle.

Conclusion

Le départ de David Silver représente plus qu'un simple changement de personnel ; il sert de déclaration d'intention pour l'avenir du domaine. En misant sur Ineffable Intelligence, Silver parie que la voie vers la superintelligence ne consiste pas à lire l'intégralité d'internet, mais à expérimenter le monde — simulé ou réel — et à apprendre à le maîtriser une récompense à la fois. À mesure que le cycle de l'engouement pour l'IA mûrit, l'industrie observera de près si l'apprentissage par renforcement peut fournir les capacités de raisonnement que les modèles de langage ont promises mais n'ont pas encore totalement accomplies.

Vedettes