AI News

Google redéfinit le raisonnement de l'IA avec la mise à jour Gemini 3 Deep Think

Dans un moment charnière pour l'intelligence artificielle, Google a publié une mise à jour monumentale de Gemini 3 Deep Think, son modèle de raisonnement spécialisé « Système 2 ». Cette version, annoncée aujourd'hui par Google DeepMind, marque un virage décisif par rapport aux chatbots qui se contentent de prédire du texte vers des systèmes d'IA capables d'une véritable découverte scientifique multi-étapes et d'ingénierie complexe.

Cette mise à jour arrive avec une suite de mesures de performance qui ne se contentent pas d'améliorer progressivement les références actuelles de l'état de l'art (SOTA - State-of-the-Art), mais les pulvérisent littéralement. Avec un score confirmé de 84,6 % sur ARC-AGI-2 et un score Elo stupéfiant de 3455 sur Codeforces, Gemini 3 Deep Think s'est positionné comme le leader de facto dans la course vers l'Intelligence Artificielle Générale (AGI - Artificial General Intelligence), spécifiquement dans les domaines exigeant une logique rigoureuse, une planification spatiale et une résolution de problèmes inédits.

Le moteur de raisonnement : au-delà de la reconnaissance de formes

Le cœur de cette mise à jour réside dans l'architecture « Deep Think », qui donne la priorité au calcul au moment de l'inférence (test-time compute). Contrairement aux Modèles de langage de grande taille (LLMs - Large Language Models) standards qui privilégient la vitesse de réponse, Gemini 3 Deep Think est conçu pour marquer une pause, simuler diverses pistes de solution, vérifier sa logique interne et s'auto-corriger avant de générer un résultat final. Cette phase de « réflexion » permet au modèle de s'attaquer à des problèmes définis par l'ambiguïté, des données désordonnées et l'absence de garde-fous clairs — des défis typiques de la recherche et de l'ingénierie de haut niveau.

Sundar Pichai, PDG de Google, a souligné que cette mise à jour a été développée en étroite collaboration avec des scientifiques de premier plan pour garantir que le modèle puisse servir de partenaire fiable en laboratoire. Le résultat est une IA qui ne se contente pas de récupérer des informations, mais applique un raisonnement abstrait pour résoudre des tâches qu'elle n'a jamais rencontrées auparavant.

Briser le plafond de l'ARC-AGI-2

La mesure la plus significative de l'annonce d'aujourd'hui est sans doute la performance sur ARC-AGI-2. L'Abstraction and Reasoning Corpus (ARC) est largement considéré comme le « test de validité » pour l'AGI, mesurant la capacité d'un modèle à acquérir de nouvelles compétences à la volée à partir de quelques exemples seulement, plutôt que de s'appuyer sur des données d'entraînement mémorisées.

Alors que les précédents modèles de pointe peinaient à franchir la barre des 50-60 % — comparable à la performance humaine moyenne — Gemini 3 Deep Think a atteint un score de 84,6 %, vérifié de manière indépendante. Ce score n'est pas seulement un chiffre élevé ; il représente un saut qualitatif dans l'intelligence fluide.

Pour mettre cela en perspective, le paysage concurrentiel actuel est nettement en retrait. Selon les derniers benchmarks disponibles, Claude Opus 4.6 se situe à environ 69,2 %, tandis que GPT-5.3 est à 54,2 %. Le bond en avant de Google suggère que Gemini 3 a craqué un code fondamental dans la généralisation abstraite qui a échappé à l'industrie pendant des années.

Ingénierie et codage à un niveau de Grand Maître

Pour les ingénieurs logiciels et les développeurs, les implications de Gemini 3 Deep Think sont profondes. Le modèle a atteint un classement Elo de 3455 sur la plateforme Codeforces. Dans le monde de la programmation compétitive, ce n'est pas seulement un niveau d'« expert » ; c'est le territoire des « Légendaires Grands Maîtres », plaçant l'IA dans le top 8 mondial, tant parmi les humains que les machines.

Cette capacité s'étend au-delà des énigmes algorithmiques. Google a démontré la capacité du modèle en matière de raisonnement spatial et d'ingénierie physique en présentant un flux de travail où l'IA a analysé un croquis dessiné à la main d'un support d'ordinateur portable, a modélisé la géométrie 3D complexe requise pour supporter le poids et l'ergonomie, et a généré un fichier imprimable en 3D. L'objet physique qui en a résulté était fonctionnel et précis, comblant le fossé entre la conception abstraite et la fabrication physique.

Un partenaire pour la découverte scientifique

Google DeepMind a explicitement positionné ce modèle comme un outil pour la science. La version comprenait des études de cas provenant d'institutions académiques prestigieuses ayant bénéficié d'un accès anticipé au modèle.

  • Université Rutgers : La mathématicienne Lisa Carbone a utilisé Deep Think pour examiner des articles techniques denses en physique avancée. L'IA a réussi à identifier une faille logique subtile dans une démonstration qui avait auparavant échappé aux relecteurs humains, démontrant sa capacité à auditer des travaux théoriques complexes.
  • Université Duke (Wang Lab) : Des chercheurs ont appliqué le modèle à des défis en science des matériaux, plus précisément dans la recherche sur les semi-conducteurs. Deep Think a conçu une nouvelle méthode pour la croissance de films cristallins minces de plus de 100 microns, atteignant une cible de précision que les méthodes traditionnelles n'avaient pas réussi à atteindre.

Ces applications concrètes sont soutenues par des performances de niveau médaille d'or dans les sections écrites des Olympiades Internationales de Physique et de Chimie 2025, ainsi qu'un score de 50,5 % sur le CMT-Benchmark, qui teste les compétences en physique théorique avancée.

Détail des benchmarks

Le tableau suivant résume les mesures de performance clés publiées aujourd'hui, contrastant la performance de Gemini 3 Deep Think avec les bases de référence pertinentes ou les standards précédents.

Métrique Score/Résultat Signification
ARC-AGI-2 84,6 % Démontre une intelligence fluide et une généralisation sans précédent, dépassant de loin la moyenne humaine de ~60 %.
Codeforces Elo 3455 Niveau Légendaire Grand Maître ; se classe dans le peloton de tête des programmeurs compétitifs mondiaux.
Humanity's Last Exam (HLE) 48,4 % (Sans outils) Établit un nouveau SOTA sur un benchmark conçu pour être « impossible » pour l'IA actuelle, testant des connaissances spécialisées de niveau expert.
IMO 2025 Médaille d'Or Résout des démonstrations mathématiques complexes avec une cohérence logique rigoureuse.
Olympiade Intl. de Physique 2025 Médaille d'Or Démontre une maîtrise des concepts de physique de niveau universitaire et de la résolution de problèmes.
CMT-Benchmark 50,5 % Montre une capacité en physique théorique avancée, un domaine auparavant intouché par l'IA.

Naviguer dans « Humanity's Last Exam »

Le modèle a également établi une nouvelle norme sur Humanity's Last Exam (HLE), obtenant un score de 48,4 % sans l'utilisation d'outils externes. Le HLE est un benchmark organisé par des experts en la matière pour être facile pour les humains possédant une expertise spécifique, mais presque impossible pour les modèles d'IA en raison de la nuance et de la profondeur des connaissances requises.

Bien que 48,4 % puisse sembler faible par rapport aux scores de plus de 90 % souvent observés sur le benchmark mathématique GSM8K, dans le contexte du HLE, il s'agit d'une réussite massive. Cela indique que le modèle commence à pénétrer le niveau « expert » des connaissances à travers des milliers de disciplines de niche, s'éloignant du paradigme de « touche-à-tout, maître de rien ».

Disponibilité et perspectives d'avenir

Google a agi de manière agressive pour mettre cet outil entre les mains des créateurs et des chercheurs. La version mise à jour de Gemini 3 Deep Think est disponible immédiatement pour les abonnés Google AI Ultra via l'application Gemini.

De plus, reconnaissant la demande pour des flux de travail agentiques (agentic workflows), Google ouvre l'accès à l'API Deep Think pour un groupe restreint de chercheurs et de partenaires d'entreprise. Cela permet aux développeurs de créer des applications qui exploitent les capacités de raisonnement étendu du modèle pour des tâches nécessitant une grande fiabilité, telles que la révision automatisée de code, l'optimisation de la chaîne d'approvisionnement et l'analyse de composés pharmaceutiques.

Alors que l'industrie de l'IA digère ces chiffres, l'attention se porte sur la manière dont des concurrents comme OpenAI et Anthropic vont réagir. Mais pour l'instant, avec sa capacité à raisonner à travers des données complexes, à générer des solutions d'ingénierie physique et à résoudre des problèmes à un niveau de Grand Maître, Gemini 3 Deep Think s'est fermement établi comme le nouveau prédateur alpha de l'écosystème de l'IA.

Vedettes