AI News

Google redéfinit l'IA scientifique avec la mise à jour Gemini 3 Deep Think

Dans une avancée significative pour l'intelligence artificielle, Google a annoncé une mise à jour majeure de son modèle Gemini 3 Deep Think, le positionnant comme l'outil de premier plan pour le raisonnement scientifique complexe et les défis d'ingénierie avancés. Publiée le 12 février 2026, cette mise à jour fait passer le modèle d'un grand modèle de langage (LLM — Large Language Model) performant à un « moteur de raisonnement » (reasoning engine) spécialisé, capable de rivaliser avec les experts humains dans des domaines pointus.

La réussite phare de cette mise à jour est un score impressionnant de 48,4 % au Dernier examen de l'humanité (HLE — Humanity's Last Exam), un benchmark spécifiquement conçu pour être le test final et le plus rigoureux des capacités académiques et de raisonnement pour l'IA. Ce score représente une avance décisive sur les modèles de pointe précédents, y compris Gemini 3 Pro et ses concurrents, marquant une nouvelle ère où les agents d'IA peuvent s'attaquer de manière fiable à des problèmes nécessitant une déduction logique profonde et multi-étapes sans outils externes.

Pour le lectorat de Creati.ai, ce développement signale un changement dans la manière dont les développeurs et les chercheurs interagiront avec l'IA. Nous dépassons l'ère du « saisir une commande et prier » (prompt and pray) pour entrer dans une ère de découverte collaborative, où des modèles comme Deep Think servent d'assistants de recherche vérifiés capables de naviguer dans des ensembles de données complexes et d'identifier des failles théoriques obscures.

L'avantage du « Système 2 » : le raisonnement plutôt que la récupération

Le principal différenciateur de la mise à jour Gemini 3 Deep Think est sa dépendance aux processus de pensée « Système 2 » (System 2). Contrairement aux LLM standards qui prédisent le jeton suivant sur la base de probabilités statistiques (Système 1), Deep Think emploie un processus de raisonnement délibéré et itératif. Cela permet au modèle de faire une « pause » et d'évaluer plusieurs pistes logiques avant de s'engager sur une réponse, simulant ainsi le processus de pensée analytique lent utilisé par les scientifiques humains.

Selon Google DeepMind, cette architecture a été affinée en collaboration avec des scientifiques actifs pour résoudre des problèmes « insolubles » — ceux manquant de cadres clairs ou de solution unique correcte. En termes pratiques, cela signifie que le modèle excelle dans des environnements où les données sont incomplètes ou parasitées, une frustration courante dans l'ingénierie du monde réel et la science expérimentale.

Capacités architecturales clés :

  • Auto-correction : La capacité d'identifier des erreurs logiques dans sa propre chaîne de pensée pendant la phase d'inférence.
  • Synthèse transdomaine : Mélanger avec succès des principes de physique théorique avec des contraintes d'ingénierie pratique.
  • Raisonnement visuel : Transformer des croquis 2D abstraits en modèles 3D complexes et physiquement viables pour la fabrication.

Évaluer l'inédit

Pour comprendre l'ampleur de cette version, il faut regarder les mesures concrètes. La communauté de l'IA a longtemps lutté contre la « saturation des benchmarks », où les modèles maîtrisent rapidement des tests comme le MMLU. Le Dernier examen de l'humanité (Humanity's Last Exam) (HLE) a été créé pour contrer cela en regroupant les questions les plus difficiles en mathématiques, sciences humaines et sciences naturelles.

Les performances de Gemini 3 Deep Think sur le HLE sont complétées par des scores records sur ARC-AGI-2, un test d'intelligence générale (AGI — Artificial General Intelligence) et de reconnaissance de motifs nouveaux, ainsi que sur Codeforces, une plateforme de programmation compétitive.

Le tableau suivant résume les performances de Gemini 3 Deep Think par rapport aux autres modèles de pointe de cette génération :

Tableau : Performance comparative sur les benchmarks de pointe

Métrique/Benchmark Gemini 3 Deep Think (Mise à jour) Gemini 3 Pro Concurrent clé (Est. GPT-5 Pro)
Dernier examen de l'humanité (HLE) 48,4 % 37,5 % ~31,6 %
ARC-AGI-2 (Raisonnement) 84,6 % ~70 % N/A
Score Codeforces (Elo) 3455 ~2900 ~2800
Olympiades internationales de physique Niveau Médaille d'or Niveau Médaille d'argent N/A
Olympiades internationales de chimie Niveau Médaille d'or Niveau Médaille de bronze N/A
CMT-Benchmark (Physique) 50,5 % N/A N/A

Note : Les scores représentent l'exactitude « pass@1 » sans utilisation d'outils externes, sauf indication contraire. Les scores des concurrents sont basés sur les derniers benchmarks publics disponibles en février 2026.

Le score de 84,6 % sur ARC-AGI-2 est particulièrement remarquable pour les développeurs. Vérifié par la ARC Prize Foundation, ce benchmark teste la capacité d'une IA à s'adapter à des tâches entièrement nouvelles qu'elle n'a jamais vues dans ses données d'entraînement, mesurant efficacement « l'intelligence fluide » (fluid intelligence) plutôt que les connaissances mémorisées.

Médailles d'or et percées théoriques

Au-delà des tests standardisés, Google a validé le modèle par rapport aux normes les plus élevées de la réussite académique humaine. La version améliorée de Deep Think a atteint des performances de niveau Médaille d'or sur les sections écrites des Olympiades internationales de physique 2025 et des Olympiades internationales de chimie.

Il ne s'agit pas seulement de résoudre des problèmes de manuels scolaires. Google a mis en avant des études de cas internes où le modèle a démontré sa compétence en physique théorique avancée, obtenant spécifiquement 50,5 % au CMT-Benchmark. Cela suggère que le modèle peut être utilisé pour émettre des hypothèses sur de nouvelles propriétés des matériaux ou vérifier des calculs complexes de mécanique quantique.

Dans un cas d'utilisation démontré, des chercheurs ont utilisé Deep Think pour optimiser la croissance des cristaux de semi-conducteurs. Le modèle a analysé des données expérimentales historiques, identifié des variables environnementales subtiles précédemment ignorées par les chercheurs humains, et proposé un cycle de croissance modifié qui a abouti à des rendements de pureté plus élevés.

Du croquis à la réalité : l'ingénierie pratique

Pour la communauté de l'ingénierie, la mise à jour la plus tangible est la capacité d'ingénierie multimodale de Deep Think. Google a présenté un flux de travail dans lequel un utilisateur a téléchargé un croquis approximatif, dessiné à la main, d'une pièce mécanique. Deep Think a analysé le dessin, a déduit les contraintes physiques et les exigences de charge prévues, et a généré un fichier précis et imprimable en 3D.

Ce pipeline « Du croquis au produit » démontre la capacité du modèle à combler le fossé entre l'idéation abstraite (créative) et les contraintes physiques (logiques). Cela exige que l'IA comprenne non seulement à quoi le dessin ressemble, mais aussi comment l'objet doit fonctionner dans le monde réel.

Disponibilité et intégration en entreprise

Google déploie cette mise à jour avec une approche à deux niveaux, ciblant à la fois les utilisateurs avancés individuels et les développeurs en entreprise.

  1. Abonnés Google AI Ultra : Le nouveau mode Deep Think est disponible immédiatement au sein de l'application Gemini. Les utilisateurs peuvent activer l'option « Deep Think » pour les requêtes nécessitant un traitement logique intense.
  2. API Gemini (Accès anticipé) : Pour la première fois, Google ouvre Deep Think via API à une sélection d'entreprises et d'institutions scientifiques. Il s'agit d'un développement crucial pour les lecteurs de Creati.ai qui conçoivent des applications tierces, car cela permet l'intégration de ce « moteur de raisonnement » dans des flux de travail personnalisés — tels que des bots de revue de code automatisés ou des pipelines de découverte de médicaments pharmaceutiques.

Implications pour l'écosystème de l'IA

La sortie de la version améliorée de Gemini 3 Deep Think renforce une tendance croissante en 2026 : la bifurcation des modèles d'IA entre les « agents conversationnels rapides » et les « raisonneurs profonds et lents ». Alors que les premiers (comme Gemini 3 Flash) se concentrent sur la latence et l'expérience utilisateur, les modèles comme Deep Think se créent une niche en tant que résolveurs de problèmes asynchrones.

Pour les développeurs, cela nécessite un changement d'architecture. Les applications pourraient bientôt s'appuyer sur un modèle « gestionnaire-ouvrier » (manager-worker), où un modèle rapide gère l'interaction avec l'utilisateur et délègue les tâches complexes à enjeux élevés à Deep Think.

Alors que nous testons davantage ce modèle chez Creati.ai, la question demeure : comment ces capacités de raisonnement se traduiront-elles dans des tâches créatives ouvertes ? Bien que les benchmarks soient axés sur les STEM, la logique requise pour obtenir 48,4 % au Dernier examen de l'humanité implique un niveau de nuance qui pourrait également révolutionner la structuration narrative et la génération de contenu complexe.

Nous continuerons à surveiller les performances de Gemini 3 Deep Think à mesure qu'il parvient entre les mains de la communauté plus large des développeurs. Pour l'instant, le standard « Médaille d'or » est établi.

Vedettes