Google dévoile Gemini 3 Deep Think et Aletheia, un mathématicien IA

Google redéfinit la découverte scientifique avec Gemini 3 Deep Think et Aletheia

Le paysage de l'intelligence artificielle a radicalement changé cette semaine alors que Google DeepMind dévoile une suite d'avancées révolutionnaires visant à résoudre les défis scientifiques les plus complexes de l'humanité. Au premier plan de cette version se trouve Gemini 3 Deep Think, un modèle de raisonnement amélioré qui exploite la mise à l'échelle au moment de l'inférence (inference-time scaling) pour surpasser ses concurrents, et Aletheia, un agent IA spécialisé qui est passé avec succès de la résolution de problèmes des Olympiades de mathématiques à la génération de recherches autonomes publiables.

Cette double sortie marque un moment charnière où l'IA dépasse la simple assistance pour entrer dans le domaine de la découverte indépendante, remettant en question les références établies et fixant de nouvelles normes pour ce que les agents autonomes peuvent accomplir en physique théorique, en mathématiques avancées et en conception de médicaments.

Gemini 3 Deep Think : Maîtriser l'art de « réfléchir plus longtemps »

Au cœur de ces nouvelles capacités se trouve le modèle amélioré Gemini 3 Deep Think. Google a fondamentalement réorganisé le mode de raisonnement du modèle, en se concentrant sur une technique connue sous le nom de « mise à l'échelle au moment de l'inférence » (inference-time scaling). Cette approche permet au modèle d'allouer plus de ressources de calcul pendant la phase de requête — en « réfléchissant plus longtemps » — pour explorer plusieurs chemins de raisonnement avant de s'engager sur une réponse.

Les résultats de ce changement architectural sont stupéfiants. Dans des comparaisons directes, Gemini 3 Deep Think aurait surpassé des concurrents majeurs, notamment le GPT-5.2 d'OpenAI et le Claude Opus 4.6 d'Anthropic, à travers une variété de tests rigoureux. La compétence du modèle est particulièrement évidente dans les tâches nécessitant une déduction logique profonde et une compréhension multimodale.

Points forts des performances :

ARC-AGI-2 : A obtenu des scores de haut niveau dans des puzzles visuels nécessitant un raisonnement abstrait.
CMT-Benchmark : A obtenu un score de 50,5 % en physique théorique, démontrant une compréhension profonde de concepts scientifiques complexes.
Efficacité : L'itération de janvier 2026 de Deep Think a réduit la puissance de calcul nécessaire pour les problèmes de niveau Olympiade par 100 par rapport à son prédécesseur de 2025.

Ce gain d'efficacité est critique. En optimisant la manière dont le modèle traite l'information, Google a rendu le raisonnement de haut niveau accessible pour des applications pratiques, permettant aux ingénieurs de modéliser des systèmes physiques via du code et aidant les chercheurs à interpréter de vastes ensembles de données incomplets.

Aletheia : Le premier véritable mathématicien IA

Alors que Gemini 3 Deep Think fournit l'épine dorsale du raisonnement, Aletheia représente l'application spécialisée de cette puissance. Conçu pour combler le « fossé d'évaluation » entre les mathématiques de compétition et la recherche professionnelle, Aletheia est un agent IA capable de naviguer dans l'ambiguïté des problèmes mathématiques ouverts.

Contrairement aux solveurs traditionnels qui excellent dans des questions bien définies, Aletheia fonctionne via une Boucle agentique (Agentic Loop) sophistiquée. Cette architecture imite le flux de travail d'un mathématicien humain, décomposant le processus de résolution de problèmes en phases distinctes.

L'architecture agentique

Pour garantir la précision et réduire les « hallucinations » (hallucinations) courantes dans les grands modèles de langage (Large Language Models - LLMs), Aletheia utilise un système tripartite :

Générateur (Generator) : Propose des solutions candidates et des stratégies de preuve pour un problème de recherche donné.
Vérificateur (Verifier) : Un mécanisme informel en langage naturel qui examine la proposition à la recherche de failles logiques ou d'erreurs de citation.
Réviseur (Reviser) : Corrige de manière itérative les erreurs identifiées par le Vérificateur jusqu'à ce que le résultat réponde à des normes logiques strictes.

Cette séparation des tâches permet au système de détecter ses propres erreurs — un trait qui était auparavant un obstacle majeur pour l'IA dans les sciences formelles. De plus, Aletheia utilise Google Search pour vérifier les citations, s'assurant qu'il fait référence à la littérature mathématique réelle plutôt que de fabriquer des sources.

Historique de l'analyse comparative : Aletheia contre le reste du domaine

L'impact de l'approche agentique d'Aletheia est mieux illustré par ses performances sur l'IMO-ProofBench Advanced, une référence considérée comme l'étalon-or pour le raisonnement mathématique automatisé.

Tableau 1 : Performance comparative sur les références mathématiques

Référence	SOTA précédent	Performance d'Aletheia	Facteur d'amélioration
IMO-ProofBench Advanced	65,7 %	95,1 %	+29,4 %
FutureMath Basic (Niveau Doctorat)	< 60 % (Est.)	État de l'art	Bond significatif
Problèmes ouverts d'Erdős	0 résolu	4 résolus de manière autonome	Gain infini

Le bond vers une précision de 95,1 % sur l'IMO-ProofBench Advanced n'est pas seulement une amélioration incrémentielle ; c'est un changement de paradigme qui suggère que l'IA peut désormais traiter de manière fiable des mathématiques basées sur des preuves à un niveau auparavant réservé aux experts humains d'élite.

Résoudre l'insoluble : Percées en recherche autonome

Le véritable test des capacités d'Aletheia ne réside pas dans la réussite d'examens, mais dans la génération de nouvelles connaissances. Google DeepMind a rapporté que l'agent a déjà réalisé plusieurs « premières » dans le domaine des mathématiques.

Plus particulièrement, Aletheia a généré de manière autonome un article de recherche, baptisé Feng26, qui calcule des constantes structurelles connues sous le nom d'« eigenweights » en géométrie arithmétique. Cet article a été produit sans intervention humaine et a été classé comme autonomie de « Niveau A2 » — essentiellement autonome et de qualité publiable.

De plus, lorsqu'il a été déployé contre les célèbres conjectures d'Erdős (Erdős conjectures) — une liste de problèmes mathématiques ouverts posés par le prolifique Paul Erdős — Aletheia a trouvé 63 solutions techniquement correctes et a entièrement résolu 4 questions auparavant ouvertes. Cette capacité à contribuer par des vérités originales à l'ensemble des connaissances humaines valide le potentiel du modèle en tant que partenaire collaboratif pour les scientifiques.

Au-delà des mathématiques : Accélérer la conception de médicaments avec IsoDDE

Les avancées de Gemini 3 Deep Think s'étendent au-delà des mathématiques abstraites pour toucher le monde tangible de la biochimie. Aux côtés d'Aletheia, Google a introduit IsoDDE (Isomorphic Drug Design Engine), un nouvel outil de sa filiale Isomorphic Labs.

IsoDDE s'appuie sur l'héritage d'AlphaFold, surpassant AlphaFold 3 par un facteur de deux en précision de prédiction. Sa percée principale est la capacité de prédire l'affinité de liaison (binding affinity) des médicaments avec une précision sans précédent. En identifiant des « poches » cachées dans les structures protéiques où les molécules de médicament peuvent se fixer, IsoDDE offre un cadre évolutif pour concevoir des traitements pour des systèmes biologiques complexes, y compris des anticorps et de grandes structures biologiques.

Définir une nouvelle norme pour l'autonomie de l'IA

Avec ces versions, Google DeepMind pousse également pour une manière normalisée de catégoriser les contributions de l'IA. La société a proposé une nouvelle Taxonomie pour l'autonomie de l'IA (Taxonomy for AI Autonomy), calquée sur les niveaux utilisés pour les véhicules autonomes.

Niveau 0 (Principalement humain) : L'IA offre une nouveauté négligeable (par exemple, des solveurs standard d'Olympiades).
Niveau 1 (Collaboration) : L'IA fournit une stratégie « globale », mais les humains réalisent les preuves rigoureuses.
Niveau 2 (Essentiellement autonome) : L'IA génère des recherches publiables avec peu ou pas de supervision humaine (par exemple, l'article Feng26).

Ce cadre fournit à l'industrie un vocabulaire nécessaire pour distinguer l'IA qui se contente de récupérer des informations de l'IA qui les crée. Alors que Gemini 3 Deep Think et Aletheia commencent à peupler les revues scientifiques de leurs découvertes, la distinction entre la découverte humaine et machine est appelée à devenir de plus en plus floue, annonçant une nouvelle ère d'innovation accélérée.