AI News

Le « moment GPT » pour la biologie : DeepMind et IBM redéfinissent la recherche génomique avec de nouveaux modèles d'IA

La convergence de l'intelligence artificielle (Artificial Intelligence - AI) et de la biotechnologie a atteint un seuil charnière, souvent décrit par les experts du secteur comme le « moment GPT » pour le génome humain. Dans une avancée significative pour la biologie computationnelle, Google DeepMind a dévoilé AlphaGenome, un modèle capable de traiter jusqu'à un million de paires de bases d'ADN pour prédire les propriétés moléculaires avec une précision sans précédent. Simultanément, IBM Research fait progresser sa suite de modèles de fondation biomédicaux (Biomedical Foundation Models - BMFM), en mettant l'accent sur une approche modulaire de la découverte de médicaments et de la variation génétique au niveau de la population.

Ces deux avancées signalent un changement fondamental dans la manière dont les scientifiques interrogent le code régulateur de la vie. En passant du criblage en laboratoire humide (wet-lab) par force brute à la prédiction computationnelle précise, ces systèmes d'IA promettent d'accélérer l'identification des mutations pathogènes et le développement de nouvelles thérapies.

AlphaGenome : une vision unifiée du code régulateur

Google DeepMind’s AlphaGenome représente une mise à l'échelle massive des capacités de l'IA génomique. Contrairement aux outils précédents qui étaient contraints de faire un compromis entre l'analyse de longues régions d'ADN et la conservation de détails précis, AlphaGenome est conçu pour gérer les deux simultanément. Selon une étude publiée dans Nature, le modèle surpasse les outils existants dans 22 des 24 tâches de prédiction de l'effet des variants.

L'architecture d'AlphaGenome se distingue par sa nature multimodale (multimodal). Il ne se contente pas de lire des séquences d'ADN ; il prédit les effets à travers diverses modalités biologiques, notamment l'accessibilité de la chromatine, la liaison des facteurs de transcription et les coordonnées des jonctions d'épissage.

Avancées techniques clés

  • Fenêtre de contexte étendue : Le modèle traite une fenêtre de contexte d'un million de paires de bases (une mégabase). Cela lui permet de capturer des effets régulateurs à longue distance où un changement dans l'état de la chromatine loin en amont peut influencer l'expression génique en aval.
  • Entraînement multimodal : Entraîné sur des données issues d'expériences RNA-seq, ATAC-seq et Hi-C, le modèle traite les signaux génomiques comme des systèmes connectés et interdépendants plutôt que comme des variables isolées.
  • Efficacité de l'entraînement : DeepMind rapporte que l'entraînement d'AlphaGenome a pris environ quatre heures et a nécessité environ la moitié du budget de calcul de son prédécesseur, Enformer, malgré la portée élargie du modèle.

Mark Gerstein, professeur Albert L. Williams d'informatique biomédicale à l'Université de Yale, a souligné l'importance de cette architecture. « Ce que j'ai trouvé de plus novateur dans AlphaGenome, c'est sa nature multimodale », a noté Gerstein. « Le fait qu'il soit entraîné sur des données provenant de nombreuses modalités génomiques différentes... et qu'il prédise des effets à travers ces modalités est particulièrement remarquable. »

L'approche modulaire d'IBM : la précision par la spécialisation

Alors que DeepMind poursuit un cadre unifié de bout en bout, IBM Research prône une stratégie pratique et modulaire. À travers ses modèles de fondation biomédicaux (BMFM), IBM décompose les questions biologiques complexes en tâches distinctes et bien définies. Cette approche permet la création de modèles spécialisés optimisés pour des domaines spécifiques, tels que la transcriptomique de l'ARN ou la représentation de petites molécules.

Michal Rosen-Zvi, directrice de l'IA pour la santé et les sciences de la vie chez IBM Research, a expliqué que cette méthode évite de traiter le génome comme une seule séquence « standard ». « Surtout, dans nos modèles d'ADN, nous intégrons explicitement la variation au niveau de la population, en nous entraînant non seulement sur des séquences de référence, mais aussi sur les polymorphismes nucléotidiques simples (Single Nucleotide Polymorphisms - SNPs) et d'autres sites mutables », a déclaré Rosen-Zvi. Cette conception permet aux modèles de capturer des signaux évolutifs qu'un génome de référence statique manquerait.

Modèles spécialisés dans l'écosystème IBM

IBM a introduit des modèles ciblés conçus pour lever des goulots d'étranglement spécifiques dans le développement de médicaments :

  • MAMMAL : Un modèle conçu pour prédire la force de liaison anticorps-antigène, facilitant la conception de médicaments biologiques.
  • MMELON : Concentré sur la prédiction des propriétés thérapeutiques des candidats de petites molécules, fournissant des résultats précoces pour guider les priorités du laboratoire.

Ces modèles font partie d'une collaboration plus large avec la Cleveland Clinic et le consortium LIGAND-AI récemment formé. Dirigé par Pfizer et le Structural Genomics Consortium, LIGAND-AI vise à générer des ensembles de données ouverts et de haute qualité sur les interactions protéine-ligand afin d'entraîner davantage et d'évaluer les systèmes d'IA biologique.

Analyse comparative : architectures unifiées vs modulaires

Le secteur est actuellement témoin de deux philosophies distinctes dans l'IA génomique. Le tableau suivant présente les principales différences entre AlphaGenome de DeepMind et l'approche d'IBM.

Tableau 1 : Comparaison d'AlphaGenome et des modèles de fondation biomédicaux d'IBM

Caractéristique AlphaGenome (Google DeepMind) Biomedical Foundation Models d'IBM
Philosophie de base Modélisation de séquence unifiée de bout en bout Décomposition modulaire spécifique à chaque tâche
Échelle d'entrée Jusqu'à 1 million de paires de bases d'ADN Optimisée pour les couches de données spécifiques au domaine
Innovation clé Prédiction multimodale (ARN, ATAC, Hi-C) Intégration de la variation au niveau de la population (SNPs)
Sortie principale Interprétation du code régulateur Propriétés ciblées des médicaments (liaison, toxicité)
Modèles notables AlphaGenome MAMMAL, MMELON

Défis et perspectives d'avenir

Malgré les performances impressionnantes lors des tests de référence, les experts appellent à la prudence quant à la traduction immédiate de ces modèles dans la pratique clinique. Une limitation majeure d'AlphaGenome, comme l'a noté Gerstein, est sa focalisation sur les variants uniques. « Le modèle ne prédit l'effet que d'un seul variant et ne prend pas en compte l'ensemble du bagage génétique du génome personnel d'un individu », a-t-il expliqué. En réalité, les génomes fonctionnent comme des ensembles hérités complets où la génétique de fond peut modifier considérablement l'impact d'une mutation spécifique.

De plus, l'écart entre la prédiction computationnelle et la réalité clinique subsiste. « Il n'y a pas de substitut dans le monde médical aux données expérimentales et à la validation clinique réelle », a souligné Gerstein. La voie à suivre implique l'accumulation de cas d'utilisation où les prédictions de l'IA sont rigoureusement validées par rapport aux résultats des patients.

Trajectoire du marché

Les implications économiques de ces technologies sont vastes. Des analyses récentes prévoient que le marché mondial de l'IA dans la biotechnologie dépassera 25 milliards USD d'ici le milieu des années 2030. Alors que les sociétés pharmaceutiques adoptent de plus en plus ces modèles de fondation, l'industrie s'attend à une transition des cycles de laboratoire humide lents et itératifs vers une génération d'hypothèses guidée par l'IA.

« Nous avons déjà vu comment l'IA a transformé le texte, les images et le code », a conclu Rosen-Zvi. « La biologie et la chimie sont les suivantes, et nous n'en sommes qu'au début de cette courbe. »

Vedettes