AI News

Déverrouiller la « matière noire » du génome humain (human genome)

Dans un moment décisif pour la biologie computationnelle qui fait écho à l'impact d'AlphaFold sur les structures protéiques, Google DeepMind a officiellement dévoilé AlphaGenome, un système d'IA révolutionnaire capable de déchiffrer les régions les plus énigmatiques du code humain. Lancé hier et détaillé dans un article publié dans Nature, AlphaGenome représente un changement sismique dans la manière dont les chercheurs analysent l'information génétique, dépassant les simples séquences de gènes pour comprendre les mécanismes régulateurs complexes qui gouvernent la vie elle-même.

Pendant des décennies, la communauté scientifique a peiné à interpréter le « génome sombre » (dark genome) — les 98 % de l'ADN humain qui ne codent pas pour des protéines. Historiquement qualifiées de « ADN poubelle », ces régions non codantes sont désormais comprises comme jouant un rôle critique dans la régulation de l'expression des gènes, agissant comme le tableau de commande complexe qui active ou désactive les gènes. Cependant, cartographier ces interactions s'est avéré exponentiellement plus difficile que de séquencer les gènes eux-mêmes.

AlphaGenome relève ce défi à une échelle sans précédent. En utilisant une fenêtre contextuelle pouvant atteindre jusqu'à 1 million de lettres d'ADN (base pairs), le modèle peut prédire avec une précision chirurgicale la manière dont l'information génétique est régulée. Cette capacité lui permet d'identifier les moteurs génétiques derrière des affections complexes telles que les maladies cardiaques, le cancer et les troubles auto-immuns, éclairant ainsi les zones d'ombre de la génomique moderne.

« Nous voyons AlphaGenome comme un outil pour comprendre ce que font les éléments fonctionnels du génome, ce qui, nous l'espérons, accélérera notre compréhension fondamentale du code de la vie », a déclaré Natasha Latysheva, chercheuse chez Google DeepMind, lors du point presse.

Comment AlphaGenome décode 1 million de lettres d'ADN

L'innovation centrale d'AlphaGenome réside dans son architecture, qui adapte les modèles Transformer utilisés dans les grands modèles de langage (Large Language Models, LLMs) au langage de la biologie. Alors que les modèles précédents à la pointe comme Borzoi pouvaient analyser des séquences d'environ 500 000 paires de bases, AlphaGenome double cette capacité, lui permettant de capturer des interactions à longue portée qui étaient auparavant invisibles.

Dans le repli complexe de l'ADN à l'intérieur du noyau cellulaire, un élément régulateur (comme un enhanceur) peut se trouver à des centaines de milliers de paires de bases du gène qu'il contrôle. Les modèles traditionnels avec des fenêtres contextuelles plus courtes manqueraient complètement cette connexion. La fenêtre d'un million de lettres d'AlphaGenome lui permet de voir la « phrase complète » des instructions génétiques plutôt que de simples fragments déconnectés.

Capacités techniques clés

Le modèle fonctionne comme un prédicteur « séquence-vers-fonction » (sequence-to-function). Les chercheurs lui fournissent une séquence d'ADN brute, et AlphaGenome produit une carte complète des propriétés moléculaires, comprenant :

  • Niveaux d'expression génique : Prédiction de l'activité d'un gène dans des types de tissus spécifiques.
  • Accessibilité de la chromatine : Détermination des parties de l'ADN physiquement accessibles à la machinerie cellulaire.
  • Épissage de l'ARN : Prévision de la manière dont les instructions génétiques sont éditées avant la production protéique — une étape cruciale où des erreurs conduisent souvent à des maladies rares.

De façon cruciale, le système fonctionne à résolution d'une seule paire de bases (single base-pair resolution). Cela signifie qu'il peut prédire les effets biologiques en chaîne d'un changement d'une seule lettre (par exemple un 'T' en 'A') dans une séquence d'un million. Cette sensibilité est essentielle pour identifier les « variants pathogènes (pathogenic variants) » — des mutations d'une seule lettre qui peuvent déclencher une maladie malgré leur localisation dans des régions non codantes.

Comparaison : AlphaGenome vs générations précédentes

Pour saisir l'ampleur de ce bond, il est utile de comparer AlphaGenome avec ses prédécesseurs directs dans le domaine de l'IA génomique.

Table 1 : Comparaison technique des modèles d'IA génomique

Feature AlphaGenome (2026) Borzoi (2023) Enformer (2021)
Context Window 1,000,000 base pairs 524,000 base pairs 196,000 base pairs
Resolution Single base-pair 32 base-pair bins 128 base-pair bins
Primary Architecture Advanced Transformer ResNet + Transformer Transformer
Key Application Global regulatory prediction Sequence modeling Long-range interactions
Output Types Expression, Splicing, Structure Epigenomic profiles Gene expression

Cette comparaison met en évidence non seulement une augmentation d'échelle, mais aussi une amélioration fondamentale de la résolution. Là où les modèles plus anciens pouvaient signaler une région générale comme « suspecte », AlphaGenome peut identifier la mutation exacte responsable d'une défaillance régulatrice.

Une nouvelle ère pour la découverte de maladies et le développement de médicaments

Les implications pratiques d'AlphaGenome pour la santé sont immédiates et profondes. De nombreuses maladies héréditaires et cancers ne sont pas causés par des protéines défaillantes (que AlphaFold aide à analyser), mais par des interrupteurs défaillants — des gènes produits au mauvais moment, en quantité incorrecte ou dans le mauvais tissu.

Pushmeet Kohli, VP Research chez Google DeepMind, a souligné le potentiel de l'outil à « décoder des codes régulateurs complexes » qui ont résisté aux chercheurs pendant des années. En prédisant comment des mutations spécifiques affectent la régulation des gènes, AlphaGenome agit comme un laboratoire virtuel à grande vitesse.

Applications en oncologie et en recherche sur les maladies auto-immunes

En recherche sur le cancer, les tumeurs contiennent souvent des milliers de mutations, mais seules quelques-unes sont des « drivers » qui provoquent effectivement la croissance tumorale. Le reste sont des « passagers ». Faire la distinction entre les deux demande beaucoup de travail. AlphaGenome peut analyser rapidement ces mutations, en prédisant lesquelles perturbent des voies régulatrices critiques.

De même, dans les troubles auto-immuns, les facteurs de risque génétiques se trouvent souvent dans des régions non codantes qui affectent la régulation des cellules immunitaires. AlphaGenome a déjà démontré la capacité d'identifier des variants régulateurs spécifiques liés à des affections comme le lupus et la maladie de Crohn, offrant de nouvelles cibles pour les développeurs de médicaments. Si un médicament peut être conçu pour corriger la dysfonction régulatrice — réinitialisant effectivement le « volume » d'un gène — il pourrait offrir une guérison là où les traitements actuels ne font que gérer les symptômes.

Réactions d'experts et limites futures

La communauté scientifique a réagi avec un optimisme prudent, reconnaissant l'outil comme un jalon d'ingénierie important tout en notant les défis biologiques qui subsistent.

Anshul Kundaje, biologiste computationnel à l'université de Stanford et voix éminente dans l'IA génomique, a décrit la sortie comme « un véritable bond en avant en termes d'utilité globale ». Il a noté qu'AlphaGenome a probablement « atteint le maximum » de ce qui est possible avec les modèles purement basés sur la séquence. « Ce n'est pas simplement un modèle plus grand en termes de longueur de contexte », a déclaré Kundaje à Science News, « mais il aide réellement à repérer des relations à longue distance qui étaient auparavant indétectables. »

Cependant, des limites existent. Alors qu'AlphaGenome est exceptionnel pour prédire les effets des mutations de manière générale, il rencontre encore des difficultés pour prévoir comment l'activité génique varie entre des individus spécifiques en fonction de leurs environnements cellulaires uniques. La « matière noire » du génome est influencée non seulement par la séquence, mais aussi par des facteurs environnementaux et des modifications chimiques (épigénétique (epigenetics)) qui évoluent dans le temps. AlphaGenome lit le code statique, mais la vie dynamique de la cellule reste une couche complexe par-dessus.

De plus, Ben Lehner du Wellcome Sanger Institute, tout en saluant « l'exploit incroyable », a rappelé à la communauté que les prédictions d'IA doivent encore être validées par des expériences en laboratoire (wet-lab experiments). Le modèle génère des hypothèses, mais la vérification biologique reste la référence absolue.

Accès et disponibilité

Fidèle à son engagement pour l'avancement scientifique, Google DeepMind met AlphaGenome à la disposition de la communauté mondiale de recherche. Une AlphaGenome API a été lancée, permettant aux chercheurs non commerciaux de soumettre des séquences et de recevoir des prédictions. Cette démocratisation de l'accès devrait déclencher une vague de nouvelles découvertes à mesure que les biologistes du monde entier commencent à tester leurs propres jeux de données face aux capacités du modèle.

À mesure que nous avançons en 2026, l'intégration d'AlphaGenome avec des outils existants comme AlphaFold dessine le tableau d'une « cellule entièrement différentiable » — un futur où l'IA pourrait simuler la biologie depuis la lettre d'ADN unique jusqu'à la structure protéique 3D complexe. Pour l'instant, les lumières ont été allumées dans les recoins les plus sombres du génome, et la vue est spectaculaire.

Vedettes