Google DeepMinds AlphaGenome und IBM treiben die DNA-Forschung mit KI-Modellen in eine GPT-Ära

Der „GPT-Moment“ für die Biologie: DeepMind und IBM definieren die Genomforschung mit neuen KI-Modellen neu

Die Konvergenz von Künstlicher Intelligenz (Artificial Intelligence – AI) und Biotechnologie hat eine entscheidende Schwelle erreicht, die von Branchenexperten oft als der „GPT-Moment“ für das menschliche Genom bezeichnet wird. In einem bedeutenden Sprung für die Computerbiologie hat Google DeepMind AlphaGenome vorgestellt, ein Modell, das in der Lage ist, bis zu eine Million DNA-Basenpaare zu verarbeiten, um molekulare Eigenschaften mit beispielloser Genauigkeit vorherzusagen. Gleichzeitig treibt IBM Research seine Suite von Biomedizinischen Basismodellen (Biomedical Foundation Models – BFM) voran und betont dabei einen modularen Ansatz für die Arzneimittelentdeckung (Drug Discovery) und die genetische Variation auf Populationsebene.

Diese zweifachen Fortschritte signalisieren einen grundlegenden Wandel in der Art und Weise, wie Wissenschaftler den regulatorischen Code des Lebens befragen. Durch den Übergang vom Brute-Force-Screening im Nasslabor zur präzisen computergestützten Vorhersage versprechen diese KI-Systeme, die Identifizierung krankheitsverursachender Mutationen und die Entwicklung neuartiger Therapeutika zu beschleunigen.

AlphaGenome: Eine vereinheitlichte Sicht auf den regulatorischen Code

Google DeepMinds AlphaGenome stellt eine massive Skalierung der Fähigkeiten der Genom-KI (Genomic AI) dar. Im Gegensatz zu früheren Werkzeugen, die gezwungen waren, Kompromisse zwischen dem Scannen langer DNA-Regionen und der Beibehaltung feinkörniger Details einzugehen, ist AlphaGenome darauf ausgelegt, beides gleichzeitig zu bewältigen. Laut einer in Nature veröffentlichten Studie übertrifft das Modell bestehende Tools in 22 von 24 Aufgaben zur Vorhersage von Varianteneffekten (Variant Effect Prediction).

Die Architektur von AlphaGenome zeichnet sich durch ihre multimodale Natur aus. Es liest nicht nur DNA-Sequenzen; es sagt Effekte über verschiedene biologische Modalitäten hinweg voraus, einschließlich der Chromatin-Zugänglichkeit (Chromatin Accessibility), der Transkriptionsfaktor-Bindung und der Koordinaten von Spleißstellen.

Wichtige technische Durchbrüche

Erweitertes Kontextfenster: Das Modell verarbeitet ein Kontextfenster von einer Million Basenpaaren (ein Megabase). Dies ermöglicht es ihm, weitreichende regulatorische Effekte zu erfassen, bei denen eine Änderung des Chromatin-Zustands weit flussaufwärts die Genexpression flussabwärts beeinflussen kann.
Multimodales Training: Trainiert auf Daten aus RNA-seq-, ATAC-seq- und Hi-C-Experimenten, behandelt das Modell genomische Signale als verbundene, voneinander abhängige Systeme und nicht als isolierte Variablen.
Trainingseffizienz: DeepMind berichtet, dass das Training von AlphaGenome etwa vier Stunden dauerte und trotz des erweiterten Umfangs des Modells etwa die Hälfte des Rechenbudgets seines Vorgängers Enformer erforderte.

Mark Gerstein, der Albert L. Williams Professor für Biomedizinische Informatik an der Yale University, hob die Bedeutung dieser Architektur hervor. „Was ich an AlphaGenome am neuartigsten fand, war seine multimodale Natur“, bemerkte Gerstein. „Die Tatsache, dass es auf Daten aus vielen verschiedenen genomischen Modalitäten trainiert wird... und Effekte über diese Modalitäten hinweg vorhersagt, ist besonders bemerkenswert.“

IBMs modularer Ansatz: Präzision durch Spezialisierung

Während DeepMind ein vereinheitlichtes End-to-End-Framework verfolgt, setzt IBM Research auf eine praktische, modulare Strategie. Durch seine Biomedizinischen Basismodelle (Biomedical Foundation Models – BFM) zerlegt IBM komplexe biologische Fragestellungen in unterschiedliche, gut definierte Aufgaben. Dieser Ansatz ermöglicht die Erstellung spezialisierter Modelle, die für bestimmte Domänen optimiert sind, wie etwa die RNA-Transkriptomik oder die Darstellung kleiner Moleküle.

Michal Rosen-Zvi, Direktorin für KI im Gesundheitswesen und in den Biowissenschaften bei IBM Research, erklärte, dass diese Methode vermeidet, das Genom als eine einzige „Standardsequenz“ zu behandeln. „Wichtig ist, dass wir in unsere DNA-Modelle explizit Variationen auf Populationsebene einbeziehen und nicht nur auf Referenzsequenzen, sondern auch auf SNPs und andere veränderbare Stellen trainieren“, so Rosen-Zvi. Dieses Design ermöglicht es den Modellen, evolutionäre Signale zu erfassen, die ein statisches Referenzgenom übersehen würde.

Spezialisierte Modelle im IBM-Ökosystem

IBM hat gezielte Modelle eingeführt, die darauf ausgelegt sind, spezifische Engpässe in der Arzneimittelentwicklung zu beheben:

MAMMAL: Ein Modell, das entwickelt wurde, um die Bindungsstärke zwischen Antikörper und Antigen vorherzusagen und so das Design von Biopharmazeutika (Biologic Drugs) zu erleichtern.
MMELON: Konzentriert sich auf die Vorhersage der therapeutischen Eigenschaften von niedermolekularen Kandidaten und liefert frühe Ergebnisse, um Laborprioritäten zu steuern.

Diese Modelle sind Teil einer umfassenderen Zusammenarbeit mit der Cleveland Clinic und dem neu gegründeten LIGAND-AI-Konsortium. Unter der Leitung von Pfizer und dem Structural Genomics Consortium zielt LIGAND-AI darauf ab, offene, qualitativ hochwertige Datensätze von Protein-Ligand-Interaktionen zu generieren, um Bio-KI-Systeme weiter zu trainieren und zu benchmarken.

Vergleichende Analyse: Vereinheitlichte vs. modulare Architekturen

Die Branche erlebt derzeit zwei unterschiedliche Philosophien in der Genom-KI (Genomic AI). Die folgende Tabelle skizziert die wesentlichen Unterschiede zwischen DeepMinds AlphaGenome und dem Ansatz von IBM.

Tabelle 1: Vergleich von AlphaGenome und den IBM Biomedical Foundation Models

Merkmal	AlphaGenome (Google DeepMind)	IBM Biomedizinische Basismodelle (Biomedical Foundation Models)
Kernphilosophie	Vereinheitlichte End-to-End-Sequenzmodellierung	Modulare, aufgabenspezifische Zerlegung
Eingangsskala	Bis zu 1 Million DNA-Basenpaare	Optimiert für domänenspezifische Datenebenen
Wichtigste Innovation	Multimodale Vorhersage (RNA, ATAC, Hi-C)	Integration von Variationen auf Populationsebene (SNPs)
Primärer Output	Interpretation des regulatorischen Codes	Gezielte Arzneimitteleigenschaften (Bindung, Toxizität)
Namhafte Modelle	AlphaGenome	MAMMAL, MMELON

Herausforderungen und Zukunftsaussichten

Trotz der beeindruckenden Leistung bei Benchmarks mahnen Experten zur Vorsicht hinsichtlich der sofortigen Übertragung dieser Modelle in die klinische Praxis. Eine wesentliche Einschränkung von AlphaGenome ist laut Gerstein die Konzentration auf Einzelvarianten. „Das Modell sagt nur den Effekt einer einzelnen Variante voraus und berücksichtigt nicht den vollständigen genetischen Hintergrund des persönlichen Genoms eines Individuums“, erklärte er. In der Realität funktionieren Genome als ganze, vererbte Pakete, in denen der genetische Hintergrund die Auswirkungen einer spezifischen Mutation erheblich modifizieren kann.

Darüber hinaus bleibt die Lücke zwischen computergestützter Vorhersage und klinischer Realität bestehen. „In der medizinischen Welt gibt es keinen Ersatz für experimentelle Daten und tatsächliche klinische Validierung“, betonte Gerstein. Der weitere Weg umfasst die Akkumulation von Anwendungsfällen, in denen KI-Vorhersagen rigoros an Patientenergebnissen validiert werden.

Marktentwicklung

Die wirtschaftlichen Auswirkungen dieser Technologien sind enorm. Jüngste Analysen prognostizieren, dass der globale Markt für KI in der Biotechnologie bis Mitte der 2030er Jahre 25 Milliarden USD überschreiten wird. Da Pharmaunternehmen diese Basismodelle zunehmend übernehmen, erwartet die Branche einen Übergang von langsamen, iterativen Nasslabor-Zyklen hin zu einer KI-gestützten Hypothesengenerierung.

„Wir haben bereits gesehen, wie KI Text, Bilder und Code transformiert hat“, schloss Rosen-Zvi. „Biologie und Chemie kommen als Nächstes, und wir stehen erst am Anfang dieser Kurve.“