
Die Konvergenz von Künstlicher Intelligenz (Artificial Intelligence – AI) und Biotechnologie hat eine entscheidende Schwelle erreicht, die von Branchenexperten oft als der „GPT-Moment“ für das menschliche Genom bezeichnet wird. In einem bedeutenden Sprung für die Computerbiologie hat Google DeepMind AlphaGenome vorgestellt, ein Modell, das in der Lage ist, bis zu eine Million DNA-Basenpaare zu verarbeiten, um molekulare Eigenschaften mit beispielloser Genauigkeit vorherzusagen. Gleichzeitig treibt IBM Research seine Suite von Biomedizinischen Basismodellen (Biomedical Foundation Models – BFM) voran und betont dabei einen modularen Ansatz für die Arzneimittelentdeckung (Drug Discovery) und die genetische Variation auf Populationsebene.
Diese zweifachen Fortschritte signalisieren einen grundlegenden Wandel in der Art und Weise, wie Wissenschaftler den regulatorischen Code des Lebens befragen. Durch den Übergang vom Brute-Force-Screening im Nasslabor zur präzisen computergestützten Vorhersage versprechen diese KI-Systeme, die Identifizierung krankheitsverursachender Mutationen und die Entwicklung neuartiger Therapeutika zu beschleunigen.
Google DeepMinds AlphaGenome stellt eine massive Skalierung der Fähigkeiten der Genom-KI (Genomic AI) dar. Im Gegensatz zu früheren Werkzeugen, die gezwungen waren, Kompromisse zwischen dem Scannen langer DNA-Regionen und der Beibehaltung feinkörniger Details einzugehen, ist AlphaGenome darauf ausgelegt, beides gleichzeitig zu bewältigen. Laut einer in Nature veröffentlichten Studie übertrifft das Modell bestehende Tools in 22 von 24 Aufgaben zur Vorhersage von Varianteneffekten (Variant Effect Prediction).
Die Architektur von AlphaGenome zeichnet sich durch ihre multimodale Natur aus. Es liest nicht nur DNA-Sequenzen; es sagt Effekte über verschiedene biologische Modalitäten hinweg voraus, einschließlich der Chromatin-Zugänglichkeit (Chromatin Accessibility), der Transkriptionsfaktor-Bindung und der Koordinaten von Spleißstellen.
Mark Gerstein, der Albert L. Williams Professor für Biomedizinische Informatik an der Yale University, hob die Bedeutung dieser Architektur hervor. „Was ich an AlphaGenome am neuartigsten fand, war seine multimodale Natur“, bemerkte Gerstein. „Die Tatsache, dass es auf Daten aus vielen verschiedenen genomischen Modalitäten trainiert wird... und Effekte über diese Modalitäten hinweg vorhersagt, ist besonders bemerkenswert.“
Während DeepMind ein vereinheitlichtes End-to-End-Framework verfolgt, setzt IBM Research auf eine praktische, modulare Strategie. Durch seine Biomedizinischen Basismodelle (Biomedical Foundation Models – BFM) zerlegt IBM komplexe biologische Fragestellungen in unterschiedliche, gut definierte Aufgaben. Dieser Ansatz ermöglicht die Erstellung spezialisierter Modelle, die für bestimmte Domänen optimiert sind, wie etwa die RNA-Transkriptomik oder die Darstellung kleiner Moleküle.
Michal Rosen-Zvi, Direktorin für KI im Gesundheitswesen und in den Biowissenschaften bei IBM Research, erklärte, dass diese Methode vermeidet, das Genom als eine einzige „Standardsequenz“ zu behandeln. „Wichtig ist, dass wir in unsere DNA-Modelle explizit Variationen auf Populationsebene einbeziehen und nicht nur auf Referenzsequenzen, sondern auch auf SNPs und andere veränderbare Stellen trainieren“, so Rosen-Zvi. Dieses Design ermöglicht es den Modellen, evolutionäre Signale zu erfassen, die ein statisches Referenzgenom übersehen würde.
IBM hat gezielte Modelle eingeführt, die darauf ausgelegt sind, spezifische Engpässe in der Arzneimittelentwicklung zu beheben:
Diese Modelle sind Teil einer umfassenderen Zusammenarbeit mit der Cleveland Clinic und dem neu gegründeten LIGAND-AI-Konsortium. Unter der Leitung von Pfizer und dem Structural Genomics Consortium zielt LIGAND-AI darauf ab, offene, qualitativ hochwertige Datensätze von Protein-Ligand-Interaktionen zu generieren, um Bio-KI-Systeme weiter zu trainieren und zu benchmarken.
Die Branche erlebt derzeit zwei unterschiedliche Philosophien in der Genom-KI (Genomic AI). Die folgende Tabelle skizziert die wesentlichen Unterschiede zwischen DeepMinds AlphaGenome und dem Ansatz von IBM.
Tabelle 1: Vergleich von AlphaGenome und den IBM Biomedical Foundation Models
| Merkmal | AlphaGenome (Google DeepMind) | IBM Biomedizinische Basismodelle (Biomedical Foundation Models) |
|---|---|---|
| Kernphilosophie | Vereinheitlichte End-to-End-Sequenzmodellierung | Modulare, aufgabenspezifische Zerlegung |
| Eingangsskala | Bis zu 1 Million DNA-Basenpaare | Optimiert für domänenspezifische Datenebenen |
| Wichtigste Innovation | Multimodale Vorhersage (RNA, ATAC, Hi-C) | Integration von Variationen auf Populationsebene (SNPs) |
| Primärer Output | Interpretation des regulatorischen Codes | Gezielte Arzneimitteleigenschaften (Bindung, Toxizität) |
| Namhafte Modelle | AlphaGenome | MAMMAL, MMELON |
Trotz der beeindruckenden Leistung bei Benchmarks mahnen Experten zur Vorsicht hinsichtlich der sofortigen Übertragung dieser Modelle in die klinische Praxis. Eine wesentliche Einschränkung von AlphaGenome ist laut Gerstein die Konzentration auf Einzelvarianten. „Das Modell sagt nur den Effekt einer einzelnen Variante voraus und berücksichtigt nicht den vollständigen genetischen Hintergrund des persönlichen Genoms eines Individuums“, erklärte er. In der Realität funktionieren Genome als ganze, vererbte Pakete, in denen der genetische Hintergrund die Auswirkungen einer spezifischen Mutation erheblich modifizieren kann.
Darüber hinaus bleibt die Lücke zwischen computergestützter Vorhersage und klinischer Realität bestehen. „In der medizinischen Welt gibt es keinen Ersatz für experimentelle Daten und tatsächliche klinische Validierung“, betonte Gerstein. Der weitere Weg umfasst die Akkumulation von Anwendungsfällen, in denen KI-Vorhersagen rigoros an Patientenergebnissen validiert werden.
Die wirtschaftlichen Auswirkungen dieser Technologien sind enorm. Jüngste Analysen prognostizieren, dass der globale Markt für KI in der Biotechnologie bis Mitte der 2030er Jahre 25 Milliarden USD überschreiten wird. Da Pharmaunternehmen diese Basismodelle zunehmend übernehmen, erwartet die Branche einen Übergang von langsamen, iterativen Nasslabor-Zyklen hin zu einer KI-gestützten Hypothesengenerierung.
„Wir haben bereits gesehen, wie KI Text, Bilder und Code transformiert hat“, schloss Rosen-Zvi. „Biologie und Chemie kommen als Nächstes, und wir stehen erst am Anfang dieser Kurve.“