AI News

Die „dunkle Materie“ des menschlichen Genoms (human genome) entschlüsseln

In einem wegweisenden Moment für die rechnergestützte Biologie (computational biology) — der in seiner Bedeutung an den Einfluss von AlphaFold auf Proteinstrukturen erinnert — hat Google DeepMind offiziell AlphaGenome vorgestellt, ein revolutionäres KI-System (KI-System, AI system), das in der Lage ist, die rätselhaftesten Regionen des menschlichen Codes zu entziffern. Gestern veröffentlicht und in einem Artikel in Nature beschrieben, stellt AlphaGenome einen tiefgreifenden Wandel in der Art und Weise dar, wie Forschende genetische Informationen analysieren, indem es über einfache Gensequenzen hinausgeht, um die komplexen Regulationsmechanismen zu verstehen, die das Leben selbst steuern.

Seit Jahrzehnten kämpft die wissenschaftliche Gemeinschaft damit, das „dunkle Genom“ — die 98 % der menschlichen DNA, die nicht für Proteine kodieren — zu interpretieren. Historisch als „Junk-DNA“ abgetan, wird heute verstanden, dass diese nicht-kodierenden Regionen (non-coding regions) eine entscheidende Rolle bei der Regulation der Genexpression spielen und als komplexe Schaltzentrale fungieren, die Gene ein- oder ausschaltet. Die Kartierung dieser Wechselwirkungen hat sich jedoch als exponentiell schwieriger erwiesen als das einfache Sequenzieren der Gene selbst.

AlphaGenome begegnet dieser Herausforderung in bislang unerreichter Größenordnung. Durch die Nutzung eines Kontextfensters (context window) von bis zu 1.000.000 DNA-Basenpaaren (base pairs) kann das Modell vorhersagen, wie genetische Informationen reguliert werden, und das mit hoher Genauigkeit. Diese Fähigkeit erlaubt es, die genetischen Treiber hinter komplexen Erkrankungen wie Herzkrankheiten, Krebs und Autoimmunerkrankungen zu identifizieren und damit effektiv Licht in die blinden Flecken der modernen Genomik zu bringen.

„Wir sehen AlphaGenome als ein Werkzeug, um zu verstehen, was die funktionalen Elemente im Genom tun, und hoffen, dass es unser grundlegendes Verständnis des Codes des Lebens beschleunigt“, erklärte Natasha Latysheva von Google DeepMind während der Pressekonferenz.

Wie AlphaGenome 1 Million DNA-Basenpaare entschlüsselt

Die Kerninnovation von AlphaGenome liegt in seiner Architektur, die die bei großen Sprachmodellen verwendeten Transformer-Modelle (Transformer models) an die Sprache der Biologie anpasst. Während frühere Spitzenmodelle wie Borzoi Sequenzen von ungefähr 500.000 Basenpaaren analysieren konnten, verdoppelt AlphaGenome diese Kapazität und kann so langreichweitige Interaktionen erfassen, die zuvor unsichtbar waren.

In der komplexen Faltung der DNA innerhalb des Zellkerns kann ein regulatorisches Element (wie ein Enhancer) Hunderte von Tausenden Basenpaare vom Gen entfernt liegen, das es kontrolliert. Traditionelle Modelle mit kürzeren Kontextfenstern würden diese Verbindung völlig übersehen. Das 1‑Millionen‑Basenpaare‑Fenster von AlphaGenome ermöglicht es, den „ganzen Satz“ genetischer Anweisungen zu sehen, statt nur einzelne, zusammenhangslose Phrasen.

Zentrale technische Fähigkeiten

Das Modell arbeitet als „Sequenz‑zu‑Funktion“-Prädiktor (sequence-to-function). Forschende geben ihm eine rohe DNA-Sequenz, und AlphaGenome liefert eine umfassende Karte molekularer Eigenschaften, darunter:

  • Genexpressionsniveaus (Gene Expression Levels): Vorhersage, wie aktiv ein Gen in bestimmten Gewebetypen sein wird.
  • Chromatin‑Zugänglichkeit (Chromatin Accessibility): Bestimmung, welche Teile der DNA physisch für die zellulären Mechanismen zugänglich sind.
  • RNA‑Spleißen (RNA Splicing): Prognose, wie genetische Anweisungen vor der Proteinproduktion bearbeitet werden — ein entscheidender Schritt, bei dem Fehler oft zu seltenen Krankheiten führen.

Entscheidend ist, dass das System auf Einzel‑Basenpaar‑Auflösung (single base-pair resolution) arbeitet. Das bedeutet, es kann die biologischen Kaskadeneffekte vorhersagen, die durch die Änderung nur eines einzigen Buchstabens (zum Beispiel ein 'T' zu einem 'A') in einer Sequenz von einer Million entstehen. Diese Sensitivität ist wichtig, um „pathogene Varianten (pathogenic variants)“ zu identifizieren — Ein-Buchstaben‑Mutationen, die Krankheiten auslösen können, obwohl sie in nicht-kodierenden Regionen vorkommen.

Vergleich: AlphaGenome vs. frühere Generationen

Um das Ausmaß dieses Fortschritts zu verstehen, ist ein Vergleich von AlphaGenome mit seinen direkten Vorgängern im Bereich der genomischen KI hilfreich.

Table 1: Technical Comparison of Genomic AI Models

Merkmal AlphaGenome (2026) Borzoi (2023) Enformer (2021)
Context Window 1.000.000 Basenpaare (base pairs) 524.000 Basenpaare 196.000 Basenpaare
Resolution Einzel‑Basenpaar 32‑Basenpaar‑Bins 128‑Basenpaar‑Bins
Primary Architecture Fortgeschrittener Transformer ResNet + Transformer Transformer
Key Application Globale Regulationsvorhersage Sequenzmodellierung Langreichweitige Interaktionen
Output Types Expression, Spleißen, Struktur Epigenom‑Profile Genexpression

Dieser Vergleich macht nicht nur eine Größensteigerung deutlich, sondern vor allem eine grundlegende Verbesserung der Auflösung. Wo ältere Modelle vielleicht eine allgemeine Region als „verdächtig“ markiert hätten, kann AlphaGenome die genaue Mutation identifizieren, die für das Versagen einer Regulation verantwortlich ist.

Eine neue Ära für Krankheitsentdeckung und Wirkstoffentwicklung

Die praktischen Auswirkungen von AlphaGenome auf das Gesundheitswesen sind unmittelbar und tiefgreifend. Viele erbliche Krankheiten und Krebserkrankungen werden nicht durch defekte Proteine verursacht (die AlphaFold analysiert), sondern durch defekte Schalter — Gene, die zur falschen Zeit, in der falschen Menge oder im falschen Gewebe produziert werden.

Pushmeet Kohli, VP of Research bei Google DeepMind, betonte das Potenzial des Werkzeugs, „komplexe Regulationscodes zu entschlüsseln“, die Forschende seit Jahren ratlos machen. Indem AlphaGenome vorhersagt, wie spezifische Mutationen die Genregulation beeinflussen, fungiert es als Hochgeschwindigkeits‑virtuelles Labor.

Anwendungen in der Onkologie und Autoimmunforschung

In der Krebsforschung enthalten Tumoren oft Tausende von Mutationen, doch nur einige wenige sind „Treiber“, die tatsächlich das Tumorwachstum verursachen. Der Rest sind „Passengers“. Die Unterscheidung zwischen beiden ist arbeitsintensiv. AlphaGenome kann diese Mutationen schnell screenen und vorhersagen, welche davon kritische Regulationswege stören.

Ähnlich liegen die genetischen Risikofaktoren bei Autoimmunerkrankungen häufig in nicht-kodierenden Regionen, die die Regulation von Immunzellen beeinflussen. AlphaGenome hat bereits gezeigt, dass es spezifische regulatorische Varianten identifizieren kann, die mit Erkrankungen wie Lupus und Morbus Crohn verknüpft sind, und bietet dadurch neue Angriffspunkte für Wirkstoffentwickler. Wenn ein Medikament entworfen werden kann, das die regulatorische Fehlfunktion korrigiert — effektiv die „Lautstärke“ eines Gens zurücksetzt —, könnte es eine Heilung ermöglichen, wo derzeitige Behandlungen nur Symptome managen.

Expertenreaktionen und zukünftige Einschränkungen

Die wissenschaftliche Gemeinschaft reagierte mit vorsichtigem Optimismus, erkannte das Werkzeug als bedeutenden ingenieurtechnischen Meilenstein an und wies gleichzeitig auf die verbleibenden biologischen Herausforderungen hin.

Anshul Kundaje, ein computational biologist an der Stanford University und eine führende Stimme in der genomischen KI, beschrieb die Veröffentlichung als „einen ziemlichen Sprung nach vorn in der allgemeinen Nützlichkeit“. Er merkte an, dass AlphaGenome vermutlich das Maximum aus reinen Sequenz‑Modellen herausgeholt habe. „Es ist nicht nur ein größeres Modell hinsichtlich der Kontextlänge“, sagte Kundaje gegenüber Science News, „sondern es hilft tatsächlich, fernliegende Beziehungen zu erkennen, die zuvor nicht detektierbar waren.“

Dennoch gibt es Einschränkungen. Während AlphaGenome hervorragend darin ist, allgemeine Effekte von Mutationen vorherzusagen, hat es weiterhin Schwierigkeiten damit, vorherzusagen, wie die Genaktivität zwischen bestimmten Individuen auf Basis ihrer einzigartigen zellulären Umgebungen variiert. Die „dunkle Materie“ des Genoms wird nicht nur von der Sequenz beeinflusst, sondern auch von Umweltfaktoren und chemischen Modifikationen — der Epigenetik (epigenetics) —, die sich mit der Zeit verändern. AlphaGenome liest den statischen Code, doch das dynamische Leben der Zelle bleibt eine komplexe zusätzliche Schicht.

Außerdem erinnerte Ben Lehner vom Wellcome Sanger Institute bei aller Anerkennung der „unglaublichen Leistung“ die Gemeinschaft daran, dass KI‑Vorhersagen weiterhin durch Laborexperimente (wet-lab experiments) validiert werden müssen. Das Modell generiert Hypothesen, doch die biologische Verifikation bleibt der Goldstandard.

Zugang und Verfügbarkeit

Google DeepMind bleibt seinem Engagement für den wissenschaftlichen Fortschritt treu und macht AlphaGenome der globalen Forschungsgemeinschaft zugänglich. Eine AlphaGenome‑API (API) wurde gestartet, die es nicht‑kommerziellen Forschenden erlaubt, Sequenzen einzureichen und Vorhersagen zu erhalten. Diese Demokratisierung des Zugangs dürfte eine Welle neuer Entdeckungen auslösen, da Biologinnen und Biologen weltweit beginnen, ihre eigenen Datensätze gegen die Fähigkeiten des Modells zu testen.

Während wir weiter ins Jahr 2026 voranschreiten, zeichnet die Integration von AlphaGenome mit bestehenden Werkzeugen wie AlphaFold das Bild einer „vollständig differenzierbaren Zelle“ — einer Zukunft, in der KI Biologie vom einzelnen DNA‑Buchstaben bis zur komplexen 3D‑Proteinstruktur simulieren kann. Für den Moment sind die Lichter in den dunkelsten Ecken des Genoms angegangen, und der Anblick ist spektakulär.

Ausgewählt