AlphaGenome от Google DeepMind и IBM продвигают исследования ДНК в эпоху GPT с помощью ИИ-моделей

«Момент GPT» для биологии: DeepMind и IBM переосмысливают геномные исследования с помощью новых моделей ИИ

Конвергенция искусственного интеллекта и биотехнологий достигла критического порога, который эксперты отрасли часто называют «моментом GPT» (GPT moment) для человеческого генома. В рамках значительного скачка в вычислительной биологии компания Google DeepMind представила AlphaGenome — модель, способную обрабатывать до одного миллиона пар оснований ДНК для прогнозирования молекулярных свойств с беспрецедентной точностью. Одновременно с этим IBM Research развивает свой пакет биомедицинских базовых моделей (Biomedical Foundation Models, BMFM), делая упор на модульный подход к разработке лекарств и генетической изменчивости на уровне популяции.

Эти двойные достижения знаменуют собой фундаментальный сдвиг в том, как ученые исследуют регуляторный код жизни. Переходя от «грубого» скрининга в лабораториях к точному вычислительному прогнозированию, эти системы ИИ обещают ускорить идентификацию вызывающих заболевания мутаций и разработку новых терапевтических методов.

AlphaGenome: Единый взгляд на регуляторный код

Google DeepMind AlphaGenome представляет собой масштабное расширение возможностей геномного ИИ. В отличие от предыдущих инструментов, которые были вынуждены идти на компромисс между сканированием длинных участков ДНК и сохранением высокой детализации, AlphaGenome разработана для одновременного решения обеих задач. Согласно исследованию, опубликованному в журнале Nature, модель превосходит существующие инструменты в 22 из 24 задач по прогнозированию эффектов вариантов.

Архитектура AlphaGenome отличается своей мультимодальной природой (multimodal nature). Она не просто считывает последовательности ДНК; она предсказывает эффекты в различных биологических модальностях, включая доступность хроматина, связывание факторов транскрипции и координаты сплайсинга.

Ключевые технические прорывы

Расширенное контекстное окно: Модель обрабатывает контекстное окно размером в один миллион пар оснований (мегабазу). Это позволяет ей фиксировать дальнодействующие регуляторные эффекты, когда изменение состояния хроматина далеко выше по течению может влиять на экспрессию гена ниже по течению.
Мультимодальное обучение: Обученная на данных экспериментов RNA-seq, ATAC-seq и Hi-C, модель рассматривает геномные сигналы как связанные, взаимозависимые системы, а не как изолированные переменные.
Эффективность обучения: DeepMind сообщает, что обучение AlphaGenome заняло примерно четыре часа и потребовало примерно вдвое меньшего бюджета вычислительных мощностей, чем её предшественник Enformer, несмотря на расширенный охват модели.

Марк Герштейн (Mark Gerstein), профессор биомедицинской информатики имени Альберта Л. Уильямса в Йельском университете, подчеркнул значимость этой архитектуры. «Что я нашел наиболее инновационным в AlphaGenome, так это её мультимодальную природу», — отметил Герштейн. «Тот факт, что она обучена на данных из множества различных геномных модальностей... и предсказывает эффекты в этих модальностях, заслуживает особого внимания».

Модульный подход IBM: точность через специализацию

В то время как DeepMind стремится к единой, сквозной структуре, IBM Research выступает за практичную модульную стратегию. С помощью своих биомедицинских базовых моделей (BMFM) IBM разбивает сложные биологические вопросы на отдельные, четко определенные задачи. Этот подход позволяет создавать специализированные модели, оптимизированные для конкретных областей, таких как транскриптомика РНК или репрезентация малых молекул.

Михаль Розен-Цви (Michal Rosen-Zvi), директор по ИИ в здравоохранении и науках о жизни в IBM Research, объяснила, что этот метод позволяет избежать рассмотрения генома как единственной «стандартной» последовательности. «Важно отметить, что в наших моделях ДНК мы явно учитываем вариативность на уровне популяции, обучаясь не только на референсных последовательностях, но и на SNP и других мутабельных сайтах», — заявила Розен-Цви. Такая конструкция позволяет моделям улавливать эволюционные сигналы, которые статический референсный геном мог бы упустить.

Специализированные модели в экосистеме IBM

IBM представила целевые модели, предназначенные для устранения конкретных «узких мест» в разработке лекарств:

MAMMAL: Модель, разработанная для прогнозирования силы связывания антитела с антигеном, что упрощает разработку биологических препаратов.
MMELON: ориентирована на прогнозирование терапевтических свойств кандидатов в малые молекулы, обеспечивая ранние результаты для определения приоритетов в лаборатории.

Эти модели являются частью более широкого сотрудничества с Кливлендской клиникой и недавно сформированным консорциумом LIGAND-AI. Возглавляемый Pfizer и Консорциумом структурной геномики (Structural Genomics Consortium), LIGAND-AI ставит целью создание открытых высококачественных наборов данных о взаимодействиях белок-лиганд для дальнейшего обучения и тестирования систем био-ИИ.

Сравнительный анализ: Единая архитектура против модульной

В настоящее время отрасль наблюдает за двумя различными философиями в геномном ИИ. В следующей таблице изложены основные различия между AlphaGenome от DeepMind и подходом IBM.

Таблица 1: Сравнение AlphaGenome и биомедицинских базовых моделей IBM

Характеристика	AlphaGenome (Google DeepMind)	IBM Biomedical Foundation Models
Основная философия	Единое сквозное моделирование последовательностей	Модульное декомпозирование по конкретным задачам
Масштаб входных данных	До 1 миллиона пар оснований ДНК	Оптимизировано для специфических уровней данных
Ключевая инновация	Мультимодальное прогнозирование (RNA, ATAC, Hi-C)	Интеграция популяционной вариативности (SNP)
Основной результат	Интерпретация регуляторного кода	Целевые свойства лекарств (связывание, токсичность)
Известные модели	AlphaGenome	MAMMAL, MMELON

Проблемы и перспективы на будущее

Несмотря на впечатляющие результаты в тестах, эксперты призывают к осторожности в вопросе немедленного внедрения этих моделей в клиническую практику. Одно из основных ограничений AlphaGenome, как отметил Герштейн, заключается в её сосредоточенности на отдельных вариантах. «Модель предсказывает эффект только одного варианта и не учитывает полный генетический фон личного генома человека», — пояснил он. В реальности геномы функционируют как цельные унаследованные пакеты, где фоновая генетика может существенно изменить влияние конкретной мутации.

Более того, разрыв между вычислительным прогнозированием и клинической реальностью сохраняется. «В медицинском мире ничто не заменит экспериментальные данные и реальную клиническую валидацию», — подчеркнул Герштейн. Путь вперед предполагает накопление вариантов использования, в которых прогнозы ИИ будут строго подтверждены результатами лечения пациентов.

Рыночная траектория

Экономические последствия этих технологий огромны. Недавние анализы прогнозируют, что глобальный рынок ИИ в биотехнологиях превысит 25 миллиардов долларов США к середине 2030-х годов. По мере того как фармацевтические компании все чаще внедряют эти базовые модели, отрасль ожидает перехода от медленных итерационных циклов в лабораториях к генерации гипотез под руководством ИИ.

«Мы уже видели, как ИИ изменил работу с текстом, изображениями и кодом», — заключила Розен-Цви. «Биология и химия — на очереди, и мы находимся только в начале этого пути».