
Конвергенция искусственного интеллекта и биотехнологий достигла критического порога, который эксперты отрасли часто называют «моментом GPT» (GPT moment) для человеческого генома. В рамках значительного скачка в вычислительной биологии компания Google DeepMind представила AlphaGenome — модель, способную обрабатывать до одного миллиона пар оснований ДНК для прогнозирования молекулярных свойств с беспрецедентной точностью. Одновременно с этим IBM Research развивает свой пакет биомедицинских базовых моделей (Biomedical Foundation Models, BMFM), делая упор на модульный подход к разработке лекарств и генетической изменчивости на уровне популяции.
Эти двойные достижения знаменуют собой фундаментальный сдвиг в том, как ученые исследуют регуляторный код жизни. Переходя от «грубого» скрининга в лабораториях к точному вычислительному прогнозированию, эти системы ИИ обещают ускорить идентификацию вызывающих заболевания мутаций и разработку новых терапевтических методов.
Google DeepMind AlphaGenome представляет собой масштабное расширение возможностей геномного ИИ. В отличие от предыдущих инструментов, которые были вынуждены идти на компромисс между сканированием длинных участков ДНК и сохранением высокой детализации, AlphaGenome разработана для одновременного решения обеих задач. Согласно исследованию, опубликованному в журнале Nature, модель превосходит существующие инструменты в 22 из 24 задач по прогнозированию эффектов вариантов.
Архитектура AlphaGenome отличается своей мультимодальной природой (multimodal nature). Она не просто считывает последовательности ДНК; она предсказывает эффекты в различных биологических модальностях, включая доступность хроматина, связывание факторов транскрипции и координаты сплайсинга.
Марк Герштейн (Mark Gerstein), профессор биомедицинской информатики имени Альберта Л. Уильямса в Йельском университете, подчеркнул значимость этой архитектуры. «Что я нашел наиболее инновационным в AlphaGenome, так это её мультимодальную природу», — отметил Герштейн. «Тот факт, что она обучена на данных из множества различных геномных модальностей... и предсказывает эффекты в этих модальностях, заслуживает особого внимания».
В то время как DeepMind стремится к единой, сквозной структуре, IBM Research выступает за практичную модульную стратегию. С помощью своих биомедицинских базовых моделей (BMFM) IBM разбивает сложные биологические вопросы на отдельные, четко определенные задачи. Этот подход позволяет создавать специализированные модели, оптимизированные для конкретных областей, таких как транскриптомика РНК или репрезентация малых молекул.
Михаль Розен-Цви (Michal Rosen-Zvi), директор по ИИ в здравоохранении и науках о жизни в IBM Research, объяснила, что этот метод позволяет избежать рассмотрения генома как единственной «стандартной» последовательности. «Важно отметить, что в наших моделях ДНК мы явно учитываем вариативность на уровне популяции, обучаясь не только на референсных последовательностях, но и на SNP и других мутабельных сайтах», — заявила Розен-Цви. Такая конструкция позволяет моделям улавливать эволюционные сигналы, которые статический референсный геном мог бы упустить.
IBM представила целевые модели, предназначенные для устранения конкретных «узких мест» в разработке лекарств:
Эти модели являются частью более широкого сотрудничества с Кливлендской клиникой и недавно сформированным консорциумом LIGAND-AI. Возглавляемый Pfizer и Консорциумом структурной геномики (Structural Genomics Consortium), LIGAND-AI ставит целью создание открытых высококачественных наборов данных о взаимодействиях белок-лиганд для дальнейшего обучения и тестирования систем био-ИИ.
В настоящее время отрасль наблюдает за двумя различными философиями в геномном ИИ. В следующей таблице изложены основные различия между AlphaGenome от DeepMind и подходом IBM.
Таблица 1: Сравнение AlphaGenome и биомедицинских базовых моделей IBM
| Характеристика | AlphaGenome (Google DeepMind) | IBM Biomedical Foundation Models |
|---|---|---|
| Основная философия | Единое сквозное моделирование последовательностей | Модульное декомпозирование по конкретным задачам |
| Масштаб входных данных | До 1 миллиона пар оснований ДНК | Оптимизировано для специфических уровней данных |
| Ключевая инновация | Мультимодальное прогнозирование (RNA, ATAC, Hi-C) | Интеграция популяционной вариативности (SNP) |
| Основной результат | Интерпретация регуляторного кода | Целевые свойства лекарств (связывание, токсичность) |
| Известные модели | AlphaGenome | MAMMAL, MMELON |
Несмотря на впечатляющие результаты в тестах, эксперты призывают к осторожности в вопросе немедленного внедрения этих моделей в клиническую практику. Одно из основных ограничений AlphaGenome, как отметил Герштейн, заключается в её сосредоточенности на отдельных вариантах. «Модель предсказывает эффект только одного варианта и не учитывает полный генетический фон личного генома человека», — пояснил он. В реальности геномы функционируют как цельные унаследованные пакеты, где фоновая генетика может существенно изменить влияние конкретной мутации.
Более того, разрыв между вычислительным прогнозированием и клинической реальностью сохраняется. «В медицинском мире ничто не заменит экспериментальные данные и реальную клиническую валидацию», — подчеркнул Герштейн. Путь вперед предполагает накопление вариантов использования, в которых прогнозы ИИ будут строго подтверждены результатами лечения пациентов.
Экономические последствия этих технологий огромны. Недавние анализы прогнозируют, что глобальный рынок ИИ в биотехнологиях превысит 25 миллиардов долларов США к середине 2030-х годов. По мере того как фармацевтические компании все чаще внедряют эти базовые модели, отрасль ожидает перехода от медленных итерационных циклов в лабораториях к генерации гипотез под руководством ИИ.
«Мы уже видели, как ИИ изменил работу с текстом, изображениями и кодом», — заключила Розен-Цви. «Биология и химия — на очереди, и мы находимся только в начале этого пути».