Google DeepMind 的 AlphaGenome 與 IBM 推動 DNA 研究邁向以 AI 模型為主的 GPT 時代

生物學的「GPT 時刻」：DeepMind 與 IBM 以新 AI 模型重新定義基因組研究

人工智慧與生物技術的融合已達到一個關鍵門檻，業界專家通常將其描述為人類基因組的「GPT 時刻（GPT moment）」。在計算生物學的一次重大飛躍中，Google DeepMind 推出了 AlphaGenome，這是一個能夠處理多達一百萬個 DNA 鹼基對的模型，能以史無前例的準確度預測分子特性。與此同時，IBM Research 正推進其生物醫藥基礎模型（Biomedical Foundation Models，BMFM）套件，強調以模組化方法進行藥物研發和群體層級的遺傳變異研究。

這兩項進展標誌著科學家探究生命調控密碼的方式發生了根本性轉變。透過從傳統的濕實驗室大規模篩選轉向精確的計算預測，這些 AI 系統有望加速識別致病突變並開發新型療法。

AlphaGenome：調控密碼的統一視角

Google DeepMind 的 AlphaGenome 代表了基因組 AI 能力的大規模擴展。與以往被迫在掃描長 DNA 區域和保留細微細節之間做出妥協的工具不同，AlphaGenome 旨在同時處理這兩者。根據發表在《自然》（Nature）雜誌上的一項研究，該模型在 24 項變異效應預測任務中的 22 項表現優於現有工具。

AlphaGenome 的架構因其多模態（Multimodal）性質而脫穎而出。它不僅僅是讀取 DNA 序列；它還能預測跨多種生物模態的效應，包括染色質開放性、轉錄因子結合和剪接接點座標。

關鍵技術突破

擴展上下文窗口： 該模型處理一百萬個鹼基對（1 Mb）的上下文窗口。這使其能夠捕捉長距離調控效應，即遠端上游的染色質狀態變化可能會影響下游的基因表達。
多模態訓練： 模型使用來自 RNA-seq、ATAC-seq 和 Hi-C 實驗的數據進行訓練，將基因組訊號視為相互關聯、相互依賴的系統，而非孤立的變量。
訓練效率： DeepMind 報告稱，儘管模型的範圍有所擴大，但訓練 AlphaGenome 僅花費了大約四個小時，且所需的計算預算大約是其前身 Enformer 的一半。

耶魯大學艾伯特·威廉姆斯生物醫學資訊學教授 Mark Gerstein 強調了這種架構的重要性。「我發現 AlphaGenome 最具創新性的地方在於它的多模態性質，」Gerstein 指出。「它是在來自許多不同基因組模態的數據上進行訓練的……並且能預測跨這些模態的效應，這一點特別值得關注。」

IBM 的模組化方法：透過專業化實現精準

在 DeepMind 追求統一的端到端框架的同時，IBM Research 則在倡導一種務實的模組化策略。透過其生物醫藥基礎模型（BMFM），IBM 將複雜的生物學問題分解為截然不同且定義明確的任務。這種方法允許創建針對特定領域優化的專門模型，例如 RNA 轉錄組學或小分子表示。

IBM Research 醫療保健與生命科學 AI 總監 Michal Rosen-Zvi 解釋說，這種方法避免了將基因組視為單一的「標準」序列。「重要的是，在我們的 DNA 模型中，我們明確地納入了群體層級的變異，不僅在參考序列上進行訓練，還在單核苷酸多型性（SNPs）和其他突變位點上進行訓練，」Rosen-Zvi 表示。這種設計使模型能夠捕捉到靜態參考基因組會遺漏的演化訊號。

IBM 生態系統中的專門模型

IBM 推出了旨在解決藥物研發中特定瓶頸的針對性模型：

MAMMAL： 一個旨在預測抗體-抗原結合強度的模型，有助於生物製劑藥物的設計。
MMELON： 專注於預測小分子候選藥物的治療特性，提供早期讀數以指導實驗室的優先順序。

這些模型是與克利夫蘭診所（Cleveland Clinic）以及新成立的 LIGAND-AI 聯盟廣泛合作的一部分。由輝瑞（Pfizer）和結構基因組聯盟（Structural Genomics Consortium）領導的 LIGAND-AI 旨在生成開放、高品質的蛋白質-配體交互作用數據集，以進一步訓練和基準測試生物 AI 系統。

比較分析：統一架構 vs. 模組化架構

業界目前正在見證基因組 AI（genomic AI）的兩種截然不同的理念。下表概述了 DeepMind 的 AlphaGenome 與 IBM 方法之間的核心差異。

表 1：AlphaGenome 與 IBM 生物醫藥基礎模型之比較

特性	AlphaGenome (Google DeepMind)	IBM 生物醫藥基礎模型
核心理念	統一、端到端的序列建模	模組化、針對具體任務的分解
輸入規模	高達一百萬個 DNA 鹼基對	針對領域特定數據層進行優化
關鍵創新	多模態預測 (RNA, ATAC, Hi-C)	整合群體層級變異 (SNPs)
主要輸出	調控密碼解讀	標靶藥物特性 (結合、毒性)
代表性模型	AlphaGenome	MAMMAL, MMELON

挑戰與未來展望

儘管在基準測試中表現亮眼，但專家們仍敦促在將這些模型立即轉化為臨床實踐時保持謹慎。正如 Gerstein 所指出的，AlphaGenome 的一個主要侷限性在於它對單一變異的關注。「該模型僅預測單個變異的效應，並未考慮個人基因組的完整遺傳背景，」他解釋道。在現實中，基因組是作為整體的遺傳組合運作的，背景遺傳學可以顯著地改變特定突變的影響。

此外，計算預測與臨床現實之間仍存在差距。「在醫學世界中，實驗數據和實際的臨床驗證是無可替代的，」Gerstein 強調。未來的道路涉及累積 AI 預測經過患者預後嚴格驗證的使用案例。

市場軌跡

這些技術的經濟影響是巨大的。最近的分析預計，到 2030 年代中期，全球生物技術領域的 AI 市場規模將超過 250 億美元。隨著製藥公司越來越多地採用這些基礎模型，業界預計將從緩慢、反覆的濕實驗室循環轉向 AI 引導的假設生成。

「我們已經看到 AI 如何改變了文字、影像和程式碼，」Rosen-Zvi 總結道。「接下來是生物學和化學，而我們才剛剛處於這條曲線的起點。」