AI News

バイオロジーにおける「GPTモーメント」:DeepMindとIBMが新しいAIモデルでゲノム研究を再定義

人工知能(Artificial Intelligence)とバイオテクノロジーの融合は、業界のエキスパートがヒトゲノムにおける「GPTモーメント(GPT moment)」と呼ぶ極めて重要な転換点に達しました。計算生物学における大きな飛躍として、Google DeepMindは、最大100万個のDNA塩基対を処理し、かつてない精度で分子特性を予測できるモデルであるAlphaGenomeを発表しました。同時に、IBM Researchは、創薬と集団レベルの遺伝的変異に対するモジュール式アプローチを強調したバイオメディカル基盤モデル(Biomedical Foundation Models、BMFM)群を推進しています。

これら二つの進歩は、科学者が生命の制御コードをいかに解明するかという点において、根本的な転換を意味しています。ウェットラボでの力まかせなスクリーニングから精密な計算予測へと移行することで、これらのAIシステムは疾患の原因となる変異の特定や、新規治療薬の開発を加速させることを約束します。

AlphaGenome:制御コードの統合的視点

Google DeepMindのAlphaGenomeは、ゲノムAI機能の大規模なスケーリングを象徴しています。長いDNA領域のスキャンと詳細なディテールの保持の間で妥協を強いられてきた従来のツールとは異なり、AlphaGenomeはその両方を同時に処理できるように設計されています。Nature誌に掲載された研究によると、このモデルは既存のツールを24の変異影響予測タスクのうち22で上回っています。

AlphaGenomeのアーキテクチャは、その**マルチモーダル(Multimodal)**な性質によって際立っています。単にDNA配列を読み取るだけでなく、クロマチンアクセシビリティ、転写因子結合、スプライスジャンクション座標など、多様な生物学的モダリティにわたる影響を予測します。

主要な技術的進歩

  • 拡張されたコンテキストウィンドウ: このモデルは、100万塩基対(メガベース)のコンテキストウィンドウを処理します。これにより、はるか上流のクロマチン状態の変化が下流の遺伝子発現に影響を与えるような、長距離の制御効果を捉えることが可能になります。
  • マルチモーダル学習: RNA-seq、ATAC-seq、Hi-C実験のデータで学習されたこのモデルは、ゲノム信号を孤立した変数ではなく、接続され相互に依存するシステムとして扱います。
  • 学習効率: DeepMindの報告によると、AlphaGenomeの学習には約4時間を要し、モデルの範囲が拡大したにもかかわらず、前身であるEnformerの約半分の計算予算で済みました。

イェール大学のバイオメディカル情報学のアルバート・L・ウィリアムズ教授であるマーク・ガースタイン(Mark Gerstein)氏は、このアーキテクチャの重要性を強調しました。「AlphaGenomeについて最も斬新だと感じたのは、そのマルチモーダルな性質でした」とガースタイン氏は述べています。「多くの異なるゲノムモダリティからのデータで学習されており...これらのモダリティ全体にわたる影響を予測するという事実は、特に注目に値します。」

IBMのモジュール式アプローチ:専門化による精密化

DeepMindが統合されたエンドツーエンドのフレームワークを追求する一方で、**IBM Research**は実用的なモジュール式戦略を支持しています。IBMはそのバイオメディカル基盤モデル(BMFM)を通じて、複雑な生物学的問題を明確に定義された個別のタスクに分解しています。このアプローチにより、RNAトランスクリプトミクスや低分子表現など、特定のドメインに最適化された専門モデルの構築が可能になります。

IBM Researchのヘルスケア・ライフサイエンス向けAIディレクターであるミハル・ローゼン・ツヴィ(Michal Rosen-Zvi)氏は、この手法はゲノムを単一の「標準的な」配列として扱うことを避けていると説明しました。「重要なことに、当社のDNAモデルでは集団レベルの変異を明示的に組み込んでおり、リファレンス配列だけでなく、SNP(一塩基多型)やその他の変異部位についても学習させています」とローゼン・ツヴィ氏は述べています。この設計により、静的なリファレンスゲノムでは見逃されてしまう進化の信号をモデルが捉えることが可能になります。

IBMエコシステムにおける専門モデル

IBMは、創薬開発における特定のボトルネックに対処するために設計されたターゲットモデルを導入しました:

  • MAMMAL 抗体-抗原結合強度を予測し、生物学的製剤の設計を促進するために構築されたモデル。
  • MMELON: 低分子候補の治療特性の予測に焦点を当て、ラボでの優先順位を決定するための初期の読み取り値を提供します。

これらのモデルは、クリーブランド・クリニックおよび新しく結成されたLIGAND-AIコンソーシアムとの広範なコラボレーションの一部です。ファイザー(Pfizer)と構造ゲノミクスコンソーシアム(Structural Genomics Consortium)が主導するLIGAND-AIは、タンパク質-リガンド相互作用のオープンで高品質なデータセットを生成し、バイオAIシステムのさらなる学習とベンチマークを行うことを目的としています。

比較分析:統合型 vs モジュール型アーキテクチャ

現在、業界ではゲノムAI(Genomic AI)における二つの異なる哲学が見られます。以下の表は、DeepMindのAlphaGenomeとIBMのアプローチの主な違いをまとめたものです。

表1:AlphaGenomeとIBMバイオメディカル基盤モデルの比較

特徴 AlphaGenome (Google DeepMind) IBM バイオメディカル基盤モデル
核となる哲学 統合されたエンドツーエンドの配列モデリング モジュール式のタスク固有の分解
入力スケール 最大100万個のDNA塩基対 ドメイン固有のデータレイヤーに最適化
主な革新点 マルチモーダル予測(RNA、ATAC、Hi-C) 集団レベルの変異(SNP)の統合
主要な出力 制御コードの解釈 標的薬の特性(結合、毒性)
注目すべきモデル AlphaGenome MAMMAL、MMELON

課題と将来の展望

ベンチマークでの目覚ましいパフォーマンスにもかかわらず、専門家はこれらのモデルを臨床現場へ即座に導入することについては慎重さを求めています。AlphaGenomeの大きな限界の一つは、ガースタイン氏が指摘するように、単一の変異に焦点を当てていることです。「このモデルは単一の変異の影響のみを予測し、個人のゲノム全体の遺伝的背景を考慮していません」と彼は説明しました。実際には、ゲノムは全体として受け継がれるパッケージとして機能し、背景にある遺伝情報が特定の変異の影響を大幅に修正する可能性があります。

さらに、計算予測と臨床の現実との間には依然として隔たりがあります。「医学界において、実験データや実際の臨床評価に代わるものはありません」とガースタイン氏は強調しました。今後の進むべき道は、AIの予測が患者の結果に対して厳格に検証されるユースケースを蓄積することにあります。

市場の軌跡

これらの技術がもたらす経済的影響は甚大です。最近の分析では、バイオテクノロジーにおけるAIの世界市場は2030年代半ばまでに250億米ドルを超えると予測されています。製薬会社がこれらの基盤モデルを採用するケースが増えるにつれ、業界は遅くて反復的なウェットラボのサイクルから、AI主導の仮説生成へと移行することが期待されています。

「AIがテキスト、画像、コードをいかに変革したかを私たちはすでに見てきました」とローゼン・ツヴィ氏は締めくくりました。「バイオロジーとケミストリーがその次であり、私たちはその曲線の始まりにいるに過ぎません。」

フィーチャー