
인공지능과 생명공학의 융합이 종종 산업 전문가들에 의해 인간 유전체의 "GPT 모먼트(GPT moment)"라고 묘사되는 중대한 임계점에 도달했습니다. 계산 생물학의 괄목할 만한 도약으로, Google DeepMind는 전례 없는 정확도로 분자 특성을 예측하기 위해 최대 100만 개의 DNA 염기쌍을 처리할 수 있는 모델인 AlphaGenome을 공개했습니다. 동시에 IBM Research는 신약 개발(drug discovery) 및 인구 수준의 유전적 변이에 대한 모듈식 접근 방식을 강조하는 바이오메디컬 파운데이션 모델(Biomedical Foundation Models)(BMFM) 제품군을 발전시키고 있습니다.
이러한 두 가지 발전은 과학자들이 생명의 조절 코드를 탐구하는 방식의 근본적인 변화를 시사합니다. 단순 반복적인 습식 실험실(wet-lab) 스크리닝에서 정밀한 계산 예측으로 전환함으로써, 이러한 AI 시스템은 질병 유발 변이의 식별과 새로운 치료법 개발을 가속화할 것을 약속합니다.
Google DeepMind의 AlphaGenome은 유전체 AI 기능의 대규모 확장을 나타냅니다. 긴 DNA 영역을 스캔하는 것과 미세한 세부 사항을 유지하는 것 사이에서 타협해야 했던 이전 도구들과 달리, AlphaGenome은 두 가지를 동시에 처리하도록 설계되었습니다. Nature에 발표된 연구에 따르면, 이 모델은 24개의 변이 효과 예측 작업(variant effect prediction tasks) 중 22개에서 기존 도구를 능가합니다.
AlphaGenome의 아키텍처는 다중 모달(multimodal) 특성을 통해 차별화됩니다. 단순히 DNA 서열을 읽는 데 그치지 않고, 염색질 접근성(chromatin accessibility), 전사 인자 결합(transcription factor binding), 스플라이스 접합부 좌표(splice junction coordinates)를 포함한 다양한 생물학적 모달리티 전반에 걸친 효과를 예측합니다.
예일 대학교 바이오메디컬 정보학의 Albert L. Williams 교수인 Mark Gerstein은 이 아키텍처의 중요성을 강조했습니다. "AlphaGenome에서 가장 혁신적이라고 느낀 점은 다중 모달 특성이었습니다."라고 Gerstein은 언급했습니다. "서로 다른 많은 유전체 모달리티의 데이터로 학습되었다는 점과... 이러한 모달리티 전반에 걸쳐 효과를 예측한다는 사실이 특히 주목할 만합니다."
DeepMind가 통합된 엔드 투 엔드(end-to-end) 프레임워크를 추구하는 반면, **IBM Research**는 실용적이고 모듈화된 전략을 옹호하고 있습니다. 바이오메디컬 파운데이션 모델(BMFM)을 통해 IBM은 복잡한 생물학적 질문을 뚜렷하고 잘 정의된 작업으로 분해합니다. 이 접근 방식을 통해 RNA 전사체 또는 저분자 표현과 같은 특정 도메인에 최적화된 전문 모델을 생성할 수 있습니다.
IBM Research의 헬스케어 및 생명과학 AI 부문 이사인 Michal Rosen-Zvi는 이 방법이 유전체를 단일한 "표준" 서열로 취급하는 것을 피한다고 설명했습니다. "중요하게도, 우리의 DNA 모델에서는 인구 수준의 변이를 명시적으로 포함하여 참조 서열뿐만 아니라 SNP 및 기타 가변 사이트에서도 학습합니다."라고 Rosen-Zvi는 밝혔습니다. 이러한 설계는 정적인 참조 유전체가 놓칠 수 있는 진화적 신호를 모델이 포착할 수 있게 해줍니다.
IBM은 약물 개발의 특정 병목 현상을 해결하기 위해 설계된 타겟팅 모델을 도입했습니다.
이러한 모델은 클리블랜드 클리닉(Cleveland Clinic) 및 새로 결성된 LIGAND-AI 컨소시엄과의 광범위한 협력의 일부입니다. Pfizer와 구조 유전체학 컨소시엄(Structural Genomics Consortium)이 주도하는 LIGAND-AI는 바이오 AI 시스템을 추가로 학습시키고 벤치마킹하기 위해 단백질-리간드 상호작용의 개방형 고품질 데이터셋을 생성하는 것을 목표로 합니다.
업계는 현재 유전체 AI(genomic AI)에서 두 가지 뚜렷한 철학을 목격하고 있습니다. 다음 표는 DeepMind의 AlphaGenome과 IBM의 접근 방식 간의 주요 차이점을 요약합니다.
표 1: AlphaGenome과 IBM 바이오메디컬 파운데이션 모델의 비교
| 특징 | AlphaGenome (Google DeepMind) | IBM 바이오메디컬 파운데이션 모델(Biomedical Foundation Models) |
|---|---|---|
| 핵심 철학 | 통합된 엔드 투 엔드 서열 모델링 | 모듈식, 작업별 분해 |
| 입력 규모 | 최대 100만 DNA 염기쌍 | 도메인별 데이터 레이어에 최적화됨 |
| 주요 혁신 | 다중 모달 예측 (RNA, ATAC, Hi-C) | 인구 수준 변이 통합 (SNPs) |
| 주요 출력 | 조절 코드 해석 | 타겟팅된 약물 특성 (결합, 독성) |
| 주요 모델 | AlphaGenome | MAMMAL, MMELON |
벤치마크에서의 인상적인 성능에도 불구하고, 전문가들은 이러한 모델을 임상 실제에 즉각적으로 적용하는 것에 대해 주의를 촉구합니다. Gerstein이 언급했듯이 AlphaGenome의 한 가지 주요 한계는 단일 변이에 집중한다는 점입니다. "이 모델은 단일 변이의 효과만을 예측하며 개인 유전체의 전체적인 유전적 배경을 고려하지 않습니다."라고 그는 설명했습니다. 실제로 유전체는 배경 유전학이 특정 변이의 영향을 실질적으로 수정할 수 있는 전체적이고 유전된 패키지로 기능합니다.
또한, 계산 예측과 임상 실제 사이의 격차는 여전히 남아 있습니다. "의료 세계에서 실험 데이터와 실제 임상 검증을 대체할 수 있는 것은 없습니다."라고 Gerstein은 강조했습니다. 앞으로 나아갈 길은 AI 예측이 환자 결과에 대해 엄격하게 검증되는 사용 사례를 축적하는 것입니다.
이러한 기술의 경제적 영향은 방대합니다. 최근 분석에 따르면 생명공학 분야의 글로벌 AI 시장은 **2030년대 중반까지 250억 달러(USD 25 billion)**를 초과할 것으로 예상됩니다. 제약 회사들이 이러한 파운데이션 모델을 점진적으로 도입함에 따라, 업계는 느리고 반복적인 습식 실험실 주기에서 AI 기반 가설 생성으로의 전환을 기대하고 있습니다.
"우리는 이미 AI가 텍스트, 이미지, 코드를 어떻게 변화시켰는지 보았습니다."라고 Rosen-Zvi는 결론지었습니다. "생물학과 화학이 그다음이며, 우리는 이제 그 곡선의 시작점에 있습니다."