
단백질 구조에 대한 AlphaFold의 영향에 비견되는 계산생물학의 결정적 순간에, Google DeepMind는 인간 유전체의 가장 수수께끼 같은 영역을 해독할 수 있는 혁신적인 AI 시스템인 AlphaGenome을 공식 공개했습니다. 어제 출시되어 Nature에 발표된 논문에 상세히 설명된 AlphaGenome은 연구자들이 유전 정보를 분석하는 방식을 근본적으로 바꿔, 단순한 유전자 서열을 넘어 생명을 지배하는 복잡한 조절 메커니즘을 이해하게 합니다.
수십 년간 과학계는 단백질을 암호화하지 않는 인간 DNA의 98%인 "암흑 유전체 (dark genome)"를 해석하는 데 어려움을 겪어 왔습니다. 역사적으로 "쓰레기 DNA (junk DNA)"로 일축되던 이 비암호화 영역 (non-coding regions)은 이제 유전자 발현 (gene expression)을 조절하는 중요한 역할을 하는 것으로 이해됩니다. 이들은 유전자의 켜짐과 꺼짐을 제어하는 복잡한 교환판 역할을 합니다. 그러나 이러한 상호작용을 지도화하는 것은 유전자 서열을 해독하는 것보다 기하급수적으로 더 어려웠습니다.
AlphaGenome은 전례 없는 규모로 이 문제에 대응합니다. 최대 **100만 개의 DNA 글자(염기쌍, base pairs)**의 컨텍스트 창을 활용하여 모델은 유전 정보가 어떻게 조절되는지를 정밀하게 예측할 수 있습니다. 이 능력은 심장병, 암, 자가면역질환과 같은 복잡한 질환의 유전적 원동력을 식별할 수 있게 해 주어 현대 유전체학의 사각지대를 효과적으로 비춥니다.
"우리는 AlphaGenome을 유전체 내 기능적 요소들이 무엇을 하는지를 이해하는 도구로 보고 있으며, 이것이 생명의 코드에 대한 근본적 이해를 가속화하기를 바랍니다,"라고 Google DeepMind의 연구원 Natasha Latysheva가 기자회견에서 밝혔습니다.
AlphaGenome의 핵심 혁신은 생물학의 언어에 맞게 대형 언어 모델(LLMs)에 사용되는 Transformer 모델을 적용한 아키텍처에 있습니다. 이전의 최첨단 모델들, 예를 들어 Borzoi는 약 50만 염기쌍 정도의 서열을 분석할 수 있었던 반면, AlphaGenome은 이 용량을 두 배로 늘려 이전에는 보이지 않던 장거리 상호작용을 포착할 수 있게 했습니다.
세포핵 내에서 DNA가 복잡하게 접히는 과정에서, 조절 요소(예: 인핸서 (enhancer))는 통제하는 유전자에서 수십만 염기쌍 떨어져 있을 수 있습니다. 더 짧은 컨텍스트 창을 가진 기존 모델은 이 연결을 완전히 놓쳤을 것입니다. AlphaGenome의 100만 글자 창은 단편화된 구절이 아니라 유전 지시의 "전체 문장"을 볼 수 있게 합니다.
이 모델은 "서열-기능 (sequence-to-function)" 예측기로 작동합니다. 연구자들이 원시 DNA 서열을 입력하면, AlphaGenome은 다음을 포함한 분자적 특성의 종합 지도를 출력합니다:
결정적으로, 시스템은 **단일 염기쌍 해상도 (single base-pair resolution)**로 작동합니다. 이는 백만 글자 서열 중 단 한 글자(예: 'T'를 'A'로 바꾸는 것)만 변경해도 생물학적 파급 효과를 예측할 수 있음을 의미합니다. 이 민감도는 비암호화 영역에 나타나는데도 불구하고 질병을 유발할 수 있는 "병원성 변이 (pathogenic variants)"—단일 글자 돌연변이를 식별하는 데 필수적입니다.
이 도약의 규모를 이해하려면 유전체 AI 분야의 직접적인 전신들과 AlphaGenome을 비교해 보는 것이 도움이 됩니다.
Table 1: Technical Comparison of Genomic AI Models
| Feature | AlphaGenome (2026) | Borzoi (2023) | Enformer (2021) |
|---|---|---|---|
| Context Window | 1,000,000 base pairs | 524,000 base pairs | 196,000 base pairs |
| Resolution | Single base-pair | 32 base-pair bins | 128 base-pair bins |
| Primary Architecture | Advanced Transformer | ResNet + Transformer | Transformer |
| Key Application | Global regulatory prediction | Sequence modeling | Long-range interactions |
| Output Types | Expression, Splicing, Structure | Epigenomic profiles | Gene expression |
이 비교는 단순한 규모의 증가뿐 아니라 해상도의 근본적 향상을 강조합니다. 이전 모델들이 단순히 어떤 일반 영역을 "의심스러운" 것으로 표시했을 뿐이라면, AlphaGenome은 조절 실패의 원인이 되는 정확한 돌연변이를 정확히 지목할 수 있습니다.
AlphaGenome이 의료 분야에 미치는 실질적 영향은 즉각적이며 깊습니다. 많은 유전성 질환과 암은 깨진 단백질(AlphaFold가 분석을 돕는)로 인해 발생하는 것이 아니라, 잘못된 시점, 잘못된 양, 또는 잘못된 조직에서 생성되는 잘못된 "스위치"로 발생합니다.
Google DeepMind의 연구 부사장 Pushmeet Kohli는 수년간 연구자들을 당혹시켰던 복잡한 조절 코드를 "해독"할 수 있는 도구로서의 잠재력을 강조했습니다. 특정 돌연변이가 유전자 조절에 어떻게 영향을 미치는지를 예측함으로써 AlphaGenome은 고속의 가상 실험실 역할을 합니다.
암 연구에서는 종종 종양에 수천 개의 돌연변이가 존재하지만, 실제로 암의 성장을 촉진하는 "드라이버"는 극소수입니다. 나머지는 "패신저"입니다. 두 가지를 구분하는 작업은 매우 노동집약적입니다. AlphaGenome은 이러한 돌연변이들을 신속하게 선별하여 어떤 것들이 중요한 조절 경로를 교란하는지를 예측할 수 있습니다.
마찬가지로, 자가면역 질환에서는 유전적 위험 요인이 면역 세포 조절에 영향을 미치는 비암호화 영역에 위치하는 경우가 많습니다. AlphaGenome은 이미 루푸스와 크론병과 같은 질환과 연관된 특정 조절 변이를 식별할 수 있음을 보여주어 약물 개발자들에게 새로운 표적을 제공합니다. 약물이 조절 기능 장애를 교정하여 유전자의 "볼륨"을 효과적으로 재설정할 수 있다면, 현재 치료가 증상만 관리하는 상황에서 치료법을 제공할 수 있을지도 모릅니다.
과학계는 신중한 낙관론으로 반응하고 있으며, 이 도구를 중요한 공학적 이정표로 인정하면서도 남아 있는 생물학적 도전 과제를 지적하고 있습니다.
스탠퍼드 대학교의 계산생물학자이자 유전체 AI 분야의 선도적 목소리인 Anshul Kundaje는 이번 발표를 "전반적 유용성 면에서 꽤 큰 도약"이라고 평가했습니다. 그는 AlphaGenome이 현재의 순수 서열 기반 모델로 가능한 것을 거의 "극대화(maxed out)"했을 가능성이 있다고 지적했습니다. Kundaje는 Science News에 "컨텍스트 길이 면에서 더 큰 모델일 뿐만 아니라, 이전에는 감지할 수 없었던 장거리 관계를 실제로 찾아내는 데 도움이 된다"고 말했습니다.
그럼에도 한계는 존재합니다. AlphaGenome은 돌연변이의 효과를 일반적인 의미에서 예측하는 데 탁월하지만, 특정 개인의 고유한 세포 환경에 따라 유전자 활동이 어떻게 달라지는지를 예측하는 데는 여전히 도전이 있습니다. 유전체의 "암흑 물질"은 서열뿐만 아니라 시간에 따라 변하는 환경적 요인과 화학적 변형(후성유전학, epigenetics)의 영향을 받습니다. AlphaGenome은 정적 코드를 읽지만, 세포의 역동적인 삶은 그 위에 놓인 복잡한 층으로 남아 있습니다.
또한 Wellcome Sanger Institute의 Ben Lehner는 "놀라운 위업"을 칭찬하면서도 AI 예측은 여전히 실험실에서의 습식 실험(wet-lab experiments)으로 검증되어야 한다고 공동체에 상기시켰습니다. 이 모델은 가설을 생성할 수 있지만, 생물학적 검증이 여전히 최종 기준입니다.
과학 발전에 대한 약속을 충실히 지키기 위해 Google DeepMind는 AlphaGenome을 전 세계 연구 커뮤니티에 개방하고 있습니다. AlphaGenome API가 출시되어 비상업적 연구자들이 서열을 제출하고 예측을 받을 수 있게 되었습니다. 이러한 접근성의 민주화는 전 세계 생물학자들이 자신의 데이터셋을 모델의 역량에 대입하면서 새로운 발견의 물결을 촉발할 것으로 기대됩니다.
우리가 2026년으로 더 나아가면서, AlphaGenome과 AlphaFold와 같은 기존 도구의 통합은 "완전히 미분 가능한 세포 (fully differentiable cell)"의 그림을 그립니다 — 단일 DNA 글자에서 복잡한 3D 단백질 구조까지 AI가 생물학을 시뮬레이션할 수 있는 미래입니다. 당분간, 유전체의 가장 어두운 구석들에 불이 켜졌고, 그 전망은 장관입니다.