
범용 인공지능(Artificial General Intelligence, AGI) 추구의 잠재적 패러다임 변화를 예고하는 움직임으로, 알파고(AlphaGo)와 알파제로(AlphaZero)를 개발한 유명 연구자 데이비드 실버(David Silver)가 그의 새로운 벤처 기업인 이네퍼블 인텔리전스(Ineffable Intelligence)를 위해 역사적인 10억 달러 규모의 시드 라운드를 유치 중인 것으로 알려졌다. 약 40억 달러의 기업 가치로 스텔스 모드에서 벗어난 이 런던 기반 스타트업은 업계의 현재 집착 대상인 대규모 언어 모델(Large Language Models, LLM)에 반대하며, 대신 순수 강화 학습(reinforcement learning)을 통해 초지능을 달성하는 것을 목표로 하고 있다.
이번 라운드는 세쿼이아 캐피털(Sequoia Capital)이 주도하고 있으며, 엔비디아(Nvidia), 구글(Google), 마이크로소프트(Microsoft)를 포함한 거대 기술 기업들이 참여 논의 중인 것으로 전해졌다. 이 거래가 완료되면 유럽 기술 부문 역사상 최대 규모의 시드 펀딩 라운드가 될 것이며, 실버의 실적과 AI의 미래에 대한 그의 역발상적 논지에 투자자들이 부여하는 엄청난 무게감을 강조하게 된다.
아직 제품을 출시하지 않은 기업에 대한 10억 달러라는 막대한 자본 주입 규모는 전 세계 AI 군비 경쟁에서 치솟는 이해관계를 반영한다. 오픈에이아이(OpenAI)나 앤스로픽(Anthropic)과 같은 기성 업체들에게는 수십억 달러 규모의 라운드가 흔한 일이 되었지만, 이 정도 규모의 시드 라운드는 전례가 없다. 이는 벤처 캐피털리스트들이 단순히 텍스트 기반 모델을 확장하는 것을 넘어선, 자본 집약적인 AI 개발의 분기점에 대비하고 있음을 시사한다.
Ineffable Intelligence는 런던에 본사를 두고 있으며, 이는 영국의 프런티어 AI 연구의 핵심 허브로서의 입지를 크게 강화하는 결정이다. 거래에 정통한 소식통에 따르면 세쿼이아의 파트너인 알프레드 린(Alfred Lin)과 소냐 후앙(Sonya Huang)이 계약을 성사시키기 위해 직접 런던을 방문했으며, 이는 구글 DeepMind와 같은 주요 연구소를 떠나는 최정상급 기술 인재를 확보하기 위한 VC들 간의 치열한 경쟁을 부각시킨다.
데이비드 실버의 명성은 구체적이고 강력한 역사 위에 세워졌다. 그는 이전에는 불가능하다고 여겨졌던 성과를 거둔 시스템들을 구축했다. 알파고의 수석 연구원으로서 그는 2016년 자신의 창조물이 세계 챔피언 18회 우승자인 이세돌을 꺾는 것을 지켜보았다. 그 후 그는 인간의 데이터 없이 오로지 셀프 플레이(Self-play)를 통해 바둑, 체스, 쇼기를 마스터한 알파제로로 그 성과를 넘어섰다.
이 역사는 Ineffable Intelligence의 지적 토대를 형성한다. 실버의 핵심 주장은 GPT-4나 제미나이(Gemini)와 같은 현재 업계 표준인 LLM이 인간의 데이터를 모방하는 데 의존하기 때문에 근본적으로 한계가 있다는 것이다. LLM은 인터넷의 텍스트로 훈련되기 때문에 인류의 집단적 지식과 추론 오류에 갇혀 있다. 지능을 근사화할 수는 있지만, 인간의 능력을 쉽게 초월할 수는 없다.
Ineffable Intelligence는 진정한 초지능에는 **강화 학습(Reinforcement Learning, RL)**이 필요하다고 가정한다. 이 패러다임에서 에이전트는 세상에 대해 읽음으로써 배우는 것이 아니라, 행동을 제안하고, 결과를 관찰하고, 보상을 바탕으로 전략을 업데이트하는 등 세상과 상호작용함으로써 학습한다. 종종 "시스템 2" 사고 또는 "탐색"으로 설명되는 이 방법을 통해 AI는 알파고가 두었던 37수처럼 인간이 결코 생각하지 못했을 새로운 솔루션을 발견할 수 있다. 37수는 어떤 인간 플레이어도 두지 않았을 수였지만, 승리를 확정 지은 수였다.
표: 초지능을 향한 엇갈린 경로
아래 표는 널리 퍼진 LLM 방식과 실버의 RL 중심 방법론 간의 근본적인 차이점을 요약한다.
| 특징 | 대규모 언어 모델(LLMs) | 강화 학습(RL) |
|---|---|---|
| 주요 데이터 소스 | 정적 데이터셋 (인터넷 텍스트, 서적) | 동적 경험 (시뮬레이션, 셀프 플레이) |
| 학습 메커니즘 | 패턴 매칭 및 다음 토큰 예측 | 보상 피드백을 통한 시행착오 |
| 능력의 상한선 | 인간 지식의 총합으로 제한됨 | 이론적으로 무제한; 인간의 한계를 넘어설 수 있음 |
| 추론 스타일 | 직관적, "시스템 1" (빠름) | 숙고적, "시스템 2" (느림, 탐색 기반) |
| 주요 약점 | 환각(Hallucinations), 진정한 접지(Grounding) 부족 | 계산 비용, 개방형 환경에서의 어려움 |
실버는 이전에 동료 RL 선구자인 리처드 서튼(Richard Sutton)과 함께 "경험의 시대(Era of Experience)"라는 제목의 논문을 공동 집필하며 학계에서 이러한 비전을 설명한 바 있다. 그들은 AI의 다음 도약은 모델에게 더 많은 토큰을 공급하는 것이 아니라, "모든 지식의 기초를 스스로 발견하는" 에이전트로부터 올 것이라고 주장했다.
Ineffable Intelligence의 과제는 보드 게임이라는 폐쇄적이고 완벽한 정보 환경에서 작동했던 알파제로의 성공을 무질서하고 개방적인 현실 세계의 복잡성에 적용하는 것이 될 것이다. 이것이 자본 요구 사항이 매우 높은 이유일 것이다. 범용 RL 에이전트를 훈련할 수 있을 만큼 강력한 "월드 모델(World models)" 또는 시뮬레이션을 구축하려면 가장 큰 LLM을 훈련하는 인프라 비용과 맞먹는 막대한 컴퓨팅 리소스가 필요하다.
실버의 구글 DeepMind 퇴사는 기성 AI 연구소에서의 고위급 인사들의 이탈이라는 광범위한 트렌드의 일부이다. 거대 기업 내에서 관료주의가 심화됨에 따라, 기초 기술을 구축한 과학자들이 AGI에 대한 단일하고 타협하지 않는 비전을 추구하기 위해 독립하고 있다.
이러한 움직임은 전통적인 벤처 단계를 건너뛰고 필요한 컴퓨팅 클러스터를 구매하기 위해 즉시 수십억 달러를 유치하는, AI 거물들이 설립한 새로운 부류인 "슈퍼 시드(Super-Seed)" 스타트업을 만들어냈다.
표: AI 스핀오프의 새로운 개척지
다음 표는 Ineffable Intelligence를 전직 빅테크 연구원들이 이끄는 다른 주요 벤처 기업들과 비교한다.
스타트업|창립자|출신 연구소|핵심 철학
---|---|----
Ineffable Intelligence|David Silver|Google DeepMind|순수 강화 학습 (초인적 지능)
Safe Superintelligence (SSI)|Ilya Sutskever|OpenAI|AGI를 향한 안전 우선 확장
Thinking Machines Lab|Mira Murati|OpenAI|고급 AI 제품 및 연구
xAI|Elon Musk|다양함|진리 추구, 최대의 호기심
Ineffable Intelligence의 출범은 AI 분야의 현재 리더들에게 엄청난 압박을 가한다. 실버의 생각이 맞다면, LLM 확장의 수익 체감 법칙이 곧 명확해질 것이며, 업계는 RL 기반 접근 방식으로 급격히 선회할 수 있다. 이는 컴퓨팅의 "확장 법칙(Scaling laws)"을 텍스트 처리가 아니라 경험 시뮬레이션이라는 다른 방향으로 입증하게 될 것이다.
유럽에 있어 이번 사건은 중대한 전환점이다. 실버와 같은 인재를 보유하고 런던 기반 기업에 10억 달러의 투자를 유치한 것은 모든 프런티어 AI 개발의 운명이 샌프란시스코로 향한다는 서사에 반박하는 사례가 된다.
하지만 앞으로의 여정은 기술적 위험으로 가득 차 있다. 강화 학습은 게임 환경 밖에서 안정화하기가 매우 어렵기로 유명하다. 만약 Ineffable Intelligence가 성공한다면, 단순히 더 나은 챗봇을 만드는 데 그치지 않을 것이다. 그것은 인간의 인지적 한계를 뛰어넘는 독립적인 과학적 발견과 전략적 계획이 가능한 시스템을 구축하게 될 것이다. 실패한다면, 그것은 컴퓨터 과학 역사상 가장 비용이 많이 드는 실험 중 하나가 될 것이다.
라운드 협상이 마무리됨에 따라, 엔비디아와 같은 전략적 투자자들의 참여는 하드웨어 인프라가 이미 실버의 비전을 지원하기 위해 정렬되고 있음을 시사한다. AGI를 향한 경주는 사실상 두 갈래 길로 나뉘었다. 인간이 어떻게 생각하는지 배우기 위해 인터넷을 읽는 쪽과, 인간이 생각할 수 있는 것보다 더 잘 생각하는 법을 배우기 위해 스스로와 게임을 하는 쪽이다.