구글 딥마인드의 선구자 데이비드 실버, 초지능 스타트업 설립 위해 퇴사

AI의 새로운 시대: David Silver, DeepMind를 떠나 "Ineffable" 초지능을 추구

인공 지능 분야에 큰 변동이 일어나며, AlphaGo의 주요 연구 과학자이자 Google DeepMind의 핵심 인물인 David Silver가 새로운 독립 벤처 Ineffable Intelligence를 설립하기 위해 퇴사를 발표했습니다. 금요일에 확인된 이번 움직임은 주요 기술 대기업에서 나오는 또 하나의 유명한 퇴사로, 업계가 생성형 AI (Generative AI)에서 자율적이고 목표 지향적인 초지능 추구로 점차 축을 이동하고 있음을 시사합니다.

Silver는 널리 "AlphaGo의 아버지"로 여겨지며, DeepMind에서 10년 이상을 보냈습니다. 그가 강화 학습 (Reinforcement Learning) (RL)에 기여한 연구는 이 분야의 궤적을 근본적으로 바꿨습니다. 그의 새로운 스타트업은 현재 업계의 대형 언어 모델(Large Language Models, LLMs)에 대한 집착을 우회하고, 대신 에이전트가 상호작용과 보상으로부터 학습하는 것이 진정한 인공 일반 지능 (Artificial General Intelligence) (AGI)에 도달하는 유일한 실현 가능한 경로라는 "Alberta 학파 (Alberta School)" 철학에 더욱 집중하려 합니다.

언어의 한계와 Ineffable Intelligence의 부상

Silver의 새 연구소 이름인 Ineffable Intelligence는 현재의 주류에 대한 직접적인 철학적 도전으로 기능합니다. 현 AI 붐은 인간의 언어를 마스터하는 시스템, 즉 시퀀스에서 다음 단어를 확률적으로 예측하는 시스템에 의해 주도되고 있습니다. 반면 Silver의 논지는 지능의 가장 중요한 측면은 언어만으로 포착할 수 없는 "형언할 수 없는(ineffable)" 것들이라는 것입니다.

"언어는 경험의 압축이지, 경험 그 자체가 아니다,"라고 Silver는 발표 이후 가진 기자간담회에서 말했습니다. "초지능에 도달하려면 AlphaZero가 그랬던 것처럼 시행착오와 발견을 통해 기초부터 학습하는 에이전트를 만들어야 합니다. 우리는 정적 데이터셋의 시대를 넘어 무한한 경험의 시대로 이동하고 있습니다."

이 스타트업은 챗봇이나 생성 미디어가 아니라 장기간 계획 수립과 새로운 과학적 발견이 가능한 강화 학습(RL) 에이전트에만 전적으로 집중할 예정입니다. 이는 Silver의 유명한 2021년 논문 Reward is Enough에서 보상 극대화가 모든 지능적 행동의 출현을 설명하기에 충분하다고 주장한 것과 궤를 같이합니다.

갈라지는 경로: "Neolab" 트렌드

Silver의 퇴사는 최고급 연구자들이 대기업의 통합된 연구소를 떠나 민첩하고 미션 중심의 스타트업을 창업하는 더 넓은 "네오랩(neolab)" 현상의 일부입니다. 이 트렌드는 향후 최선의 진로에 대해 AI 커뮤니티가 분열하고 있음을 반영합니다. OpenAI나 Google 같은 회사들이 트랜스포머 스케일링에 집중하는 동안, Silver(및 전 OpenAI 수석 과학자 Ilya Sutskever와 같은 연구자들)는 대안적 아키텍처에 베팅하고 있습니다.

Ineffable Intelligence는 런던과 샌프란시스코에서 등장하는 엘리트 연구소들의 증가하는 그룹에 합류해, 현재 LLM이 겪고 있는 추론 및 신뢰성 병목 문제를 해결하려 합니다.

Table: The Strategic Divide in Modern AI Development

Feature	Generative AI (LLMs)	Reinforcement Learning (RL)
Core Objective	시퀀스에서 다음 토큰 예측	누적된 미래 보상 극대화
Learning Source	정적 데이터셋(인터넷 텍스트/이미지)	환경과의 동적 상호작용
Capabilities	요약, 번역, 콘텐츠 생성	계획 수립, 전략, 새로운 발견
Limitations	환각(허구 출력), 진정한 기반의 부재	시뮬레이션에 대한 높은 계산 비용
Primary Goal	인간 모방	인간을 능가하는 최적화

Alberta 학파의 영향

David Silver의 접근법은 그의 멘토인 Richard Sutton에게 영향을 받은 "Alberta 학파(Alberta School)"에 깊이 뿌리내리고 있습니다. 이 사상은 인간이 라벨링한 데이터에 의존하지 않는 "계산적으로 확장 가능한" 방법을 우선시합니다.

Google DeepMind에 재직하는 동안 Silver는 이러한 원칙을 적용해 AlphaGo를 만들었고, 이는 2016년 세계 챔피언 Lee Sedol을 꺾으며 세상을 놀라게 했습니다. 이후 AlphaZero와 MuZero는 인간의 기보를 학습하지 않고 체스, 쇼기, 바둑을 마스터했습니다. Ineffable Intelligence는 MuZero 스타일의 계획 알고리즘을 물질 과학, 수학, 로보틱스 같은 실제 영역으로 확장해 "기준 진실(ground truth)" 피드백을 이용할 것으로 예상됩니다.

업계적 함의

이 Ineffable Intelligence의 창립은 다음 AI 패권 전투가 누가 가장 큰 텍스트 코퍼스를 보유했는지가 아니라 누가 에이전트가 학습할 가장 효과적인 환경을 구축할 수 있는지에 달려 있음을 시사합니다.

"시스템 2" 사고로의 전환: LLM은 "시스템 1" 사고(빠르고 직관적인 반응)에 탁월하지만, Silver의 RL 접근법은 복잡한 공학적 또는 의학적 문제 해결에 필수적인 "시스템 2" 사고(느리고 신중한 추론과 탐색)를 목표로 합니다.
데이터 한계의 해결: 업계가 고품질 인간 텍스트 데이터를 더 이상 확보하기 어렵다고 경고함에 따라, RL 에이전트는 자기대국(self-play)과 시뮬레이션을 통해 자체 데이터를 생성함으로써 이론적으로 무한한 확장이 가능합니다.
인재 이동: Silver의 명성은 주요 연구소에서 의사결정 이론과 제어 시스템에 능숙한 RL 전문가들을 대거 끌어들일 것으로 예상되며, 이는 연구자 확보를 위한 인재 경쟁을 촉발할 수 있습니다.

결론

David Silver의 퇴사는 단순한 인사 이동 이상의 의미를 가집니다. 이는 분야의 미래에 대한 의도 표명과도 같습니다. Ineffable Intelligence에 대한 그의 배팅은 초지능으로 가는 길이 인터넷 전체를 읽는 것이 아니라, 시뮬레이션이든 실제든 세상을 경험하고 보상 하나하나를 통해 그것을 정복하는 데 있다고 보는 것입니다. AI 과대광풍(hype) 주기가 성숙해감에 따라 업계는 강화 학습이 언어 모델이 약속했지만 아직 완전히 달성하지 못한 추론 능력을 제공할 수 있는지 면밀히 지켜볼 것입니다.