
이번 주 인공지능 분야의 지형이 급격히 변화했습니다. Google DeepMind(Google DeepMind)가 인류의 가장 복잡한 과학적 과제를 해결하기 위한 일련의 획기적인 발전을 공개했기 때문입니다. 이번 발표의 최전선에는 추론 시간 스케일링(inference-time scaling)을 활용해 경쟁사를 압도하는 업그레이드된 추론 모델인 Gemini 3 Deep Think와 수학 올림피아드 문제 풀이를 넘어 독자적이고 출판 가능한 수준의 연구를 생성하는 데 성공한 전문 AI 에이전트 Aletheia가 있습니다.
이 두 가지 발표는 AI가 단순한 보조 도구를 넘어 독립적인 발견의 영역으로 이동하는 중대한 전환점을 의미하며, 기존 벤치마크에 도전하고 이론 물리학, 고급 수학 및 약물 설계 분야에서 자율 에이전트가 달성할 수 있는 새로운 표준을 제시하고 있습니다.
이러한 새로운 능력의 핵심에는 강화된 **Gemini 3 Deep Think**가 있습니다. Google은 "추론 시간 스케일링(inference-time scaling)"으로 알려진 기술에 집중하여 모델의 추론 모드를 근본적으로 재설계했습니다. 이 접근 방식은 쿼리 단계에서 모델이 더 많은 컴퓨팅 자원을 할당할 수 있게 하여, 답변을 내놓기 전에 여러 추론 경로를 탐색하며 효과적으로 "더 오래 생각"하게 합니다.
이러한 아키텍처 변화의 결과는 놀랍습니다. 직접적인 비교에서 Gemini 3 Deep Think는 OpenAI의 GPT-5.2와 Anthropic의 Claude Opus 4.6을 포함한 주요 경쟁사들을 다양한 엄격한 벤치마크에서 능가한 것으로 보고되었습니다. 이 모델의 숙련도는 특히 깊은 논리적 연역과 멀티모달 이해(multimodal understanding)가 필요한 작업에서 두드러집니다.
성능 하이라이트:
이러한 효율성 향상은 매우 중요합니다. 모델이 정보를 처리하는 방식을 최적화함으로써, Google은 고차원적 추론을 실제 응용 분야에서 활용 가능하게 만들었으며, 엔지니어가 코드를 통해 물리적 시스템을 모델링하고 연구자가 방대하고 불완전한 데이터 세트를 해석하는 데 도움을 주고 있습니다.
Gemini 3 Deep Think가 추론의 중추를 제공한다면, **Aletheia**는 이 힘의 전문화된 응용을 대표합니다. 경시 수학과 전문 연구 사이의 "평가 격차"를 메우기 위해 설계된 Aletheia는 개방형 수학 문제의 모호함을 헤쳐 나갈 수 있는 AI 에이전트입니다.
정의가 잘 된 문제에 뛰어난 전통적인 솔버(solver)와 달리, Aletheia는 정교한 Agentic Loop(에이전트 루프)를 통해 작동합니다. 이 아키텍처는 문제 해결 과정을 별도의 단계로 나누어 인간 수학자의 워크플로우를 모방합니다.
정확성을 보장하고 대규모 언어 모델(LLM)에서 흔히 발생하는 "환각(hallucinations)"을 줄이기 위해 Aletheia는 삼자 시스템을 채택합니다.
이러한 직무 분리를 통해 시스템은 스스로의 실수를 잡아낼 수 있게 되었으며, 이는 이전까지 형식 과학 분야에서 AI가 직면했던 주요 장애물이었습니다. 또한 Aletheia는 Google Search를 사용하여 인용을 확인하며, 소스를 허구로 만들어내지 않고 실제 수학 문헌을 참조하도록 보장합니다.
Aletheia의 에이전트 접근 방식의 영향력은 자동화된 수학적 추론의 표준으로 간주되는 IMO-ProofBench Advanced에서의 성과로 가장 잘 설명됩니다.
표 1: 수학적 벤치마크 비교 성능
| 벤치마크 | 이전 SOTA | Aletheia 성능 | 개선 요인 |
|---|---|---|---|
| IMO-ProofBench Advanced | 65.7% | 95.1% | +29.4% |
| FutureMath Basic (박사 수준) | < 60% (추정) | 최첨단(State-of-the-Art) | 상당한 도약 |
| Erdős 미해결 문제 | 0개 해결 | 4개 자율 해결 | 무한한 이득 |
IMO-ProofBench Advanced에서 95.1%의 정확도를 달성한 것은 단순한 점진적 개선이 아닙니다. 이는 AI가 이제 이전에는 엘리트 인간 전문가들에게만 허용되었던 수준의 증명 기반 수학을 안정적으로 처리할 수 있음을 시사하는 패러다임의 전환입니다.
Aletheia 능력의 진정한 시험대는 시험을 통과하는 것이 아니라 새로운 지식을 생성하는 데 있습니다. **Google DeepMind**는 이 에이전트가 이미 수학 분야에서 몇 가지 "최초"의 성과를 거두었다고 보고했습니다.
가장 주목할만한 것은 Aletheia가 산술 기하학에서 "고유 가중치(eigenweights)"라고 알려진 구조 상수를 계산하는 Feng26이라는 연구 논문을 자율적으로 생성했다는 점입니다. 이 논문은 인간의 개입 없이 작성되었으며, 실질적으로 자율적이고 출판 가능한 품질인 "Level A2" 자율성으로 분류되었습니다.
나아가, 다작 수학자 폴 에르되시(Paul Erdős)가 제기한 미해결 수학 문제 목록인 유명한 Erdős conjectures(에르되시 추측)에 투입되었을 때, Aletheia는 63개의 기술적으로 정확한 솔루션을 찾아냈고 이전에 미해결 상태였던 4개의 질문을 완전히 해결했습니다. 인류의 지식 체계에 독창적인 진실을 기여하는 이러한 능력은 과학자들을 위한 협력 파트너로서 이 모델의 잠재력을 입증합니다.
Gemini 3 Deep Think의 발전은 추상적인 수학을 넘어 생화학이라는 실체적인 세계로 확장됩니다. Aletheia와 함께 Google은 자회사인 Isomorphic Labs의 새로운 도구인 IsoDDE (Isomorphic Drug Design Engine)를 소개했습니다.
IsoDDE는 AlphaFold의 유산을 계승하며, 예측 정확도 면에서 AlphaFold 3보다 2배 뛰어난 성능을 보입니다. 주요 돌파구는 전례 없는 정밀도로 약물의 **결합 친화도(binding affinity)**를 예측하는 능력입니다. 약물 분자가 부착될 수 있는 단백질 구조 내의 숨겨진 "포켓"을 식별함으로써, IsoDDE는 항체 및 대형 생물학적 구조를 포함한 복잡한 생물학적 시스템을 위한 치료제를 설계할 수 있는 확장 가능한 프레임워크를 제공합니다.
이러한 출시와 함께 Google DeepMind는 AI의 기여를 분류하는 표준화된 방법을 추진하고 있습니다. 이 회사는 자율 주행 차량에 사용되는 레벨을 모델로 한 새로운 **AI 자율성 분류 체계(Taxonomy for AI Autonomy)**를 제안했습니다.
이 프레임워크는 단순히 정보를 검색하는 AI와 정보를 창조하는 AI를 구분하기 위해 업계에 필요한 어휘를 제공합니다. Gemini 3 Deep Think와 Aletheia가 과학 저널을 자신들의 발견으로 채우기 시작함에 따라, 인간과 기계의 발견 사이의 구분은 점점 더 모호해질 것이며, 이는 가속화된 혁신의 새로운 시대를 예고하고 있습니다.