구글, 금메달급 과학적 추론을 갖춘 Gemini 3 Deep Think 업그레이드

Google, Gemini 3 Deep Think 업그레이드로 과학용 AI의 정의를 다시 쓰다

인공지능 분야의 중대한 도약으로, Google은 Gemini 3 Deep Think 모델의 대규모 업그레이드를 발표하며 이를 복잡한 과학적 추론과 고급 엔지니어링 과제를 위한 최고의 도구로 포지셔닝했습니다. 2026년 2월 12일에 출시된 이 업데이트는 모델을 고성능 거대 언어 모델(Large Language Model, LLM)에서 전문 분야의 인간 전문가와 경쟁할 수 있는 전문적인 "추론 엔진(Reasoning Engine)"으로 전환시킵니다.

이번 업그레이드의 핵심 성과는 **인류의 마지막 시험(Humanity's Last Exam, HLE)**에서 기록한 경이로운 **48.4%**의 점수입니다. 이 벤치마크는 AI의 학술 및 추론 능력에 대한 최종적이고 가장 엄격한 테스트로 설계되었습니다. 이 점수는 Gemini 3 Pro 및 경쟁사 모델을 포함한 기존 최첨단 모델들에 비해 압도적인 우위를 보여주며, AI 에이전트가 외부 도구 없이도 깊고 다단계적인 논리적 연역이 필요한 문제를 안정적으로 해결할 수 있는 새로운 시대를 열었습니다.

Creati.ai의 독자들에게 이 발전은 개발자와 연구자가 AI와 상호작용하는 방식의 변화를 의미합니다. 우리는 "프롬프트를 입력하고 기도하는(prompt and pray)" 시대를 지나, Deep Think와 같은 모델이 지저분한 데이터 세트를 탐색하고 모호한 이론적 결함을 식별할 수 있는 검증된 연구 보조원 역할을 하는 협력적 발견의 시대로 나아가고 있습니다.

"시스템 2"의 장점: 검색을 넘어선 추론

Gemini 3 Deep Think 업그레이드의 핵심 차별점은 "시스템 2(System 2)" 사고 프로세스에 대한 의존입니다. 통계적 확률에 기반해 다음 토큰을 예측하는 표준 LLM(시스템 1)과 달리, Deep Think는 의도적이고 반복적인 추론 프로세스를 채택합니다. 이를 통해 모델은 답변을 내놓기 전에 "멈춰서" 여러 논리적 경로를 평가할 수 있으며, 이는 인간 과학자들이 사용하는 느리고 분석적인 사고 과정을 모방합니다.

Google DeepMind에 따르면, 이 아키텍처는 명확한 가이드라인이나 단일 정답이 부족한 "난해한" 문제들을 해결하기 위해 실제 과학자들과의 협업을 통해 미세 조정되었습니다. 실질적으로 이는 데이터가 불완전하거나 노이즈가 많은 환경(실제 엔지니어링 및 실험 과학에서 흔히 발생하는 어려움)에서 모델이 탁월한 성능을 발휘함을 의미합니다.

주요 아키텍처 기능:

자기 수정(Self-Correction): 추론 단계에서 자신의 사고 사슬 내 논리적 오류를 식별하는 능력.
교차 도메인 합성(Cross-Domain Synthesis): 이론 물리학의 원리와 실제 엔지니어링 제약 조건을 성공적으로 혼합.
시각적 추론(Visual Reasoning): 추상적인 2D 스케치를 제조 가능한 복잡하고 물리적으로 실행 가능한 3D 모델로 변환.

전례 없는 벤치마킹

이번 출시의 규모를 이해하려면 수치 지표를 살펴보아야 합니다. AI 커뮤니티는 모델들이 MMLU와 같은 테스트를 빠르게 정복하는 "벤치마크 포화" 현상으로 오랫동안 고심해 왔습니다. 인류의 마지막 시험(Humanity's Last Exam)(HLE)은 수학, 인문학, 자연과학 전반에 걸쳐 가장 어려운 문제들을 모아 이에 대응하기 위해 만들어졌습니다.

Gemini 3 Deep Think의 HLE 성능은 일반 지능 및 새로운 패턴 인식 테스트인 **ARC-AGI-2**와 경쟁 프로그래밍 플랫폼인 Codeforces에서 기록한 역대 최고 점수로 보완됩니다.

다음 표는 이번 세대의 다른 주요 최첨단 모델과 비교한 Gemini 3 Deep Think의 성능을 요약한 것입니다.

표: 프런티어 벤치마크 비교 성능

지표/벤치마크	Gemini 3 Deep Think (업그레이드)	Gemini 3 Pro	주요 경쟁사 (추정 GPT-5 Pro)
인류의 마지막 시험 (HLE)	48.4%	37.5%	~31.6%
ARC-AGI-2 (추론)	84.6%	~70%	N/A
Codeforces 등급 (Elo)	3455	~2900	~2800
국제 물리 올림피아드	금메달 수준	은메달 수준	N/A
국제 화학 올림피아드	금메달 수준	동메달 수준	N/A
CMT-Benchmark (물리)	50.5%	N/A	N/A

참고: 점수는 별도의 언급이 없는 한 외부 도구 사용 없는 "pass@1" 정확도를 나타냅니다. 경쟁사 점수는 2026년 2월 기준 최신 공개 벤치마크를 기반으로 합니다.

ARC-AGI-2에서의 84.6% 점수는 개발자들에게 특히 주목할 만합니다. ARC Prize Foundation에서 검증한 이 벤치마크는 학습 데이터에서 본 적 없는 완전히 새로운 작업에 적응하는 AI의 능력을 테스트하며, 암기된 지식이 아닌 "유동 지능(fluid intelligence)"을 효과적으로 측정합니다.

금메달 및 이론적 돌파구

표준화된 테스트를 넘어, Google은 인간의 최고 학술 성취 표준에 대해서도 모델을 검증했습니다. 업그레이드된 Deep Think는 2025 국제 물리 올림피아드(International Physics Olympiad) 및 국제 화학 올림피아드의 필기 부문에서 금메달 수준의 성과를 달성했습니다.

이는 단순히 교과서 문제를 푸는 수준이 아닙니다. Google은 모델이 **고급 이론 물리학(advanced theoretical physics)**에서 숙련도를 입증한 내부 사례 연구를 강조했으며, 특히 CMT-Benchmark에서 50.5%를 기록했습니다. 이는 모델이 새로운 물질 특성을 가설로 세우거나 복잡한 양자 역학 계산을 검증하는 데 사용될 수 있음을 시사합니다.

시연된 한 사례에서 연구원들은 반도체 결정 성장을 최적화하기 위해 Deep Think를 사용했습니다. 모델은 과거 실험 데이터를 분석하고, 이전에는 인간 연구자들이 간과했던 미세한 환경 변수를 식별했으며, 더 높은 순도의 수율을 제공하는 수정된 성장 주기를 제안했습니다.

스케치에서 현실로: 실무 엔지니어링

엔지니어링 커뮤니티에게 가장 실질적인 업데이트는 Deep Think의 멀티모달 엔지니어링 역량입니다. Google은 사용자가 기계 부품의 거친 손 그림 스케치를 업로드하는 워크플로우를 선보였습니다. Deep Think는 도면을 분석하고 의도된 물리적 제약 조건과 하중 지지 요구 사항을 추론하여 정밀한 3D 프린팅 가능 파일을 생성했습니다.

이 "스케치 투 프로덕트(Sketch-to-Product)" 파이프라인은 추상적인 아이디어 구상(창의적)과 물리적 제약(논리적) 사이의 간극을 메우는 모델의 능력을 보여줍니다. 이는 AI가 도면이 어떻게 보이는지뿐만 아니라, 객체가 실제 세계에서 어떻게 작동해야 하는지 이해해야 함을 요구합니다.

가용성 및 기업 통합

Google은 개인 파워 유저와 기업 개발자 모두를 대상으로 하는 두 단계 접근 방식으로 이 업그레이드를 배포하고 있습니다.

Google AI Ultra 구독자: 새로운 Deep Think 모드는 Gemini 앱 내에서 즉시 사용할 수 있습니다. 사용자는 강력한 논리적 처리가 필요한 쿼리에 대해 "Deep Think" 옵션을 활성화할 수 있습니다.
Gemini API (얼리 액세스): Google은 최초로 특정 기업 및 과학 기관에 API를 통해 Deep Think를 개방합니다. 이는 자동화된 코드 리뷰 봇이나 제약 분야의 신약 개발 파이프라인과 같이 커스텀 워크플로우에 이 "추론 엔진"을 통합할 수 있게 해주므로, Creati.ai 독자들에게 중요한 발전입니다.

AI 생태계에 미치는 영향

업그레이드된 Gemini 3 Deep Think의 출시는 2026년의 성장하는 트렌드인 AI 모델의 "빠른 대화형 에이전트"와 "느리고 깊은 추론자"로의 이분화를 강화합니다. 전자가 (Gemini 3 Flash와 같이) 지연 시간과 사용자 경험에 집중하는 반면, Deep Think와 같은 모델은 비동기적 문제 해결사로서의 영역을 구축하고 있습니다.

개발자들에게 이는 아키텍처의 변화를 필요로 합니다. 조만간 애플리케이션은 빠른 모델이 사용자 상호작용을 처리하고 복잡하고 중요한 작업은 Deep Think에 위임하는 "관리자-작업자(manager-worker)" 패턴에 의존하게 될 수 있습니다.

Creati.ai에서 이 모델을 더 테스트함에 따라, 이러한 추론 능력이 개방형 창의적 작업에 어떻게 적용될 것인가 하는 질문이 남습니다. 벤치마크는 STEM 분야에 집중되어 있지만, 인류의 마지막 시험에서 48.4%를 기록하는 데 필요한 논리는 서사 구조화 및 복잡한 콘텐츠 생성 역시 혁신할 수 있는 수준의 미묘한 차이를 암시합니다.

우리는 Gemini 3 Deep Think가 더 넓은 개발자 커뮤니티에 도달함에 따라 그 성능을 계속 모니터링할 것입니다. 현재로서는 "금메달" 기준이 세워졌습니다.