Google, Gemini 3 Flash를 위한 에이전틱 비전 공개: 이미지를 능동적으로 분석하고 조작하는 AI

Google은 Gemini 3 Flash용 에이전틱 비전(Agentic Vision)으로 시각 AI를 혁신하다

Google은 경량 모델 Gemini 3 Flash용의 획기적 업그레이드인 "에이전틱 비전(Agentic Vision)"을 공식 발표했습니다. 2026년 1월 말에 공개된 이 새로운 기능은 인공지능이 시각 데이터를 해석하는 방식을 근본적으로 바꿉니다. 수동적이고 정적인 관찰 과정에서 벗어나 능동적이고 조사적인 워크플로로 전환됩니다. "생각-행동-관찰(Think-Act-Observe)" 사이클을 통합함으로써, Gemini 3 Flash는 이제 코드 작성 및 실행을 통해 이미지를 자율적으로 검사·조작·분석할 수 있게 되었으며, 이는 기존의 표준 멀티모달 모델이 도달하지 못했던 수준의 정밀도를 제공합니다.

이 발전은 생성형 AI의 경쟁 구도에서 중요한 전환점을 의미하며, 모델이 세밀한 시각적 세부 정보를 처리하는 방식에서 오래된 한계를 해결합니다. 전통적인 모델이 한 번의 처리만으로 작은 텍스트나 복잡한 도표를 "추측"하곤 했던 반면, 에이전틱 비전(Agentic Vision)은 AI가 인간 조사자처럼 확대(zoom), 재배치, 시각적 증거에 기반한 계산을 수행하도록 권한을 부여합니다.

정적 관찰에서 능동적 관찰로의 전환

에이전틱 비전의 핵심 혁신은 "원샷(one-shot)" 처리에서 벗어난 데 있습니다. 이전 세대의 비전-언어 모델(Vision Language Models, VLMs)에서는 AI가 전체 이미지를 단일 포워드 패스로 처리했습니다. 일반적인 설명에는 효과적이었지만, 원거리 표지판의 작은 문자, 마이크로칩의 일련번호, 복잡하게 밀집된 기술 도면처럼 정보 밀도가 높은 경우에는 자주 실패했습니다.

에이전틱 비전은 이러한 정적 접근을 동적 루프 회로로 대체합니다. 복잡한 시각적 과제가 주어지면, Gemini 3 Flash는 단순히 즉각적인 답변을 출력하지 않습니다. 대신 구조화된 추론 과정을 수행합니다:

Think: 모델이 사용자의 프롬프트와 초기 이미지를 분석하여 다단계 계획을 수립합니다.
Act: Python 코드를 생성하고 실행하여 이미지를 능동적으로 조작합니다. 여기에는 특정 영역을 자르기(crop), 보기 회전, 주석 적용 등이 포함될 수 있습니다.
Observe: 변환된 이미지 데이터가 모델의 컨텍스트 창에 다시 추가되어, 최종 응답을 생성하기 전에 새 증거를 재검토할 수 있게 합니다.

이 재귀적 프로세스는 모델의 추론을 픽셀 단위의 데이터에 "접지(ground)"하도록 하여 환각(hallucination)을 크게 줄여줍니다. Google은 이 능동적 조사 방식이 대부분의 비전 벤치마크에서 일관되게 5–10%의 품질 향상을 제공하며, 특히 정밀한 위치 지정과 개수 세기 과제에서 큰 개선을 보인다고 보고합니다.

"비주얼 스크래치패드(visual scratchpad)" 및 코드 기반 추론

에이전틱 비전의 가장 실용적인 응용 중 하나는 "비주얼 스크래치패드(visual scratchpad)"입니다. 손가락 수나 선반 위 항목 수를 식별하는 등의 개수 세기 과제가 주어졌을 때, Gemini 3 Flash는 이제 Python을 사용해 경계 상자(bounding box)를 그리고 각 감지 객체에 숫자 레이블을 할당할 수 있습니다.

이 기능은 생성형 AI의 잘 알려진 약점인 복잡한 장면에서 객체를 정확히 세지 못하는 문제를 해결합니다. 계산 논리를 확률적 토큰 생성에만 의존하지 않고 결정적 코드 실행으로 오프로드함으로써, 모델은 더 높은 정확도를 확보합니다.

에이전틱 비전의 주요 기능:

Feature	Description	Benefit
Active Zooming	모델이 세부 정보를 검사하기 위해 이미지의 섹션을 자율적으로 자르고 크기를 조정합니다.	사용자의 개입 없이 작은 텍스트, 일련번호 및 원거리 객체를 읽을 수 있게 합니다.
Visual Arithmetic	고밀도 표를 파싱하고 추출한 데이터에 대해 Python 코드를 실행하여 계산을 수행합니다.	재무 또는 과학 데이터 처리 시 표준 LLM에서 흔히 발생하는 계산 오류를 제거합니다.
Iterative Annotation	분석 중에 "비주얼 스크래치패드"를 사용하여 이미지에 경계 상자와 레이블을 그립니다.	시각적으로 개수와 위치를 검증하여 객체 감지 작업에서의 환각을 줄입니다.
Dynamic Manipulation	분석 전에 이미지의 방향을 바로잡기 위해 회전하거나 변형할 수 있습니다.	기울어진 각도에서 촬영된 문서 스캔이나 사진의 이해도를 향상시킵니다.

기술적 구현 및 이용 가능성

비전 파이프라인에 코드 실행을 직접 통합한 점이 Gemini 3 Flash를 차별화합니다. 모델이 도구, 특히 Python을 사용하여 자신의 시각 입력을 수정할 수 있게 함으로써, Google은 AI에 확대경과 계산기를 쥐여 준 셈입니다.

현재 에이전틱 비전은 Google AI Studio와 Vertex AI의 Gemini API를 통해 개발자에게 제공됩니다. 또한 Gemini 앱의 "Thinking" 모델 선택을 통해 일반 사용자에게도 단계적으로 제공되고 있습니다. 현 버전은 암묵적 확대(implicit zooming)와 코드 실행에 중점을 두고 있지만, Google은 회전 및 시각적 수학(visual math) 같은 보다 고급의 암묵적 동작을 포함한 로드맵을 제시했습니다. 향후 업데이트는 사용자의 명시적 프롬프트 유도가 없어도 복잡한 변환을 자동화하는 것을 목표로 합니다.

또한 Google은 에이전틱 비전에 제공되는 도구 세트를 확장할 계획입니다. 향후 통합 기능으로 웹 검색 및 역이미지 검색(reverse image search) 사용이 가능해져, 시각 데이터를 외부 정보와 교차참조하여 세계에 대한 이해를 더욱 견고히 할 수 있게 될 수 있습니다.

엔터프라이즈 및 개발에 미치는 영향

개발자와 엔터프라이즈 사용자를 위해, 에이전틱 비전은 문서 처리 및 자동화 검사에 더 신뢰할 수 있는 솔루션을 제공합니다. 기술 도면에서 데이터 추출, 사진의 규정 준수 확인, 아날로그 기록의 디지털화 등에 의존하는 산업은 Think-Act-Observe 루프를 통해 모델이 작업을 "재확인"할 수 있는 능력을 활용할 수 있습니다.

이번 릴리스는 Gemini 3 Flash를 에이전틱 워크플로(agentic workflows)에 특화된 고도로 전문화된 도구로 자리매김하게 합니다. 여기서는 원시 속도보다 정확성과 추론의 깊이가 우선시됩니다. AI 에이전트가 더 자율적으로 변함에 따라, 시각 입력을 능동적으로 검증하는 능력은 실험적 프로토타입에서 신뢰할 수 있는 실사용 애플리케이션으로 전환하는 데 필수적일 것입니다.