새로운 'APEX-Agents' 벤치마크는 AI 모델들이 실제 업무 전문 과제에서 어려움을 겪고 있음을 보여준다

이 수치들은 상당한 "신뢰성 격차(reliability gap)"를 강조합니다. 실험적 기술로서는 24% 성공률이 인상적일 수 있지만, 정확성과 일관성이 필수적인 기업 배포 기준에는 훨씬 못 미칩니다.

거인들이 비틀거리는 지점: "업무(Work)"의 복잡성

변호사의 실제 업무를 수행하는 데 실패하는 모델들이 왜 변호사 시험(Bar Exam)은 통과하는가? APEX-Agents의 발견은 현재의 "에이전트형(agentic)" 아키텍처에서 몇 가지 주요 결함을 지적합니다:

1. 맥락적 취약성(Contextual Fragility)

현실 업무는 "엉망"인 맥락을 포함합니다. 지시사항은 종종 이메일 스레드, Slack 메시지, PDF 첨부파일에 흩어져 있습니다. 벤치마크는 에이전트들이 정보가 분산되어 있을 때 목표에 대한 일관된 이해를 유지하는 데 어려움을 겪는다는 점을 드러냈습니다. 그들은 종종 누락된 세부사항을 "환각(hallucinate)"하거나 과제가 진행되는 동안 특정 제약조건을 놓칩니다.

2. 전략적 계획 vs. 반응

현재의 대형 언어 모델(LLMs, Large Language Models)은 주로 반응적 예측자입니다. 그러나 전문 과제는 복잡한 목표를 하위 단계로 분해하고, 순서대로 실행하며, 단계가 실패하면 스스로 수정하는 전략적 계획(strategic planning) 능력을 요구합니다.

관찰: 벤치마크에서 에이전트들은 종종 처음 몇 단계(예: "재무 보고서를 찾기")는 올바르게 수행했지만 종합 단계(예: "EBITDA를 추출하고 별도 스프레드시트의 산업 평균과 비교하기")에서 실패했습니다.
실패 양상: 에이전트가 다중 단계 체인에서 사소한 오류를 범하면 그 오류는 누적되어 최종 출력이 사실상 틀리거나 무관하게 됩니다.

3. 도구 사용의 한계

모델들이 API(Application Programming Interfaces)를 호출하는 능력은 향상되었지만, 시뮬레이션된 데스크톱 환경을 탐색하는 것은 여전히 장애물입니다. 에이전트들은 사람이 당연하게 여기는 대형 데이터셋 스크롤이나 특정 애플리케이션의 UI 상태 이해 같은 소프트웨어 상호작용의 미묘함에서 어려움을 겪었습니다.

업계적 시사점: "어시스턴트" 대 "직원" 패러다임

Creati.ai 독자들과 기업 리더들에게 이 결과는 AI를 배제하라는 신호가 아니라 기대치를 재조정하라는 신호입니다. 완전 자율적으로 운영되는 "AI 직원"은 아직 도래하지 않았습니다.

기업 전략에 대한 즉각적 시사점:

사람 개입(Human-in-the-Loop)은 필수적이다: 낮은 통과율은 에이전트들이 법률이나 금융처럼 중대한 분야에서 끝까지 자율적으로 작업을 신뢰할 수 없음을 확인합니다. 이들은 자동 조종장치(Autopilots)가 아니라 공동 조종(Co-pilots)로 기능해야 합니다.
작업 분해(Task Decomposition)가 핵심이다: 현재 모델(GPT-5.2, Gemini 3)로부터 가치를 얻으려면 조직은 복잡한 워크플로를 더 작고 성공률이 높은 개별 작업으로 분해해야 합니다.
속도 vs. 추론: 흥미롭게도 Gemini 3 Flash는 그 "Pro" 형제보다 더 좋은 성능을 보였습니다. 이는 에이전트 워크플로에서 빠르게 반복하고 여러 경로를 시도하는 능력(즉, "Flash" 모델의 속도와 낮은 지연)이 현재는 더 깊고 느린 대형 모델의 순수한 성능보다 더 가치가 있을 수 있음을 시사합니다.

향후 방향

APEX-Agents의 공개는 AI 연구 커뮤니티에 중요한 진단 도구로 작용합니다. ImageNet이 컴퓨터 비전을 혁신했던 것처럼, APEX와 같은 벤치마크는 모델들이 "말하기"에서 "행동하기"로 나아가도록 압박하고 있습니다.

Mercor와 주요 AI 연구실의 연구자들은 이미 이 데이터를 사용해 차세대 아키텍처를 개선하고 있습니다. 우리는 모델들이 행동하기 전에 시간을 들여 "생각"하고 계획하는 능력인 "시스템 2(System 2)형 추론 능력" 쪽으로의 Pivot을 표준으로 삼는 방향을 보게 될 것으로 기대합니다.

그때까지 메시지는 명확합니다: AI 혁명은 진행 중이지만, 지금 당장의 디지털 인턴은 여전히 많은 감독이 필요합니다.