
이 수치들은 상당한 "신뢰성 격차(reliability gap)"를 강조합니다. 실험적 기술로서는 24% 성공률이 인상적일 수 있지만, 정확성과 일관성이 필수적인 기업 배포 기준에는 훨씬 못 미칩니다.
변호사의 실제 업무를 수행하는 데 실패하는 모델들이 왜 변호사 시험(Bar Exam)은 통과하는가? APEX-Agents의 발견은 현재의 "에이전트형(agentic)" 아키텍처에서 몇 가지 주요 결함을 지적합니다:
현실 업무는 "엉망"인 맥락을 포함합니다. 지시사항은 종종 이메일 스레드, Slack 메시지, PDF 첨부파일에 흩어져 있습니다. 벤치마크는 에이전트들이 정보가 분산되어 있을 때 목표에 대한 일관된 이해를 유지하는 데 어려움을 겪는다는 점을 드러냈습니다. 그들은 종종 누락된 세부사항을 "환각(hallucinate)"하거나 과제가 진행되는 동안 특정 제약조건을 놓칩니다.
현재의 대형 언어 모델(LLMs, Large Language Models)은 주로 반응적 예측자입니다. 그러나 전문 과제는 복잡한 목표를 하위 단계로 분해하고, 순서대로 실행하며, 단계가 실패하면 스스로 수정하는 전략적 계획(strategic planning) 능력을 요구합니다.
모델들이 API(Application Programming Interfaces)를 호출하는 능력은 향상되었지만, 시뮬레이션된 데스크톱 환경을 탐색하는 것은 여전히 장애물입니다. 에이전트들은 사람이 당연하게 여기는 대형 데이터셋 스크롤이나 특정 애플리케이션의 UI 상태 이해 같은 소프트웨어 상호작용의 미묘함에서 어려움을 겪었습니다.
Creati.ai 독자들과 기업 리더들에게 이 결과는 AI를 배제하라는 신호가 아니라 기대치를 재조정하라는 신호입니다. 완전 자율적으로 운영되는 "AI 직원"은 아직 도래하지 않았습니다.
기업 전략에 대한 즉각적 시사점:
APEX-Agents의 공개는 AI 연구 커뮤니티에 중요한 진단 도구로 작용합니다. ImageNet이 컴퓨터 비전을 혁신했던 것처럼, APEX와 같은 벤치마크는 모델들이 "말하기"에서 "행동하기"로 나아가도록 압박하고 있습니다.
Mercor와 주요 AI 연구실의 연구자들은 이미 이 데이터를 사용해 차세대 아키텍처를 개선하고 있습니다. 우리는 모델들이 행동하기 전에 시간을 들여 "생각"하고 계획하는 능력인 "시스템 2(System 2)형 추론 능력" 쪽으로의 Pivot을 표준으로 삼는 방향을 보게 될 것으로 기대합니다.
그때까지 메시지는 명확합니다: AI 혁명은 진행 중이지만, 지금 당장의 디지털 인턴은 여전히 많은 감독이 필요합니다.