연구

새로운 'APEX-Agents' 벤치마크는 AI 모델들이 실제 업무 전문 과제에서 어려움을 겪고 있음을 보여준다

새로운 'APEX-Agents' 벤치마크는 AI 모델들이 실제 업무 전문 과제에서 어려움을 겪고 있음을 보여준다

APEX-Agents라는 새로운 벤치마크는 GPT-5.2와 Gemini 3 Flash와 같은 최첨단 AI 모델조차 법률·금융 등 전문 분야에서 수집된 복잡하고 다중 도메인 과제의 대부분에서 실패한다는 것을 보여주며, 이들이 당장 직장에서 사용할 수 있는지에 대한 의문을 제기한다.

추천