
這些數據突顯了一個重大的「可靠性缺口」。雖然 24% 的成功率對實驗性技術來說可能令人印象深刻,但對於需要高準確性與一致性的企業部署而言,這遠遠不夠。
為何能通過律師資格考的模型卻無法完成律師的實際工作?APEX-Agents 的發現指出當前「具代理性(Agentic)」架構存在數個關鍵缺陷:
真實世界的工作包含「混亂」的情境。指示常散落於電子郵件線程、Slack 訊息與 PDF 附件之間。基準顯示,代理在資訊分散時難以維持對目標的連貫理解。它們常常「幻覺」缺失的細節,或在任務進行時遺失特定限制條件。
當前的大型語言模型(Large Language Models,LLMs)主要是反應性預測器。然而,專業任務需要的是策略規劃——能將複雜目標拆解為子步驟、按序執行,並在某步驟失敗時自我修正。
雖然模型在呼叫 API(Application Programming Interfaces)方面已有進步,但在模擬桌面環境中導航仍是一大障礙。代理在處理人類視為理所當然的軟體互動細節時遇到困難,例如滾動大型資料集或理解特定應用程式的 UI 狀態。
對於 Creati.ai 的讀者與企業領導者而言,這些結果不應促使對 AI 的全面否定,而是要求對期望值進行重新校準。完全自主運作的「AI 員工」尚未到來。
對企業策略的即時啟示:
APEX-Agents 的發布為 AI 研究社群提供了一個關鍵的診斷工具。正如 ImageNet 徹底改變了電腦視覺領域一樣,像 APEX 這樣的基準正迫使模型從「會說」邁向「會做」。
Mercor 與領先 AI 實驗室的研究人員已在使用這些數據來改良下一代架構。我們預期會看到朝向「系統 2(System 2)」推理能力的轉變——模型在行動前花時間「思考」與規劃——成為職場代理人的標準。
在此之前,訊息很清楚:AI 革命仍在進行中,但目前而言,你的數位實習生仍然需要大量監督。