新的「APEX-Agents」基準測試顯示 AI 模型在實際專業任務上表現不佳

這些數據突顯了一個重大的「可靠性缺口」。雖然 24% 的成功率對實驗性技術來說可能令人印象深刻，但對於需要高準確性與一致性的企業部署而言，這遠遠不夠。

為何能通過律師資格考的模型卻無法完成律師的實際工作？APEX-Agents 的發現指出當前「具代理性（Agentic）」架構存在數個關鍵缺陷：

真實世界的工作包含「混亂」的情境。指示常散落於電子郵件線程、Slack 訊息與 PDF 附件之間。基準顯示，代理在資訊分散時難以維持對目標的連貫理解。它們常常「幻覺」缺失的細節，或在任務進行時遺失特定限制條件。

當前的大型語言模型（Large Language Models，LLMs）主要是反應性預測器。然而，專業任務需要的是策略規劃——能將複雜目標拆解為子步驟、按序執行，並在某步驟失敗時自我修正。

觀察到的情況： 在基準中，代理常常正確執行最初的幾個步驟（例如「找到財務報告」），但在綜合階段失敗（例如「提取 EBITDA 並將其與另一份試算表中的行業平均值比較」）。
失敗模式： 一旦代理在多步驟鏈中出現小錯誤，錯誤會不斷累積，導致最終輸出在事實上不正確或無關。

雖然模型在呼叫 API（Application Programming Interfaces）方面已有進步，但在模擬桌面環境中導航仍是一大障礙。代理在處理人類視為理所當然的軟體互動細節時遇到困難，例如滾動大型資料集或理解特定應用程式的 UI 狀態。

對於 Creati.ai 的讀者與企業領導者而言，這些結果不應促使對 AI 的全面否定，而是要求對期望值進行重新校準。完全自主運作的「AI 員工」尚未到來。

對企業策略的即時啟示：

人機協作不可談判： 低通過率確認了 AI 代理尚無法在法律或金融等高風險領域被信任以端到端自治流程運作。它們必須作為共同駕駛（Co-pilots），而非自動駕駛（Autopilots）。
任務拆解為關鍵： 要從當前模型（GPT-5.2、Gemini 3）獲取價值，組織必須將複雜工作流程拆解為更小的、個別成功率較高的原子任務。
速度 vs. 推理： 有趣的是，Gemini 3 Flash 的表現優於其「Pro」同系型。這暗示在具代理性的工作流程中，快速迭代並嘗試多條路徑的能力（由「Flash」模型的速度與低延遲所促成）可能比大型、較慢模型的純深度更有價值。

APEX-Agents 的發布為 AI 研究社群提供了一個關鍵的診斷工具。正如 ImageNet 徹底改變了電腦視覺領域一樣，像 APEX 這樣的基準正迫使模型從「會說」邁向「會做」。

Mercor 與領先 AI 實驗室的研究人員已在使用這些數據來改良下一代架構。我們預期會看到朝向「系統 2（System 2）」推理能力的轉變——模型在行動前花時間「思考」與規劃——成為職場代理人的標準。

在此之前，訊息很清楚：AI 革命仍在進行中，但目前而言，你的數位實習生仍然需要大量監督。