新的「APEX-Agents」基準測試顯示 AI 模型在實際專業任務上表現不佳
名為 APEX-Agents 的新基準測試顯示,即使是像 GPT-5.2 和 Gemini 3 Flash 這樣的領先 AI 模型,也在來自法律和金融等專業領域的多領域複雜任務中大多表現失敗,令其是否能立即投入職場產生疑問。
名為 APEX-Agents 的新基準測試顯示,即使是像 GPT-5.2 和 Gemini 3 Flash 這樣的領先 AI 模型,也在來自法律和金融等專業領域的多領域複雜任務中大多表現失敗,令其是否能立即投入職場產生疑問。