Neuer 'APEX-Agents'-Benchmark zeigt, dass KI-Modelle bei realen beruflichen Aufgaben Schwierigkeiten haben
Ein neuer Benchmark namens APEX-Agents zeigt, dass selbst führende KI-Modelle wie GPT-5.2 und Gemini 3 Flash bei den meisten komplexen, domänenübergreifenden Aufgaben aus beruflichen Bereichen wie Recht und Finanzen versagen, was Zweifel an ihrer unmittelbaren Einsatzbereitschaft am Arbeitsplatz aufwirft.

