Neuer 'APEX-Agents'-Benchmark zeigt, dass KI-Modelle bei realen beruflichen Aufgaben Schwierigkeiten haben

Diese Zahlen heben eine bedeutende „Zuverlässigkeitslücke“ hervor. Während eine Erfolgsrate von 24% für experimentelle Technologie beeindruckend wirken mag, liegt sie weit unter der Schwelle, die für den Einsatz in Unternehmen erforderlich ist, wo Genauigkeit und Konsistenz oberste Priorität haben.

Wo die Giganten stolpern: Die Komplexität von „Arbeit“

Warum scheitern Modelle, die die Anwaltsprüfung bestehen, daran, die tatsächliche Arbeit eines Juristen zu erledigen? Die APEX-Agents-Ergebnisse weisen auf mehrere wesentliche Defizite in aktuellen agentischen Architekturen (Agentic architectures) hin:

1. Kontextuelle Fragilität

Reale Arbeit beinhaltet „unordentlichen“ Kontext. Anweisungen sind oft über E-Mail-Threads, Slack-Nachrichten und PDF-Anhänge verteilt. Der Benchmark zeigte, dass Agenten Schwierigkeiten haben, ein kohärentes Verständnis des Ziels aufrechtzuerhalten, wenn Informationen fragmentiert sind. Sie „halluzinieren“ häufig fehlende Details oder verlieren im Verlauf der Aufgabe spezifische Randbedingungen aus den Augen.

2. Strategische Planung vs. Reaktion

Aktuelle LLMs (Large Language Models) sind primär reaktive Prädiktoren. Berufliche Aufgaben erfordern jedoch strategische Planung (strategic planning) — die Fähigkeit, ein komplexes Ziel in Teilschritte zu gliedern, diese in der richtigen Reihenfolge auszuführen und sich selbst zu korrigieren, wenn ein Schritt fehlschlägt.

Die Beobachtung: Im Benchmark führten Agenten oft die ersten Schritte korrekt aus (z. B. „Finde den Finanzbericht“), scheiterten jedoch in der Synthesephase (z. B. „Extrahiere das EBITDA und vergleiche es mit dem Branchenmittelwert aus einer separaten Tabelle“).
Die Fehlerart: Sobald ein Agent in einer mehrstufigen Kette einen kleinen Fehler macht, kumuliert sich der Fehler und führt zu einem Endergebnis, das faktisch falsch oder irrelevant ist.

3. Begrenzungen bei der Werkzeugnutzung

Während sich die Modelle beim Aufrufen von APIs (Application Programming Interfaces) verbessert haben, bleibt das Navigieren in einer simulierten Desktop-Umgebung eine Hürde. Agenten hatten Probleme mit Nuancen der Softwareinteraktion, die Menschen als selbstverständlich ansehen, wie das Scrollen durch große Datensätze oder das Verstehen des UI-Zustands einer bestimmten Anwendung.

Branchenimplikationen: Das „Assistent“ vs. „Mitarbeiter“-Paradigma

Für Creati.ai-Leser und Unternehmensführer sollten diese Ergebnisse nicht zu einer Abwertung von KI führen, sondern zu einer Neukalibrierung der Erwartungen. Der „KI-Mitarbeiter“, der vollständig autonom operiert, ist noch nicht da.

Unmittelbare Erkenntnisse für die Unternehmensstrategie:

Human-in-the-Loop ist unverzichtbar: Die niedrigen Bestehensquoten bestätigen, dass KI-Agenten (AI agents) noch nicht mit End-to-End-autonomen Workflows in risikoreichen Bereichen wie Recht oder Finanzen betraut werden können. Sie müssen als Co-Piloten (Co-pilots) fungieren, nicht als Autopiloten.
Aufgabendekomposition ist entscheidend: Um Wert aus aktuellen Modellen (GPT-5.2, Gemini 3) zu ziehen, müssen Organisationen komplexe Workflows in kleinere, atomare Aufgaben aufteilen, die höhere individuelle Erfolgsraten haben.
Geschwindigkeit vs. Denken: Interessanterweise schnitt Gemini 3 Flash besser ab als sein „Pro“-Geschwister. Das deutet darauf hin, dass für agentische Workflows die Fähigkeit, schnell zu iterieren und mehrere Pfade auszuprobieren (ermöglicht durch die Geschwindigkeit und geringere Latenz von „Flash“-Modellen), derzeit möglicherweise wertvoller ist als die rohe Tiefe eines größeren, langsameren Modells.

Der Weg nach vorn

Die Veröffentlichung von APEX-Agents dient als wichtiges Diagnosetool für die KI-Forschungsgemeinschaft. So wie ImageNet die Computer Vision revolutionierte, zwingen Benchmarks wie APEX Modelle dazu, von „Reden“ zu „Tun“ überzugehen.

Forscher bei Mercor und führenden KI-Labors nutzen diese Daten bereits, um die nächste Generation von Architekturen zu verfeinern. Wir erwarten eine Hinwendung zu System-2-Denkfähigkeiten (System 2 reasoning capabilities) — bei denen Modelle sich Zeit zum „Nachdenken“ und Planen nehmen, bevor sie handeln — als neuen Standard für Arbeitsplatzagenten.

Bis dahin ist die Botschaft klar: Die KI-Revolution ist noch im Gange, aber im Moment braucht Ihr digitaler Praktikant noch viel Aufsicht.