
Ces chiffres mettent en évidence un important « écart de fiabilité ». Si un taux de réussite de 24 % peut sembler impressionnant pour une technologie expérimentale, il est bien en deçà du seuil requis pour un déploiement en entreprise, où la précision et la constance sont primordiales.
Pourquoi des modèles qui excellent à réussir l'examen du barreau échouent-ils à accomplir le travail réel d'un avocat ? Les résultats d'APEX-Agents pointent plusieurs déficiences clés dans les architectures « agentiques » :
Le travail réel implique un contexte « désordonné ». Les instructions sont souvent réparties entre fils d'e-mails, messages Slack et pièces jointes PDF. Le benchmark a montré que les agents ont du mal à maintenir une compréhension cohérente de l'objectif lorsque l'information est fragmentée. Ils « hallucinent » fréquemment des détails manquants ou perdent de vue des contraintes spécifiques au fil de l'avancement de la tâche.
Les LLMs (Large Language Models) actuels sont principalement des prédicteurs réactifs. Or, les tâches professionnelles exigent une planification stratégique — la capacité de décomposer un objectif complexe en sous-étapes, de les exécuter dans l'ordre et de s'auto-corriger si une étape échoue.
Si les modèles se sont améliorés pour appeler des API (Application Programming Interfaces), la navigation dans un environnement de bureau simulé reste un obstacle. Les agents ont peiné avec les nuances de l'interaction logicielle que les humains considèrent comme acquises, comme le défilement dans de larges jeux de données ou la compréhension de l'état de l'interface d'une application spécifique.
Pour les lecteurs de Creati.ai et les dirigeants d'entreprise, ces résultats ne doivent pas conduire à un rejet de l'IA, mais plutôt à un réalignement des attentes. L'« Employé IA » qui fonctionne entièrement de manière autonome n'est pas encore là.
Conclusions immédiates pour la stratégie d'entreprise :
La publication d'APEX-Agents sert d'outil de diagnostic vital pour la communauté de recherche en IA. Tout comme ImageNet a révolutionné la vision par ordinateur, des benchmarks comme APEX forcent les modèles à passer du « parler » au « faire ».
Les chercheurs chez Mercor et dans les principaux laboratoires d'IA utilisent déjà ces données pour affiner la prochaine génération d'architectures. Nous nous attendons à voir un pivot vers des capacités de raisonnement de « Système 2 » (System 2) — où les modèles prennent le temps de « réfléchir » et de planifier avant d'agir — devenant la norme pour les agents de milieu professionnel.
Jusqu'à ce moment, le message est clair : la révolution de l'IA est toujours en cours, mais pour l'instant, votre stagiaire numérique a encore besoin de beaucoup de supervision.