Le nouveau benchmark 'APEX-Agents' révèle que les modèles d'IA peinent face aux tâches professionnelles réelles
Un nouveau benchmark appelé APEX-Agents montre que même des modèles d'IA de pointe comme GPT-5.2 et Gemini 3 Flash échouent sur la plupart des tâches complexes et multi-domaines issues de secteurs professionnels tels que le droit et la finance, ce qui soulève des doutes quant à leur aptitude immédiate pour le milieu professionnel.

