Recherche

Des chercheurs du MIT identifient des défaillances critiques de modèles d'apprentissage automatique dans des scénarios hors distribution

Des chercheurs du MIT identifient des défaillances critiques de modèles d'apprentissage automatique dans des scénarios hors distribution

Les chercheurs du MIT démontrent que les modèles d'apprentissage automatique les plus performants peuvent devenir les moins performants lorsqu'ils sont appliqués à de nouveaux environnements de données, révélant des risques cachés liés à des corrélations fallacieuses dans l'IA médicale et d'autres applications critiques.

Le nouveau benchmark 'APEX-Agents' révèle que les modèles d'IA peinent face aux tâches professionnelles réelles

Le nouveau benchmark 'APEX-Agents' révèle que les modèles d'IA peinent face aux tâches professionnelles réelles

Un nouveau benchmark appelé APEX-Agents montre que même des modèles d'IA de pointe comme GPT-5.2 et Gemini 3 Flash échouent sur la plupart des tâches complexes et multi-domaines issues de secteurs professionnels tels que le droit et la finance, ce qui soulève des doutes quant à leur aptitude immédiate pour le milieu professionnel.

Vedettes