AI News

Une recherche du MIT remet en cause l'hypothèse « accuracy-on-the-line » en apprentissage automatique (machine learning)

Une étude révolutionnaire publiée hier par des chercheurs du Massachusetts Institute of Technology (MIT) a remis en question un principe fondamental de l'évaluation en apprentissage automatique (machine learning), révélant que des modèles largement considérés comme « state-of-the-art » peuvent échouer de manière catastrophique lorsqu'ils sont déployés dans de nouveaux environnements.

La recherche, présentée lors de la conférence Neural Information Processing Systems (NeurIPS 2025) et publiée sur MIT News le 20 janvier 2026, met en lumière une vulnérabilité critique dans la façon dont les systèmes d'IA sont actuellement évalués. L'équipe, dirigée par la professeure adjointe Marzyeh Ghassemi et le postdoctorant Olawale Salaudeen, a démontré que les modèles les plus performants s'appuient souvent sur des corrélations fallacieuses (spurious correlations) — des raccourcis cachés dans les données — qui les rendent peu fiables et potentiellement dangereux dans des applications réelles telles que le diagnostic médical et la détection de discours de haine.

Le paradoxe « du meilleur au pire »

Pendant des années, la communauté de l'IA a fonctionné sous l'hypothèse du principe « accuracy-on-the-line » (accuracy-on-the-line). Ce principe suggère que si un ensemble de modèles est classé du meilleur au pire en fonction de leurs performances sur un jeu de données d'entraînement (en distribution, in-distribution), ce classement sera préservé lorsque les modèles sont appliqués à un nouveau jeu de données inédit (hors distribution, out-of-distribution).

Les résultats de l'équipe du MIT ont effectivement démoli cette hypothèse. Leur analyse montre qu'une haute précision moyenne masque souvent des défaillances sévères au sein de sous-populations spécifiques. Dans certains des cas les plus surprenants, le modèle identifié comme le « meilleur » sur les données d'entraînement originales s'est avéré être le modèle le moins performant sur 6 à 75 % des nouvelles données.

« Nous montrons que même lorsque vous entraînez des modèles sur de grandes quantités de données, et que vous choisissez le meilleur modèle moyen, dans un nouveau contexte ce ‘meilleur modèle’ pourrait être le pire modèle », a déclaré Marzyeh Ghassemi, chercheuse principale au Laboratory for Information and Decision Systems (LIDS).

IA médicale : une étude de cas à enjeux élevés

Les implications de ces résultats sont les plus aiguës en santé, où la fiabilité algorithmique est une question de vie ou de mort. Les chercheurs ont examiné des modèles entraînés pour diagnostiquer des pathologies à partir de radiographies thoraciques — une application standard de la vision par ordinateur en médecine.

Alors que les modèles semblaient robustes en moyenne, une analyse fine a révélé qu'ils s'appuyaient sur des corrélations fallacieuses (spurious correlations) plutôt que sur de véritables caractéristiques anatomiques. Par exemple, un modèle pourrait apprendre à associer les marques radiographiques spécifiques d'un hôpital donné à la prévalence d'une maladie plutôt qu'à l'identification de la pathologie elle-même. Lorsqu'il est appliqué à des radiographies provenant d'un autre hôpital dépourvu de ces marques spécifiques, la capacité prédictive du modèle s'effondre.

Principales conclusions en imagerie médicale :

  • Les modèles qui montraient une performance diagnostique globale améliorée ont en réalité obtenu de pires résultats chez des patients présentant des conditions spécifiques, telles que les épanchements pleuraux (pleural effusions) ou un cardiomédiastin élargi (enlarged cardiomediastinum).
  • Des corrélations fallacieuses (spurious correlations) se sont avérées solidement intégrées dans les modèles, ce qui signifie que l'ajout de davantage de données n'a pas suffi à atténuer le risque que le modèle apprenne de mauvaises caractéristiques.
  • Des facteurs démographiques tels que l'âge, le sexe et la race étaient souvent corrélés de manière fallacieuse avec des découvertes médicales, conduisant à des prises de décision biaisées.

Présentation d'OODSelect : un nouveau paradigme d'évaluation

Pour répondre à cette défaillance systémique, l'équipe de recherche a développé une nouvelle approche algorithmique appelée OODSelect (Out-of-Distribution Select). Cet outil est conçu pour soumettre les modèles à des tests sévères en identifiant spécifiquement les sous-ensembles de données où l'hypothèse « accuracy-on-the-line » s'effondre.

L'auteur principal Olawale Salaudeen a souligné que l'objectif est de forcer les modèles à apprendre des relations causales plutôt que des raccourcis statistiques opportunistes. « Nous voulons que les modèles apprennent à examiner les caractéristiques anatomiques du patient puis à prendre une décision sur cette base », a déclaré Salaudeen. « Mais en réalité, tout ce qui est présent dans les données et corrélé avec une décision peut être utilisé par le modèle. »

OODSelect fonctionne en séparant les « exemples les plus mal évalués », permettant aux développeurs de distinguer les cas limites difficiles à classer des véritables échecs causés par des corrélations fallacieuses.

Comparaison des méthodologies d'évaluation :

Metric Type Traditional Aggregated Evaluation OODSelect Evaluation
Focus Précision moyenne sur l'ensemble du jeu de données Performance sur des sous-populations spécifiques et vulnérables
Assumption Préservation du classement (Accuracy-on-the-line) Rupture du classement (le meilleur peut être le pire)
Risk Detection Faible (masque les défaillances dans les groupes minoritaires) Élevé (met en évidence les corrélations fallacieuses)
Outcome Optimisé pour les benchmarks généraux Optimisé pour la robustesse et la fiabilité
Application Sélection initiale du modèle Audit de sécurité préalablement au déploiement

Au-delà de la santé : implications universelles

Bien que l'étude fasse une large référence à l'imagerie médicale, les chercheurs ont validé leurs conclusions dans d'autres domaines critiques, notamment l'histopathologie du cancer et la détection du discours de haine. Dans les tâches de classification de texte, les modèles s'accrochent souvent à des mots-clés spécifiques ou à des schémas linguistiques corrélés à la toxicité dans les données d'entraînement, mais qui ne saisissent pas la subtilité du discours de haine dans différentes communautés ou contextes en ligne.

Ce phénomène suggère que la crise de la « confiance » dans l'IA n'est pas limitée aux domaines physiques à forts enjeux, mais qu'elle est inhérente à la façon dont les modèles d'apprentissage profond ingèrent corrélation et causalité.

Orientations futures pour la fiabilité de l'IA

La publication de cette recherche marque un point de bascule pour les normes de sécurité de l'IA. L'équipe du MIT a rendu public le code d'OODSelect et identifié des sous-ensembles de données spécifiques pour aider la communauté à construire des benchmarks plus robustes.

Les chercheurs recommandent que les organisations déployant des modèles d'apprentissage automatique (machine learning) — en particulier dans les industries réglementées — aillent au-delà des statistiques agrégées. Ils préconisent plutôt un processus d'évaluation rigoureux qui recherche activement les sous-populations où un modèle échoue.

À mesure que les systèmes d'IA s'intègrent de plus en plus aux infrastructures critiques, la définition d'un modèle « réussi » évolue. Il ne suffit plus d'obtenir le meilleur score sur un classement ; la nouvelle norme d'excellence exige qu'un modèle soit fiable pour chaque utilisateur, dans chaque environnement, indépendamment du décalage de distribution.

Vedettes