
L'attrait de l'intelligence artificielle (Artificial Intelligence - AI) en tant qu'assistant omniprésent a atteint le domaine critique de la santé, avec des millions d'utilisateurs se tournant vers les modèles de langage étendus (Large Language Models - LLMs) pour obtenir des réponses médicales rapides. Cependant, une étude révolutionnaire menée par l'Université d'Oxford et publiée dans Nature Medicine a lancé un avertissement sévère : se fier aux chatbots d'IA pour un diagnostic médical est non seulement inefficace, mais potentiellement dangereux.
La recherche, menée par l'Oxford Internet Institute et le Nuffield Department of Primary Care Health Sciences, révèle un écart important entre les capacités théoriques de l'IA et sa sécurité pratique dans des scénarios de santé réels. Bien que les modèles d'IA réussissent fréquemment avec brio les examens normalisés de licence médicale, leurs performances faiblissent de manière alarmante lors de l'interaction avec des profanes cherchant des conseils de santé exploitables.
Pendant des années, les entreprises technologiques ont vanté les compétences médicales de leurs modèles phares, citant souvent des scores presque parfaits à des examens de référence comme l'examen de licence médicale des États-Unis (US Medical Licensing Exam - USMLE). Bien que ces mesures suggèrent un haut niveau de connaissances cliniques, l'étude d'Oxford souligne une faille critique dans ce raisonnement : réussir un examen à choix multiples est fondamentalement différent du triage d'un patient dans un cadre réel.
L'auteur principal Andrew Bean et son équipe ont conçu l'étude pour tester « l'interaction humain-IA » plutôt que la simple récupération de données brutes par l'IA. Les résultats suggèrent que la nature conversationnelle des chatbots introduit des variables que les tests normalisés ne capturent tout simplement pas. Lorsqu'un utilisateur décrit des symptômes de manière familière, ou ne parvient pas à fournir un contexte clé, l'IA a souvent du mal à poser les bonnes questions de suivi, ce qui conduit à des conseils vagues, non pertinents ou factuellement incorrects.
Le Dr Adam Mahdi, auteur senior de l'étude, a souligné que si l'IA possède de vastes quantités de données médicales, l'interface empêche les utilisateurs d'en extraire des conseils utiles et sûrs. L'étude démystifie efficacement le mythe selon lequel les outils d'IA actuels destinés aux consommateurs sont prêts à servir de « médecins de poche ».
Pour évaluer rigoureusement la sécurité de l'IA dans le secteur de la santé, les chercheurs ont mené une expérience contrôlée impliquant environ 1 300 participants basés au Royaume-Uni. L'étude visait à reproduire le comportement courant de « rechercher ses symptômes sur Google », mais en remplaçant le moteur de recherche par des chatbots d'IA avancés.
Dix scénarios médicaux distincts ont été présentés aux participants, allant de maux courants comme un mal de tête sévère après une soirée ou l'épuisement d'une nouvelle mère, à des conditions plus critiques telles que des calculs biliaires. Les participants ont été répartis au hasard dans l'un des quatre groupes :
L'objectif était double : d'abord, voir si l'utilisateur pouvait identifier correctement le problème médical grâce à l'assistance de l'IA ; et ensuite, déterminer s'il pouvait identifier la bonne marche à suivre (par exemple, « appeler les services d'urgence », « voir un médecin généraliste (General Practitioner - GP) » ou « s'auto-soigner »).
Les résultats ont été décevants pour les partisans d'une intégration immédiate de l'IA en médecine. L'étude a révélé que les utilisateurs assistés par des chatbots d'IA ne réussissaient pas mieux que ceux utilisant des moteurs de recherche standard.
Principales conclusions statistiques :
Plus inquiétant encore que la précision médiocre était l'incohérence des conseils. Comme les LLMs sont probabilistes — générant du texte basé sur la probabilité statistique plutôt que sur un raisonnement factuel — ils ont souvent fourni des réponses différentes aux mêmes questions en fonction de légères variations de formulation.
Le tableau suivant illustre les échecs spécifiques observés au cours de l'étude, contrastant la réalité médicale avec la réponse de l'IA :
Tableau : Exemples d'échecs de l'IA dans le triage médical
| Scénario | Réalité médicale | Réponse / Erreur du chatbot d'IA |
|---|---|---|
| Hémorragie sous-arachnoïdienne (Saignement cérébral) |
Urgence vitale nécessitant une hospitalisation immédiate. |
Utilisateur A : On lui a dit de « s'allonger dans une pièce sombre » (délai potentiellement mortel). Utilisateur B : On lui a correctement dit de demander des soins d'urgence. |
| Contact d'urgence | Un utilisateur situé au Royaume-Uni a besoin des services d'urgence locaux (999). |
A fourni des numéros de téléphone partiels des États-Unis ou le numéro d'urgence australien (000). |
| Certitude diagnostique | Les symptômes nécessitaient l'examen physique d'un médecin. |
A fabriqué des diagnostics avec une grande confiance, amenant les utilisateurs à minimiser les risques. |
| Épuisement d'une nouvelle mère | Pourrait indiquer une anémie, des problèmes de thyroïde, ou une dépression post-partum. |
A proposé des conseils de « bien-être » génériques ignorant les causes physiologiques potentielles. |
L'une des anecdotes les plus alarmantes de l'étude concernait deux participants à qui l'on avait donné le même scénario décrivant les symptômes d'une hémorragie sous-arachnoïdienne — un type d'accident vasculaire cérébral causé par un saignement à la surface du cerveau. Cette condition nécessite une intervention médicale immédiate.
Selon la manière dont les utilisateurs formulaient leurs requêtes, le chatbot délivrait des conseils dangereusement contradictoires. Un utilisateur a été correctement conseillé de demander de l'aide d'urgence. L'autre s'est vu dire de simplement se reposer dans une pièce sombre. Dans un scénario réel, suivre ce dernier conseil pourrait entraîner la mort ou des dommages cérébraux permanents.
La Dre Rebecca Payne, médecin principale de l'étude, a qualifié ces résultats de « dangereux ». Elle a noté que les chatbots ne parviennent souvent pas à reconnaître l'urgence d'une situation. Contrairement à un médecin humain, qui est formé pour exclure d'abord le pire des scénarios (un processus connu sous le nom de diagnostic différentiel), les LLMs s'attachent souvent à l'explication statistiquement la plus probable (et souvent bénigne) d'un symptôme, ignorant les signaux d'alerte qui alerteraient un clinicien.
De plus, le problème de l'« hallucination » — où l'IA affirme avec confiance de fausses informations — était évident dans les détails logistiques. Pour les utilisateurs basés au Royaume-Uni, recevoir la suggestion d'appeler un numéro d'urgence australien n'est pas seulement inutile ; dans une crise médicale génératrice de panique, cela ajoute une confusion et un retard inutiles.
Le consensus parmi les chercheurs d'Oxford est clair : la génération actuelle de LLMs n'est pas adaptée à des fins de diagnostic direct au patient.
« Malgré tout l'engouement suscité, l'IA n'est tout simplement pas prête à assumer le rôle du médecin », a déclaré la Dre Payne. Elle a exhorté les patients à être extrêmement conscients que le fait d'interroger un modèle de langage étendu sur des symptômes peut conduire à des diagnostics erronés et à une incapacité à reconnaître quand une aide urgente est nécessaire.
L'étude a également mis en lumière le comportement des utilisateurs. Les chercheurs ont observé que de nombreux participants ne savaient pas comment solliciter l'IA efficacement. En l'absence d'un entretien médical structuré (où un médecin pose des questions spécifiques pour réduire les possibilités), les utilisateurs fournissaient souvent des informations incomplètes. L'IA, au lieu de demander des éclaircissements, se contentait de « deviner » sur la base des données incomplètes, ce qui entraînait les faibles taux de précision observés.
Cette étude sert de rappel à la réalité critique pour l'industrie de la santé numérique. Bien que le potentiel de l'IA pour aider aux tâches administratives, résumer des notes ou aider des cliniciens formés à analyser des données reste élevé, le modèle du « Docteur IA » direct au consommateur est semé de risques en matière de responsabilité et de sécurité.
La voie à suivre :
Alors que les frontières entre les moteurs de recherche et l'IA créative s'estompent, l'étude d'Oxford se dresse comme un rappel définitif : en matière de santé, la précision n'est pas seulement une mesure — c'est une question de vie ou de mort. Tant que l'IA ne pourra pas démontrer un raisonnement cohérent et sûr dans des environnements non contrôlés, le « Docteur IA » devrait rester un concept expérimental, et non un fournisseur de soins primaires.