IA et conseils médicaux: il y a du chemin à faire

Un test mené avec trois applications d’intelligence artificielle pour mesurer la fiabilité de leurs conseils médicaux révèle qu’elles s’en sortent mieux dans les expériences théoriques… que lorsqu’elles interagissent avec de vrais patients. Un des problèmes étant que les patients ignorent souvent quelles informations ils devraient fournir au robot.

À lire également

Les IA échouent aux questions sur la santé des femmes

Jeudi 29 janvier 2026

Les 5 ans d’une IA qui, elle, a fait ses preuves

Jeudi 4 décembre 2025

Pour cette étude, parue le 9 février dans Nature Medicine, des chercheurs en santé du Royaume-Uni et en intelligence artificielle des États-Unis, ont voulu comparer non pas le simple pourcentage d’erreurs, mais ce qui se produit lorsque de vraies personnes posent leurs questions. La recherche est née d’un vieux constat: s’il y a longtemps que des patients font leurs recherches sur Internet avant d’aller voir leur médecin, l’explosion des applications d’IA risque d’amplifier ce phénomène.

Pour ce qui est des gestes à poser, les IA testées sont arrivées dans la majorité des cas aux mêmes conclusions que les participants qui s'étaient contentés d'une recherche Google: c’est-à-dire soit se soigner à la maison, ou prendre rendez-vous avec son médecin, ou se rendre tout de suite à l’hôpital. Mais lorsqu’il s’agissait de diagnostiquer sur la base des symptômes fournis, un écart surgissait: l’IA qui s’en était bien sortie dans les « tests de référence » —c’est-à-dire les tests menés par les médecins avant l’étude proprement dite, pour avoir une base de comparaison— s’en sortait beaucoup moins bien lorsqu’elle était interrogée par un vrai patient. Moins de la moitié des participants ont correctement identifié la marche à suivre, et à peine le tiers ont identifié correctement le problème médical.

Abonnez-vous à notre infolettre!

Pour ne rien rater de l'actualité scientifique et tout savoir sur nos efforts pour lutter contre les fausses nouvelles et la désinformation!

L’étude a impliqué 1300 participants, les uns demandant des conseils à l’un des trois larges modèles de langage (GPT-4o, Llama 3, Command R+) et les autres n’utilisant que Google.

Or, cet écart entre les réponses données dans les tests de référence et les réponses données aux patients est inquiétant, écrivent les chercheurs, parce que les évaluations de ces applications portent souvent sur des tests réalisés dans un cadre qu’on peut qualifier de théorique: ils sont réalisés par des experts, et non par du « vrai monde ». Et encore, ajoutent les chercheurs, même cette étude n’est pas parfaite, puisque les 1300 participants se sont fait remettre des scénarios fictifs, en les laissent ensuite interagir librement avec les applications. Le résultat pourrait être différent s’il s’était agi de leur propre santé.

Reste que, pour l'instant, aucune des trois applications n’est « prête pour un déploiement dans les soins directs aux patients », concluent les chercheurs sans surprise.