Les IA échouent aux questions sur la santé des femmes

Confrontés à près de 350 questions relatives à la santé des femmes, les 13 agents conversationnels les plus populaires ont échoué à donner des conseils adéquats dans au moins la moitié des cas.

À lire également

Quand l’IA encourage les troubles psychotiques

Lundi 1 septembre 2025

L’IA peut vérifier les fausses nouvelles ? Faux

Mardi 4 juin 2024

Bien que les compagnies derrière les ChatGPT et autres Gemini soient promptes à dire que leurs « robots » ne doivent pas être utilisés pour aller chercher des conseils médicaux, il est inévitable que de plus en plus de gens les utilisent à cette fin. C’est ce qui a conduit un groupe de 17 chercheurs en médecine, santé des femmes et pharmacie, à se réunir pour dresser une liste de 345 questions médicales dans cinq domaines dont l’obstétrique-gynécologie, la médecine d’urgence et l’oncologie. Ils ont préalablement demandé à des experts ce qui serait la réponse adéquate à chacune de ces questions. Les résultats ont fait l’objet d’un article déposé en décembre sur un serveur de prépublication.

En moyenne, 60% des réponses ont été jugées incorrectes, « avec des variations importantes entre les disciplines et les types d’erreurs ». Parmi les erreurs les plus fréquentes : dosage des médicaments, recommandations de traitements obsolètes ou incorrectes, erreurs factuelles, ou le fait de ne pas noter qu’un traitement serait urgent.

Abonnez-vous à notre infolettre!

Pour ne rien rater de l'actualité scientifique et tout savoir sur nos efforts pour lutter contre les fausses nouvelles et la désinformation!

GPT-5 a eu la moins pire des performances, avec « seulement » 47% d’erreurs, contre 73% pour Ministral 8B.

Les auteurs prennent la peine de préciser dans leur conclusion que « les chatbots d’IA ne sont pas encore pleinement capables de fournir aux femmes des conseils fiables en santé ».

Mais les résultats ne devraient pas étonner, commente dans le magazine britannique New Scientist la gériatre Cara Tannenbaum, de l’Université de Montréal. Parce que ces applications sont entraînées à partir de données générées par les humains au fil des décennies —et accessibles en ligne— ils sont inévitablement confrontés à des informations obsolètes ou à des angles morts. Et dans le cas de la santé des femmes, à des biais —la santé des femmes ayant été elle-même, historiquement, un angle mort dans beaucoup d’études médicales. La solution serait donc, soit d’entraîner les IA différemment, soit d’inciter toutes les associations médicales à mettre à jour les informations qu’elles offrent en ligne.

Réagissant à l’étude, un porte-parole de la firme OpenAI a déclaré au New Scientist que « ChatGPT est conçu pour appuyer, et non remplacer, les soins médicaux » et que son plus récent modèle serait « plus puissant » que celui qui a été utilisé dans l’étude. Les autres compagnies n’ont pas répondu à la demande du magazine de commenter ces résultats.