Citer une recherche qui n’existe pas, à l’heure de l’IA

Ce n’est plus seulement Robert F. Kennedy Jr qui publie des rapports dont les références sont fausses ou font dire à des auteurs des choses qu’ils n’ont jamais dites. Un nombre croissant de références douteuses apparaissent ici et là, témoignant d’une utilisation malavisée de l’intelligence artificielle par certains chercheurs.

À lire également

La lutte aux faux articles scientifiques générés par l'IA

Lundi 10 novembre 2025

La pollution informationnelle de ChatGPT

Jeudi 28 août 2025

Appelées tantôt « hallucinations », tantôt « faussetés », ces informations erronées pondues par des IA ont été signalées depuis quatre ans dans toutes les sphères d’activité. Mais en science, elles prennent une forme unique, et potentiellement dommageable pour la littérature scientifique: des notes de bas de page ou des bibliographies qui renvoient à de vrais auteurs, mais qui n’ont jamais écrit la recherche qu’on leur attribue, ou renvoient à des recherches inexistantes. Pire, la façon même de fonctionner de ces IA, c’est-à-dire par des probabilités, rend peu probable, préviennent leurs concepteurs, qu’on puisse complètement éliminer ces dérapages.

Les alertes avaient commencé à se faire entendre en 2024 : en sciences informatiques en particulier, depuis l’avènement de ces « larges modèles de langage » que sont ChatGPT, Claude et les autres, le nombre d’articles soumis a explosé. Et en parallèle, le nombre d’articles qui doivent être rejetés a également augmenté, soit parce qu’il s’avère que leurs « signataires » les ont carrément fait écrire par une IA, soit parce qu’ils contiennent des fausses références typiques de l’IA. Dans une étude parue en janvier dernier, on évaluait que 2,6% des 18 000 articles soumis en 2025 à trois congrès d’informatique, contenaient au moins une fausse citation, contre 0,3% en 2024.

Abonnez-vous à notre infolettre!

Pour ne rien rater de l'actualité scientifique et tout savoir sur nos efforts pour lutter contre les fausses nouvelles et la désinformation!

En octobre 2025, le serveur de prépublication ArXiv —qui, depuis les années 1990, existe pour permettre à des chercheurs de publier des articles qui n’ont pas encore été révisés— annonçait que, pour la première fois, il bloquait la publication de certains types d’articles en sciences informatiques, en raison du trop grand nombre d’articles douteux, dont la vérification grugeait trop de temps aux réviseurs. La croissance de la « bouillie » générée par l’IA (phénomène consacré par le terme anglais AI slop), c’est-à-dire des textes de faible qualité, est en soi un problème, mais s’il s’accompagne de citations inventées, c’est tout l’écosystème de la recherche qui fait face à une crise.

Pour tenter d’évaluer l’ampleur de cette crise, l’équipe des journalistes de la revue Nature a récemment mené une analyse —avec l’aide d’une firme britannique en IA— qui conclut qu’en 2025, « des dizaines de milliers de publications » —incluant des articles et des livres— « contiennent probablement des références invalides générées par l’IA ». La firme britannique en question ne cache pas son intérêt : elle cherche à développer des outils pour aider les éditeurs à repérer les publications problématiques.

Des expériences menées en 2025 avec un des chatbots les plus populaires, auquel on avait demandé de générer des articles, ont même permis de voir comment il « travaille »: dans un cas sur cinq, l’erreur était carrément une référence inventée; et dans près de la moitié des cas, c’était une référence correspondant à une vraie publication, mais qui contenait une ou des erreurs (nom de l’auteur, titre, date ou URL). Des distinctions similaires se dégagent de l’analyse récente de Nature.

« Des dizaines de milliers de publications » reste malgré tout un petit pourcentage, par rapport à plusieurs millions de choses publiées en science chaque année. Mais les chercheurs interrogés par Nature s’inquiètent du risque qu’on ne soit qu’au début d’une « inondation de fausses références ».